业务的增长会带来大量数据,很多公司都搭建了自己的大数据处理平台,或者向新的数据平... 展开 >
臧秀涛,现就职于InfoQ,任QCon大会主编,负责QCon大会的策划和组织。2010年毕业于中国科学院计算技术研究所。曾先后在完美世界等公司从事软件开发工作。2014年加入InfoQ。业余喜爱读书和翻译,曾翻译出版过《C++ API设计》、《Groovy程序设计》和《Java性能权威指南》等技术图书。业余也维护了一个微信公众号“开发资讯(dev-news)”,欢迎关注。
对QCon大会有任何建议或想法,欢迎通过微博 @臧秀涛 与我联系。
业务的增长会带来大量数据,很多公司都搭建了自己的大数据处理平台,或者向新的数据平台/框架迁移。本专题将关注大数据平台技术选型、搭建、系统迁移和优化方面的经验。
经过几年的迅猛发展,甜橙金融注册用户突破5亿,月均活跃3000多万用户,年交易额超1, 700亿。旗下拥有翼支付、红包套餐、甜橙理财、橙分期、甜橙保险、甜橙国际、甜橙信用等业务。业务的增长带来了海量的数据,也随即为大数据平台带来了严峻的挑战。
甜橙金融大数据经历了从TD到Spark的迁移;自助BI分析平台开发建设,高效支撑业务部门数据提取,数据下发及长短时,交互式查询需求;数据科学平台研发,真正做到“平民化”机器学习,以最低门槛赋能业务人员进行业务模型开发与应用;将流计算应用于诸如实时业务监控,实时交易风控监测等场景并通过优化提升10倍性能,利用复杂网络进行精准营销及团体反欺诈等。此次分享将聚焦我们在平台建设规划,架构选型及实践中碰到的问题并探讨诸如集群规划建设,作业调度优化,权限中心建设,标签体系构建及AI算法模型落地等方面的问题。
传统互联网企业如何进行企业大数据体系建设,包括:
Project Pravega是DELLEMC设计并开源的用来支持实时流数据和分析的存储平台,支持存储无限的数据流并同时满足企业用户对数据持久性严格要求的产品。
Pravega会作为DELLEMC给IoT产业提供的端到端解决方案中流存储的部分出现,另外在整个解决方案也包括流行的stream processors, 例如Apache Flink and Apache Spark,也包括DELLEMC已经发布的企业级分布式文件和对象存储平台。
Pravega有如下特性:
eBay使用MPP数据仓库已经有二十年的历史,我们的系统有60PB的数据,上万张的核心表,他们支撑着eBay最核心的商务逻辑和站点功能。从17年开始,eBay将这个庞大的数仓向Spark做迁移,使用我们开发的工具,这其中90%的工作都可以自动化地完成,并且通过优化Spark框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。
大数据计算框架, big Data Infrastructure (DI), 往往最终服务的都是Business Intelligence (BI) 和 Artificial Intelligence (AI)类型的计算。阿里巴巴Blink是一款基于Apache Flink改造的大数据计算引擎。Flink从诞生的第一天开始就是成为一个统一批处理、流处理以及人工智能计算的引擎。我们相信Flink的架构具有独特的优势,并且一直在为这个目标而努力。本演讲将分享阿里巴巴是如何打造出Blink这一款大数据计算引擎来支撑大数据计算的Data Infrastrucuture,从而服务于各式各样的Business Intelligence (BI) 和 Artificial Intelligence (AI) 业务。
分布式流式计算在百度搜索公司有多年应用,是搜索广告和建库、信息流等上层应用的重要基础设施之一,近年更是对高吞吐场景的时效性、数据准确性和数据流的稳定性提出了更高要求。面对挑战,百度自研了新一代流式计算系统DStream3,可满足低至10ms级别的系统延迟、Exactly-once/At-least-once/At-most-once三种准确性语义,并经过了大规模工业级应用的验证。该主题以DStream3为例,介绍以下内容: 1. 如何设计并实现一个业界领先的流式计算系统 2. 工业级场景下的设计折衷、线上验证与实践经验 。
1. 如果您希望自行研发流式计算系统,该主题将弥补分布式理论与工程实践之间的巨大鸿沟;
2. 如果您在从事数据应用层的架构或研发,了解流式计算当前的擅长与局限,可以帮助选型和设计;
3. 如果您是技术控,请与百度流式计算团队一起,共同探讨超大吞吐、超低延迟的流式计算问题吧!
对于腾讯庞大的大数据分析业务,几千台的hadoop集群近百P级的存储总量,每日全网app产生千亿的消息数据入库,需要针对几十亿iemi手机设备去重,并关联数百亿的历史全表,进行曝光、点击、pv、uv、日活、新增、留存等统计指标分析,当前所有业务的ETL清洗、统计计算、用户画像都全部依赖离线m/r和hive sql,给集群造成很大压力,系统负载高任务积压重,计算耗时久业务响应慢(t+1),难以及时反馈市场信息的变化,不仅是技术上的巨大挑战,同时业务的迅速增长变化对当前技术团队的工作模式和流程也造成很大挑战。如何突破现有大数据分析架构瓶颈?本分享内容将带来腾讯大数据技术的新发展和架构实践,介绍基于自研bitmap技术的大数据系统“锋刃”,以及olap全新驱动模式的架构战略,真正做到秒级实时查看每分钟指标、全维度的用户olap自助分析、闭环的动态运营体系。