新兴大数据处理技术

会议室:203CD
出品人:王峰(莫问)

随着大数据技术的持续高速发展,大数据应用也已经在各行各业得到了普及,丰富的业务场... 展开 >

专题出品人:王峰(莫问)

阿里巴巴 计算平台事业部资深技术专家,实时计算北京团队负责人

王峰,淘宝花名“莫问”,2006年毕业后即加入阿里巴巴集团,长期从事搜索和大数据基础技术研发工作,目前在阿里集团计算平台事业部担任资深技术专家,负责实时计算北京团队。

在阿里的前几年一直从事搜索引擎研发工作,自2010年开始转向大数据技术方向,并持续在开源大数据技术领域耕耘,最近2年带领团队对Apache Flink进行了大量架构改进、功能完善和性能提升,打造出了阿里新一代实时计算引擎Blink,并统一服务阿里集团所有实时计算业务和Stream Compute云产品。同时在团队内部培养出多名Apache Hadoop,HBase和Flink Committer/PMC,对开源社区也做出了大量回馈和贡献。

地点:203CD

专题:新兴大数据处理技术

随着大数据技术的持续高速发展,大数据应用也已经在各行各业得到了普及,丰富的业务场景也同时对大数据处理技术提出了更高的要求。传统的离线数据处理技术明显已经不能满足当前的需求,用户需要更加实时化的大数据处理技术,同时也希望能够利用SQL方式进行开发,甚至更进一步的批流融合统一开发。这在阿里巴巴今年双11场景中已经得到验证,今年阿里双11当天所有商品更新,报表统计,机器学习特征计算等都实现了实时处理,并且大部分都采用了Streaming SQL方式,不仅大幅提升了数据时效性价值,同时也极大简化了业务开发成本。

在开源实时计算社区中,Storm作为第一代流计算技术依然在持续发展,Flink作为新兴流计算技术也开始得到大规模应用,Spark和Kafka也都利用其强大的生态推出了自己的Streaming配套技术。实时计算进入百家争鸣阶段,并且各家也都进一步推出了自己的Streaming SQL技术,有的甚至开始考虑Batch和Streaming SQL的融合,这也许将是未来大数据处理技术更进一步的统一方向。本专题将邀请多位国内外大数据技术专家分享这些新技术的最新发展趋势以及在生产场景的应用。

by 朱诗雄

Databricks
软件开发工程师,Apache Spark PMC Member和Committer

Apache Spark在2016年的时候启动了Structured Streaming项目,一个基于Spark SQL的全新流计算引擎Structured Streaming,让用户像编写批处理程序一样简单地编写高性能的流处理程序。经过一年多的改进和完善,目前Structured Streaming已经在Databricks内部和客户广泛使用。

本次演讲主要向大家介绍Structured Streaming项目和高级特性,以及如何使用Structured Streaming来构建高性能的流处理应用。

by 王绍翾(大沙)

阿里巴巴
高级技术专家,Apache Flink Committer

近些年随着互联网和人工智能产品的不断发展和成熟,无论在传统行业还是互联网公司,批处理计算都无法再满足对数据与日俱增的实时性的要求。流计算已经从Nice to Have变成了Must to Have,流处理的场景越来越多,需求越来越强烈。本次演讲将着重介绍流计算处理的关键核心技术,并给听众分享流计算的发展历史以及展望流计算技术发展的未来趋势。除此之外,还将介绍阿里巴巴是如何基于Apache Flink打造出一款新型计算引擎Blink,从而成功的解决阿里集团内部的各种实时计算的挑战。

by 陈博玚

Pinterest
广告系统架构工程师

本次演讲会以Pinterest设计广告消费系统中遇到的压力和挑战为背景,带领听众理解为什么流处理是广告系统不可或缺的组成部分,如何设计流处理系统,如何高效稳定的运维,怎样优化流处理技术的使用等等,扎根实际,着眼生产第一线的技术除障和度量分析。Pinterest大胆尝试并使用了Kafka Streams这样一个新兴的流处理技术,并且成功的将其推行成为广告系统的实时运算基础,将会作为亮点分享给大家,以期鼓励更多Kafka Streams在中国计算机业界的大数据应用。

听众受益

  1. 了解现代广告系统中,实时处理数据的重要性;
  2. Kafka Streams在流处理和运维中的优势; 
  3. 设计Kafka Streams项目中需要考虑的一些要素;
  4. 在工业界运维Kafka Streams常见的一些问题以及解决方案。

by 焦向

美团点评
高级技术专家,酒店经营效率组负责人

以Flink和SnappyData为核心,将原有的非实时、开发周期长、维护成本高的以“预处理”为核心的方案,转化为目前以“后处理”为核心的方案。

  1. 开发效率:得到质变,无需预处理,周级别需求小时级完成。
  2. 节省存储空间:比如原方案Kylin中150T+预处理结果数据不再需要。
  3. 其他一些收益:比如指标一致性显著提升。
  4. 历史数据问题:采用类SCD Type 2的方式,处理历史事实数据和数据压缩,有不少对比数据。
  5. 建模问题:直接从原始表支持需求,中间缺少传统数仓建模的抽象层次,尝试实现类似Shasta的RVL层。

介绍SnappyData的优势劣势,当前的问题,我们在调优方面的努力,以及我们的定制化修改:

  1. 支持注册Spark声明式UDF,相比于命令式UDF,性能提升一个量级,很好的解决了酒店的特殊场景;
  2. Boxing/Unboxing优化;
  3. QueryPlan Cache相关的优化。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方