大数据处理技术

会议室:白云宴会厅3
出品人:王绍翾(大沙)

随着大数据技术的持续高速发展,大数据应用也已经在各行各业得到了普及,丰富的业务场... 展开 >

专题出品人:王绍翾(大沙)

阿里 资深技术专家

加州大学圣地亚哥分校计算机工程的博士,2015年加入阿里巴巴集团,目前在阿里计算平台事业部担任资深技术专家。加入阿里之前,曾在 Facebook 开发分布式图关系数据库TAO。加入阿里之后,一直从事阿里新一代计算平台 Blink 的研发工作。先后负责过淘宝天猫的离线数据处理,Blink SQL引擎。现在负责基于 Blink 的云计算平台和算法工程平台。王绍翾是 Apache Flink 的 Committer,除了自己,带领的团队内部有多位 Apache Flink,Kafka,Zeppelin,Tez 的 Committer/PMC。

地点:白云宴会厅3

专题:大数据处理技术

随着大数据技术的持续高速发展,大数据应用也已经在各行各业得到了普及,丰富的业务场景也同时对大数据处理技术提出了更高的要求。Spark、Flink、Kafka、ElasticSearch等成熟的开源技术在各自擅长领域高歌猛进,成为各大科技公司的大数据计算架构的基础。本专题将邀请数据技术专家分享这些新技术的新发展趋势以及在业务场景中的应用。

by 王耿亮

Databricks
研发工程师

Apache Spark 2.4 带来了很多的新功能和优化提升, 包括 barrier execution mode、flexible streaming sink,、内置 Avro 数据格式支持、PySpark’s eager evaluation mode、Kubernetes支持、高阶函数、Scala 2.12 支持等。

在接下来的 3.0 版本发布中, Spark 将支持自适应的 SQL 执行, 使用新的 Data Source API, 并且支持 Cypher 查询语言等。

听众受益:

  1. 对 Apache Spark 2.4 的主要新功能有总体了解。
  2. 了解下一个版本的主要新功能。

by 宋军

阿里巴巴
技术专家

Jindo 是阿里云智能 E-MapReduce 团队在开源的 Apache Spark 基础上自主研发的云原生 OLAP 引擎。Jindo 在开源 Spark 版本基础上做了大量优化和扩展,并且深度集成和连接了众多阿里云基础服务(如 OSS )。用户可以利用Jindo在云上快速构建高性能、易于伸缩、低成本的存储计算分离架构的数据仓库系统。E-MapReduce 团队基于 Jindo 完成了 TPC-DS 测试,在性能和性价比指标上都名列第一,成为 TPC 系列 Benchmark 认证的全球首个公共云产品。

本次分享会具体介绍 Jindo 的实践与优化,包括 Transaction 的支持,RuntimeFilter/Relational Cache/File Index 等性能优化,以及 Jindo 在云原生数仓的应用实践。

by 张亮

滴滴出行
高级专家工程师,TGO 鲲鹏会会员

滴滴数据检索平台是基于 ElasticSearch 构建的一站式搜索中台,服务了公司一千多个平台方,涵盖了搜索与推荐、MySQL实时数仓、安全分析、日志检索四大应用场景。本次会分享面对数千万TPS写入、数万 QPS 查询,PB 级的数据存储,如何打造存储成本低、系统稳定性好,易用的搜索中台。 

听众受益: 

  1. 如何基于 ElasticSearch 构建低成本的日志检索解决方案?
  2. 面对千万级 TPS 的实时写入,万级 QPS 的实时查询,如何保证检索平台的稳定性?
  3. 业务快速发展下,平台如何高效地服务用户?

by 伍翀(云邪)

阿里巴巴
高级开发工程师

Apache Flink 是流批统一的新一代大数据计算引擎,以支持多种计算形态为目标,包括流计算,批计算,CEP 复杂事件处理,ML 机器学习等等。该演讲将以 TableAPI / SQL 为切入点重点分享 Apache Flink 如何做到流批统一,以及在流批统一过程总遇到的困难和解决方案,最后给大家分享 Apache Flink 1.9 所涉及的众多新功能。

by 张俊

OPPO
大数据平台研发负责人

为了全面推动数仓实时化,OPPO 基于 Flink 打造的实时计算平台 OStream ,已广泛服务于实时 ETL/实时报表/实时标签等应用场景。本次讲演将分享 OStream 平台的研发之道(包括设计原则、总体架构、Flink 改进优化),业务场景的接入与应用实践,以及平台往智能化方向发展的探索与思考。

内容大纲:

  1. OPPO 大数据平台整体介绍;
  2. 构建实时计算平台的业务与技术背景;
  3. 基于 Flink 来研发 OStream 所进行的一系列工作,包括对 Flink 的改进与贡献;
  4. OStream 业务接入与应用实践;
  5. 未来展望与规划。

听众受益:

  1. 如何基于 Flink 构建低门槛、高可用的实时计算平台,其核心优势是什么; 
  2. 如何推动业务接入平台,有哪些切入点; 
  3. 如何推动平台往智能化发展,进一步降低业务应用门槛; 
  4. 如何参与到Flink开源社区,让企业的改动和社区保持同步。

by 张海涛

海康威视
金融事业部架构师,国际注册云安全系统认证专家

近两年涌现的开源大潮,为大数据开发者提供了十分富余的工具。但这同时也增加了开发者选择合适工具的难度,尤其对于新入行的开发者来说。这很可能拖慢、甚至阻碍开源工具的发展:把各种开源框架、工具、库、平台人工整合到一起所需工作之复杂,是大数据开发者常有的抱怨之一,也是他们支持专有大数据平台的首要原因。

Apache Beam (原名 Google DataFlow )是 Google 在 2016 年 2 月份贡献给 Apache 基金会的 Apache 孵化项目,被认为是继 MapReduce、GFS 和 BigQuery 等之后,Google 在大数据处理领域对开源社区的又一个非常大的贡献。Apache Beam 的主要目标是统一批处理和流处理的编程范式,Apache Beam 通过先进的编程模型,为数据集处理提供简单灵活,功能丰富以及表达能力十分强大的 SDK 。因为对众多大数据处理引擎的支持,也使一套代码随处运行。 逐渐成为下一代的大数据处理标准。

听众受益:

  1. 了解 Apache Beam 及架构设计;
  2. 怎样玩转 Beam SDKs Pipeline Runners;
  3. 探讨 Apache Beam 在loT 场景下的架构设计及怎样构建自己的“AI微服务”。

 

 

 

by 韦万

PingCAP
数据库核心研发工程师

由于分析型与交易型数据库设计上的本质矛盾,使用户的数据平台变得异常复杂:人们不得不通过各种手段将在线交易数据搬运到分析平台中。这样的架构不但难于维护,而且可能会丢失数据库新鲜度与一致性。HTAP 是一个并不容易的目标。包括 TiDB 自己,以往版本所提出的解决方案并不完善。一个相对完善的 HTAP 数据库,必须良好地解决交易和分析负载隔离;行存和列存的融合且互不影响,并避免设计中可能引入的延迟或一致性冲突。

本次演讲将和听众探讨 HTAP 的价值,为何难以实现以及 TiDB 的新组件 TiFlash 如何围绕 Multi-Raft 独创性地解决这些问题。

 

听众受益:

  1. 了解 HTAP 的意义;
  2. 了解 HTAP 的技术难点;
  3. 学习 TiFlash 的设计以及如何解决这些难题。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐Joy
或致电:+86-13269078023