基于 Spark Streaming SQL 和 Delta Lake 构建实时数据仓库

所属专题:现代数据架构

嘉宾 : 宋军 | 阿里巴巴高级技术专家

会议室 : 第二会议厅A

讲师介绍

专题演讲嘉宾:宋军

阿里巴巴高级技术专家

宋军,花名嵩林,高级技术专家,目前在阿里巴巴计算平台事业部 EMR 团队从事实时数仓和数据湖相关工作,对 Spark/Hive/Delta Lake 有深入了解,是 Delta Lake 社区 Hive Connector 的开发者。

议题介绍

地点:第二会议厅A
所属专题:现代数据架构

演讲:基于 Spark Streaming SQL 和 Delta Lake 构建实时数据仓库

Delta Lake 是 Databricks 公司开源的数据湖技术,它在 Parquet 文件格式基础上增加了丰富的数据管理功能,如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来,快速构建 Near-RealTime 的 Data Pipeline。

阿里巴巴在开源 Delta Lake 的基础上做了一些工作,包括功能上的增强和性能上的优化,比如写入时事务冲突优化,数据读取时使用 Data Skipping 和 Z-order 等优化特性,以及让 Hive、Presto 等查询引擎读取到 Delta Lake 数据。工作还包括 Delta Lake 和 Spark 深度集成,用户可以很方便的使用开源的 SparkSQL 以及阿里巴巴扩展的 Spark Streaming SQL 来操作 Delta Lake,并借助 Delta Lake 的流式数据存储和处理能力提升传统 Hive 数仓系统的实时性。

内容大纲

1. Delta Lake 介绍

  • Delta Lake、Iceberge、Hudi 的对比介绍;
  • 核心功能以及适用场景介绍,包括元数据管理、事务 & 冲突机制、版本回朔等;

2. Delta Lake 集成与优化

  • Delta Lake 与 Spark SQL 的深度集成;
  • Delta Lake 的功能拓展与性能优化,包括 Hive/Presto on Delta、Delta on OSS、Compaction、Data  Skipping & Zorder 等;

3. Spark Streaming SQL 与 Delta Lake 构建实时数仓应用实践

  • 实时数仓及典型场景的介绍;
  • Spark Streaming SQL 的介绍;
  • 基于 Spark Streaming SQL 和 Delta Lake 的实时数仓实践案例(如 CDC 场景等)。

听众收益

  • Delta Lake 和 Spark Streaming SQL 介绍;
  • 阿里巴巴团队对 Delta Lake 的优化以及集成;
  • Delta Lake 在实时数仓中的场景应用以及相关案例。

适合人群

对实时数仓和数据湖感兴趣的开发者。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226