基于 Spark Streaming SQL 和 Delta Lake 构建实时数据仓库

嘉宾 : 宋军 | 阿里巴巴高级技术专家

会议室 : 第二会议厅A

讲师介绍

专题演讲嘉宾：宋军

阿里巴巴高级技术专家

宋军，花名嵩林，高级技术专家，目前在阿里巴巴计算平台事业部 EMR 团队从事实时数仓和数据湖相关工作，对 Spark/Hive/Delta Lake 有深入了解，是 Delta Lake 社区 Hive Connector 的开发者。

议题介绍

地点：第二会议厅A

演讲：基于 Spark Streaming SQL 和 Delta Lake 构建实时数据仓库

Delta Lake 是 Databricks 公司开源的数据湖技术，它在 Parquet 文件格式基础上增加了丰富的数据管理功能，如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来，快速构建 Near-RealTime 的 Data Pipeline。

阿里巴巴在开源 Delta Lake 的基础上做了一些工作，包括功能上的增强和性能上的优化，比如写入时事务冲突优化，数据读取时使用 Data Skipping 和 Z-order 等优化特性，以及让 Hive、Presto 等查询引擎读取到 Delta Lake 数据。工作还包括 Delta Lake 和 Spark 深度集成，用户可以很方便的使用开源的 SparkSQL 以及阿里巴巴扩展的 Spark Streaming SQL 来操作 Delta Lake，并借助 Delta Lake 的流式数据存储和处理能力提升传统 Hive 数仓系统的实时性。