宋军,花名嵩林,高级技术专家,目前在阿里巴巴计算平台事业部 EMR 团队从事实时数仓和数据湖相关工作,对 Spark/Hive/Delta Lake 有深入了解,是 Delta Lake 社区 Hive Connector 的开发者。
宋军,花名嵩林,高级技术专家,目前在阿里巴巴计算平台事业部 EMR 团队从事实时数仓和数据湖相关工作,对 Spark/Hive/Delta Lake 有深入了解,是 Delta Lake 社区 Hive Connector 的开发者。
Delta Lake 是 Databricks 公司开源的数据湖技术,它在 Parquet 文件格式基础上增加了丰富的数据管理功能,如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来,快速构建 Near-RealTime 的 Data Pipeline。
阿里巴巴在开源 Delta Lake 的基础上做了一些工作,包括功能上的增强和性能上的优化,比如写入时事务冲突优化,数据读取时使用 Data Skipping 和 Z-order 等优化特性,以及让 Hive、Presto 等查询引擎读取到 Delta Lake 数据。工作还包括 Delta Lake 和 Spark 深度集成,用户可以很方便的使用开源的 SparkSQL 以及阿里巴巴扩展的 Spark Streaming SQL 来操作 Delta Lake,并借助 Delta Lake 的流式数据存储和处理能力提升传统 Hive 数仓系统的实时性。
1. Delta Lake 介绍
2. Delta Lake 集成与优化
3. Spark Streaming SQL 与 Delta Lake 构建实时数仓应用实践
对实时数仓和数据湖感兴趣的开发者。