如何基于 Flink + Iceberg 构建高时效数据湖

所属专题:实时数据分析

嘉宾 : 胡争 | 阿里巴巴技术专家

讲师介绍

专题演讲嘉宾:胡争

阿里巴巴技术专家

胡争,阿里巴巴技术专家,花名子毅,目前专注于 Apache Flink 数据湖的设计和研发。此外,还担任 Apache HBase PMC 成员,著有《HBase 原理与实践》一书。开源技术爱好者,长期活跃在 Apache 开源社区,热衷技术分享。

议题介绍

演讲:如何基于 Flink + Iceberg 构建高时效数据湖

数据湖已经成为各个公司的标配,为了更好地帮助 Flink 用户无缝对接数据湖场景,我们联合 Apache Iceberg 社区正积极地推动 Flink 实时数据湖技术方案的落地。

内容大纲

1. 为什么选择Apache Iceberg作为Apache Flink的开源数据湖技术方案;

  • Databricks Delta、Apache Iceberg、Apache Hudi 三个产品的对比;
  • 推导得出数据湖技术方案的共同特征;
  • Flink 用户对数据湖方案的需求;
  • 推导得出 Flink 数据湖的最终特点及最终选型。

2. Flink+Iceberg 实时数据湖的核心场景及应用价值;

  • 常用的场景;
  • 应用价值。

3. 为了落地 Flink+Iceberg 数据湖技术方案,我们在 Apache Iceberg 社区所做的一些工作。

  • Iceberg 现状;
  • Iceberg 对接 Flink,让 Iceberg 能作为 Flink 的 source 和 sink;
  • 如何实现增量消费 Iceberg 数据?
  • 如何解决低延迟的增量消费?

听众受益

1. 理解 Flink 数据湖场景背后的核心需求;

2. 了解 Flink 数据湖在 Delta、Iceberg、Hudi三个项目之间的选型以及背后的理由;

3. 理解 Flink+Iceberg 数据湖技术方案的核心设计;

适合人群

对实时数仓和数据湖比较感兴趣的人群,最好有一些批处流处理的了解。 

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-17310043226