Iceberg - 新一代的数据湖表格式

嘉宾 : 邵赛赛 | 腾讯数据平台部数据湖内核技术负责人、资深大数据工程师

会议室 : 第二会议厅A

讲师介绍

专题演讲嘉宾：邵赛赛

腾讯数据平台部数据湖内核技术负责人、资深大数据工程师

邵赛赛，腾讯数据平台部数据湖内核技术负责人，资深大数据工程师，Apache Spark PMC member & committer, Apache Livy PMC member，曾就职于 Hortonworks，Intel 。

议题介绍

地点：第二会议厅A

演讲： Iceberg - 新一代的数据湖表格式

随着大数据存储和处理需求的多样化，如何构建一个统一的数据湖存储，并在其上进行多种形式的数据分析，便成了企业构建大数据生态的一个重要方向。如何能快速、一致、原子性地在数据湖存储上构建起 Data Pipeline 是一个亟待解决的问题。为此 Uber 开源了 Apache Hudi，Databricks 提出了 Delta Lake，而 Netflix 则发起了 Apache Iceberg 项目，一时间这种具备 ACID 能力的表格式中间件成为了大数据、数据湖领域炙手可热的方向。相比于 Hudi、Delta Lake，Iceberg 正式提出了表格式这样一个概念，如何利用表格式来有效地组织数据、提供 ACID 能力、优化对象存储，使之成为数据湖上一个不可缺少的一环呢？本次演讲将会具体介绍 Iceberg 的设计初衷、优点和实现方式，您将会对表格式这一领域有充分的了解。