Iceberg - 新一代的数据湖表格式

所属专题:现代数据架构

嘉宾 : 邵赛赛 | 腾讯数据平台部数据湖内核技术负责人、资深大数据工程师

会议室 : 第二会议厅A

讲师介绍

专题演讲嘉宾:邵赛赛

腾讯数据平台部数据湖内核技术负责人、资深大数据工程师

邵赛赛,腾讯数据平台部数据湖内核技术负责人,资深大数据工程师,Apache Spark PMC member & committer, Apache Livy PMC member,曾就职于 Hortonworks,Intel 。

议题介绍

地点:第二会议厅A
所属专题:现代数据架构

演讲: Iceberg - 新一代的数据湖表格式

随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,便成了企业构建大数据生态的一个重要方向。如何能快速、一致、原子性地在数据湖存储上构建起 Data Pipeline 是一个亟待解决的问题。为此 Uber 开源了 Apache Hudi,Databricks 提出了 Delta Lake,而 Netflix 则发起了 Apache Iceberg 项目,一时间这种具备 ACID 能力的表格式中间件成为了大数据、数据湖领域炙手可热的方向。相比于 Hudi、Delta Lake,Iceberg 正式提出了表格式这样一个概念,如何利用表格式来有效地组织数据、提供 ACID 能力、优化对象存储,使之成为数据湖上一个不可缺少的一环呢?本次演讲将会具体介绍 Iceberg 的设计初衷、优点和实现方式,您将会对表格式这一领域有充分的了解。

内容大纲

1. 数据湖的现状和业界趋势

2. 数据湖中间件 – 表格式

  • 表格式的出现和兴起
  • 为什么需要表格式
  • 业界竞品和现状

3. Iceberg

  • 什么是 Iceberg
  • Iceberg 的设计原理
  • 事务性语义
  • 为什么我们选择 Iceberg

4. 我们所做的工作

5. 业界趋势和后续规划

听众受益

  1. 了解数据湖表格式这一概念,为什么要提出这一概念以及它带来的意义
  2. 了解 Iceberg 的设计、实现、优势和使用方式,能够窥探到这一领域的发展和演变

适合人群

对开源大数据领域、大数据计算、存储组件有基本的了解,想要进一步了解某一组件的内部原理和实现。 

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226