Iceberg - 新一代的数据湖表格式

所属专题:现代数据架构

嘉宾 : 邵赛赛 | 腾讯数据平台部数据湖内核技术负责人、资深大数据工程师

讲师介绍

专题演讲嘉宾:邵赛赛

腾讯数据平台部数据湖内核技术负责人、资深大数据工程师

邵赛赛,腾讯数据平台部数据湖内核技术负责人,资深大数据工程师,Apache Spark PMC member & committer, Apache Livy PMC member,曾就职于 Hortonworks,Intel 。

议题介绍

演讲: Iceberg - 新一代的数据湖表格式

随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,便成了企业构建大数据生态的一个重要方向。如何能快速、一致、原子性地在数据湖存储上构建起 Data Pipeline 是一个亟待解决的问题。为此 Uber 开源了 Apache Hudi,Databricks 提出了 Delta Lake,而 Netflix 则发起了 Apache Iceberg 项目,一时间这种具备 ACID 能力的表格式中间件成为了大数据、数据湖领域炙手可热的方向。相比于 Hudi、Delta Lake,Iceberg 正式提出了表格式这样一个概念,如何利用表格式来有效地组织数据、提供 ACID 能力、优化对象存储,使之成为数据湖上一个不可缺少的一环呢?本次演讲将会具体介绍 Iceberg,它的设计初衷、优点和能力,您将会对表格式这一领域有充分的了解,并深入了解到 Iceberg 的设计、实现、优势以及使用方式。 

内容大纲

1. 数据湖的现状和业界趋势

2. 数据湖中间件 – 表格式

  • 表格式的出现和兴起
  • 为什么需要表格式
  • 业界竞品和现状

3. Iceberg

  • 什么是 Iceberg
  • Iceberg 的设计原理
  • 事务性语义
  • 为什么我们选择 Iceberg

4. 我们所做的工作

5. 业界趋势和后续规划

听众受益

  • 了解数据湖表格式这一概念,为什么要提出这一概念以及它带来的意义;
  • 了解 Iceberg 的设计、实现、优势和使用方式,能够窥探到这一领域的发展和演变。 

适合人群

对开源大数据领域、大数据计算、存储组件有基本的了解,想要进一步了解某一组件的内部原理和实现。 

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-17310043226