如何基于 Apache Hudi 构建企业级数据湖

所属专题:实时数据分析

嘉宾 : 杨华 | T3 出行大数据平台负责人

讲师介绍

专题演讲嘉宾:杨华

T3 出行大数据平台负责人

T3 出行大数据平台负责人,Apache Hudi committer,Apache Flink contributor,Apache Kylin 的 Flink Cube Engine 作者。前腾讯高级工程师,曾主导 Flink 框架在腾讯落地,经历了 Flink 从零到支撑日均近 20 万亿消息处理规模的全过程。

议题介绍

演讲:如何基于 Apache Hudi 构建企业级数据湖

Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵化,加入孵化器大半年,发布第一个 Apache 版本后就快速被 AWS EMR 团队集成进 EMR 5.28.0 发布版,它也是 Amazon EMR 集成的开源项目里唯一一个还处于孵化阶段的项目。Hudi 在 Uber 从 2016 年开始研发到 2017 年上线生产环境,已构建超过 10PB 的数据湖、单表 1000 个 Pipeline、每天处理 100TB 的数据规模。

本次分享我们将会对 Hudi 框架的功能、特性以及使用场景进行全面且系统地介绍。同时,我们将介绍 Hudi 在 T3 出行相关场景中的实践。Hudi 是一个包容且开放的社区,我们还将介绍社区正在进行中的 Hudi 与 Flink 计算引擎集成相关的工作。

听众收益

  • Apache Hudi 介绍;
  • 为什么 Hudi 是构建数据湖正确的选择;
  • Hudi 在 T3 出行的落地实践;
  • Hudi 社区的 RoadMap 以及跟 Flink 集成的进展。

适合人群

OLAP、数据仓库以及大数据计算、分析相关的从业人员。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-17310043226