如何基于 Apache Hudi 构建企业级数据湖

嘉宾 : 杨华 | T3 出行大数据平台负责人

会议室 : 第二会议厅B

讲师介绍

专题演讲嘉宾：杨华

T3 出行大数据平台负责人

T3 出行大数据平台负责人，Apache Hudi committer & PMC member。Apache Flink 活跃贡献者，Apache Kylin 的 Flink Cube Engine 作者。前腾讯高级工程师，曾主导 Flink 框架在腾讯落地，经历了 Flink 从零到支撑日均近 20 万亿消息处理规模的全过程。

议题介绍

地点：第二会议厅B

演讲：如何基于 Apache Hudi 构建企业级数据湖

Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵化，加入孵化器大半年，发布第一个 Apache 版本后就快速被 AWS EMR 团队集成进 EMR 5.28.0 发布版，它也是 Amazon EMR 集成的开源项目里唯一一个还处于孵化阶段的项目。Hudi 在 Uber 从 2016 年开始研发到 2017 年上线生产环境，已构建远超 100 PB 的数据湖、单表 1000 个 Pipeline、每天处理 100TB 的数据规模。

本次分享我们将会对 Hudi 框架的功能、特性以及使用场景进行全面且系统地介绍。同时，我们将介绍 Hudi 在 T3 出行相关场景中的实践。Hudi 是一个包容且开放的社区，我们还将介绍社区正在进行中的 Hudi 与 Flink 计算引擎集成相关的工作。