T3 出行大数据平台负责人,Apache Hudi committer & PMC member。Apache Flink 活跃贡献者,Apache Kylin 的 Flink Cube Engine 作者。前腾讯高级工程师,曾主导 Flink 框架在腾讯落地,经历了 Flink 从零到支撑日均近 20 万亿消息处理规模的全过程。
T3 出行大数据平台负责人,Apache Hudi committer & PMC member。Apache Flink 活跃贡献者,Apache Kylin 的 Flink Cube Engine 作者。前腾讯高级工程师,曾主导 Flink 框架在腾讯落地,经历了 Flink 从零到支撑日均近 20 万亿消息处理规模的全过程。
Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵化,加入孵化器大半年,发布第一个 Apache 版本后就快速被 AWS EMR 团队集成进 EMR 5.28.0 发布版,它也是 Amazon EMR 集成的开源项目里唯一一个还处于孵化阶段的项目。Hudi 在 Uber 从 2016 年开始研发到 2017 年上线生产环境,已构建远超 100 PB 的数据湖、单表 1000 个 Pipeline、每天处理 100TB 的数据规模。
本次分享我们将会对 Hudi 框架的功能、特性以及使用场景进行全面且系统地介绍。同时,我们将介绍 Hudi 在 T3 出行相关场景中的实践。Hudi 是一个包容且开放的社区,我们还将介绍社区正在进行中的 Hudi 与 Flink 计算引擎集成相关的工作。
OLAP、数据仓库以及大数据计算、分析相关的从业人员。