陈怡,腾讯大数据工程师, Apache Hadoop Committer 和 PMC member, 专注于大数据存储领域。目前参与 Apache Ozone 的社区开发,腾讯 Ozone 项目的主要负责人。
陈怡,腾讯大数据工程师, Apache Hadoop Committer 和 PMC member, 专注于大数据存储领域。目前参与 Apache Ozone 的社区开发,腾讯 Ozone 项目的主要负责人。
Apache Ozone 是 Hadoop 社区最近两年新崛起的大数据存储项目,提供数据强一致性的分布式对象存储服务,以及在此基础上兼容 Hadoop 文件系统接口的文件服务,旨在解决 HDFS NN 扩展性上限问题,和提供大数据生态原生的对象存储实现。本次主题将主要介绍 Ozone 的构架和功能,分享 Ozone 和 Iceberg 相结合的一些实践经验。
1. Hadoop 社区为什么要发起一个全新的存储项目?Ozone 的架构是怎么样的?
2. Ozone 有哪些主要的功能?除了大数据场景,能用在云原生的 Kubernetes 生态吗?
3. 目前在实时数仓和数据湖中,涌现出全新的表格式 Databricks Delta、Apache Iceberg 和 Apache Hudi。作为数据最终的存储,Ozone 能否无缝对接新兴的表格式?以 Iceberg 为例,在此分享一些探索和实践的经验。