海量数据的积累以及云计算的发展对数据中心架构提出了严峻的挑战,对新型数据存储的需... 展开 >
堵俊平,腾讯大数据海量计算,存储以及数据湖技术负责人,专家研究员,腾讯开源联盟(TOSA)主席,Apache 开源基金会 Member, Apache Hadoop 项目 Committer 和 PMC。
专访堵俊平:《数据湖,大数据的下一个变革!》
海量数据的积累以及云计算的发展对数据中心架构提出了严峻的挑战,对新型数据存储的需求也持续增强。组织的数据架构越成熟,业务就越成功。在降低成本和提升效率的需求的驱动下,如何进行数据架构变革?在面向云原生,支撑实时 OLAP,以及新硬件技术的驱动下,各个层次的数据存储架构又正在面临哪些变革?本专题将汇集全球前沿技术团队,一起探讨数据架构技术。
如何构建稳定、高效可扩展的实时数据存储与传输平台是 Uber 亟待解决的问题。目前, Uber 部署了全球较大的 Kafka 集群,每天处理 PB 级别的数据,并且对不同的使用场景进行了优化与定制化开发,包括跨地域数据中心的拷贝与容灾、数据集成与联邦、消息重发与死信队列(Dead Letter Queue)等。本次演讲会分享 Kafka 及其生态系统在 Uber 的架构演化以及探讨在实践中遇到的经验与教训。
对实时数据平台及 Kafka 感兴趣的技术人员,架构师与产品经理。
全域数据集成是数据中台建设的基石,在数据源种类繁多、数据量庞大、实时性和稳定性要求高的场景下会带来很大挑战。本次演讲主要分享字节跳动全域数据集成服务在每日数万个任务和数十万亿级别数据量的场景下,如何基于统一的技术栈来解决这些问题。内容包括基于 Flink 批流一体的数据集成架构,离线/实时/增量各类数据传输场景下的混合技术模型,高性能和高可用要求带来的问题和解决方案等。
最好对大数据生态,数仓体系或数据中台有基本概念。
Delta Lake 是 Databricks 公司开源的数据湖技术,它在 Parquet 文件格式基础上增加了丰富的数据管理功能,如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来,快速构建 Near-RealTime 的 Data Pipeline。
阿里巴巴在开源 Delta Lake 的基础上做了一些工作,包括功能上的增强和性能上的优化,比如写入时事务冲突优化,数据读取时使用 Data Skipping 和 Z-order 等优化特性,以及让 Hive、Presto 等查询引擎读取到 Delta Lake 数据。工作还包括 Delta Lake 和 Spark 深度集成,用户可以很方便的使用开源的 SparkSQL 以及阿里巴巴扩展的 Spark Streaming SQL 来操作 Delta Lake,并借助 Delta Lake 的流式数据存储和处理能力提升传统 Hive 数仓系统的实时性。
1. Delta Lake 介绍
2. Delta Lake 集成与优化
3. Spark Streaming SQL 与 Delta Lake 构建实时数仓应用实践
对实时数仓和数据湖感兴趣的开发者。
随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,便成了企业构建大数据生态的一个重要方向。如何能快速、一致、原子性地在数据湖存储上构建起 Data Pipeline 是一个亟待解决的问题。为此 Uber 开源了 Apache Hudi,Databricks 提出了 Delta Lake,而 Netflix 则发起了 Apache Iceberg 项目,一时间这种具备 ACID 能力的表格式中间件成为了大数据、数据湖领域炙手可热的方向。相比于 Hudi、Delta Lake,Iceberg 正式提出了表格式这样一个概念,如何利用表格式来有效地组织数据、提供 ACID 能力、优化对象存储,使之成为数据湖上一个不可缺少的一环呢?本次演讲将会具体介绍 Iceberg 的设计初衷、优点和实现方式,您将会对表格式这一领域有充分的了解。
1. 数据湖的现状和业界趋势
2. 数据湖中间件 – 表格式
3. Iceberg
4. 我们所做的工作
5. 业界趋势和后续规划
对开源大数据领域、大数据计算、存储组件有基本的了解,想要进一步了解某一组件的内部原理和实现。