现代数据架构

会议室:待定
出品人:堵俊平

海量数据的积累以及云计算的发展对数据中心架构提出了严峻的挑战,对新型数据存储的需... 展开 >

专题出品人:堵俊平

腾讯TEG 数据平台部总监、专家工程师

堵俊平,腾讯大数据海量计算,存储以及数据湖技术负责人,专家研究员,腾讯开源联盟(TOSA)主席,Apache 开源基金会 Member, Apache Hadoop 项目 Committer 和 PMC。

专访堵俊平:《数据湖,大数据的下一个变革!》

专题:现代数据架构

海量数据的积累以及云计算的发展对数据中心架构提出了严峻的挑战,对新型数据存储的需求也持续增强。组织的数据架构越成熟,业务就越成功。在降低成本和提升效率的需求的驱动下,如何进行数据架构变革?在面向云原生,支撑实时 OLAP,以及新硬件技术的驱动下,各个层次的数据存储架构又正在面临哪些变革?本专题将汇集全球前沿技术团队,一起探讨数据架构技术。

by 富羽鹏

Uber
Staff Engineer

如何构建稳定、高效可扩展的实时数据存储与传输平台是 Uber 亟待解决的问题。目前, Uber 部署了全球较大的 Kafka 集群,每天处理 PB 级别的数据,并且对不同的使用场景进行了优化与定制化开发,包括跨地域数据中心的拷贝与容灾、数据集成与联邦、消息重发与死信队列(Dead Letter Queue)等。本次演讲会分享 Kafka 及其生态系统在 Uber 的架构演化以及探讨在实践中遇到的经验与教训。

听众受益

  • 了解 Kafka 在 Uber 这样规模的互联网公司实践中的经验与教训;
  • 学习跨地域 Kafka 集群的设计原理;
  • 了解大规模 Kafka 集群与数据管理的产品设计与新功能介绍;
  • 了解多 Kafka 集群运维的挑战与应对策略。

适合人群

对实时数据平台及 Kafka 感兴趣的技术人员,架构师与产品经理。

by 罗齐

字节跳动
大数据平台高级工程师

全域数据集成是数据中台建设的基石,在数据源种类繁多、数据量庞大、实时性和稳定性要求高的场景下会带来很大挑战。本次演讲主要分享字节跳动全域数据集成服务在每日数万个任务和数十万亿级别数据量的场景下,如何基于统一的技术栈来解决这些问题。内容包括基于 Flink 批流一体的数据集成架构,离线/实时/增量各类数据传输场景下的混合技术模型,高性能和高可用要求带来的问题和解决方案等。 

内容大纲

  • 字节跳动数据集成场景中的挑战;
  • 全域数据集成服务的演进历程;
  • 以 Flink 批流一体为核心的的混合技术架构;
  • 高性能和高可用场景下的解决方案。


听众受益

  • 了解数据集成在字节跳动面临的各种复杂业务场景; 
  • 了解 Flink 批流一体的架构如何解决数据集成领域的各类问题;
  • 了解如何打造高性能和高可用的数据集成服务。 

适合人群

最好对大数据生态,数仓体系或数据中台有基本概念。 

by 邵赛赛

腾讯
数据平台部数据湖内核技术负责人、资深大数据工程师

随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,便成了企业构建大数据生态的一个重要方向。如何能快速、一致、原子性地在数据湖存储上构建起 Data Pipeline 是一个亟待解决的问题。为此 Uber 开源了 Apache Hudi,Databricks 提出了 Delta Lake,而 Netflix 则发起了 Apache Iceberg 项目,一时间这种具备 ACID 能力的表格式中间件成为了大数据、数据湖领域炙手可热的方向。相比于 Hudi、Delta Lake,Iceberg 正式提出了表格式这样一个概念,如何利用表格式来有效地组织数据、提供 ACID 能力、优化对象存储,使之成为数据湖上一个不可缺少的一环呢?本次演讲将会具体介绍 Iceberg,它的设计初衷、优点和能力,您将会对表格式这一领域有充分的了解,并深入了解到 Iceberg 的设计、实现、优势以及使用方式。 

内容大纲

1. 数据湖的现状和业界趋势

2. 数据湖中间件 – 表格式

  • 表格式的出现和兴起
  • 为什么需要表格式
  • 业界竞品和现状

3. Iceberg

  • 什么是 Iceberg
  • Iceberg 的设计原理
  • 事务性语义
  • 为什么我们选择 Iceberg

4. 我们所做的工作

5. 业界趋势和后续规划

听众受益

  • 了解数据湖表格式这一概念,为什么要提出这一概念以及它带来的意义;
  • 了解 Iceberg 的设计、实现、优势和使用方式,能够窥探到这一领域的发展和演变。 

适合人群

对开源大数据领域、大数据计算、存储组件有基本的了解,想要进一步了解某一组件的内部原理和实现。 

by 宋军

阿里巴巴
高级技术专家

Delta Lake 是 Databricks 公司开源的数据湖技术,它在 Parquet 文件格式基础上增加了丰富的数据管理功能,如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来,快速构建 Near-RealTime 的 Data Pipeline。

阿里巴巴在开源 Delta Lake 的基础上做了一些工作,包括功能上的增强和性能上的优化,比如写入时事务冲突优化,数据读取时使用 Data Skipping 和 Z-order 等优化特性,以及让 Hive、Presto 等查询引擎读取到 Delta Lake 数据。工作还包括 Delta Lake 和 Spark 深度集成,用户可以很方便的使用开源的 SparkSQL 以及阿里巴巴扩展的 Spark Streaming SQL 来操作 Delta Lake,并借助 Delta Lake 的流式数据存储和处理能力提升传统 Hive 数仓系统的实时性。

内容大纲

1. Delta Lake 介绍

  • Delta Lake、Iceberge、Hudi 的对比介绍;
  • 核心功能以及适用场景介绍,包括元数据管理、事务 & 冲突机制、版本回朔等;

2. Delta Lake 集成与优化

  • Delta Lake 与 Spark SQL 的深度集成;
  • Delta Lake 的功能拓展与性能优化,包括 Hive/Presto on Delta、Delta on OSS、Compaction、Data  Skipping & Zorder 等;

3. Spark Streaming SQL 与 Delta Lake 构建实时数仓应用实践

  • 实时数仓及典型场景的介绍;
  • Spark Streaming SQL 的介绍;
  • 基于 Spark Streaming SQL 和 Delta Lake 的实时数仓实践案例(如 CDC 场景等)。

听众收益

  • Delta Lake 和 Spark Streaming SQL 介绍;
  • 阿里巴巴团队对 Delta Lake 的优化以及集成;
  • Delta Lake 在实时数仓中的场景应用以及相关案例。

适合人群

对实时数仓和数据湖感兴趣的开发者。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方

InfoQ助你疫后复工,提升战力!全年会议门票最低5折起,立即查看>>

想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-17310043226