实时数据分析

会议室:待定
出品人:王峰(莫问)

大数据技术经过最近 10 年来的快速发展,已经渗透到各行各业,数据的爆发式增长对... 展开 >

专题出品人:王峰(莫问)

阿里巴巴计算平台事业部资深技术专家

王峰,花名“莫问”,2006 年硕士毕业后加入阿里巴巴集团,前期从事搜索引擎技术研发,2009 年开始转向大数据技术方向,目前在计算平台事业部担任资深技术专家,负责实时计算团队。阿里巴巴实时计算团队围绕 Apache Flink 打造的实时计算平台:Blink,不仅服务于阿里巴巴集团(淘宝、天猫、聚划算、高德、优酷、飞猪和菜鸟等)所有数据业务,同时也在阿里云上为广大中小企业提供全球领先的实时计算云产品服务。

专题:实时数据分析

大数据技术经过最近 10 年来的快速发展,已经渗透到各行各业,数据的爆发式增长对海量数据处理能力带来了挑战,与此同时用户对海量数据的时效性需求也越来越强,用户已经不再满足 T+1 的数据报表,更希望能实时看到大数据带来的价值,从而能在第一时间对业务发展做出判断和决策,例如:电商大促和金融风控等场景,延迟的数据分析结果已经失去了价值和意义。

为了应对大数据高时效性的发展需求,很多实时计算和在线交互式数据分析技术应运而生,包括 Flink,Spark,Presto,Druid,Clickhouse,Delta,Hudi 和 Iceberg 等,甚至有些新技术已经开始走向在离线融合数据分析方向,利用一套技术完整的提供实时和离线数据分析方案,在本专题中我们将邀请国内外一线互联网企业的多位技术专家为大家分享新的实时计算和数据分析技术发展趋势,并通过大量真实生产实践案例给大家带来新的启发。

by 罗震霄

Twitter
Sr. Staff Engineer

对海量数据进行实时查询是 Twitter 一直以来面对的技术挑战,为了提高大数据系统的性能,部署规模,和信息安全,Twitter 大数据团队对 Presto 和 Druid 进行了大量的改进与优化,包括 Presto Druid Connector、Aggregation and Predicate Pushdown、LDAP 为基础的数据授权和安全保护、Druid Native Indexing以及利用缓存对 Druid 性能的提升。本次分享会讨论系统设计和技术实现,以及 Twitter 在实践中遇到的经验和教训。 

适合人群

对大数据感兴趣的技术人员,产品经理,数据分析师。

by 黄辉

字节跳动
高级研发工程师

by 张云帆

字节跳动
高级研发工程师

如何从大量的事件中快速有效地分析数据,对决策能够起到至关重要的影响。Druid 是目前比较流行的开源 OLAP 引擎之一,国内外的很多公司都在使用。一方面,Druid 的数据导入即可实时查询,很好的满足了数据实时性需求;另一方面,在数据达到一定规模后,集群的稳定性、数据摄入性能和查询延迟都成为瓶颈。本次分享会介绍字节跳动在大规模数据场景下如何管理和优化 Druid,满足在字节跳动的需求。

内容大纲

  1. Druid 性能优化,主要包括实时数据摄入优化、查询性能优化、GC 方面的优化以及社区贡献的一些 patch;
  2. 字节跳动如何管理大规模 Druid 集群:包括集群日常部署运维、元数据治理、集群稳定性建设等; 
  3. 承接的业务场景介绍,主要介绍字节跳动使用 Druid 都处理哪些业务需求,以及遇到的问题和解决思路;
  4. Druid 实时物化视图的设计与实现,包括:物化视图在线构建 & 离线回溯、broker 查询替换、KIS publish 策略优化等 ;
  5. Druid 实时物化视图方案在字节跳动的实践,包括:在广告系统 AB Test 场景下大幅提升实时查询性能、如何解决数据倾斜和避免物化视图膨胀等。


听众受益

  • 了解 Druid 在近千台机器规模时运维 & 管理的挑战;
  • 了解 Druid 在字节跳动的业务场景;
  • 了解字节跳动为满足大规模数据场景下对 Druid 所做的一些优化以及实践。

适合人群

最好对 Druid 或者相关 OLAP 系统有一定了解。

by 胡争

阿里巴巴
技术专家

数据湖已经成为各个公司的标配,为了更好地帮助 Flink 用户无缝对接数据湖场景,我们联合 Apache Iceberg 社区正积极地推动 Flink 实时数据湖技术方案的落地。

内容大纲

1. 为什么选择Apache Iceberg作为Apache Flink的开源数据湖技术方案;

  • Databricks Delta、Apache Iceberg、Apache Hudi 三个产品的对比;
  • 推导得出数据湖技术方案的共同特征;
  • Flink 用户对数据湖方案的需求;
  • 推导得出 Flink 数据湖的最终特点及最终选型。

2. Flink+Iceberg 实时数据湖的核心场景及应用价值;

  • 常用的场景;
  • 应用价值。

3. 为了落地 Flink+Iceberg 数据湖技术方案,我们在 Apache Iceberg 社区所做的一些工作。

  • Iceberg 现状;
  • Iceberg 对接 Flink,让 Iceberg 能作为 Flink 的 source 和 sink;
  • 如何实现增量消费 Iceberg 数据?
  • 如何解决低延迟的增量消费?

听众受益

1. 理解 Flink 数据湖场景背后的核心需求;

2. 了解 Flink 数据湖在 Delta、Iceberg、Hudi三个项目之间的选型以及背后的理由;

3. 理解 Flink+Iceberg 数据湖技术方案的核心设计;

适合人群

对实时数仓和数据湖比较感兴趣的人群,最好有一些批处流处理的了解。 

by 陈怡

腾讯
高级工程师

Apache Ozone 是 Hadoop 社区最近两年新崛起的大数据存储项目,提供数据强一致性的分布式对象存储服务,以及在此基础上兼容 Hadoop 文件系统接口的文件服务,旨在解决 HDFS NN 扩展性上限问题,和提供大数据生态原生的对象存储实现。本次主题将主要介绍 Ozone 的构架和功能,分享 Ozone 和 Iceberg 相结合的一些实践经验。

内容大纲

1. Hadoop 社区为什么要发起一个全新的存储项目?Ozone 的架构是怎么样的?

  • 项目发起初衷
  • 架构介绍

2. Ozone 有哪些主要的功能?除了大数据场景,能用在云原生的 Kubernetes 生态吗?

  • 主要功能介绍
  • 社区开发现状
  • 典型使用场景,包括大数据和云原生场景

3. 目前在实时数仓和数据湖中,涌现出全新的表格式 Databricks Delta、Apache Iceberg 和 Apache Hudi。作为数据最终的存储,Ozone 能否无缝对接新兴的表格式?以 Iceberg 为例,在此分享一些探索和实践的经验。

  • 为何选择 Iceberg?
  • Ozone 和 Iceberg 结合,遇到了哪些问题,是怎么解决的,效果如何?
  • 展望 Ozone 对其他表格式的支持。

听众受益:

1. 了解 Ozone 项目的发起初衷,架构和主要功能;

2. 了解 Ozone 的典型应用场景;

3. 了解 Ozone 对于新兴表格式的支持。

适合人群

1. 对大数据存储比较感兴趣的人群,同时对当前的大数据存储有一定的了解;

2. 对实时计算有了解的人群,同时希望了解实时计算对接的存储。

by 丁定华

快手
大数据架构团队分布式存储方向负责人

海量数据分析正在从离线走向实时,面向行业需求与趋势,Kafka、Flink、Druid、ClickHouse 等引擎随之而生,并获得了快速发展。快手有很多实时计算的场景,如模型实时训练与更新、数据实时分析/监控、日志实时传输等,其业务以及集群规模都非常巨大,对系统造成了很大的冲击,同时也提出了很大的挑战。本次分享将介绍我们在实时处理上所面临的挑战,以及为了应对这些挑战在存储引擎建设上的演进过程。

内容大纲

1. 快手实时处理链路主要场景,以及链路上 Kafka、Flink、ClickHouse 等系统面临的主要问题与挑战。

2. 快手的解决方案:

   1) Kafka 存储计算分离方案:Kafka On HDFS

  • Produce流程改进
  • Consume自动适配
  • Leader切换流程
  • 高可用性设计
  • 性能评测

   2) Flink 引擎状态存储分布式化方案:SlimBase      

  • 几个设计选择
  • HBase 改造方案
  • 性能评测

   3) ClickHouse  存储计算分离方案:ClickHouse  On HDFS

  • HDFSMergeTree
  • 读取性能改进
  • 扩容流程
  • 性能评测

3. 未来计划

听众收益

  • 了解大规模实时处理场景面临的主要问题与挑战;
  • 快手如何解决这些问题,以及我们在 Kafka、Flink、ClickHouse  等系统进行的技术改进和取得的收益。

by 杨华

T3 出行
大数据平台负责人

Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵化,加入孵化器大半年,发布第一个 Apache 版本后就快速被 AWS EMR 团队集成进 EMR 5.28.0 发布版,它也是 Amazon EMR 集成的开源项目里唯一一个还处于孵化阶段的项目。Hudi 在 Uber 从 2016 年开始研发到 2017 年上线生产环境,已构建远超 100 PB 的数据湖、单表 1000 个 Pipeline、每天处理 100TB 的数据规模。

本次分享我们将会对 Hudi 框架的功能、特性以及使用场景进行全面且系统地介绍。同时,我们将介绍 Hudi 在 T3 出行相关场景中的实践。Hudi 是一个包容且开放的社区,我们还将介绍社区正在进行中的 Hudi 与 Flink 计算引擎集成相关的工作。

听众收益

  • Apache Hudi 介绍;
  • 为什么 Hudi 是构建数据湖正确的选择;
  • Hudi 在 T3 出行的落地实践;
  • Hudi 社区的 RoadMap 以及跟 Flink 集成的进展。

适合人群

OLAP、数据仓库以及大数据计算、分析相关的从业人员。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方

InfoQ助你疫后复工,提升战力!全年会议门票最低5折起,立即查看>>

想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-17310043226