实时数据分析

会议室:待定
出品人:王峰(莫问)

大数据技术经过最近 10 年来的快速发展,已经渗透到各行各业,数据的爆发式增长对... 展开 >

专题出品人:王峰(莫问)

阿里巴巴计算平台事业部资深技术专家

王峰,花名“莫问”,2006 年硕士毕业后加入阿里巴巴集团,前期从事搜索引擎技术研发,2009 年开始转向大数据技术方向,目前在计算平台事业部担任资深技术专家,负责实时计算团队。阿里巴巴实时计算团队围绕 Apache Flink 打造的实时计算平台:Blink,不仅服务于阿里巴巴集团(淘宝、天猫、聚划算、高德、优酷、飞猪和菜鸟等)所有数据业务,同时也在阿里云上为广大中小企业提供全球领先的实时计算云产品服务。

专题:实时数据分析

大数据技术经过最近 10 年来的快速发展,已经渗透到各行各业,数据的爆发式增长对海量数据处理能力带来了挑战,与此同时用户对海量数据的时效性需求也越来越强,用户已经不再满足 T+1 的数据报表,更希望能实时看到大数据带来的价值,从而能在第一时间对业务发展做出判断和决策,例如:电商大促和金融风控等场景,延迟的数据分析结果已经失去了价值和意义。

为了应对大数据高时效性的发展需求,很多实时计算和在线交互式数据分析技术应运而生,包括 Flink,Spark,Presto,Druid,Clickhouse,Delta,Hudi 和 Iceberg 等,甚至有些新技术已经开始走向在离线融合数据分析方向,利用一套技术完整的提供实时和离线数据分析方案,在本专题中我们将邀请国内外一线互联网企业的多位技术专家为大家分享新的实时计算和数据分析技术发展趋势,并通过大量真实生产实践案例给大家带来新的启发。

by 杨华

T3 出行
大数据平台负责人

Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵化,加入孵化器大半年,发布第一个 Apache 版本后就快速被 AWS EMR 团队集成进 EMR 5.28.0 发布版,它也是 Amazon EMR 集成的开源项目里唯一一个还处于孵化阶段的项目。Hudi 在 Uber 从 2016 年开始研发到 2017 年上线生产环境,已构建超过 10PB 的数据湖、单表 1000 个 Pipeline、每天处理 100TB 的数据规模。

本次分享我们将会对 Hudi 框架的功能、特性以及使用场景进行全面且系统地介绍。同时,我们将介绍 Hudi 在 T3 出行相关场景中的实践。Hudi 是一个包容且开放的社区,我们还将介绍社区正在进行中的 Hudi 与 Flink 计算引擎集成相关的工作。

听众收益

  • Apache Hudi 介绍;
  • 为什么 Hudi 是构建数据湖正确的选择;
  • Hudi 在 T3 出行的落地实践;
  • Hudi 社区的 RoadMap 以及跟 Flink 集成的进展。

适合人群

OLAP、数据仓库以及大数据计算、分析相关的从业人员。

by 罗震霄

Twitter
Sr. Staff Engineer

对海量数据进行实时查询是 Twitter 一直以来面对的技术挑战,为了提高大数据系统的性能,部署规模,和信息安全,Twitter 大数据团队对 Presto 和 Druid 进行了大量的改进与优化,包括 Presto Druid Connector、Aggregation and Predicate Pushdown、LDAP 为基础的数据授权和安全保护、Druid Native Indexing以及利用缓存对 Druid 性能的提升。本次分享会讨论系统设计和技术实现,以及 Twitter 在实践中遇到的经验和教训。 

适合人群

对大数据感兴趣的技术人员,产品经理,数据分析师。

by 黄辉

字节跳动
高级研发工程师

by 张云帆

字节跳动
高级研发工程师

如何从大量的事件中快速有效地分析数据,对决策能够起到至关重要的影响。Druid 是目前比较流行的开源 OLAP 引擎之一,国内外的很多公司都在使用。一方面,Druid 的数据导入即可实时查询,很好的满足了数据实时性需求;另一方面,在数据达到一定规模后,集群的稳定性、数据摄入性能和查询延迟都成为瓶颈。本次分享会介绍字节跳动在大规模数据场景下如何管理和优化 Druid,满足在字节跳动的需求。

内容大纲

  1. Druid 性能优化,主要包括实时数据摄入优化、查询性能优化、GC 方面的优化以及社区贡献的一些 patch;
  2. 字节跳动如何管理大规模 Druid 集群:包括集群日常部署运维、元数据治理、集群稳定性建设等; 
  3. 承接的业务场景介绍,主要介绍字节跳动使用 Druid 都处理哪些业务需求,以及遇到的问题和解决思路;
  4. Druid 实时物化视图的设计与实现,包括:物化视图在线构建 & 离线回溯、broker 查询替换、KIS publish 策略优化等 ;
  5. Druid 实时物化视图方案在字节跳动的实践,包括:在广告系统 AB Test 场景下大幅提升实时查询性能、如何解决数据倾斜和避免物化视图膨胀等。


听众受益

  • 了解 Druid 在近千台机器规模时运维 & 管理的挑战;
  • 了解 Druid 在字节跳动的业务场景;
  • 了解字节跳动为满足大规模数据场景下对 Druid 所做的一些优化以及实践。

适合人群

最好对 Druid 或者相关 OLAP 系统有一定了解。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-17310043226