大数据技术经过最近 10 年来的快速发展,已经渗透到各行各业,数据的爆发式增长对... 展开 >
王峰,花名“莫问”,2006 年硕士毕业后加入阿里巴巴集团,前期从事搜索引擎技术研发,2009 年开始转向大数据技术方向,目前在计算平台事业部担任资深技术专家,负责实时计算团队。阿里巴巴实时计算团队围绕 Apache Flink 打造的实时计算平台:Blink,不仅服务于阿里巴巴集团(淘宝、天猫、聚划算、高德、优酷、飞猪和菜鸟等)所有数据业务,同时也在阿里云上为广大中小企业提供全球领先的实时计算云产品服务。
大数据技术经过最近 10 年来的快速发展,已经渗透到各行各业,数据的爆发式增长对海量数据处理能力带来了挑战,与此同时用户对海量数据的时效性需求也越来越强,用户已经不再满足 T+1 的数据报表,更希望能实时看到大数据带来的价值,从而能在第一时间对业务发展做出判断和决策,例如:电商大促和金融风控等场景,延迟的数据分析结果已经失去了价值和意义。
为了应对大数据高时效性的发展需求,很多实时计算和在线交互式数据分析技术应运而生,包括 Flink,Spark,Presto,Druid,Clickhouse,Delta,Hudi 和 Iceberg 等,甚至有些新技术已经开始走向在离线融合数据分析方向,利用一套技术完整的提供实时和离线数据分析方案,在本专题中我们将邀请国内外一线互联网企业的多位技术专家为大家分享新的实时计算和数据分析技术发展趋势,并通过大量真实生产实践案例给大家带来新的启发。
对海量数据进行实时查询是 Twitter 一直以来面对的技术挑战,为了提高大数据系统的性能,部署规模,和信息安全,Twitter 大数据团队对 Presto 和 Druid 进行了大量的改进与优化,包括 Presto Druid Connector、Aggregation and Predicate Pushdown、LDAP 为基础的数据授权和安全保护、Druid Native Indexing以及利用缓存对 Druid 性能的提升。本次分享会讨论系统设计和技术实现,以及 Twitter 在实践中遇到的经验和教训。
对大数据感兴趣的技术人员,产品经理,数据分析师。
如何从大量的事件中快速有效地分析数据,对决策能够起到至关重要的影响。Druid 是目前比较流行的开源 OLAP 引擎之一,国内外的很多公司都在使用。一方面,Druid 的数据导入即可实时查询,很好的满足了数据实时性需求;另一方面,在数据达到一定规模后,集群的稳定性、数据摄入性能和查询延迟都成为瓶颈。本次分享会介绍字节跳动在大规模数据场景下如何管理和优化 Druid,满足在字节跳动的需求。
最好对 Druid 或者相关 OLAP 系统有一定了解。
数据湖已经成为各个公司的标配,为了更好地帮助 Flink 用户无缝对接数据湖场景,我们联合 Apache Iceberg 社区正积极地推动 Flink 实时数据湖技术方案的落地。
1. 为什么选择Apache Iceberg作为Apache Flink的开源数据湖技术方案
2. Flink+Iceberg 实时数据湖的核心场景及应用价值
3. 为了落地 Flink+Iceberg 数据湖技术方案,我们在 Apache Iceberg 社区所做的一些工作
对实时数仓和数据湖比较感兴趣的人群,最好有一些批处流处理的了解。
Apache Ozone 是 Hadoop 社区最近两年新崛起的大数据存储项目,提供数据强一致性的分布式对象存储服务,以及在此基础上兼容 Hadoop 文件系统接口的文件服务,旨在解决 HDFS NN 扩展性上限问题,和提供大数据生态原生的对象存储实现。本次主题将主要介绍 Ozone 的构架和功能,分享 Ozone 和 Iceberg 相结合的一些实践经验。
1. Hadoop 社区为什么要发起一个全新的存储项目?Ozone 的架构是怎么样的?
2. Ozone 有哪些主要的功能?除了大数据场景,能用在云原生的 Kubernetes 生态吗?
3. 目前在实时数仓和数据湖中,涌现出全新的表格式 Databricks Delta、Apache Iceberg 和 Apache Hudi。作为数据最终的存储,Ozone 能否无缝对接新兴的表格式?以 Iceberg 为例,在此分享一些探索和实践的经验。
海量数据分析正在从离线走向实时,面向行业需求与趋势,Kafka、Flink、Druid、ClickHouse 等引擎随之而生,并获得了快速发展。快手有很多实时计算的场景,如模型实时训练与更新、数据实时分析/监控、日志实时传输等,其业务以及集群规模都非常巨大,对系统造成了很大的冲击,同时也提出了很大的挑战。本次分享将介绍我们在实时处理上所面临的挑战,以及为了应对这些挑战在存储引擎建设上的演进过程。
1. 快手实时处理链路主要场景,以及链路上 Kafka、Flink、ClickHouse 等系统面临的主要问题与挑战
2. 快手的解决方案
1) Kafka 存储计算分离方案:Kafka On HDFS
2) Flink 引擎状态存储分布式化方案:SlimBase
3) ClickHouse 存储计算分离方案:ClickHouse On HDFS
3. 未来计划
Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵化,加入孵化器大半年,发布第一个 Apache 版本后就快速被 AWS EMR 团队集成进 EMR 5.28.0 发布版,它也是 Amazon EMR 集成的开源项目里唯一一个还处于孵化阶段的项目。Hudi 在 Uber 从 2016 年开始研发到 2017 年上线生产环境,已构建远超 100 PB 的数据湖、单表 1000 个 Pipeline、每天处理 100TB 的数据规模。
本次分享我们将会对 Hudi 框架的功能、特性以及使用场景进行全面且系统地介绍。同时,我们将介绍 Hudi 在 T3 出行相关场景中的实践。Hudi 是一个包容且开放的社区,我们还将介绍社区正在进行中的 Hudi 与 Flink 计算引擎集成相关的工作。
OLAP、数据仓库以及大数据计算、分析相关的从业人员。
网络安全态势越来越复杂,传统的基于单点的防护和攻击检测系统在应对现代网络攻击方面有着很大的局限性。基于大数据平台,通过流式实时分析技术可以对全局网络空间进行实时的分析和异常检测,解决单点很难发现和处理的安全问题。
相比与互联网公司常见的大数据实时分析场景,面向企业用户的网络安全分析场景存在很多特殊需求和挑战,本次分享将介绍网络安全领域对实时分析系统的需求,并从这些需求出发,讲解如何设计适合网络安全领域的实时分析引擎,希望为业界解决类似问题提供参考和借鉴。
1、网络安全领域对实时监测系统的需求
2、如何选择一个适合网络安全场景的实时计算框架
3、如何设计网络安全领域的实时分析引擎
1. 了解如何基于 Flink 构造网络安全领域的实时分析引擎;
2. 了解实时网络安全分析引擎的架构和设计;
3. 了解构建实时网络安全分析引擎遇到的问题和解决方案。