快手实时处理系统存储架构演进之路

所属专题:实时数据分析

嘉宾 : 丁定华 | 快手大数据架构团队分布式存储方向负责人

讲师介绍

专题演讲嘉宾:丁定华

快手大数据架构团队分布式存储方向负责人

快手大数据架构分布式存储方向负责人,2009 年硕士毕业于中国科学院计算技术研究所,11 年存储领域系统研发经验, 熟悉 Linux 内核存储栈和分布式存储相关技术,先后在中国科学院计算技术研究所、360、快手从事内核文件系统、集群文件系统和 Ceph、HDFS 等分布式存储系统的研发与应用工作。

议题介绍

演讲:快手实时处理系统存储架构演进之路

海量数据分析正在从离线走向实时,面向行业需求与趋势,Kafka、Flink、Druid、ClickHouse 等引擎随之而生,并获得了快速发展。快手有很多实时计算的场景,如模型实时训练与更新、数据实时分析/监控、日志实时传输等,其业务以及集群规模都非常巨大,对系统造成了很大的冲击,同时也提出了很大的挑战。本次分享将介绍我们在实时处理上所面临的挑战,以及为了应对这些挑战在存储引擎建设上的演进过程。

内容大纲

1. 快手实时处理链路主要场景,以及链路上 Kafka、Flink、ClickHouse 等系统面临的主要问题与挑战。

2. 快手的解决方案:

   1) Kafka 存储计算分离方案:Kafka On HDFS

  • Produce流程改进
  • Consume自动适配
  • Leader切换流程
  • 高可用性设计
  • 性能评测

   2) Flink 引擎状态存储分布式化方案:SlimBase      

  • 几个设计选择
  • HBase 改造方案
  • 性能评测

   3) ClickHouse  存储计算分离方案:ClickHouse  On HDFS

  • HDFSMergeTree
  • 读取性能改进
  • 扩容流程
  • 性能评测

3. 未来计划

听众收益

  • 了解大规模实时处理场景面临的主要问题与挑战;
  • 快手如何解决这些问题,以及我们在 Kafka、Flink、ClickHouse  等系统进行的技术改进和取得的收益。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-17310043226