陈超,七牛云技术总监,国内 Spark 领域首席布道专家,Spark Summit China 终身主席,专注于大规模分布式计算与机器学习领域。全面负责七牛大数据产品的设计与研发,近年来一直专注于分布式计算与机器学习等领域,参与了多个知名开源项目,并且有非常丰富的分布式系统设计与实现经验,在分布式数据库方面也有深入研究。
Pandora 是七牛自研的一套大数据平台, 目前每天有超过 200T 的增量数据进入 Pandora,每天参与计算的数据量超过 2P。 全平台基于 Go + Scala 语言编写,定制了多个开源项目,基于 Kafka 自研了数据流入、导出以及多集群处理等多个关键组件。本次分享将深度揭秘七牛大数据平台的技术选型,组件设计、系统调优及架构演进。此外在演进过程中我们也遇到了不少的“坑”,分享中会给出对应的解决方案,作为本次分享的亮点。