虞沐,James。2001 年安徽大学本科毕业后,先后在上海 HP 和 SAP 工作。2007 年赴美国硅谷工作,先后在 eBay,赛门铁克,三星从事分布式系统开发。2013 年开始从事大数据和公有云相关开发,先后在百度美国,xAd,和 Facebook,从事技术管理和架构师工作。2018 年底回到上海工作,在趣头条担任大数据技术总监,经历公司快速发展,带领团队自研开发多个大数据和机器学习平台。
虞沐,James。2001 年安徽大学本科毕业后,先后在上海 HP 和 SAP 工作。2007 年赴美国硅谷工作,先后在 eBay,赛门铁克,三星从事分布式系统开发。2013 年开始从事大数据和公有云相关开发,先后在百度美国,xAd,和 Facebook,从事技术管理和架构师工作。2018 年底回到上海工作,在趣头条担任大数据技术总监,经历公司快速发展,带领团队自研开发多个大数据和机器学习平台。
趣头条在 2018-2019 年经历了业务的高速发展,主 App 和其他创新 App 的日活增加了 10 倍以上。相应的,大数据系统和平台也从最初的 100 台机器,增加到2000 台以上,技术栈从单一的离线数据报表,发展到离线 + 实时 + 机器学习的完整系统。这个分享将从 3 个主要方面,阐述大数据系统的演进路线,和经验分享。
Kafka 读写分离背景:各业务部门数据消费方式的差异,经常导致 Kafka 集群节点的不稳定。 解决方案:读写分离,第一层集群只负责接收数据,第二层集群按部门隔离,用 Flink 把数据从第一层集群同步到第二层。第一层集群前面还有个 Proxy 负责统一接收数据。这个方案参考了 Netflix 的设计。
Hadoop 治理背景:集群从 100 台增加到 1500 台,很多历史遗留问题,例如用户和权限管理的缺失,缺少 Federation 对于各部门的隔离,小文件,低价值数据的归档和删除,计算队列的利用率,阿里云 EMR 无法完全满足定制化的需求,客户机的管理混乱,等等。 解决方案:自研 Hadoop 集群管理平台,基于 CDH 的源码二次开发,多 Federation + HA,按部门的存储和小文件上限管理,数据生命周期管理,元数据与数据全链路监控,用户权限管理。
机器学习平台背景:公司算法部门有多套训练平台,缺乏统一的资源管理,调度平台,特征仓库,等等。 解决方案:所有训练集群统一到 K8S 管理(包括 CPU 和 GPU 资源),用 KubeFlow 管理任务调度,自研 K8S 任务调度模块提高集群资源利用率,开发特征管理仓库,开发模型管理仓库,用 K8S 管理线上预测服务,等等。
1. 熟悉阿里云大数据平台,和其他公有云方案的差异,和应用场景;
2. 大数据系统快速增长过程中,如何保障稳定性,如何做技术选型;
3. 如何从 0 到 1,构建大规模数据系统平台;
4. 机器学习平台的构建,发挥 K8S 的作用,如何跟数据系统集成。