讲师介绍

专题演讲嘉宾：虞沐

趣头条大数据部技术总监

虞沐，James。2001 年安徽大学本科毕业后，先后在上海 HP 和 SAP 工作。2007 年赴美国硅谷工作，先后在 eBay，赛门铁克，三星从事分布式系统开发。2013 年开始从事大数据和公有云相关开发，先后在百度美国，xAd，和 Facebook，从事技术管理和架构师工作。2018 年底回到上海工作，在趣头条担任大数据技术总监，经历公司快速发展，带领团队自研开发多个大数据和机器学习平台。

议题介绍

地点：百宴厅4

所属专题：大数据分析的支撑技术

所属领域：
大数据

演讲：大数据在趣头条的演进：Kafka 读写分离、Hadoop 治理、机器学习平台

趣头条在 2018-2019 年经历了业务的高速发展，主 App 和其他创新 App 的日活增加了 10 倍以上。相应的，大数据系统和平台也从最初的 100 台机器，增加到2000 台以上，技术栈从单一的离线数据报表，发展到离线 + 实时 + 机器学习的完整系统。这个分享将从 3 个主要方面，阐述大数据系统的演进路线，和经验分享。

Kafka 读写分离背景：各业务部门数据消费方式的差异，经常导致 Kafka 集群节点的不稳定。解决方案：读写分离，第一层集群只负责接收数据，第二层集群按部门隔离，用 Flink 把数据从第一层集群同步到第二层。第一层集群前面还有个 Proxy 负责统一接收数据。这个方案参考了 Netflix 的设计。

Hadoop 治理背景：集群从 100 台增加到 1500 台，很多历史遗留问题，例如用户和权限管理的缺失，缺少 Federation 对于各部门的隔离，小文件，低价值数据的归档和删除，计算队列的利用率，阿里云 EMR 无法完全满足定制化的需求，客户机的管理混乱，等等。解决方案：自研 Hadoop 集群管理平台，基于 CDH 的源码二次开发，多 Federation + HA，按部门的存储和小文件上限管理，数据生命周期管理，元数据与数据全链路监控，用户权限管理。

机器学习平台背景：公司算法部门有多套训练平台，缺乏统一的资源管理，调度平台，特征仓库，等等。解决方案：所有训练集群统一到 K8S 管理（包括 CPU 和 GPU 资源），用 KubeFlow 管理任务调度，自研 K8S 任务调度模块提高集群资源利用率，开发特征管理仓库，开发模型管理仓库，用 K8S 管理线上预测服务，等等。

听众受益

1. 熟悉阿里云大数据平台，和其他公有云方案的差异，和应用场景；

2. 大数据系统快速增长过程中，如何保障稳定性，如何做技术选型；

3. 如何从 0 到 1，构建大规模数据系统平台；

4. 机器学习平台的构建，发挥 K8S 的作用，如何跟数据系统集成。

大数据在趣头条的演进：Kafka 读写分离、Hadoop 治理、机器学习平台

所属专题：大数据分析的支撑技术

所属领域： 大数据

嘉宾 : 虞沐 | 趣头条 大数据部技术总监

会议室 : 百宴厅4

讲师介绍

专题演讲嘉宾：虞沐

趣头条 大数据部技术总监

议题介绍

地点：百宴厅4

所属专题：大数据分析的支撑技术

所属领域： 大数据

演讲：大数据在趣头条的演进：Kafka 读写分离、Hadoop 治理、机器学习平台

听众受益

本专题下其他演讲

李潇

Databricks

Engineering Manager

郭俊

字节跳动

数据仓库架构负责人

周家英

蚂蚁金服

资深技术专家

李玥

MemVerge

联合创始人、首席技术官

邵赛赛

腾讯

数据平台部数据湖内核技术负责人

斯文骏

阿里巴巴

技术专家

史栋杰

英特尔

资深软件架构师

关注主办方（InfoQ）

联系我们

交通指南

全球QCon大会2019

伦敦/3月4-8日

北京/5月6-8日

圣保罗/5月6-8日

广州/5月27-28日

纽约/6月24-28日

上海/10月17-19日

旧金山/11月11-15日

所属领域：大数据

嘉宾 : 虞沐 | 趣头条大数据部技术总监

趣头条大数据部技术总监

所属领域：
大数据