张慕华,百度基础架构部资深研发工程师,毕业于天津大学取得计算机硕士学位。毕业后加入百度。先后参与或者负责 HHVM 虚拟机、分布式计算、分布式调度、在离线混部等多个产品或系统的研发工作。
目前主要负责离线 PaaS 系统 Normandy、集群操作系统 Matrix、在离线混部系统千寻的技术和架构建设,专注于分布式架构、容器和调度等方向。
张慕华,百度基础架构部资深研发工程师,毕业于天津大学取得计算机硕士学位。毕业后加入百度。先后参与或者负责 HHVM 虚拟机、分布式计算、分布式调度、在离线混部等多个产品或系统的研发工作。
目前主要负责离线 PaaS 系统 Normandy、集群操作系统 Matrix、在离线混部系统千寻的技术和架构建设,专注于分布式架构、容器和调度等方向。
全球 IT 基础设施已经进入 Big Data 时代,逐渐迈向 AI 时代,产生了大规模的计算和存储资源需求。不同于在线服务,计算任务 CPU 资源和磁盘空间需求很大,且计算需求峰值通常出现在凌晨。另外随着业务的增长,数据中心资源体量越来越大,在线业务数据中心的 CPU 和磁盘利用率非常低。因此,将在线服务和离线任务混合混部到相同物理资源上,通过资源隔离、调度等控制手段 , 充分使用资源,同时保证服务的稳定性。我们称这样的技术为“混部”。
百度从 2012 年就开始尝试进入混部技术领域,研发并推广了代理计算(BVC/IDLE)系统。2015 年进行了大规模重构,演进成一套通用的在离线混部系统(千寻)。目前公司混部的整体技术迈向成熟,并在大搜索、Feed、凤巢等机器上实现了规模化运用。
本次主要介绍一下百度在在离线混部系统架构的演进和实践。