面向机器学习场景的资源调度实践

所属专题：调度系统实践

嘉宾 : 李晓鹏 | 美团点评资深软件工程师

会议室 : 307

讲师介绍

专题演讲嘉宾：李晓鹏

美团点评资深软件工程师

硕士毕业于北京邮电大学，2016 年加入美团点评。主要从事 Apache Mapreduce 引擎优化、Apache Yarn 调度性能与资源隔离的改进。参与了 Yarn 单集群规模从数百台至万台机器规模的技术演进与运维管理；参与了 Cgroup CPU 与内存等资源隔离技术的改进；目前主要负责机器学习场景下的资源调度优化功能，提升整体 GPU 资源使用率。

议题介绍

地点：307

所属专题：调度系统实践

演讲：面向机器学习场景的资源调度实践

典型的机器学习流程可分为数据特征处理、模型训练与调参、部署预测服务等几个环节，同时与大数据业务密切相关。为了实现统一的资源视图和管理，美团点评选择以 Yarn 作为资源调度系统，覆盖机器学习流程的所有环节，实现 CPU 与 GPU 资源的统一调度，目前规模已达到上万台 CPU 机器和上千张 GPU 卡。

机器学习作业相比数仓作业有明显不同的特点。在训练环节，作业对 CPU 指令集、GPU 驱动版本等基础环境有很强的依赖，训练参数的设置与 GPU 硬件型号强相关。单个作业的执行时长从几分钟到几十天不等，但作业的容错和伸缩能力普遍不足。在预测环节，作业需要更高的可用性保障，以及稳定可预期的响应性能，同时请求量的时间分布呈现出明显的波峰波谷特征。

Yarn 原有调度策略不能很好地适应上述特点的作业，需要做针对性的改进。本次演讲会从机器学习各环节的作业特点分析出发，针对各种特点给出对应的改进策略，包括更丰富的调度语义实现、更多维度的 GPU 资源概念、更强的资源隔离能力以及弹性抢占策略等。本次演讲将介绍美团点评在机器学习训练场景下对 Yarn 的改进，为 Yarn 支持更多应用场景的调度需求带来更多思考。