硕士毕业于北京邮电大学,2016 年加入美团点评。主要从事 Apache Mapreduce 引擎优化、Apache Yarn 调度性能与资源隔离的改进。参与了 Yarn 单集群规模从数百台至万台机器规模的技术演进与运维管理;参与了 Cgroup CPU 与内存等资源隔离技术的改进;目前主要负责机器学习场景下的资源调度优化功能,提升整体 GPU 资源使用率。
硕士毕业于北京邮电大学,2016 年加入美团点评。主要从事 Apache Mapreduce 引擎优化、Apache Yarn 调度性能与资源隔离的改进。参与了 Yarn 单集群规模从数百台至万台机器规模的技术演进与运维管理;参与了 Cgroup CPU 与内存等资源隔离技术的改进;目前主要负责机器学习场景下的资源调度优化功能,提升整体 GPU 资源使用率。
典型的机器学习流程可分为数据特征处理、模型训练与调参、部署预测服务等几个环节,同时与大数据业务密切相关。为了实现统一的资源视图和管理,美团点评选择以 Yarn 作为资源调度系统,覆盖机器学习流程的所有环节,实现 CPU 与 GPU 资源的统一调度,目前规模已达到上万台 CPU 机器和上千张 GPU 卡。
机器学习作业相比数仓作业有明显不同的特点。在训练环节,作业对 CPU 指令集、GPU 驱动版本等基础环境有很强的依赖,训练参数的设置与 GPU 硬件型号强相关。单个作业的执行时长从几分钟到几十天不等,但作业的容错和伸缩能力普遍不足。在预测环节,作业需要更高的可用性保障,以及稳定可预期的响应性能,同时请求量的时间分布呈现出明显的波峰波谷特征。
Yarn 原有调度策略不能很好地适应上述特点的作业,需要做针对性的改进。本次演讲会从机器学习各环节的作业特点分析出发,针对各种特点给出对应的改进策略,包括更丰富的调度语义实现、更多维度的 GPU 资源概念、更强的资源隔离能力以及弹性抢占策略等。本次演讲将介绍美团点评在机器学习训练场景下对 Yarn 的改进,为 Yarn 支持更多应用场景的调度需求带来更多思考。
1. 机器学习作业的资源需求与资源使用特征
2. 机器学习训练场景下基于 Yarn 的调度优化
3. 目前在美团点评公司内部使用情况