面向机器学习场景的资源调度实践

所属专题:调度系统实践

嘉宾 : 李晓鹏 | 美团点评资深软件工程师

会议室 : 307

讲师介绍

专题演讲嘉宾:李晓鹏

美团点评资深软件工程师

硕士毕业于北京邮电大学,2016 年加入美团点评。主要从事 Apache Mapreduce 引擎优化、Apache Yarn 调度性能与资源隔离的改进。参与了 Yarn 单集群规模从数百台至万台机器规模的技术演进与运维管理;参与了 Cgroup CPU 与内存等资源隔离技术的改进;目前主要负责机器学习场景下的资源调度优化功能,提升整体 GPU 资源使用率。

议题介绍

演讲:面向机器学习场景的资源调度实践

典型的机器学习流程可分为数据特征处理、模型训练与调参、部署预测服务等几个环节,同时与大数据业务密切相关。为了实现统一的资源视图和管理,美团点评选择以 Yarn 作为资源调度系统,覆盖机器学习流程的所有环节,实现 CPU 与 GPU 资源的统一调度,目前规模已达到上万台 CPU 机器和上千张 GPU 卡。

机器学习作业相比数仓作业有明显不同的特点。在训练环节,作业对 CPU 指令集、GPU 驱动版本等基础环境有很强的依赖,训练参数的设置与 GPU 硬件型号强相关。单个作业的执行时长从几分钟到几十天不等,但作业的容错和伸缩能力普遍不足。在预测环节,作业需要更高的可用性保障,以及稳定可预期的响应性能,同时请求量的时间分布呈现出明显的波峰波谷特征。

Yarn 原有调度策略不能很好地适应上述特点的作业,需要做针对性的改进。本次演讲会从机器学习各环节的作业特点分析出发,针对各种特点给出对应的改进策略,包括更丰富的调度语义实现、更多维度的 GPU 资源概念、更强的资源隔离能力以及弹性抢占策略等。本次演讲将介绍美团点评在机器学习训练场景下对 Yarn 的改进,为 Yarn 支持更多应用场景的调度需求带来更多思考。

内容大纲

1. 机器学习作业的资源需求与资源使用特征

  • 机器学习作业依赖的环境复杂
  • 机器学习作业需要更丰富的调度语义
  • 资源申请方式与离线作业有所区别

2. 机器学习训练场景下基于 Yarn 的调度优化

  • Placement Constraints 与 Node Attributes 的应用与改造
  • 基于多维度资源的显存调度策略
  • Gang Schedule 的调度与弹性抢占策略

3. 目前在美团点评公司内部使用情况

  • 改进后的 Yarn 在训练场景下的实际应用效果
  • 未来支持的功能展望

听众受益

  • 了解机器学习作业的资源需求与资源使用特征;
  • 了解 Yarn 目前在支持机器学习作业场景下关键的进展;
  • 了解美团点评在机器学习场景下对 Yarn 的调度优化改进与实践。

适合人群

  • 机器学习平台开发工程师与 Hadoop 开发工程师;
  • 有大型分布式资源调度系统的架构设计与运维经验的工程师。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226