调度系统的应用可以追溯到 20 世纪 70 年代分时系统的进程调度上。之后随着大... 展开 >
赵健博,大数据领域专家,快手大数据架构团队的负责人,目前负责快手公司 Hadoop 生态中存储、调度、计算、AI 架构等子系统内核与周边子系统的研发,与在公司内的应用。2009 年毕业于中国科学院计算所,曾就职于百度、奇虎360、58集团。主要研究领域包括分布式计算、调度与存储系统等。
调度系统的应用可以追溯到 20 世纪 70 年代分时系统的进程调度上。之后随着大规模集成电路工艺技术、计算机网络技术以及人工智能技术的飞跃发展,调度系统在多个技术与业务领域中得到了非常广泛地应用。在分布式资源调度管理领域,YARN 和 K8s 已经有了很大的发展,此外,新兴开源项目 YuniKorn,尝试用一个通用资源调度器,同时支持无状态批处理任务以及状态服务的混合调度。在工作流调度系统领域,各大互联网公司都自研了面向公司需求的工作流调度系统,其能力与性能相比于开源项目,如 Airflow、Azkaban、Oozie 等,都有极大的提升。在配送、打车业务场景下,如何匹配骑手与订单,如何匹配乘客与司机才更高效,帮助公司获取更大利润。在 CDN 流量调度业务场景下,如何对流量进行调度,才能获取更好的用户体验,帮助公司获取更多的用户与粘性。这些都是特定的业务场景下,求解关于有限资源的智能调度的方案。本专题将邀请一线互联网公司专家分享相关业务与技术场景下,调度系统应用的案例与技术实践。
以快手为代表的短视频平台所延伸出的直播生态成为内容平台的新增量,它为更多用户提供了看见、分享多样生活的可能性,为公会、主播、普通人提供了新的变现渠道。作为 DAU 已超过 1 亿的直播生态服务平台,我们需要持续监测线上内容分发质量,解决故障和质差问题给用户带来的体验问题,这里给大家介绍的是我们如何基于 Flink 构建实时稳定的计算服务,通过专业的 QoS 和 QoE 实验和分析方法,实现线上 CDN 流量的实时调度,不断改善用户体验,为每个普通人提供专业稳定的直播开播和观看服务。
随着 AI 的广泛应用,越来越多的业务会使用各种深度学习模型,而复杂网络带来的计算复杂度往往需要通过 GPU/NPU 来解决。跟传统的 CPU 计算不一样,GPU/NPU 的算力发挥通常需要做模型加速/优化,常用的手段包括剪枝、量化和定制化 OP 等等,这些手段往往是硬件相关的。
在云原生时代,这种硬件相关性给模型的构建和运维交付带来新的挑战,对于一个模型服务,难以做到传统的 Build Once Run Anywhere。而与此同时,不仅英伟达这种传统厂商在不断发布新 GPU,阿里巴巴也开始发力 AI 芯片,硬件的种类日趋丰富。
随着新硬件的推出,老硬件通常会出现停产,这意味着已有服务的水平伸缩会逐渐受限,这种情况显然是无法接受的。这里给大家介绍阿里巴巴内容安全中台的核心系统:异构服务调度平台 Fission,通过这个平台,我们在全球多个区域部署数百个模型服务,调度数千张 GPU/NPU,每天提供数十亿推理服务,而且不仅服务阿里内部众多生态公司,还通过阿里云给诸多知名互联网企业提供内容安全服务。
字节跳动做为一个数据驱动的公司,一直致力于让数据更高效地服务于各个业务。随着业务的不断发展,字节跳动在大数据任务开发和调度方面遇到了很多挑战。为此开发了“大数据开发和调度平台“,可以快速完成数据集成、开发、调度和运维等全套研发工作。面对公司的业务复杂性以及任务量,完成秒级延迟、复杂依赖关系的任务调度有很大的挑战。本次分享将介绍调度平台整体系统架构、大任务量高可用低延时需求带来的挑战以及实践中的经验总结。
1. 任务开发调度的背景
2. 调度系统架构解析以及现状
3. 实践中的挑战、解决方案和思考
4. 未来规划
架构师、数据开发平台工作者、对高可用调度系统有兴趣人员。
典型的机器学习流程可分为数据特征处理、模型训练与调参、部署预测服务等几个环节,同时与大数据业务密切相关。为了实现统一的资源视图和管理,美团点评选择以 Yarn 作为资源调度系统,覆盖机器学习流程的所有环节,实现 CPU 与 GPU 资源的统一调度,目前规模已达到上万台 CPU 机器和上千张 GPU 卡。
机器学习作业相比数仓作业有明显不同的特点。在训练环节,作业对 CPU 指令集、GPU 驱动版本等基础环境有很强的依赖,训练参数的设置与 GPU 硬件型号强相关。单个作业的执行时长从几分钟到几十天不等,但作业的容错和伸缩能力普遍不足。在预测环节,作业需要更高的可用性保障,以及稳定可预期的响应性能,同时请求量的时间分布呈现出明显的波峰波谷特征。
Yarn 原有调度策略不能很好地适应上述特点的作业,需要做针对性的改进。本次演讲会从机器学习各环节的作业特点分析出发,针对各种特点给出对应的改进策略,包括更丰富的调度语义实现、更多维度的 GPU 资源概念、更强的资源隔离能力以及弹性抢占策略等。本次演讲将介绍美团点评在机器学习训练场景下对 Yarn 的改进,为 Yarn 支持更多应用场景的调度需求带来更多思考。
1. 机器学习作业的资源需求与资源使用特征
2. 机器学习训练场景下基于 Yarn 的调度优化
3. 目前在美团点评公司内部使用情况