大规模异构服务调度平台实践

所属专题:调度系统实践

嘉宾 : 邓锦添 | 阿里巴巴高级技术专家

会议室 : 307

讲师介绍

专题演讲嘉宾:邓锦添

阿里巴巴高级技术专家

邓锦添,AI 基础架构高级技术专家。2011 年加入阿里巴巴,长期从事多媒体安全防控相关工作。从零搭建多媒体防控中心 insight,不仅为集团高速增长的业务提供了有力的保障,同时给阿里云上的数百家企业提供服务。 在容器化技术、多媒体处理和高性能计算方面有比较丰富的经验。 本科毕业于南京大学计算机系,硕士期间在香港浸会大学从事数据库相关研究,研究成果发表于 CIKM/TKDE 等知名期刊。 

议题介绍

演讲:大规模异构服务调度平台实践

随着 AI 的广泛应用,越来越多的业务会使用各种深度学习模型,而复杂网络带来的计算复杂度往往需要通过 GPU/NPU 来解决。跟传统的 CPU 计算不一样,GPU/NPU 的算力发挥通常需要做模型加速/优化,常用的手段包括剪枝、量化和定制化 OP 等等,这些手段往往是硬件相关的。

在云原生时代,这种硬件相关性给模型的构建和运维交付带来新的挑战,对于一个模型服务,难以做到传统的 Build Once Run Anywhere。而与此同时,不仅英伟达这种传统厂商在不断发布新 GPU,阿里巴巴也开始发力 AI 芯片,硬件的种类日趋丰富。

随着新硬件的推出,老硬件通常会出现停产,这意味着已有服务的水平伸缩会逐渐受限,这种情况显然是无法接受的。这里给大家介绍阿里巴巴内容安全中台的核心系统:异构服务调度平台 Fission,通过这个平台,我们在全球多个区域部署数百个模型服务,调度数千张 GPU/NPU,每天提供数十亿推理服务,而且不仅服务阿里内部众多生态公司,还通过阿里云给诸多知名互联网企业提供内容安全服务。

听众受益

  1. 了解异构服务调度的背景和问题
  2. 了解阿里巴巴在异构服务调度上的实践经验

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226