高性能网络通信框架释放 AI 算力的实践

所属专题:人工智能应用与实践

所属领域: 人工智能

嘉宾 : 刘一鸣 | 第四范式基础架构负责人

会议室 : 宴会厅1

讲师介绍

专题演讲嘉宾:刘一鸣

第四范式 基础架构负责人

刘一鸣,2012 级上海交通大学 ACM 班成员,现就职于第四范式,任基础架构负责人,是第四范式先知平台独有的大规模分布式机器学习框架 GDBT 的设计者 ,现在专注于机器学习系统的高性能计算和软硬一体优化,主导落地了分布式大规模参数服务器和 RDMA 网络框架。主要领域为机器学习分布式系统设计及高性能优化。

议题介绍

地点:宴会厅1
所属专题:人工智能应用与实践
所属领域:
人工智能

演讲:高性能网络通信框架释放 AI 算力的实践

相比于 MapReduce 等传统数据处理做法,大规模分布式 AI 场景下的网络通信面临着不一样的挑战。对于处理大规模离散特征的算法,如逻辑回归(LR),消息吞吐量将直接影响到整个训练任务的性能。对于处理稠密特征的深度学习算法或者是树模型(GBDT),网络延迟很容易成为性能瓶颈。 不同的 AI 算法面临不一样的性能瓶颈,我们设计了自己的 RPC 框架——PRPC,以求能在多变的 AI 场景下,都能实现优秀的性能。 通过 Zerocopy 和自研事件调度系统降低通信延迟;通过 RDMA 技术优化机器学习离线训练和线上预估。PRPC 的定位是尽可能的适应不同的机器学习的场景,最大化分布式计算的性能,所以我们让他与应用层进行了适当的耦合,从而使的整个过程都是 Zerocopy 的,同时上层算法也尽可能进行原地计算,使的整个机器学习任务的性能达到极致。 对于 LR 算法和 GBDT 算法,RDMA 模式下的 PRPC 有数倍性能提升。与 ZMQ,BPRC 和 GRPC 对比 PRPC 在大部分机器学习场景下有较大性能优势。 

听众受益

  1. 了解大规模分布式机器学习场景下不同算法的性能瓶颈和解决思路;
  2. 高性能组件 RDMA 在大规模分布式机器学习场景下的应用和网络性能优化经验;
  3. RPC 的接口设计以及 Linux 事件调度的优化。  

交通指南

© 2019 Baidu - GS(2018)5572号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226