刘一鸣,2012 级上海交通大学 ACM 班成员,现就职于第四范式,任基础架构负责人,是第四范式先知平台独有的大规模分布式机器学习框架 GDBT 的设计者 ,现在专注于机器学习系统的高性能计算和软硬一体优化,主导落地了分布式大规模参数服务器和 RDMA 网络框架。主要领域为机器学习分布式系统设计及高性能优化。
刘一鸣,2012 级上海交通大学 ACM 班成员,现就职于第四范式,任基础架构负责人,是第四范式先知平台独有的大规模分布式机器学习框架 GDBT 的设计者 ,现在专注于机器学习系统的高性能计算和软硬一体优化,主导落地了分布式大规模参数服务器和 RDMA 网络框架。主要领域为机器学习分布式系统设计及高性能优化。
相比于 MapReduce 等传统数据处理做法,大规模分布式 AI 场景下的网络通信面临着不一样的挑战。对于处理大规模离散特征的算法,如逻辑回归(LR),消息吞吐量将直接影响到整个训练任务的性能。对于处理稠密特征的深度学习算法或者是树模型(GBDT),网络延迟很容易成为性能瓶颈。 不同的 AI 算法面临不一样的性能瓶颈,我们设计了自己的 RPC 框架——PRPC,以求能在多变的 AI 场景下,都能实现优秀的性能。 通过 Zerocopy 和自研事件调度系统降低通信延迟;通过 RDMA 技术优化机器学习离线训练和线上预估。PRPC 的定位是尽可能的适应不同的机器学习的场景,提升分布式计算的性能,所以我们让他与应用层进行了适当的耦合,从而使的整个过程都是 Zerocopy 的,同时上层算法也尽可能进行原地计算,使的整个机器学习任务的性能达到极致。 对于 LR 算法和 GBDT 算法,RDMA 模式下的 PRPC 有数倍性能提升。与 ZMQ,BPRC 和 GRPC 对比 PRPC 在大部分机器学习场景下有较大性能优势。