随着容器、集群调度编排等技术日趋成熟与流行,各大科技公司纷纷推进容器化,使用云计... 展开 >
黄斌强,美团点评基础架构部负责人。在大规模分布式系统、服务治理、搜索引擎、基础架构等领域有多年的研发运营及团队管理经验。2014 年加入美团,担任集团基础架构部负责人,整体负责基础架构设施体系的搭建与研发运营。2004 年加入腾讯,历任后台研发高级工程师、垂直搜索团队技术总监,主导负责过复杂业务系统的架构设计、多个垂直搜索产品(如图片、音乐、视频、新闻等)的引擎研发及运营迭代。
随着容器、集群调度编排等技术日趋成熟与流行,各大科技公司纷纷推进容器化,使用云计算厂商的容器云服务进行混合云部署运营。大规模容器云平台如何进行架构设计,生态相关的基础设施需要进行哪些改造建设,混合云运营需要解决哪些关键问题,本专题将邀请多位业界领先公司的专家进行实践干货分享。
全球 IT 基础设施已经进入 Big Data 时代,逐渐迈向 AI 时代,产生了大规模的计算和存储资源需求。不同于在线服务,计算任务 CPU 资源和磁盘空间需求很大,且计算需求峰值通常出现在凌晨。另外随着业务的增长,数据中心资源体量越来越大,在线业务数据中心的 CPU 和磁盘利用率非常低。因此,将在线服务和离线任务混合混部到相同物理资源上,通过资源隔离、调度等控制手段 , 充分使用资源,同时保证服务的稳定性。我们称这样的技术为“混部”。
百度从 2012 年就开始尝试进入混部技术领域,研发并推广了代理计算(BVC/IDLE)系统。2015 年进行了大规模重构,演进成一套通用的在离线混部系统(千寻)。目前公司混部的整体技术迈向成熟,并在大搜索、Feed、凤巢等机器上实现了规模化运用。
本次主要介绍一下百度在在离线混部系统架构的演进和实践。
伴随着美团业务量的不断上升,对机器数量的需求也在与日俱增,而全球数据中心的平均资源利用率在 6%~12% 之间,美团内部也已经拥有数万台服务器,HULK 正是为提升集团资源利用率而生。本次将为大家带来 HULK 在集群调度系统这块的技术演进路线以及在业务侧的落地经验。
1、集群调度系统的演进历程;
2、服务画像在集群调度中的应用;
3、业务侧落地过程中的挑战与解决方案;
4、未来规划。
听众受益
1、了解美团集群调度系统 HULK 的前世今生;
2、了解建设服务画像的出发点以带来的实际收益;
3、了解在业务侧落地过程中遇到的挑战以及解决方案。
讯飞业务种类繁多,尤其在 AI 领域耕耘许久,算力的提升,也伴随着资源的疯狂增长。云平台承担着资源管理和降本增效的重担。如何构建平台化 AI 交付标准;在面临业务迅猛增长的情况下,如何经济有效地获取高性能异构计算能力;如果在任务管控中,实现资源的合理调度和复用。在解决这些问题中,经历多年的业务打磨,慢慢锤练出了一套成熟稳定的云平台,演生了一些在 AI 领域内的解决方案。本次将为大家带来 AI 业务结合云平台的技术演进路线。
1、AI 业务的发展和本身特性;
2、云平台架构演进和优化之路;
3、异构资源的虚拟化的挑战和实现;
4、AI 业务在讯飞云上的实践。
1、了解 AI 业务的常见痛点和解决方案;
2、了解云平台在异构计算能力上的调度和复用方案;
3、了解异构资源虚拟化的几种实现方案;
4、了解人工智能业务在云上落地挑战以及解决方案。
在私有云场景下,企业内部存量传统业务未必能适应于 Kubernetes 的新型架构。GaiaStack 在接入腾讯内部以及外部大量产品和业务的过程中,遇到众多新的需求和挑战,经过锤炼和打磨,沉淀成一套功能完善且成熟稳定的容器解决方案。本次分享将深入介绍 GaiaStack 如何基于 Kubernetes 的扩展接口,对应用类型的选择和应用、对网络模式的实现以及云存储、GPU 等的支持,帮助企业平滑地接入传统业务,快速完成容器化。
使用 Kubernetes 作为企业内部容器平台将会遇到的风险、问题,如何解决,以及各类型业务做容器化改造时遇到的坑以及如何规避。
从有机时代的寡核苷酸序列,到生物化学时代的基因,再到当下的 In vivo 基因组,基因计算的梦做了 60 余年。随着 IT 科技的发展,高并发处理、资源调度、大文件存储使得梦想照进现实。基因计算中又分为测序、绘图和分析步骤,本演讲聚焦基因测序如何攻克临床应用中技术难题,如何实现计算模式从离线向在线演进,并且提高交付效率。重点分享容器混合云的一些优秀落地实践。
1 、基因计算与 IT 科技整体发展情况;
2、 分析基因工程中的瓶颈、包括存储,分发,计算,安全,资源调度中遇到的挑战;
3 、阿里云提供的解决方案,存储优化,AGS(Alibaba Genomic Service)计算工作流,水平弹性计算和容器无缝结合,多种混合云架构优化后的资源调度,以及文件系统级别的多租安全设计,和区块链的结合实践;
4 、针对整体基因计算工程中的 AGS 工作流,甄选两三个客户的实际落地案例剖析容器,存储,调度,安全等技术的应用,如....(自动弹性,统一鉴权管理、地域多集群 Masters 容灾设计、GPU/FPGA 异构资源的调度理);
5、 总结工程中基因数据分析流程中的存储、分发、计算分析以及安全合规几个维度上的一些注意事项。
1 、帮助听众了解基因计算行业中的具体IT问题及如何破局;
2 、帮助听众理解 Kubernetes 在混合云层面调度,容器化工作流,弹性能力如何提升计算效率;
3 、帮助听众理解多租设计,数据安全上链等企业级的基因安全计算;
4、 帮助听众理解海量大吞吐的对象存储,文件存储如何大幅提升基因计算效率。
伴随知乎业务快速增长,工程师们对平台的易用性和稳定性提出更高的要求,基础设施的规模也在不断增长。如何应对增长的基础设施平台需求和维护成本,知乎借助 Kubernetes 构建核心基础设施的平台,显著提升平台的稳定性和降低维护成本。本次分享将会介绍基础设施平台为什么基于 Kubernetes 容器化改造,容器化后给平台带来的收益。然后详细介绍基础设施改造的过程中遇到的问题和解决方案。
华为云 CCI 服务管理数百个 GPU 卡,为华为云 EI 服务及外部客户提供 AI 计算平台,在该过程中积累了大量面向 AI 计算的优化经验。AI 计算加速的关键是 GPU 管理,K8S 资源调度优化,面向 AI 计算框架和模型的 Job/Task 调度。通过这些优化手段可以使得 128 块 GPU 卡的线性加速比达到 0.8+。本次议题将介绍如何通过开源项目 K8S + Kata 容器搭建 AI 计算平台,更大化 GPU 及 AI 芯片算力的使用效率,并给出测试结果。最后我们也会对未来的技术改进做出展望。