2011年加入阿里,早期参与阿里搜索引擎统一运维平台的建设以及负责一淘搜索引擎的运维;2013年参与搜索调度平台的创建和建设;2015年开始推动搜索的容器化以及docker化,2016年开始搜索的资源池统一和混部;2017年开始参与阿里统一调度平台的共建,并负责调度器的设计和研发。2018年开始在阿里推cpushare,资源画像等,并进一步通过算法以及混部提升资源利用率。
2011年加入阿里,早期参与阿里搜索引擎统一运维平台的建设以及负责一淘搜索引擎的运维;2013年参与搜索调度平台的创建和建设;2015年开始推动搜索的容器化以及docker化,2016年开始搜索的资源池统一和混部;2017年开始参与阿里统一调度平台的共建,并负责调度器的设计和研发。2018年开始在阿里推cpushare,资源画像等,并进一步通过算法以及混部提升资源利用率。
阿里巴巴的系统在支撑双十一过程中,面临的2个难题是资源和应用的管理和运维问题,双十一峰值的本质是用有限的资源成本最大化提升用户体验和集群吞吐能力。应用业务系统资源申请量和使用量之间差距巨大,不同的机器的资源使用率差距较大,碎片的存在也导致了分配率不高,应用之间的干扰程度不一,给应用的SLO保证带来了挑战。本分享将介绍阿里的统一调度系统sigma是如何通过策略和算法在成本,性能,效率找到平衡,以及未来智能化调度上会如何发展。
1. 了解大规模集群资源调度中碰到的一些问题和挑战。
2. 了解阿里在解决这些问题上面是如何平衡成本和稳定性。
3. 了解阿里调度器的关键技术、以及后续如何发展。