⻓期参与分布式系统架构、高并发系统稳定性保障相关工作。目前担任即时物流团队后台技术负责人。2013年加入美团,参与过美团外卖C端即时物流体系的从0搭建,目前带领团队负责调度、清结算、LBS、定价等业务系统、算法工程平台、稳定性保障平台 Jarvis 等技术平台的研发和运维。最近聚焦 AIOps 方向,探索在高并发、分布式系统架构下,如何更好地做好系统稳定性保障。
⻓期参与分布式系统架构、高并发系统稳定性保障相关工作。目前担任即时物流团队后台技术负责人。2013年加入美团,参与过美团外卖C端即时物流体系的从0搭建,目前带领团队负责调度、清结算、LBS、定价等业务系统、算法工程平台、稳定性保障平台 Jarvis 等技术平台的研发和运维。最近聚焦 AIOps 方向,探索在高并发、分布式系统架构下,如何更好地做好系统稳定性保障。
美团即时物流业务,对于系统稳定性有极高的挑战。1. 峰值流量高; 2. 瞬间峰值大; 3. 业务链路长; 4. 线上到线上的业务复杂度高; 5. 故障敏感,影响履约完成率,造成赔付和客诉。过往的稳定性保障更多的靠人工运维,多种容灾手段的组合,这种做法既不闭环,也很难评估效果,出现问题更多是靠人工经验和慌乱中的各种尝试,不仅耽误时间而且业务损失也大。
经过一年多的探索,即时物流业务在稳定性保障方面逐步建立了全面可靠的自动化可运维的系统,全面覆盖系统各个链路和环节,并且在集团内部也推广到其他事业群使用。从过往的总结效果来看,在 AIOps 方面我们还只是围绕质量保障实践了一小步,当前以及未来也会挖掘更多的机器学习的能力,来提升准确率和召回率。
内容大纲: