2008年毕业于清华大学信息与通信工程专业,从研究生时代开始接触Linux运维,毕业后加入腾讯开启了运维生涯。2013年加入美团点评,见证了主机规模从几百到几十万的增长,亲历了日订单从百万到千万的运维挑战。目前致力于通过工具打磨、数据运营、AI、项目管理、组织建设等手段提升业务可用性,探索SRE理念在中国互联网公司的落地。
2008年毕业于清华大学信息与通信工程专业,从研究生时代开始接触Linux运维,毕业后加入腾讯开启了运维生涯。2013年加入美团点评,见证了主机规模从几百到几十万的增长,亲历了日订单从百万到千万的运维挑战。目前致力于通过工具打磨、数据运营、AI、项目管理、组织建设等手段提升业务可用性,探索SRE理念在中国互联网公司的落地。
本次演讲将从故障前、中、后三个阶段介绍美团点评如何通过故障定位系统、事故运营系统、风险管理平台打造可用性持续提升的闭环,保障全集团业务线高速稳定增长。
故障中:研发了“天网”故障自动定位系统,实现全业务指标异常监测,全链路异常自动定位root cause,全事件追踪快速止损。
故障后:通过事故运营系统完成事故通知、定级、分类、TODO跟踪等运营工作。
故障前:综合运营数据打造风险管理平台,全业务周期性风险评估,避免事故发生。