来炜,滴滴出行技术总监,CCF TF系统运维SIG执行主席,滴滴工程委员会和开源委员会委员,国内最流行的开源企业级监控系统Open-Falcon的创始人和社区负责人,致力于推动建设开源软件生态,专注于高可用架构、运维自动化、云服务、容器化等方向。
来炜,滴滴出行技术总监,CCF TF系统运维SIG执行主席,滴滴工程委员会和开源委员会委员,国内最流行的开源企业级监控系统Open-Falcon的创始人和社区负责人,致力于推动建设开源软件生态,专注于高可用架构、运维自动化、云服务、容器化等方向。
运维工作中,通常会通过制定标准来预防风险、沉淀经验以及和周边团队形成共识。但常出现的情况是标准的影响会随着时间而减小,甚至被遗忘抛弃。一个较好的解决办法是将标准落地到各个平台,由平台来保证标准的执行。但这也有一些难以解决的问题:
基于以上问题,滴滴建立了一套完善的风险量化体系,通过自动采集用户的平台操作数据、运维数据并自动计算量化出每个业务线的运维风险,落地到一个具体的分数,最终形成排名和竞赛机制,以达到促进标准长效执行的目的。本主题将重点介绍滴滴如何建设这套运维风险量化体系并成功运转长期有效降低业务运维风险的实践,同时还将分享建设和落地这套风险量化体系的实践心得。