黄兆楠,高级工程师,现隶属于腾讯 TEG 安全平台部应用运维安全中心平台研发团队。2014 年应届加入腾讯,一直在 TEG 安全平台部参与主机反入侵系统后台研发的相关工作。现为反入侵系统研发负责人,主导并参与了主机反入侵洋葱系统的后台分布式系统优化重构,客户端重构,系统质量模型的研发和建设,积累了丰富的安全后台研发经验。见证了洋葱系统技术架构的发展演进历程,对分布式系统高可用设计和实时质量监控的建设,有切身的体会。
黄兆楠,高级工程师,现隶属于腾讯 TEG 安全平台部应用运维安全中心平台研发团队。2014 年应届加入腾讯,一直在 TEG 安全平台部参与主机反入侵系统后台研发的相关工作。现为反入侵系统研发负责人,主导并参与了主机反入侵洋葱系统的后台分布式系统优化重构,客户端重构,系统质量模型的研发和建设,积累了丰富的安全后台研发经验。见证了洋葱系统技术架构的发展演进历程,对分布式系统高可用设计和实时质量监控的建设,有切身的体会。
洋葱系统,是腾讯公司级的主机反入侵安全检测系统,包括前端主机 agent 以及后端分布式的数据接入分析系统的一整套服务,系统模块众多,部署的服务节点包括超百万,业务网络环境区域复杂,均在进行实时监测数据的采集,上报和分析。在实际的运营过程中,总会出现组件异常,未部署,入侵漏水等一些列质量上的挑战,一段时间内团队也一直处于 case by case 的救火中。安全讲究纵深防御,所以系统质量,直接影响了整个反入侵的有效性和发现率。
混沌工程以实验发现系统性的弱点,一般遵循定义并测量系统的"稳定状态",创建假设,模拟现实世界中可能发生的事情,证明或反驳假设这几个步骤来进行。针对系统质量所面对的挑战,引入混沌工程的思路,建设整个系统实时质量的一个模型标准,结合实际入侵场景和服务异常的模拟,对系统的稳定性可用性进行验证,同时助于发现未知的质量问题。本次分享围绕洋葱系统的实时质量建设和优化,介绍混沌工程在其中的初步实践应用。