携程云平台资深软件工程师。2012年南京大学毕业后加入携程云平台。参与了携程私有云从 OpenStack 到 Mesos 到 Kubernetes 的开发运维,负责云平台的配置管理及日志监控的方案。目前关注containerd/runC/CRI等项目。
携程云平台资深软件工程师。2012年南京大学毕业后加入携程云平台。参与了携程私有云从 OpenStack 到 Mesos 到 Kubernetes 的开发运维,负责云平台的配置管理及日志监控的方案。目前关注containerd/runC/CRI等项目。
从虚拟机到容器,从 OpenStack 到 Kubernetes,云平台的核心组件在这些年发生了巨大的变化,给生态系统中的日志和监控也带来了新的机遇和挑战。早期 OpenStack 只有 oslo.log 日志模块,没有多少 metrics,日志和监控主要是专业运维工程师关注的内容;如今通过几个 YAML manifest 文件就可以在 Kubernetes 集群中搭建起一套日志和监控平台,给更多的开发者提供了这方面的机遇。携程云平台的日志和监控服务也从最初只收集了 OpenStack 组件的日志,发展到如今 Kubernetes 各组件日志和 metrics,Kubernetes audit log 和 events,pod 监控数据和日志,docker OOM 事件等数据都能被观测到。
本次演讲将介绍日志和监控系统的实现原理,并结合携程云平台的一些进阶案例,分享运行一套生产级别的日志监控服务遇到的一些挑战。
了解日常运维中日志和监控系统是如何工作的
加深对代码开发过程中用到的日志和监控模块的理解