业务要上线,运维要求稳,这是两者之间与生俱来的矛盾。随着互联网的飞速发展,速度已... 展开 >
现任携程技术保障中心-系统研发部-云平台研发总监,团队主要负责携程桌面云、私有云、容器云的研发。长期专注于运维自动化和虚拟化平台相关的架构和开发工作,对DevOps、Linux系统、大规模分布式系统有丰富的开发实践经验。
目前主要专注于Docker、Mesos等容器相关技术。
业务要上线,运维要求稳,这是两者之间与生俱来的矛盾。随着互联网的飞速发展,速度已经成为一家公司的生命线,传统运维以减少变化来求稳的方式已经无法满足需求了,快速可靠的交付能力成为互联网公司不可或缺的一环。伴随业务的持续增长,海量的实例,海量的存储,海量的数据,传统的监控运维体系面临着前所未有的挑战。公有云的快速发展,一方面很好的支持了初创企业的落地,另一方面也很好的帮助成熟企业落地国际化战略,云上云下的混合管理成为了新的需求。新的时代,运维的工作,不再只是操作和维护,我们需要转型DevOps、SRE。本专题将邀请多位奋战在DevOps、SRE一线的技术专家来深入探讨运维前沿技术趋势,分享运维方面的最新工具及最佳落地实践。
2015年底,阿里宣布启动阿里巴巴集团中台战略。战略定义为:构建符合DT时代的更具创新性、灵活性的“大中台、小前台”组织机制和业务机制。其中,前台作为一线业务,更敏捷更快速适应市场,中台将集合整个集团的数字运营能力、产品技术能力,对各业务前台形成强力支撑,而集团在中台布局中一个非常重要的一环便是搜索中台化,但因搜索技术本身的复杂度和业务规模的挑战,让搜索中台在技术上、产品上都遇到了世界级的挑战。面对挑战,阿里选择走上中台开发运维一体化实践和智能化运维之路。
通过这次分享我相信听众能在大型互联网后端服务在规模化和云化输出背景下如何利用DevOps和AIOps方法论去解决成本、效率、质量方面提供更好的思路和思考。
百度 APP 信息流产品做为百度公司的核心产品,线上迭代频繁,半年流量大规模增加,晚高峰期容量风险较大,2017年因高峰期切流量出现数次容量过载的问题,造成用户拒绝,影响用户体验 ;随着业务的稳定性要求越来越高,如何在资源有限的情况下,通过自动化的方式,在规避容量过载风险的情况下,尽可能的缩短故障的止损时间,是我们必须考虑解决的实际问题。本次分享,主要是讲述资讯流产品在高峰期故障自愈的一些实践,从产品以及技术层面上介绍一下自动化降级方案设计,以及自动流量调度和自动降级联动止损在资讯流产品的实践。
1. 百度故障自愈框架简介
2. 结合业务系统,设计产品的降级策略
3. 流量自动降级相关实践
4. 流量自动调度结合自动降级解决高峰期单机房故障止损实践
1. 故障自愈框架实践
2. 产品系统降级方案设计
3. 流量调度和降级联动止损在实际产品中的落地实践
K8S社区一直在持续发布功能更全、更稳定、性能更好的新版本,升级是基于Kubernetes的云平台和用户必然会面临的场景和挑战。 K8S诞生初期,网易就基于K8S 1.0推出了Serverless架构的容器云平台,一直以来紧跟K8S社区发展,进行了几次线上大版本升级,至今已经持续线上运行1000天以上。本次演讲将分享网易云如何不断改造原生K8S并与网易云基础设施结合,来支撑客户业务多样化的需求,以及网易云如何紧跟社区,快速有效地对生产环境集群进行无感知的在线升级经验,并将总结网易云Kubernetes定制化场景升级的难度和方法。
1、升级是Kubernetes用户必然会面临的场景和挑战,本次演讲将为听众分享网易的实践经验
2、听众还将收获Kubernetes如何结合实际场景进行定制化改造的经验分享
在当今互联网时代,企业大都采用分布式系统设计和服务化,内部关系错综复杂,从系统提供的上层服务对用户的体验感知到整体系统的健康稳定的智能化监控已成为企业发展的标配能力,但是也存在着异常故障定位缓慢,甚至找不到问题根源,虽有众多日志监控工具,但没有全链路,各产品分散集成度不高;定位问题及根因分析耗时长,缺乏决策并自动控制(自愈)机制,基本靠人工,且监控机制混乱,对数据中心的性能、安全、稳定性影响缺乏量化及合理性规划;面对大规模高并发的场景,很难兼顾性能与稳定性、可用性。如何解决上述痛点,实现真正的从“检测”到“分析”再到“控制”的监控体系化建设?本次演讲将和大家一起分享构建苏宁立体式监控的实践。
应用监控是多数互联网公司最重要的基础设施之一,其意义不仅在于可以帮助开发人员应对分布式环境下的Trouble Shooting和性能管理难题,更是系统可用性的第一步。
随手统一监控平台(Focus)是基于多种观测技术和开源方案演化而来的应用监控平台。承载了随手旗下随手记、卡牛两款产品数百个服务的应用监控任务,且开发运维成本低廉。
监控系统需要在不同的业务规模下,选择合适的技术方案,并随着业务的快速增长逐步演化。本次我将分享随手记监控平台如何从基本的日志监控做起,逐步演化成统一APM监控平台的过程。以及在面对海量监控数据时如何化解成本与体验这对矛盾的思考和实践。
从虚拟机到容器,从 OpenStack 到 Kubernetes,云平台的核心组件在这些年发生了巨大的变化,给生态系统中的日志和监控也带来了新的机遇和挑战。早期 OpenStack 只有 oslo.log 日志模块,没有多少 metrics,日志和监控主要是专业运维工程师关注的内容;如今通过几个 YAML manifest 文件就可以在 Kubernetes 集群中搭建起一套日志和监控平台,给更多的开发者提供了这方面的机遇。携程云平台的日志和监控服务也从最初只收集了 OpenStack 组件的日志,发展到如今 Kubernetes 各组件日志和 metrics,Kubernetes audit log 和 events,pod 监控数据和日志,docker OOM 事件等数据都能被观测到。
本次演讲将介绍日志和监控系统的实现原理,并结合携程云平台的一些进阶案例,分享运行一套生产级别的日志监控服务遇到的一些挑战。
了解日常运维中日志和监控系统是如何工作的
加深对代码开发过程中用到的日志和监控模块的理解
无人车是一项多领域技术融合的人工智能产品,其研发过程必然涉及到多团队的协同配合,“团队大、项目多、地域广”的特点给研发效率带来了不少挑战。各算法模块的迭代开发,地图的采集与生成,硬件的定制化开发等不同无人车模块的如何进行并行且协同的开发、测试、集成和部署。本演讲将分享图森未来通过搭建自动化运维设施来提升无人车产品的研发效率的相关实践。
1、了解无人驾驶整体解决方案如何协调多个模块的运维;
2、感受无人驾驶研发工作中的自动化运维实践经验;
3、了解如何提升无人驾驶产品的研发效率。