随着互联网科技的快速发展,云计算与容器技术的日趋成熟,业务一路高歌猛进,服务器和... 展开 >
刘宇,微博@守住每一天,Bespin 高级研发总监,DevOps 专家,曾任职于新浪、百度、金山担任高级工程师、架构师。《Puppet 实战》作者,《Puppet 实战手册》译者,《Python 进阶》译者,开源软件"opencmdb"作者。
http://linuxtone.org 联合创始人,活跃于 InfoQ 和 51CTO 等技术社区,曾被评为 InfoQ 金牌讲师、QCon 优秀出品人和 51CTO 博客之星。
随着互联网科技的快速发展,云计算与容器技术的日趋成熟,业务一路高歌猛进,服务器和流量规模呈现爆发式增长。如何提升运维效率、降低开发成本,提升整体的业务运维能力?从业务出发,回归到业务中去,从案例中寻找适合自己业务的方案极其重要。
本专题重点关注运维架构及运维领域更佳落地实践,拟邀请国内外一线互联网公司的技术专家,分享从被动救火式运维向主动精细化运维实践、基于机器学习的智能运维实践、基于 Kubernetes 的自动化运维实践、全链路日志监控实践、稳定性保障等话题,希望能给大家解决复杂的业务问题提供有效的思路和帮助。
Uber 在高速发展的过程中,也是内部工程师在技术债和救火之间挣扎的过程。本次分享会以 Uber 的核心派单系统为例,介绍内部系统在高速发展中遇到的问题,如何系统性解决这些问题,并最终使得系统稳定性更上层楼。
1. Uber 核心派单系统简介
2. 多集群的管理
3. 集群管理的自动化
1. 对类 Uber 服务的系统架构有一个初步理解;
2. 对微服务和多集群管理有更多理解;
3. 分享到自动化运维中的自动部署,自动扩容,自动路由的一个实践。
百度拥有超大规模服务集群和实例,并能够连续稳定的提供海量的检索请求。在这一切的背后,是一套完备的服务治理架构在协调运作,包含虚拟化的资源交付模式、完善的资源模型和调度策略、完整的服务部署和自愈系统,以及流量调配和容量管理机制。内容涵盖:
1. 大规模服务治理的基本思路和工程实践;
2. 海量业务的快速部署应对高时效性的业务需求;
3. 基于全链路压测和弹性的容量管理系统;
4. 服务质量管理模式:故障自愈、流量调配和异地多活等方案;
5. 支撑海量业务集群的资源管理系统和运维手段。
1. 了解大规模服务治理系统的问题和应对实践;
2. 了解服务容量管理和调优手段;
3. 了解高可用建设思路背后的技术;
4. 了解大规模集群的质量管理和资源管理方案。
为了支撑业务的高速发展,京东物流在智能运维体系的落地和构建方案上一直迭代优化、持续演进。从构建基于系统指标的实时大规模智能监控平台到融合多个部门多个监控平台的统一监控平台实践,再到基于 APM 的智能运维体系落地。通过实时告警、实时预警、故障智能处理以及全方位的应用维度数据分析。大大缩短了研发人员定位问题的效率,有力保障了大促期间各系统的平稳运行。
1、业界智能运维现状及发展趋势分析;
2、智能运维体系建设方法论;
3、大规模实时监控平台的实践方案;
4、智能故障定位与处理实践;
5、APM 在京东物流的技术选型、性能优化及落地实践。
1、大规模实时监控平台的实践经验;
2、大规模 APM 核心技术方案;
3、智能运维体系建设实践经验。
随着近两年的发展,Kubernetes 早已成为容器编排领域的标准,现在非常多的企业基于 Kubernetes 构建整个微服务的开发、运维平台,而日志是其中必不少的核心功能。本次分享主要介绍阿里超大规模下 Kubernetes 日志平台的架构实践,通过日志采集、处理、分析、监控、异常诊断等全方位技术,实现 Kubernetes 以及业务应用真正意义上的可观察性。
1. Kubernetes 日志平台整体方案与核心技术;
2. 日志采集、处理、分析的基础设施建设;
3. Kubernetes 层业务日志通用方案;
4. 日志平台自身的高可用建设。
1. Kubernetes 日志平台整体功能;
2. 日志平台核心技术,包括多集群、多租户隔离、超大规模、高可用等;
3. PB 级日志平台建设的经验与思考。
随着公有云的成熟及其稳定,越来越多的企业会将业务上云,为了避免某朵云部分区域故障导致业务全停,同时避免某个小公司因为公有云的故障而公司倒闭的情况再度出现;公司会将核心业务放在传统数据中心以及私有云当中,甚至有企业在实施跨云之间的多活,然而云商的捆绑服务对其影响甚大。这对运维的挑战日渐增强,如何利用更小化的成本保证业务的稳定?这是每个运维人需要思考的内容,本话题将围绕这个展开,主要跟大家讨论在这种业务模式下,自动化运维的架构需要做哪些调整与变化。希望能对大家有所帮助。
1. 行业趋势分析;
2. 混和云下运维的挑战;
3. 云管平台架构如何设计?
4. 困难以及挑战(资源统一管理、监控、账单);
5. 未来的展望。
1. 数据中心、私有云、公有云的统一纳管;
2. 混和云管平台的自动化运维架构设计;
3. 如何将业务场景与架构有效地结合起来;
4. 标准化的抽取并给予业务部分灵活的自定义属性;
5. 资源统一管理、成本优化的方法以及其思路。
越来越多的业务伴随云和数字化而生,同时随着 IT 系统的复杂化和技术的日新月异,如何提升运维效率、保障系统可用性成为诸多企业的重要事宜。很多人说,运维需要从业务出发,回归到业务中去。可是现有的技术手段、APM、日志等工具往往将业务和 IT 之间割裂:一个 Java 运行时异常、网络错误,无从知晓他们影响的到底是哪些业务;业务方已经因为慢请求、白屏页面被大量投诉,而 IT 部门却无从查起,似乎所有的系统都表面上运行正常。。。相信面对这些场景大家都不陌生,那么如何构建连接运维和业务的桥梁,更好的为企业所用呢?
1. 现有运维的痛点;
2. 什么是业务运维;
3. 如何构建业务和运维的桥梁与其架构;
4. 业务运维实战经验和价值。
1. 对如何将运维更好回归到业务中去提供实践方案;
2. 了解什么是操作、业务、业务流及其和运维的关联;
3. 运维如何量化、度量、优化业务中的痛点。
爱奇艺在 2018 年初已经开始拓展包括酒店、学校在内的各种下沉场景,目前包括自建 CDN 在内,已经维护了上千个 CDN 节点,这些节点所处的网络环境千差万别,爱奇艺基础架构部系统网络团队经过数次迭代实践,构建了 Fast 运维平台,集智能路由、任务管理、服务发现、配置管理、远程接入、容器化管理为一体,提供了高效、可靠的 CDN 运维体系,相比过去单点控制的运维模式,运维效率提升百倍,全网软件配置一致性也得到了保障,为爱奇艺 CDN 快速拓展、演进提供了基础架构层面的保障。