大规模基础设施DevOps探索

会议室:百宴厅4
出品人:夏鸣

面对百万台服务器、千万张网卡、海量的配置项和监控点,怎么第一时间知道故障点在哪里... 展开 >

专题出品人:夏鸣

阿里巴巴 Staff Engineer

夏鸣,阿里巴巴高级技术专家,QCon北京2017讲师,加州大学(戴维斯)计算机科学方向博士。在大数据、云计算、分布式系统、网络通信、软件团队管理、开源社区、绿色网络等领域拥有多年经验。LinkedIn开源对象存储系统Ambry的主要committer之一。在权威期刊和会议上发表论文80余篇,专利20余个。担任亚太信号处理协会工业会员委员会主席,美国自然科学基金(NSF)云计算数据中心方向的评审专家,2个SCI期刊副主编以及多个IEEE会议技术委员会主席或委员。近年来跨域软件开发和网络基础设施研发,结合经历过的项目和痛点,开始思考这两个领域的一些特点和关联。一个相对保守的方向,能变得互联网一些吗?

地点:百宴厅4

专题:大规模基础设施DevOps探索

面对百万台服务器、千万张网卡、海量的配置项和监控点,怎么第一时间知道故障点在哪里?如何快速判断分析当前故障的影响面和修复途径?怎样在不影响业务的情况下快速修复?也许你早就抛弃了SSH和CLI的方式去运维一套庞大的基础设施,开始尝试写一些自动化脚本和配置。或者已经搭建了一套自动化的监控平台,并在这条前行的路上不断的踩坑成长。面对这样一个充满挑战和机遇的方向,你不是一个人在战斗。这个专题为你召集了一批志同道合的同学,基于实际的项目和开发,分享在大规模基础设施DevOps领域的新思路,新架构,新技术。让我们共同探索它未来的方向,向着更自动,高效,智能的运维新高度攀登。

by 曹博

Uber
网络工程师

2017年是超大规模互联网数据中心的一个里程碑,随着互联网内容以及高新技术以前所未有的速度增长,越来越多的超大规模互联网数据中心拔地而起来满足企业和用户的需要。网络基础设施可以说是上层服务的基石,没有网络,点对点的交流便无从说起。它好比是一个城市的公路网,没有公路,货物便无法从A送到B。互联网数据中心网络的建设与运维往往被理解为独立于软件开发,而如今DevOps概念的引入改变了人们的想法,网络正朝着数字化的时代迈进。

本次演讲将围绕超大规模数据中心的监测、管理为中心,通过介绍数据中心网络的设计,部署,运维,监测,修复等自动化架构来展现Uber如何时结合DevOps理念来加速网络基础设施建设的自动化进程。

by 李双江

阿里巴巴
Senior Engineer
下一代大数据实时监控系统
所属领域: 大数据、 DevOps

在大规模网络下,随着gRPC协议方式的采集的普及, 响应速度快,实时性高,采集数据更全面。如何将这些gRPC采集方式带来的众多优点不打折扣的提供给网络运维人员,给下一代的大数据实时监控系统带来了一定的挑战。

为此,我们引入了一套基于流式计算(Blink基于开源的Apache Flink)和内存数据存储(Apache Ignite)方式的实时告警系统。借助Kafka和HBase实现数据缓存,Blink进行流式计算,Ignite进行实时的业务告警。并Blink的SQL方式进行实时计算和规则生成,通过Ignite开放SQL开发实现了数据的低延迟实时查询服务。本次分享主要介绍我们在以上方面的一些经验。

听众受益

  1. 了解如何设计一套更实时、满足多业务场景需求的大数据监控系统;
  2. 了解Blink和Ignite在大数据监控系统中的应用;
  3. 了解传统的SQL如何在整个系统中发挥作用,带来更大的灵活性和业务扩展性。

by 罗蛟

百度
共享技术平台部经理

超大规模在线分布式系统,每时每刻都响应着无数的用户真实请求,在服务大规模异常的时刻,尽可能的响应用户请求,而不是拒绝,尽可能快的自动化止损甚至自愈,尽可能准的根因定位甚至自动化智能化,这些都给我们的工作提出了越来越高的要求和挑战。

为此,我们在系统架构、流式数据处理、动态决策等多个层面进行了系统化的设计。借助这一套系统,我们实现了分钟级到十秒级最终到秒级的感知和决策止损系统,大幅度的的减少了故障时刻的损失量级和故障持续时间。本次分享,也主要集中在以上几个方面我们的一些实战经验。

by 粟海

PaloAlto Networks
高级研发经理

结合在Palo Alto Networks Wildfire云服务系统开发和运维中的一些痛点,来讲述如何运用流技术来设计和打造一个实时跟踪和监控系统。如何进行技术选型,如何使用流技术(Kafka Streams)来计算和统计基于业务逻辑的系统运行状况,使用Elasticsearch来存储数据和查询历史数据,并通过定制化界面以及通用图形报表系统Grafana来展示实时统计数据和个体处理单元的跟踪结果。 讨论将来如何通过机器学习技术结合实时跟踪和监控系统来使整个运维系统智能化,减轻运维压力,快速定位和隔离故障节点,保证整体系统的高可用性。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:17310043226