“没有度量,就没有改进”。在应用性能管理(APM)领域,... 展开 >
吴其敏,平安银行零售网络金融事业部首席架构师,平台架构部负责人,致力于前后端框架、核心中间件和研发平台建设。前携程旅行网框架研发部高级总监和前大众点评网主架构师,专注于核心中间件打造;开源分布式实时监控系统 CAT (http://github.com/dianping/cat) 作者;曾在易趣网和 eBay 中国研发中心工作十多年,在核心架构团队任资深工程师、资深架构师、首席架构师等职,为 eBay 新一代系统平台提供核心组件。自 1997 年接触 Java 以来,一直致力于基于 Java 的应用架构设计和流程工具研发,对分布式系统架构有深入地了解。在高质量数据建模、高效代码生成、组件化系统设计与开发等方面有很多实践。
“没有度量,就没有改进”。在应用性能管理(APM)领域,这句话最为贴切。
假如你要从上海去北京,距离和时间怎么度量?如果使用不同交通工具呢,比如飞机、高铁或者自驾?如果在不同季节、不同天气情况下呢,结果又会怎么样?如果碰到节假日呢,情况是不是还会不一样?如果业务应用也是这么复杂,甚至比这个还要复杂的多,你会怎么办?
监控是度量和展现的艺术。对于大型互联网公司来说,如何平衡日增海量数据与实时精准展现之间的矛盾,将会是一个长期的课题。
通过本专题从不同角度的分享,您将了解到:
作为业界知名的应用监控产品,CAT 已经成功地为多家公司提供了完整的监控领域解决方案。2015 年 CAT 在携程落地,目前已经成为公司内部非常重要的监控基础设施。几年间,CAT 在携程的实时监控数据流量基本上以每年翻一番的速度在增长。流量的增长带来了不少性能方面的挑战,对此我们做了一些列优化,目前很好地支撑起来自 50000+ 客户端的 6300 亿条消息/天、800TB/天的实时监控流量。
本议题将会和大家分享在 CAT 性能优化上的一些实践,并通过这些实践总结出一些普适性的性能优化思路与方法。
1. CAT 在携程的现状;
2. CAT 性能优化实践;
3. 性能优化问题的思考。
1. 了解 CAT 的一些性能优化实践;
2. 遇到性能问题时的一些思路和方法。
监控系统一般以问题为中心,埋点则是监控系统非常基础却重要的工作,埋点数据的质量决定着监控系统的实施效果。监控埋点看似简单,并且做了很多工作,却总是达不到令人满意的效果。怎样做好监控埋点,成为工程师经常碰到的一大挑战。
本议题将会与大家分享监控埋点的一般方法论,以及在不同应用场景下进行侵入式和非侵入式埋点的实践。
1.网站故障处理的一般过程;
2.监控埋点的原则和方法;
3.埋点落地技术实践,包括侵入式与非侵入式埋点。
1. 了解监控埋点原则和方法;
2. 各种不同埋点方法的使用场景;
3. 复杂埋点场景的一些优秀实践。
随着美团点评的快速发展,业务与系统的复杂度逐步变高,对于监控和故障定位要求逐步变高,比如说全量依赖分析、秒级监控等。目前公司主流的监控产品包括网络层监控(以 Influx DB 为核心),系统层监控(以 Faclon 核心),应用层 & 移动端 & 浏览端(以 Cat 为核心)。本次分享主要从技术层面介绍统一全栈监控的整合思路和实践,以及未来开源实时监控 4.0 的计划。
1.为什么要做全栈监控;
2.全栈监控整体技术架构;
3.故障定位相关的分享;
4.全栈监控的开源计划。
1.了解大规模实时监控面临的挑战;
2.了解监控领域的解决方案;
3.了解开源实时监控 CAT 产品规划。
随着饿了么业务及系统越来越复杂,特别是在异地多活之后,对监控依赖也越来越重,尤其是如何通过监控快速发现定位问题,这些都给我们带来了很大的挑战。本此分享主要讲述饿了么如何从全链路监控开始,一步步发展到业务监控/应用监控/PaaS/IaaS 各层打通,如何支撑起每年几倍数据量的增长,过程中遇到了哪些困难及我们是如何来解决这些问题。
整个监控系统的背景及历史演进过程;
整体架构;
如何解决大数据冲击下的计算和存储问题;
如何做好监控标准化及场景化;
平时我们是如何用这套系统来发现和定位问题。
通过对整个架构演进的剖析,了解到如何实现一套完善的监控体系;
如何在没有任何搜索功能的前提下,做到快速定位问题;
如何做好监控邻域的场景化及标准化。