阿里业务全链路智能监控实践

阿里业务全链路智能监控实践

ID:35885732

大小:1.20 MB

页数:23页

时间:2019-04-22

阿里业务全链路智能监控实践_第1页
阿里业务全链路智能监控实践_第2页
阿里业务全链路智能监控实践_第3页
阿里业务全链路智能监控实践_第4页
阿里业务全链路智能监控实践_第5页
资源描述:

《阿里业务全链路智能监控实践》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、阿里业务全链路智能监控实践23本文的分享主要包括三个方面的内容,第一是阿里监控随着公司发展的成长史,以及现在监控上面临的一些挑战。第二部分重点讲什么是业务全链路监控,以及我们是怎么来做的。最后介绍全链路监控里面的智能化探索。1.阿里监控的发展与挑战我把整个阿里巴巴监控发展分成四个阶段:第一个是在2011年以前,这是一个草莽阶段,在这个阶段大家的监控系统参差不齐,各种自研的,开源系统都上,能够抓到老鼠的都是好猫,当然这种模式随着规模大了以后变的难以维护。23第二个就是监控平台化的阶段,在这个阶段其实解决的更多是监控的技术问题,就是怎么做监控的采集、存储、报警等等这些技术上面的

2、问题,主要代表就Alimonnitor系统,它能帮助用户把采集、计算、报警这些问题都处理掉,当时主要的用户是我们运维的同学PE,他们只关心我要采什么数据,然后在上面写脚本,直接在我们的监控系统里面配置,最后就能监控起来。Alimonitor开始大家用的非常爽,到后面也暴露出很多问题:·第一个就是自定义的东西就很多,标准化的程度低,那你这些监控的运维管控就很困难,进一步的数据分析挖掘就更难做了。举个例子,我一个磁盘容量监控,就有二十几个各种不同的监控项,这些监控项的指标命名、格式、单位都是不一样的。·第二个就是它对用户的要求比苛刻,复杂程度比较高,比较适合像PE这样一些专业的

3、运维同学。第三个阶段是标准化的阶段,在这个阶段我们主推的就是我们现在的Sunfire监控平台。我们把基础的监控都已经标准化掉,只要一个应用上线这些基础的监控数据全部都有了,你只需对一些报警规则做一些设置就可以了,这样对于不是很专业的人用起来会更加的方便,同时在这个阶段有很多的自动化的诊断工具应运而生的,在这个阶段是一个诊断排查工具大爆发的一个阶段。第四个阶段就是智能化的阶段,智能化阶段要就是要实现无人化,整个监控运维的一体化。23下面说一下整个集团监控平台的规模,平台是以租户的形式来进行划分的,一个租户差不多相当于一个事业部的规模,比如说是天猫、淘宝、优酷等等,现在我们基本

4、上已经覆盖全集团80%以上的事业部。我们整个平台的监控服务器有4000多个台,这里不是说监控了多少服务器,而是现在用了这么多机器在做监控,这里不包括我们的存储服务,主要是计算以及采集计算等等这部分的服务。整个对监控的应用大概是在一万个以上,平台主要是通过分析日志的方式做数据采集的,现在每秒钟平均的日志处理量大概是在2T左右。23接下来讲一下阿里监控一些挑战,主要围绕业务监控来说:近年来,随着集团新业务、新技术的快速发展,传统的业务总量的“监控大盘”已经越来越不能满足监控需求,主要表现在以下几个方面:缺乏全局视角“监控大盘”主要反映的是单个业务或应用的运行状态,缺少全局的业务

5、视角能反应整个“业务域”的上下游整体的运行情况,比如交易系统成功率下跌,想看看是不是优惠出问题了,但是不知道“优惠”的业务监控在哪里,只能依赖”优惠”的同学去排查,钉钉电话沟通,大家来拼凑信息,上下游协调成本很高。监控标准不统一一直以来“业务监控”都是自定义的,依赖开发人员的个人经验,往往系统、业务监控混在一起,没有标准,业务之间不能比较;各系统监控能力参差不齐,很容易出现业务链路中的监控23断层;业务监控缺少一套行之有效的方法论,新人或者新业务对于业务要怎么监控,不知道如何下手、不知道自己配的监控是否覆盖全面,只有等到故障发生以后才去补监控。缺少业务视角随着阿里业务飞速发

6、展,特别是“大中台”的建设,使得传统的“总量”监控已经不能满足需求,比如一个“交易”中台业务就会有数十个“业务方”调用,单纯的总量监控会把小调用量的业务淹没,必须按每个业务方的“业务身份”进行监控。对于像“盒马”、“淘鲜达”这样的新零售业务,这样的问题更加突出,一家门店出现交易异常对于“交易总量”来说是微不足道的,但是对这件门店的客户体验来说是灾难性的。监控配置成本高“业务监控”一直都是由“开发人员”纯手工打造,需要经过日志埋点、监控配置、报警阈值设置,整个过程费时费力,缺乏自动化、智能化监控的手段,这也是造成各系统监控能力参差不齐的重要原因,一些新业务因为无力投入大量精力

7、配置监控,导致业务监控能力缺失。232.业务全链路监控的思考和建设第二部分重点讲一下业务全链路监控是怎么做的,怎么解决我们的痛点。一开始我们的监控系统都是针对单个应用的,比如说交易的开发只关心交易指标是是否正常,优惠的同学只关心自己系统的健康状况,他们各自配置数据大盘,报警等等。一旦出现问题怎么办?大家只能在群里面问,或者电话会议,互相讨论,定位到底是谁出了问题。同时上层的领导更加着急,因为他看不到整整体情况,就只能挨个问情况。所以单系统监控的问题就是看不到全景,上下游协同成本非常之高;系统的监控能力是依赖于开发人

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。