腾讯专家分享_腾讯做业务监控的心得和经验.doc

腾讯专家分享_腾讯做业务监控的心得和经验.doc

ID:48833222

大小:22.63 KB

页数:13页

时间:2020-01-31

腾讯专家分享_腾讯做业务监控的心得和经验.doc_第1页
腾讯专家分享_腾讯做业务监控的心得和经验.doc_第2页
腾讯专家分享_腾讯做业务监控的心得和经验.doc_第3页
腾讯专家分享_腾讯做业务监控的心得和经验.doc_第4页
腾讯专家分享_腾讯做业务监控的心得和经验.doc_第5页
资源描述:

《腾讯专家分享_腾讯做业务监控的心得和经验.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、.word格式,腾讯专家分享:腾讯做业务监控的心得和经验分享主题:腾讯业务立体化监控体系1、介绍腾讯业务监控体系的层级构成;2、用代表性的监控系统阐述每个监控层次的实现方法;3、与监控体系配合,业务做了哪些容灾和调度的方案。分享实录:首先很荣幸在这里给大家分享腾讯在做业务监控的一些心得和经验,当然今天所提及的只是腾讯业务运营监控体系中的小部分,也欢迎大家一起在运营体系建设、精细化运维等方面共同探讨和学习。我们用一个QQ红包开始今天的分享吧。表面看是抢红包这么简单的一个功能,其实光抢红包这个动作,它所关联的监控系统就有好多个!如图所示,腾讯的业务从逻辑上可

2、以抽象总结成四个层次:用户层(PC、手机、智能硬件等)、接入层、逻辑层和数据层(包括数据缓存层和持久化层)。,专业.专注..word格式,腾讯业务的监控系统是立体化覆盖,总结来说也是由四个层级组成:基础设施层基础设施层的监控覆盖范围很广,在腾讯包括:与运营商互联出口、专线(包括城域和广域)、机房(包括各类物理设施---如机架、制冷、配电、消防、安防等)、网络设备(交换机、路由器、防火墙等)等。基础设施层的监控又分为状态、性能、质量、容量、架构等几个层面。举例说明:▎状态监控,包括网络设备的软硬件状态,如设备存活状态、板卡、电源、风扇状态,设备温度、光功率

3、、OSPF状态、生成树状态等;▎性能监控,包括设备CPU、设备内存大小、session数量、端口流量包量、内存溢出监控、内存使用率等;▎质量监控,包括设备错包、丢包率,针对网络设备以及网络链路的探测延时、丢包率监控等;,专业.专注..word格式,▎容量监控,包括设备负载使用率、专线带宽使用率、出口流量分布等;▎架构监控,包括路由跳变、缺失、绕行,流量穿越监控等。服务器层服务器是业务部署运行起来的载体(早期服务器就是我们传统观念上的“物理机+操作系统”,现在已经扩大到虚拟机或者是容器等范畴)。服务器层的监控包括硬件层面和软件层面。硬件层面的监控主要包括如

4、下内容:▎硬盘:硬盘读写错误、读写超时、硬盘掉线、硬盘介质错误、[SSD硬盘]硬盘温度、硬盘寿命、硬盘坏块率;▎内存:内存缺失、内存配置错误、内存不可用、内存校验;▎网卡:网卡速率;▎电源:电源电压、电源模块是否失效;▎风扇:风扇转速;,专业.专注..word格式,▎Raid卡:Raid卡电池状态、电池老化、电池和缓存是否在位、缓存策略。软件层面的监控主要包括:▎CPU:CPU整体使用率、CPU各核使用率、CPULoad负载;▎内存:应用内存、整体内存、Swap等;▎磁盘IO:读写速率、IOPS、平均等待延时、平均服务延时等;▎网络IO:流量、包量、错包

5、、丢包;▎连接:各种状态的TCP连接数等▎进程端口存活;文件句柄数;进程数;内网探测延时;丢包率等。业务程序层容量管理系统:容量管理系统基于“服务器层”在软件层面的监控指标,并且配合业务增长、运营活动等因素而建设,用于客观衡量业务负载高低情况,并结合扩缩容调度,实现业务的负载和成本间的平衡。,专业.专注..word格式,具体原理是根据服务器所在业务层级(接入层、逻辑层还是数据层)的不同,设置不同的容量参考指标、指标参考基准、指标计算规则、高低负载判别规则,设置业务模块(由相同功能的多个服务器构成的业务集群)的扩缩容规则;由系统计算出服务器、业务模块的负载

6、情况,决策出是否需要扩容或缩容,触发业务模块的扩缩容操作。说明:服务器、业务模块的负载计算规则也是由业务可以自定义配置。模块间调用:在腾讯内部简称“模调”,2006年开始已经广泛应用于各大业务,用于实时监测后端服务与服务之间调用的质量,可以细化到服务模块、接口、命令字甚至代码层面(现在看来,其实就是目前各个APM厂商在大力宣传和推广的代码级监控产品)。●1、针对使用标准化组件(在腾讯内部业务,用户层使用的标准组件是wns;接入层使用的标准组件是Qzhttp、tngix;逻辑层使用的标准组件是spp+L5;数据层使用的标准组件是CKV、CDB等)的业务,由

7、标准组件上报模调监控数据;●2、针对自定义业务Server,提供模调上报的SDK或API,由业务自主上报服务间的每次调用成功与否,每次调用的延时;,专业.专注..word格式,●3、模调系统支持业务从用户层->接入层->逻辑层->数据层,全路径用唯一的序列号(通常由时间、功能模块ID、UIN、随机值等因素构成此值)来对业务请求染色,方便业务展现出每次请求完整的从前到后的调用链路。用户体验测速系统:收集用户真实访问业务的速度、性能、成功率数据。PC类业务由js上报或者客户端程序监控模块上报,移动类业务通过引入腾讯分析SDK上报到监控系统。

8、测速系统的价值不仅仅在于实时监控,还有一个很有价值的作用:业务架构优化前后,对比

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。