监控平台系统说明

监控平台系统说明

ID:27830971

大小:278.44 KB

页数:17页

时间:2018-12-06

监控平台系统说明_第1页
监控平台系统说明_第2页
监控平台系统说明_第3页
监控平台系统说明_第4页
监控平台系统说明_第5页
资源描述:

《监控平台系统说明》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、网管平台需求分析&概要设计目录1•平台需求分析21.1需求的提出21.2功能需求4121监控系统4122维护系统61.3系统实现方式61.4重点问题说明71.4.1监控对象管理71.4.2界面展示71.4.3连接管理71.4.4监控项值的传递和处理81.4.5监控项值的收集82.数据库设计92.1监控主机配置表92.2主机告警信息表102.3告警信息描述表112.4告警门槛值表112.5监控主机权限表122.6维护主机配置表132.7维护用户表142.8维护权限表142.9操作记录表(该表记录长期保存)153.业务流程163.1监控系统业务流程163.1.1监控客户

2、端处理流程163.1.2服务器处理流程163.2维护系统业务流程171•平台需求分析1-1需求的提出目前我司在全国5个省份(广东,江苏,浙江,湖南,新疆)数10个节点部署了业务系统,各种类型的主机有数百台,并且随着业务的发展这个数字会不断增长,系统的维护和监控是一个庞大的工作,因为人力的限制,不可能对每台主机都做到细致化的维护,一些问题往往不能及时发现,影响了服务质量和对业务的支撑。网管系统的目的就是将人工的维护操作尽量交由电脑执行,以做到高效,实时,可靠。平台由两套系统构成,监控系统和维护系统。监控系统主要是监控主机的运行情况,及时发现故障;维护主机主要是在维护主

3、机上远程执行一些维护动作。系统部署外SMU图一:网络结构图结构图中阴影部分为某个节点部署的业务系统网络示意图,其中要监控和维护的主耍是占主机绝大部分数量的前置机、策略服务器、业务服务器和数据库服务器,这些服务器都是基于LINUX操作系统运行(冃前是RedHatAS3),从部署上来说,要求符合以下要求:1•监控系统和维护系统是两套独立的系统,互不影响;2•—套监控/维护系统可对多个节点的不同类型服务器进行监控/维护;监控/维护对象取决于系统配置;3•同一台主机可最多可被多达10套系统同时监控,被5套系统同时维护;4.网管系统完全独立于业务系统,网管系统的部署不会对业务

4、系统带来影响(如业务中断);1.2功能需求1.2.1监控系统对主机的监控包括以下四大类监控,分别说明如下:主机资源监控♦CPU使用情况监控监控主机CPU的利用率,一台主机一般有多个CPU,要了解每个CPU的利用率以及总体的平均利用率,每间隔N秒采集一次CPU信息并动态展示在监控界面上,当CPU长期处于高负载时(即连续N个采集信息得到的利用率值都超过阀值),系统做相应的告警;♦内存使用情况监控;监控主机内存的利用率以及当前可分配使用的内存空间大小,每间隔N秒采集一次内存信息并动态展示在监控界面上,当内存长期处于高负载时(即连续N个采集信息得到的利用率值都超过阀值),系

5、统做相应的告警;♦磁盘使用空间监控监控主机磁盘的利用率,一台主机一般有多个磁盘,要了解每个磁盘的利用率以及剩余空间大小,毎间隔N分钟采集一次磁盘信息并展示在监控界面上,当某个磁盘空间的利用率超过阀值时候,系统做相应的告警;♦网卡流量监控主要监控釆集网卡流量釆集情况,包括流量的大小,采集到的包数,错误包的包数,每N秒采集一次,当某段时间内(连续N个采集信息)低于阀值或者丢包比例超过阀值的时候系统做相应告警;♦操作系统进程监控监控系统屮当前运行的进程数量,每N分钟采集一次并显示在界面上,当总的进程数超过阀值时,系统告警;网络监控♦网络连通情况监控主要主机Z间的网络是否联

6、通,比如前置机是需要和策略服务器以及业务服务器互联,每N分钟采集一次,将结果显示在监控界面;如果网络不通则写入告警信息;请注意通常一台主机是需要和多台主机互通的;应用程序监控♦应用程序进程监控主要监控系统中应用程序的进程是否存在,进程的最新启动时间,当进程不存在或者进程的启动时间距离当前时间低于允许阀值的时候进行告警;♦应用程序口志监控主要监控应用程序日志的大小和日志的最新更新吋间,N分钟采集一次,当日志太大超过阀值或者很长时间都没更新(即当前时间减去日志更新时间)时系统告警,请注意一个应用程序可能有多个FI志而只对其中部分监控数据库监控数据库监控只对数据库服务器适

7、用♦表空间使用情况监控统计数据库表空间的利用率以及空闲的表空间大小,N分钟采集一次,当利用率太高的时候系统告警,请注意数据库一般都有多个甚至数10个表空间而只对其屮部分监控;♦数据库服务名解析监控用来监控数据库是否在正常提供服务,N分钟采集一次,如果服务名不能被解析说明数据库服务故障;♦数据库死锁情况监控用来监控数据库有无死锁,N分钟采集一次,如果死锁则告警;♦数据库连接情况监控监控数据库当前连接数,N分钟采集一次,当连接数超过阀值的时候系统告警;系统需有良好的扩展性,当有新的监控项需要监控时能方便地加入;1.2.2维护系统略。1.3系统实现方式监控系统和维护系

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。