数据中心交换机在线诊断维护技术分析

数据中心交换机在线诊断维护技术分析

ID:22330897

大小:57.00 KB

页数:8页

时间:2018-10-28

数据中心交换机在线诊断维护技术分析_第1页
数据中心交换机在线诊断维护技术分析_第2页
数据中心交换机在线诊断维护技术分析_第3页
数据中心交换机在线诊断维护技术分析_第4页
数据中心交换机在线诊断维护技术分析_第5页
资源描述:

《数据中心交换机在线诊断维护技术分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据中心交换机在线诊断维护技术分析:本文根据多年的工作经验,对数据中心交换机在线诊断做了阐述,并对技术故障维护做了分析,供大家参考。  关键词:数据中心交换机;诊断维护;故障处理;单板隔离技术  前言  对于数据中心交换机设备来说,由于所承载的应用的重要性,一旦发生故障,必须要能够快速定位及解决问题。但是面对当前异常复杂的数据中心组X拓扑以及维护定位手段的缺失,如何才能应对这一挑战?本文分析提出一种技术,在线诊断分析当前设备的运行情况,对故障和异常能自动发现、自动恢复、自动隔离。满足用户对设备的更高

2、的可维护诊断需求。    概述  诊断维护需求  数据中心交换机设备良好的可维护可诊断体现在多个方面,主要关注于对器件、业务的故障检测与响应:  器件的可靠性检测:器件的可靠是整个设备可靠的基础,只有每个器件可靠了,才能保证整个系统的可靠运行。器件作为独立的角色,针对器件的检测非常简单和也非常有效。  业务的可靠性检测:交换机设备的主要功能就是业务转发功能。在某些硬件故障情况下,往往业务端口仍处于UP状态,但设备却无法正常转发报文。在这种情况下,加上组X的复杂度,如遇严重故障,维护人员很难感知故障,

3、更无法快速确定到故障点。这就需要业务可靠性检测功能,及时的发现和处理业务转发的故障。  故障的自动分析、定位和恢复功能:在目前复杂的组X情况下,找到一个故障点,并明确故障所在的单板往往需要几十分钟甚至几个小时的时间,这无疑对维护人员来说是场噩梦。如果设备能自动分析、定位和恢复故障,就可以有效降低维护的人力投入,同时极大的减少了故障时对业务的影响。  设想中的诊断维护架构  要实现诊断维护的这些需求,可以准备一整套的诊断架构,基于该架构可以方便的实现整体的诊断维护功能。该诊断架构主要分成三部分。如图1

4、所示,从下到上,首先是通过对器件、单板、业务的检测来及时发现故障,然后把故障检测结果报告给在线智能诊断分析模块对故障进行分析、深入定位,最后智能诊断分析模块根据分析的结果进行故障保护性处理,包括把故障告警通知用户维护人员,并进行恢复和保护性倒换。          在线检测——发现故障  交换机可以通过在线器件故障检测功能在设备运行时,定时不断的扫描各主要器件的(如单板电源模块、时钟、晶振、CPLD、内存、转发芯片等)运行情况,一旦出现器件故障,及时通知到智能分析模块进行保护处理。其器件检测基于软硬

5、件的结合,快速、可靠。以对时钟的检测为例,时钟作为硬件转发芯片的工作基础,如果出现偏差和停止输出会造成整个转发芯片无法工作。可以对时钟输出信号提取一路出来通过CPLD在线实时监控,当时钟出现过大偏差或停止输出时,就主动触发中断通知CPU的智能诊断模块进行保护性处理。  而对于交换机的业务板、主控板在内的各种单板检测而言,这些单板都有独立的CPU,互相间的通讯通过板间通讯通道进行,是完全独立的一套系统。在这种分布式的架构下,设备需要快速的感知各单板的运行状态和故障情况,确保业务能选择最优路径转发。高端

6、交换机可以使用独立的检测平面,定时快速的扫描各单板的运行、业务处理情况,对处于异常的单板根据故障通知智能分析模块及时进行保护性处理。例如:在分布式设备中,有很多的数据报文发送和处理都是在业务处理板上进行的,设备会自动根据单板的故障状态,对业务处理优选正常运行单板进行处理,确保业务处理的高效和正确。  交换机最基础的功能是正确转发业务报文。在线业务检测就是在线检测整个业务转发通道是否正常,如果正常,表明整个系统的转发功能是正常的。如果出现异常,就要及时通知智能分析模块,由智能分析模块来定位出故障点,并

7、进行相应的保护处理。例如:当某块业务板的某个转发芯片出现转发故障,业务通道检测功能就能快速的感知到其它转发芯片到该芯片的业务通道故障,通知智能诊断分析模块对该芯片进行保护处理。例如可以通过关闭该芯片上对应的物理端口,把流量切换到备份的端口以快速的恢复业务。  在线智能诊断分析技术——分析故障  通常交换机设备出现故障时,往往只能提示用户出现故障,却无法进一步深入的判定问题所在和保护处理。可以通过一整套的在线智能诊断技术,根据故障的原因和用户配置的情况,实现告警、故障隔离、故障尝试恢复等处理。  如图

8、1中间层所示,在线智能诊断分析模块会自动的收集各种检测的结果,对出现异常的检测结果将交由深入探测功能模块进一步深入分析和定位,判断出故障点,通知用户更换故障单板,并对故障实施隔离、尝试恢复等动作,对业务进行保护性倒换。  例如:某业务板出现故障,造成报文转发丢包。这时,业务通道故障检测发现转发异常,将故障报告给在线智能诊断模块,该模块会通知深入探测诊断功能模块启动对各业务单板的深度探测功能,最终定位到故障点为某块故障单板后,在线智能诊断模块会把该业务板隔离,去除该业务

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。