Linux死机问题分析定位

Linux死机问题分析定位

ID:40496456

大小:354.34 KB

页数:9页

时间:2019-08-03

Linux死机问题分析定位_第1页
Linux死机问题分析定位_第2页
Linux死机问题分析定位_第3页
Linux死机问题分析定位_第4页
Linux死机问题分析定位_第5页
资源描述:

《Linux死机问题分析定位》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文档名称文档密级一、现象初步判断:1、判定是否死机:首先需要确定是否真正的死机了,而往往有些现象被现场误认为是死机了。是否死机的确定方法有如下:A、对于直接死掉的,没有任何反应的情况下,看看键盘输入是否有效,putty是否能够登陆,BMC是否能够登录;B、通过lastreboot确认是否死机?死机的时间?C、通过在messages中对应的时间点看是否有imklog启动的日志?并在这个时间点前是否收到关机信号或者异常打印?D、通过在boot.msg中对应时间点有启动的相关记录,并同时查看在boot.omsg中是否有关机的相关日志打印?搜索:Shuttingdown关键字看是否存

2、在关机2、是否人为操作出现系统重启现象,往往被认为是系统死机后然后重启的,这就通过重启现象了来认为系统死机过,但是这种系统重启是否是由于死机造成的,需要进行确定。A、通过同现场人员进行沟通,确认是否为人为的重启?比如按电源、拔电源等人为动作?B、通过history中查询在系统重启时的时间点附近有reboot或halt、shutdown、init?C、通过在BMC日志中确认是否有通过BMC的操作进行系统的重启操作?对于直接拔电源致使系统重启的操作,在messges和boot.omsg中是没有相关的信息记录的,表现为系统日志和业务运行日志在同一时间全部消失。对于按电源、命令进行重

3、启操作,在messages中能够看到系统收到关机或者重启的信息,2021-8-21华为机密,未经许可不得扩散第9页,共9页文档名称文档密级同时在boot.omsg中会有关机时的关闭系统服务的关机过程信息。对于在BMC上直接进行关机或者重启操作,信息记录就比较复杂了。而对于此种情况,在messages中和boot.omsg中是看不到相关的信息记录,同直接拔电源一样的。一、处理步骤:1、日志尽快获取:在现场反馈出现死机问题后,第一时间反馈相关日志,并尽量多尽量准确全面,等待的时间越长日志可能就已覆盖,或清除,或环境重搭,致使定位工作受到阻碍。A、死机问题发生的时间点如果发生死机问

4、题时测试或维护人员在场,需反馈死机问题发生的精确时间。B、死机具体现象描述死机问题的发生通常伴随着系统和业务方面的异常现象,系统异常包括服务器重启、系统挂死(如BMC黑屏)、系统迟缓(如命令无法执行或响应时间过长)、网络中断(如Ping检测失败)、登陆失败(如无法远程登陆或卡死在登陆界面)、文件系统异常(如文件只读或系统命令失效)等等;操作失败、超时、执行无返回等。项目结果服务器重启[OK/NOK]系统挂死(BMC或KVM黑屏)[OK/NOK]系统延缓(如命令无法执行或响应时间过长)[OK/NOK]网络中断(如Ping检测失败)[OK/NOK]登陆失败(如无法远程登陆或卡死在

5、登陆界面)[OK/NOK]文件系统异常(如文件只读或系统命令失效)[OK/NOK]业务异常则包括主备HA[OK/NOK]操作失败[OK/NOK]命令执行超时[OK/NOK]此外,同样现象的死机问题是否多次出现、出现频率也需要反馈。C、死机时段具体操作主要指死机时段内对整个系统(包括硬件和软件)进行的各种操作,包括但不限于对服务器上下电、更换硬件、拔插网线、更改交换机配置、监控及日志查询。2021-8-21华为机密,未经许可不得扩散第9页,共9页文档名称文档密级此外还包括死机之前对问题服务器的各种操作,如执行脚本或系统命令、拷贝/删除/修改文件、启动/停止系统服务、挂载本地或远

6、端目录等。2.组网、硬件和BMC信息反馈组网、硬件信息有助于定位人员从宏观把握整个系统以及借鉴之前的经验,而内置在服务器中BMC系统收集的信息有时更能为死机问题定位提供直接的依据。A、组网信息组网信息主要包括网络规模(服务器、交换机数目)、硬件类型(防火墙、服务器、交换机型号)、网络配置(IP地址规划、交换机配置)、物理连线图等。B、硬件信息硬件信息主要包括发生死机的服务器类型(RH2285、E6000、T6000或其它服务器)、CPU型号与数目、内存大小、本地硬盘容量与数目、BIOS配置等,此外建议信息收集人员尽可能反馈组网内其它服务器、其它设备的硬件信息,便于定位人员横向

7、对比。服务器各种硬件信息查询如下:(1)CPU型号与数目对于管理、存储节点,使用“cat/proc/cpuinfo”命令获得;对于计算节点使用“cat/proc/cpuinfo”仅能获得domain0中的CPU信息,可以通过“xmdmesg”命令查看所有的CPU信息。(2)内存大小对于管理、存储节点,使用“cat/proc/meminfo”命令获得;对于计算节点使用“cat/proc/meminfo”仅能获得domain0中的内存信息,可以通过“xmdmesg”命令查看内存总大小。2021-8-21华为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。