HACMP工作原理与运维管理

HACMP工作原理与运维管理

ID:47468848

大小:266.55 KB

页数:9页

时间:2020-01-11

HACMP工作原理与运维管理_第1页
HACMP工作原理与运维管理_第2页
HACMP工作原理与运维管理_第3页
HACMP工作原理与运维管理_第4页
HACMP工作原理与运维管理_第5页
资源描述:

《HACMP工作原理与运维管理》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、......HACMP工作原理及运维管理参考材料......目录1.HACMP双机系统的功能介绍32.HACMP双机系统的工作原理33.HACMP双机系统结构图34.HACMP安装配置前需作的准备工作45.HACMP的常用命令46.HACMP常见故障解决6参考材料......1.HACMP双机系统的功能介绍Hacmp(HighAvailabilityClusterMulti-Processing)双机热备份软件的主要功能是提高客户计算机系统及其应用的可靠性,而不是单台主机的可靠性。2.HACMP双机系统的工作原理1.作为双机系统的两台服务器(主机A和B)同时运行

2、Hacmp软件2.服务器除正常运行自机的应用外,同时又作为对方的备份主机3.两台主机系统(A和B)在整个运行过程中,通过“心跳线”相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等)4.一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会立即停止运行,本机(故障机的备份机)就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源(包括用到的IP地址和磁盘空间等)接管过来,使故障机上的应用在本机继续运行5.应用和资源的接管过程由Ha软件自动完成,无需人工干预6.当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到另

3、一台机(备份机)上运行3.HACMP双机系统结构图参考材料......1.HACMP安装配置前需作的准备工作1.划分清楚两台服务器主机各自要运行的应用(如A机运行应用,B机作为standby)2.给每个应用(组)分配Service_ip、Standby_ip、boot_ip和心跳线tty,3.按照各主机的应用的要求,建立好各自的磁盘组,并分配好磁盘空间4.根据Ha软件的要求,对服务器操作系统的参数作必要的修改2.HACMP的常用命令1、查看Cluster的运行情况:#/usr/sbin/cluster/clinfo–a#/usr/sbin/cluster/cls

4、tat/usr/sbin/cluster/clstat可以帮助你查看当前HACMP的节点状态。屏幕会如下显示:参考材料......2、启动HACMP:#smittyclstart注:有两种启动HACMP的方式:now:手工启动HACMPrestart、both:在系统启动时自动启动HACMP 3、停止HACMP:#smittyclstop注:有三种停止方式:graceful:只停止本节点上HACMP的运行,并释放由本节点管理的资源,但允许其它节点接管。gracefulwithtakeover:停止本节点上HACMP的运行,释放资源,让其他节点接管。forced:

5、停止本节点上HACMP的运行,但不释放资源。 4、查看Cluster的进程状态:#ps–ef

6、grepcluster注:应有三个HACMP进程:clstrmgr、clinfo、clsnuxpd 5、查看Cluster的日志及错误信息:#more/tmp/hacmp.out参考材料......#more/var/adm/cluster.log注:可以在启动HACMP时使用#tail–f/tmp/hacmp.out命令,以查看HACMP的启动是否正常或跟踪启动时的错误信息。 6、查看Cluster运行的历史记录:#cd/usr/sbin/cluster/histor

7、y 注:此目录下存放着每天的Cluster运行记录 7、查看Cluster运行时的网络情况及资源组的使用情况:HACMP启动之前:#netstat–i此时应可以看到boot和standby地址#lsvg–o此时只能看到本地的VGHACMP启动之后:#netstat–i此时应可以看到service和standby地址#lsvg–o此时应可以看到本地的VG及共享VG 1.HACMP常见故障解决导致集群中节点失效的无反映开关(DeadmanSwitch) 问题现象:参考材料......集群中的节点经历着极端的性能问题,如:大量的I/O传输、过多的错误记录、内存不足等,

8、导致集群管理器(clstrmgr)没有得到足够的CPU处理时间,而引起无反映开关在分配的时间被重置。某个应用程序运行权限高过集群管理器时,会导致此问题。 解决方法:术语“DeadmanSwitch”指的是在特定集群条件下,未能及时重置该开关,引起系统宕机和转储的内核扩展部分。无反映开关在超过了特定的时间限制后会宕掉处于挂起状态的节点。此过程导致集群中的其它节点接管处于挂起状态节点的资源。要解决此问题需要解决与之相关的几个性能问题:1、调整系统I/Opacing2、增加信息同步(syncd)的频率3、增加通信子系统使用的内存量4、更改错误探测速率 调整系统使用I/

9、O的步调:使用I/Opa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。