一种集群监控容错系统的设计与实现

一种集群监控容错系统的设计与实现

ID:33501834

大小:1.21 MB

页数:80页

时间:2019-02-26

一种集群监控容错系统的设计与实现_第1页
一种集群监控容错系统的设计与实现_第2页
一种集群监控容错系统的设计与实现_第3页
一种集群监控容错系统的设计与实现_第4页
一种集群监控容错系统的设计与实现_第5页
资源描述:

《一种集群监控容错系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级注1UDC学位论文一种集群监控容错系统的设计与实现(题名和副题名)周阳(作者姓名)指导教师姓名姚兴苗副教授电子科技大学成都(职务、职称、学位、单位名称及地址)申请专业学位级别硕士专业名称通信与信息系统论文提交日期2012.05.10论文答辩日期2012.05.18学位授予单位和日期电子科技大学答辩委员会主席评阅人年月日注1:注明《国际十进分类法UDC》的类号。万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包

2、含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日万方数据摘要摘要目前,集群技术是当今高性能计算系

3、统的一个重要研究方向,集群系统以其高性价比、高扩展性、高可用性的特点,迅速发展成为高性能计算的一个重要解决方案,在石油物探行业得到广泛应用。本文所研究的是面向地震数据处理的应用集群系统,随着该集群中节点的数目和提交运行的作业数目越来越多,集群系统的监控和管理成了一个重大问题。伴随集群系统规模的不断扩大,系统发生故障的概率也随之增长,加上地震数据处理作业往往数据量都很大,作业执行时间也很长,如果发生故障造成作业运行失败,将会浪费大量的系统计算资源和时间资源。因此研究该应用集群系统的容错技术具有十分重要的意义。本文研究设计的集群监控容错系统是该地震数据处理应用

4、集群系统的重要支持系统,是专门针对地震数据处理特点开发的特殊辅助系统。针对上文提出的相关问题,本论文的主要工作包括:第一,研究了现有的集群监控系统,设计并实现了面向地震数据处理平台集群系统的监控模块,完成了对整个应用集群系统的监控信息的采集、汇聚和显示等应用的具体实现。监控模块主要包括对集群节点信息和作业信息的监控,为系统管理员和用户进行集群管理和监控提供了方便。第二,设计并实现了利用心跳包技术进行节点故障检测的集群系统容错功能,并且针对该地震数据处理的具体应用完成了节点故障后续处理的相关工作。该集群节点故障检测和处理的功能为本文设计的利用应用级作业检查点

5、实现作业故障容错功能提供了基础。第三,在研究现有检查点技术的基础上,并且针对地震数据处理作业的特点和地震数据处理流程的特殊性,设计并实现了基于地震数据单元的应用级作业检查点设置与回卷恢复功能,该功能结合节点容错功能,能够实现集群作业出现故障后的自动容错。通过实验测试验证了该应用级作业检查点的可行性,提高了集群系统的可用性,能够使作业在遇到故障时从检查点开始继续执行作业,减少了作业重复执行时间,避免了系统大量的计算资源和时间的浪费。关键词:集群,监控,容错,作业检查点,地震数据I万方数据ABSTRACTABSTRACTRecently,clustertech

6、nologyisanimportantresearchdirectioninthehighperformancecomputingsystem.Clustersystemwithitshighperformancepriceratio,highscalability,highavailabilitycharacteristics,rapidlydevelopedintoanimportantsolutioninhighperformancecomputing,anditiswidelyusedintheindustryofpetroleumgeophysi

7、calexploration.Thisarticleisthestudyabouttheapplicationofclustersystemfortheseismicdataprocessing.Withthenumberofnodesintheclusterandthenumberofjobssubmittedtorunmoreandmore,themonitorandmanagementofclustersystemhasbecomeamajorproblem.Withthecontinuousexpansioninthescaleofclusters

8、ystem,thesystemfailureprobability

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。