论文:容错技术的发展与应用

论文:容错技术的发展与应用

ID:25064409

大小:112.50 KB

页数:9页

时间:2018-11-17

论文:容错技术的发展与应用_第1页
论文:容错技术的发展与应用_第2页
论文:容错技术的发展与应用_第3页
论文:容错技术的发展与应用_第4页
论文:容错技术的发展与应用_第5页
资源描述:

《论文:容错技术的发展与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、容错技术的发展和应用容错技术的发展与应用摘要:随着现代工业技术的发展和计算机的普及,对计算机可靠性的要求愈来愈高。如何进一步提高计算机的可靠性,保障工业流程安全、可靠地进行,是各国计算机专家致力于解决的问题。容错技术是建立在“冗余”设计的基础上的,对计算机可靠性的提高十分有效。本文对容错技术的原理及典型结构进行了阐述,并分析了容错技术在未来的发展中必须突破的关键技术。关键词:避错容错双机并联随着现代工业技术的发展和计算机的普及,对计算机可靠性的要求愈来愈高。如何进一步提高计算机的可靠性,保障工业流程安全、

2、可靠地进行,是各国计算机专家致力于解决的问题。解决计算机可靠性的方法归纳起来大体可以分为两类:第一类是通过对计算机元器件的严格挑选,提高老化筛选的阈值,保证元器件的质量,使系统尽量少出错,从而提高计算机的可靠性。我们称这样的技术为“避错设计技术”。然而,任何一个系统都很难做到绝对不发生故障,对元器件的严格挑选程度又不能无限地提高。因此,避错设计技术对系统可靠性的提高存在一定的瓶颈。第二类是允许系统内部有故障存在,通过容错技术消除故障的影响,使系统最终仍能给出正确的结果。这种高可靠性技术是建立在“冗余”设计

3、的基础上的。实践证明,容错设计对计算机可靠性的提高十分有效。一、系统故障的表现形式及其错误的根源1、故障、失效和错误的概念研究容错技术的目的在于消除故障所导致的停机后果。人们常说的“出错”,严格地讲还不够准确。所谓“错”实际上是故障、失效和错误的概念的统称。对于研究容错技术来讲,需要把三者区分开来。(1)失效(failure):是指硬件物理特性异变。例如集成电路内部硅片表面的龟裂,连线短路或断路、漏电,电路输出的电平由正常变到非正常值等。(2)故障(fault):是指硬件或软件的错误状态,是失效在逻辑上的

4、等效。例如一个电路的逻辑值由“1”状态错成“0”状态,软件判断的“是”错成“否”等,都称为故障。一个故障可以用种类、值、影响范围和发生时间来描述。(3)错误(error):是指程序或数据结构中的故障表现形式,是故障和失效所造成的后果,如运算结果由正变成负,或是一个完整的值,都称为错误。2、故障的分类第9页共9页容错技术的发展和应用按逻辑性来分,故障可以分为逻辑故障和非逻辑故障两种。造成逻辑值发生变化的故障称为逻辑故障,造成像时钟或电源出错等错误的故障称为非逻辑故障。按时间划分,故障可以分为以下三种:(1)

5、永久故障:是指永远持续下去直到修复为止的故障。对硬件来说,永久性故障意味着不可逆的物理异变,如一个电路损坏等。对软件来说,这类故障也是一个不可自动恢复的错误状态。(2)间隙性故障:这种故障是短暂又断续的,既具有偶然性,又有不定期的重复性,如一个处于临界状态的电路输出时好时坏,又如一个虚焊点也会引起这样的故障。(3)偶然性故障:故障的出现是短暂、非重复的。往往是由于环境的变化、电源方面的干扰、元器件性能波动、软件的随机因素、电磁干扰等因素而引起。这样的故障有可能仅出现一次,或很长时间出现一次,但却可能造成数

6、据出错,甚至导致系统瘫痪。针对不同故障需采取不同的解决方法。如对于永久性故障,可以调用诊断程序进行故障定位,然后采取纠错措施;对于间隙性故障,因其持续时间很短,因而无法使用诊断程序,但它又有重复性,所以又提供了一个进行判断错误的机会,可以通过更换硬件或软件等途径来达到修复的目的;要纠正由于环境等因素造成的偶然性故障,则是十分困难的事,这种故障一闪而过,连故障来自哪个方面都难以确定,但后果已经造成,只能靠改善环境条件等努力来减少种类故障。因此,如何消除间隙性故障和偶然性故障的影响,就是容错技术所解决的问题。

7、统计表明,间隙性故障和偶然性故障占整个故障的比例很大,成为系统出错的主要根源。早期美国空军的一项研究报告指出,这类故障占所有故障的80%。后来,一个著名老牌计算机公司的一项报告指出,这类故障占所有现场失效的90%。由此可见,容错技术和一台容错计算机,主要应解决的问题,将是如何纠正因间隙性故障和偶然性故障而引起的错误。一、容错技术的内容容错技术能达到对故障的“容忍”,但并非“无视”故障的存在。它首先要能自动适时地检测并诊断出系统的故障,然后采取对故障进行控制或处理的策略。根据错误的不同情况,一个容错系统可能

8、经历多达10个阶段。(1)故障限制。即把故障效应的传播限制到一个区域内,从而防止污染其他区域。(2)故障检测。即检测逻辑故障,包括脱机检测和联机检测两个主要类别。在脱机检测情况下,进行测试时设备不能做有用的工作。联机检测则具有一定的实时检测能力,使得检测工作能够与日常工作同时进行。(3)故障屏蔽。即第9页共9页容错技术的发展和应用把失效效应掩盖起来,从某种意义上说,可以说是冗余信息战胜了错误信息。(1)重试。(2)诊断。(3)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。