诊断与容错技术1

诊断与容错技术1

ID:44996781

大小:453.50 KB

页数:59页

时间:2019-11-07

诊断与容错技术1_第1页
诊断与容错技术1_第2页
诊断与容错技术1_第3页
诊断与容错技术1_第4页
诊断与容错技术1_第5页
资源描述:

《诊断与容错技术1》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、容错技术与诊断技术课程性质:计算机专业选修课前修课程:组成原理、操作系统南京航空航天大学信息学院钱忠民qzm_mail@nuaa.edu.cn第一章容错系统概述第二章可靠性的基本知识第三章可靠性的分析方法第四章冗余技术第五章马尔可夫模型分析法第六章软件容错技术第七章容错系统设计和典型的容错系统介绍第八章故障诊断技术2021/10/72第一章容错系统概述第一节可靠性是计算机系统的重要性能指标一般讲到计算机性能指标时往往只考虑:CPU功能:·速度(如:主频)·指令系统(包括CPU寄存器)·寻址能力(寻址空间)·存储系统:Cache、主存容量、组织方法、管理机构·外设配置和

2、采用的总线等2021/10/73但是,随着计算机应用领域扩大出现了许多对可靠性有特殊要求的应用领域,对这些系统来说,可靠性是极其重要的性能指标。例如:1:工业、交通、航空:飞行控制计算机,一旦故障,有可能造成机毁人亡的严重后果要求在10-20小时飞行任务期间内失效的可能性低于10-9工业控制:如:核电站、化工厂的过程控制。如控制失灵会造成重大事故。2021/10/74交通:如:铁路运输中的信号系统通讯:如程控交换机等2。商业、金融对信息的安全可靠有极高要求3。长寿命、高可靠应用·航天:人造卫星的通讯控制如:美国的STAR系统(SelfTestandRepair)保证在

3、十年中可靠运行的时间≥95%,只允许短暂的停顿(比如几分钟)2021/10/75这些领域对计算机的可靠性提出在正常条件下难以达到的要求。比如,市售的成品计算机的可靠性指标:MTBF(平均故障间隔时间)为300-10000小时。在10小时内可靠度仅0.997-0.999(故障可能为3×10-3→1×10-3)。在运行10000小时时候,可靠运行的概率仅0.368左右2021/10/76第二节容错技术与非容错技术提高可靠性的方法有两种:1。非容错方法(避错技术)避错方法是保证可靠性的主要和基本的方法。它采用预防为主的手段。2021/10/77硬件措施:·严格地进行元件筛选

4、、老化处理·采用成熟技术,防止设计错误·严格遵守加工工艺如:制板、装配、调试·在保证功能、性能要求前提下采用最简单的设计方案·降负荷运行。比如:降低主频、降低通讯线的数据传输率·改善运行环境:空调、防震、防尘、防潮2021/10/78软件措施:·模块化、结构化程序设计·完善的、规范的文档资料·严格的调试2021/10/79避错方法是保证系统可靠性的基础,也是必不可少的手段。但是单靠避错方法不能达到上述高可靠性指标,这是因为:1)元件质量受当时工艺水平限制,在一个时期只能达到一定水平。比如50年代计算机采用电子管为主要元件,其平均寿命为800小时。采用特殊工艺可达150

5、0-2000小时,此时价格已高出常规价格几十倍。当时计算机采用18000只电子管,平均每小时有9-12个管子损坏。2021/10/7102)设备的可靠性随复杂性增加而降低。复杂的设备使用的器件种类和数量都多,不可避免有较高的故障率。而随着计算机应用范围的不断扩大,系统复杂性日益增加。可靠性问题也日趋严重。要获得高可靠的系统,还必须在系统结构上想办法,使系统具有抵抗故障的能力,因而产生了容错设计的方法2021/10/7112.容错方法:正如采用预防为主的方针后仍需要医院一样,象计算机系统这样复杂的系统不可避免有故障发生。对有高可靠性要求的应用系统来说,必须有在故障发生时

6、仍保证系统正常工作的手段,这就是容错的手段。2021/10/712容错能达到常规方法所不能达到的高可靠性例如:美国70年代研制的FTMP系统和SIFT系统能保证在10小时飞行任务期间,可靠度高于0。99999999,即108架次飞行(每次10小时)飞行计算机失效的可能不到1次采用容错技术,并不否定避错技术。相反,容错技术必须和避错技术相结合,才能使系统达到理想的可靠性。2021/10/713容错计算机系统:在发生故障或存在软件错误的情况下仍能继续正确完成指定任务的计算机系统。设计与分析容错计算机系统的各种技术称为容错技术容错技术从系统结构出发来提高系统的可靠性,与排错

7、技术相互补充,构成高可信度的系统2021/10/714实现容错计算的四个方面(1)不希望事件的检测。不希望事件是指失效、故障、差错等等。为容忍系统中的不希望事件,应首先对其进行检测。(2)损坏估价。由于一个故障的出现和它的失效结果之间可能存在延迟,故障可能已经传播到该系统的其他地方,导致故障的扩大。因此,在作出一个被检测的故障有关的决定之前,有必要判定系统已被破坏的程度,这依赖于系统设计者的策略和已有的探测技术。2021/10/715(3)不希望事件的恢复。在不希望事件检测和损坏估价之后,应采用不希望事件恢复技术,把目前的错误系统状态转换成一个正确的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。