分布式系统容错

分布式系统容错

ID:41540937

大小:278.50 KB

页数:116页

时间:2019-08-27

分布式系统容错_第1页
分布式系统容错_第2页
分布式系统容错_第3页
分布式系统容错_第4页
分布式系统容错_第5页
资源描述:

《分布式系统容错》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第十一章DDB的可靠性概念系统(System)是由一组组件构成的一种机制,这些构成组件通过响应来自某个环境的具有可识别行为模式的刺激而相互作用。component1component2component3环境系统刺激响应系统规范说明(Specification)系统提供的对所有可能的刺激将产生的响应行为必须遵循的说明概念-续故障任何偏离规范说明的行为软故障与硬故障软故障间歇性(intermittent)和瞬变性(transient)故障硬故障指永久性故障,错误设计等FaultErrorFailure原因结果导致系统失败的事件链

2、概念-续软故障软故障占90%以上并且该比例稳定67年美空军指出计算机中电子故障80%是间歇性的67年IBM指出90%故障是间歇性的80年研究指出软故障明显高于硬故障87年Gray指出大部分软件故障是瞬时性故障其它不同计算机系统中出现的统计数据:IBM/XA的OS可靠性报告57%是硬件,12%软件,14%操作,7%环境(斯坦福线性加速器SLAC)Tandem计算机18%硬件25%软件25%维护17%操作,14%环境AT&T5ESS数字交换机32.3%硬件,44.3%软件,17.5%操作软件故障难以讨论,Tandem指出:通信或D

3、B的原因是产生软件故障的主要原因.软件故障的主要原因代码中的Bug,曾有报告指出,1000条指令中,0.25-10个BUG永久性故障错误的设计不稳定或者临界的组件不稳定的外部环境操作者的过失系统失败永久性错误间歇性错误瞬变的错误系统失败的原因概念-续可靠性DDBMS指即使当底层系统不可靠时,该DDBMS仍然能继续处理用户需求。也就是说,即使是分布式计算环境的组成出故障,该DDBMS仍然能执行用户需求,而不破坏数据库的一致性。提交协议与恢复协议可靠性与事务的原子性和持久性相关,涉及的协议是提交与恢复可靠性与可用性可靠性对系统行为

4、遵从某种权威性规格要求的一种度量。指在一给定时间间隔内不产生任何失败的概率。可靠性通常用于描述那些不能修复的系统。可用性对系统行为遵从某种权威性规格要求的一种度量。只在给定的时间点系统可以运行的概率。通常用于描述哪些可以修复的系统。可靠性与可用性-续DB行为所要求的规格说明与应用有关的事务满足一般的系统规格要求,其中包括一致性约束(事务与应用之间的语义关系)与应用无关的事务维持其ACID性质(事务本身应具有的性质)可靠性与可用性-续正确性DB正确运行,符合某种规格化要求可用性当需要访问DB时,它是可用的二者有时存在矛盾可靠性与

5、可用性-续例:Site1Site2x1x2Lockx1Lockx22PCReady故障出现Site1也Ready故CommitSite2等待此时Site2有两种可能:a>以正确性为标准则等待,并Lock2,直到故障恢复,但牺牲了可用性b>引入不一致,尽量提高可用性,Releasex2,其它事务可以执行Site1正常结束分布式系统容错容错设计一种使系统识别出可能会发生的错误方法。在系统中建立一种机制,使错误在造成系统故障之前就会被检测出来,并能被清除或得到补偿。基本容错方法和技术错误预防保证所实现的系统不包含任何错误错误回避保证

6、系统不会带入错误的技术(详细的设计方法学和质量控制)错误清除清查那些在使用了错误回避技术路线后还残留在系统中的错误,并清除它们(大量的测试和证实过程)故障检测基本容错方法和技术-续潜伏的(Latent)故障故障发生一段时间后才被检测出来错误潜伏期从故障发生到被检测出来的时间平均检测时间(MTTD)平均错误潜伏时间平均修复时间(MTTR)修复一个失败的系统所需要的期望时间平均故障间隔时间(MTBF)在可以自我修复的系统中相继的失败之间的期望时间,由经验或从可靠性函数计算MTBFMTTDMTTR在这段时间内,可能发生多起错误故障发

7、生造成错误检测到错误修复故障发生造成错误时间相继发生的事件基本容错方法和技术-续冗余所有容错系统设计中都采用的基本原则是在系统的组件中提供冗余模块化系统的每个组件都设计为具有定义很好的输入/输出接口的模块系统实现故障-停止模块(fail-stopmodule)进程对(Processpairs)time正常停止恢复正常易失存储丢失稳定存储ok故障-停止模块不断地对自身进行检测,当检测到一个故障时,就自动停止。优点是缩短了故障检测的潜伏期。基本容错方法和技术-续基本容错方法和技术-续进程对(Processpairs)通过软件模块的

8、双工来实现容错。两个进程,一个是主进程,一个是备份,它们同时提供同样的服务,主进程与备份进程都是基于故障-停止模块实现。锁定-步进方式自动检查点设置方式状态检查点设置方式Delta检查点设置方式持久进程对基本容错方法和技术-续面向对话的通信(Session-OrientedC

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。