分布式系统 10、容错性ppt课件.ppt

分布式系统 10、容错性ppt课件.ppt

ID:59360964

大小:187.00 KB

页数:35页

时间:2020-09-20

分布式系统 10、容错性ppt课件.ppt_第1页
分布式系统 10、容错性ppt课件.ppt_第2页
分布式系统 10、容错性ppt课件.ppt_第3页
分布式系统 10、容错性ppt课件.ppt_第4页
分布式系统 10、容错性ppt课件.ppt_第5页
资源描述:

《分布式系统 10、容错性ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第七章容错性一、容错性简介基本概念故障使用冗余掩盖故障1、基本概念容错即意味着系统能在故障发生的情况下继续提供服务。几个相关概念可用性:系统可以工作,即可被使用可靠性:指系统可以无故障地持续运行安全性:系统在偶然出现故障的情况下可以正确操作而不会造成任何灾难。可维护性:系统发生故障后,恢复的难易程度2、故障可以分为暂时的、间歇的和持久的。可以进一步分为以下类型:故障类型说明崩溃性故障服务器停机,但停机之前工作正常遗漏性故障接收遗漏 发送遗漏服务器不能响应来到的请求 服务器不能接收消息 服务器不能发送消息定时故障服务器未能按时响

2、应响应故障值故障 状态转换故障服务器响应不正确 响应值不正确 服务器偏离了正确的控制流随意性故障服务器可能在随意的时间产生随意的响应3、使用冗余掩盖故障分布式系统容错的目的对其他进程或客户隐藏故障(故障透明性)容错手段:使用冗余掩盖故障三种冗余方法:信息冗余:添加额外的位以使错误的位恢复。时间冗余:多次重复一个操作,适合临时性或间歇性故障。物理冗余:物理上添加备份二、分布式系统的进程容错进程组平等组和等级组组成员的管理1、进程组进程组把多个相同的进程组织到一个逻辑的组中当组中某个成员进程遭遇故障而不能工作时,组中其他成员可以接

3、管它目的允许把进程的集合作为逻辑上单一的对象来处理,增加系统的容错性进程组进程组特性组本身可以是动态的组成员可以是动态的一个进程可以从属于多个组类型:平等组和等级组2、平等组和等级组平等组对应分布式概念所有成员地位都是相同的所有决定都是共同作出的等级组对应集中式概念一般有一个协调者进程,其他则是工作者组内关系和动作由协调者做决定平等组和简单等级组平等组和等级组平等组没有单独故障点决策效率低等级组有单个故障点决策效率高。3、组成员管理基本问题加入与离开组成员故障处理使用组管理服务器(集中式方法)所有进程要加入或者离开组都向它申请

4、优点:直接,高效,易于实现缺点:单一失败点分布式方法进程加入和离开组需要给所有成员发请求,共同作出决定当成员发生故障崩溃时,需要通过一些协议来重建组三、可靠的点对点通信与容错分布式系统通信的可靠性设计的重点在于掩盖崩溃性故障遗漏性故障随意性故障—通过重复消息的形式排除。对于点到点通信,如TCP通信,崩溃性故障只能由分布式系统重新建立连接。在RPC调用中,有5种失败形式:客户不能定位服务器客户到服务器的请求消息丢失服务器在收到请求之后崩溃从服务器到客户的响应消息丢失客户在发送请求之后崩溃1、RPC通信失败RPC通信失败2、客户无

5、法定位服务器与请求丢失客户端不能定位服务器由应用程序抛出异常来处理请求消息丢失超时重发机制3、服务器崩溃两种情况,但对客户来说,都是超时执行之后崩溃执行之前崩溃三种处理方式在服务器重启之前等待并再次尝试操作立即放弃并报告失败什么都不保证4、应答消息丢失也是依靠客户端的超时重发机制处理问题:转帐另一种方法:为每个客户请求配一个序列号,这样服务器就能分辨客户的新请求与重发的请求,当服务器收到重发的请求时,不执行重复操作5、客户崩溃最大问题:孤儿进程的产生RPC调用中,客户进程与它调用的服务器计算之间是父子关系,当客户崩溃后,驻留在

6、服务器中继续运行的计算变得毫无意义,而且没有进程等待它、需要它。这个计算就变成了孤儿(Orphan)。客户崩溃孤儿会引起许多问题:首先,它的计算毫无意义,因为已经没人需要它的结果孤儿浪费系统资源,包括计算、存储和其他资源当客户恢复并重发请求时,孤儿返回的结果则会引起混淆客户崩溃第一种方法是消灭在RPC调用之前写日志客户在崩溃中恢复后根据日志杀死孤儿缺点:代价高,每个RPC都需要写日志孤儿本身有可能进行RPC调用而产生后代,杀死孤儿后,其后代成为更难跟踪处理的孤儿。客户崩溃第二种方法是再生对时间分段并编号当客户重启时,向所有机器

7、广播声明一个新时期开始其他机器收到该消息后,杀死所有与这个客户有关的远程计算但对于广播不能到达的地方,孤儿还有可能存活客户崩溃最后一种方法是到期每个RPC都被给定一个期限T来工作到期后如不能结束就需要申请宽期否则被认为抛弃子女,与其相关的远程计算将被当作孤儿杀死四、可靠的组通信与容错1、基本的可靠多播方法多播:发送到进程组的消息被传送到组中所有成员。多播面临的问题:通信期间,有进程加入组通信期间组中有成员崩溃最简单解决方法:对进程组每个成员建立点到点的连接一种简单有效的方法如下页图示。简单的可靠多播2、可靠多播的可扩展性简单方

8、法致命问题当接受者数量庞大时,大量的反馈消息将淹没发送者,引起反馈拥塞。解决方法一:只在消息丢失时反馈问题:发送者只好永远在历史缓存器中保留消息,因为不知道消息是否送达。而且即使否定反馈依然可能拥塞。可靠多播的可扩展性方法二:无等级反馈控制接受者不发送成功确认当丢失消息时向组

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。