大规模lustre集群文件系统关键技术的研究

大规模lustre集群文件系统关键技术的研究

ID:11449466

大小:128.00 KB

页数:96页

时间:2018-07-12

大规模lustre集群文件系统关键技术的研究_第1页
大规模lustre集群文件系统关键技术的研究_第2页
大规模lustre集群文件系统关键技术的研究_第3页
大规模lustre集群文件系统关键技术的研究_第4页
大规模lustre集群文件系统关键技术的研究_第5页
资源描述:

《大规模lustre集群文件系统关键技术的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大规模Lustre集群文件系统关键技术的研究国防科学技术大学博士学位论文大规模Lustre集群文件系统关键技术的研究姓名:钱迎进申请学位级别:博士专业:计算机科学与技术指导教师:金士尧2011-03国防科学技术大学研究生院博士学位论文摘要集群已成为当今高性能计算机的主流体系结构。集群文件系统是缓解高性能计算集群I/O瓶颈问题的核心技术。随着高性能计算技术的不断发展,很多高性能计算应用的存储需求在不断提高。Lustre是领先的集群文件系统,已经成为构建高性能计算存储系统的标准,在高性能计算市场中占据

2、统治地位。它可以有效地扩展到支持上万个节点的大规模HPC系统,具有被证实的聚合性能和扩展性。随着高性能计算不断的以增加节点来提升系统性能,未来高性能计算集群将变得异常庞大,技术上给Lustre带来了扩展性、I/O性能和可用性等诸多严峻挑战。本文所做的工作就是紧紧围绕这些问题展开的。具体研究内容和创新成果如下:1针对大规模应用的并行I/O访问特性,设计了一种新颖的跨网络的服务器端I/O请求调度器框架,并提出了一种基于对象的轮转(OBRR,ObjectBasedRoundRobin)调度算法来优化性能

3、。它通过调度上层的并行I/O请求的执行,呈现给后端存储系统更容易优化的I/O工作负载。同时,为了避免饥饿以及满足不同紧急程度I/O请求响应时间的需求,提出了一种新颖的两级deadline设置策略:动态deadline和强制deadline。一系列的模拟测试结果表明使用OBRR性能提高了40%以上,两级deadline设置策略可以保持公平性,避免饥饿,确保不同紧急程度I/O的响应时间。2与网络拥塞类似,当存储系统达到超大规模时,也会造成I/O拥塞问题。针对这个问题,提出了一种动态I/O拥塞控制机制来

4、更好的支持未来的艾级规模HPC系统的存储需求。在该机制的控制下,当服务器轻载时,允许客户端发送更多的I/O请求给服务器,以达到优化网络和服务器资源利用率提高I/O吞吐率的目的;另一方面,当服务器负载过重时,它可以对客户端I/O进行节流控制,限制服务器挂起的I/O请求的数目,控制I/O延迟,避免服务器拥塞崩溃。在天河一号上的一系列评估实验结果证明了提出的拥塞控制机制的有效性:它阻止了拥塞崩溃的发生;在此前提下,它最大化了Lustre文件系统的I/O性能。3针对传统的固定超时机制不能适应超大规模集群环

5、境的不足,提出了一种综合考虑网络条件、服务器负载、扩展性和性能等因素的自适应可扩展的RPC超时机制。它包括两个策略:自适应超时策略和及早回复策略。在自适应超时策略中,客户端设置的超时值可以根据客户端服务器间的网络情况以及服务器的工作负载动态的进行调整,以适应集群环境的变化,从而避免不必要的超时造成整个系统性能的降低;同时,为了区分服务器因负载过重而拥塞和网络/节点失效,以及为了解决嵌入式超时问题,提出了一种及早回复策略:当服务器知道它不能在客户端期待的响应时间内回复RPC请求时,它将提前发送一个轻

6、量级的及早回复第i页国防科学技术大学研究生院博士学位论文消息给客户端并指示一个估测的额外需要的服务时间。该策略进一步减少了超时的发生,提高了系统的响应速度。一系列的模拟评估的结果表明:与固定超时机制相比,使用自适应超时策略RPC超时率从76%降低到13%,结合及早回复策略,超时率甚至降低到0%;在基于RPC的超大规模集群系统中,其他的一些RPC失效检测机制,如客户端驱动的轮询或探测机制,会产生大量的不必要的网络流量,存在扩展性问题,而我们的机制通常只产生少量的网络流量,是一个更具有扩展性的基于超时

7、的失效检测机制。4研究了Lustre分布式锁管理器技术。首先,分析了Lustre的文件访问的并发控制机制,基于锁回调的客户端目录项高速缓冲和数据写回缓冲;其次,研究了Lustre的基于意图锁的元数据操作和子树锁机制以及基于范围锁的文件大小获取算法;最后,提出了自适应I/O锁策略、基于区间树的范围锁冲突检测优化策略以及锁淘汰策略等,进一步增强了Lustre的I/O性能和锁服务的扩展性。5研究有状态的Lustre基于事务的元数据更新算法和恢复机制。Lustre允许服务器完成了事务的内存更新就可以将结果

8、返回客户端,而且其结果在整个命名空间即为可见的。这种方式能够提供优异的元数据性能,但它会在服务器重启恢复(或者故障切换)时造成事务的叠加abort的问题,从而不能进行透明无缝的恢复。Lustre的重启恢复算法需要集群中所有客户端在指定的恢复时间窗口内与服务器重新建立连接,客户端重传未提交的事务请求,服务器严格按照事务序列号重放所有未提交的事务,其要求过于严格。为了提高Lustre的可恢复性,提出了基于版本恢复和共享时提交算法,它们分别对Lustre的元数据更新算法和重启恢复恢算法进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。