一种改进的Hadoop数据放置策略_林伟伟.pdf

一种改进的Hadoop数据放置策略_林伟伟.pdf

ID:52836496

大小:378.47 KB

页数:7页

时间:2020-03-30

一种改进的Hadoop数据放置策略_林伟伟.pdf_第1页
一种改进的Hadoop数据放置策略_林伟伟.pdf_第2页
一种改进的Hadoop数据放置策略_林伟伟.pdf_第3页
一种改进的Hadoop数据放置策略_林伟伟.pdf_第4页
一种改进的Hadoop数据放置策略_林伟伟.pdf_第5页
资源描述:

《一种改进的Hadoop数据放置策略_林伟伟.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、华南理工大学学报(自然科学版)第40卷第1期JournalofSouthChinaUniversityofTechnologyVol.40No.12012年1月(NaturalScienceEdition)January2012文章编号:1000-565X(2012)01-0152-07*一种改进的Hadoop数据放置策略林伟伟(华南理工大学计算机科学与工程学院,广东广州510006)摘要:采用现有的Hadoop默认数据放置策略时,若本地数据副本失效,从远程结点上恢复数据需要耗费大量数据传输时间,且随机选取数据

2、放置结点可能会影响数据放置的负载均衡.为此,文中提出一种改进的数据放置策略.该策略基于结点网络距离与数据负载计算每个结点的调度评价值,据此选择一个最佳的远程数据副本的放置结点,从而既能实现数据放置的负载均衡,又能实现良好的数据传输性能.在Hadoop平台上实现了所提出的数据副本放置改进策略,结果表明,与系统默认策略相比,文中提出的策略不仅可以改进数据放置的负载均衡,而且可以减少数据副本放置的时间.关键词:Hadoop;数据放置;负载均衡;策略中图分类号:TP393doi:10.3969/j.issn.1000-

3、565X.2012.01.026[1-2]随着互联网和分布式计算技术的发展,出现体系中的一个重要问题.由于集群由大量机器组成,了越来越多的数据密集型应用,这些应用常常需要存储结点的故障就不可避免.为了避免个别结点的12涉及数TB(10B)的数据,如何高效、可靠而又方便失效导致数据永久性的丢失.Hadoop将数据的多个地处理大量的数据成为当前一个重要研究方向.与副本存放在集群中的不同机器上,当有结点失效时,此同时,互联网凭借其开放性成为数据密集型应用其仍然可以读取数据.为此,应当将同一数据块的多[3]的合适平台.

4、MapReduce正是一个适用于这类大个副本存放在相距较远的多个机器上,从而确保在规模数据集并行运算的编程模型,该模型将大的任整个机架都发生故障时数据的安全.但另一方面,由务分解成为众多的小任务,然后在一个大规模的集于MapReduce中的运算常常需要输入大量的数据,群上并行地完成.MapReduce结构简化了集群中多而大量数据的移动会显著影响运算的性能,所以数结点的并行编程,将任务分解为Map与Reduce两据的存放应当遵循本地性的原则,即数据应当距离个部分,使编程者可以不必关注多结点并行计算的运算结点较近,

5、从而减少因数据移动带来的性能实现细节;MapReduce提供了一个易于实现且可靠[4-5]损失.的并行编程平台.Hadoop是MapReduce分布式[10][6]针对这一问题,当前的HDFS在选择存放数编程模型和GFS数据存储方式的开源实现,如今[4]Hadoop已经有很多较为成功的应用,比如Yahoo[7]、据块的结点时采用的策略是机架感知策略.该策Facebook.除此之外,其他众多网站如Last.fm[8]、略将数据块的多个副本同时存放在本地机架与一个[9]随机的远端机架的结点上,当客户结点发起读取数A

6、mazon等也都在部署Hadoop以管理基于大量数据的应用.据结点请求时,就可以确保能够从本地读取数据.而如何可靠而且合理地存放海量数据是Hadoop且,若本地结点因故障失效,系统则通过远端结点的收稿日期:2011-06-23*基金项目:国家自然科学基金资助项目(61070015);广东省自然科学基金资助项目(10451064101005155,S2011010001754,9451063101002213);广东省科技计划项目(2010B010600032)作者简介:林伟伟(1980-),男,博士,讲师,主要

7、从事分布式系统研究.E-mail:linww@scut.edu.cn第1期林伟伟:一种改进的Hadoop数据放置策略153副本就可以进行数据恢复.但该策略在放置多于一个副本时采用的随机策略却可能导致数据恢复时不必要的性能损失.随机选取的远端机架的结点可能会由于距离本地结点太远而增加不必要的数据恢复时间,同时随机选取结点也不能保证结点之间数据存储的平衡.由于系统中结点的失效是常态,数据恢复时不必要的性能损失会导致整个存储系统性能下降.文献[11]提出的LATE调度算法考虑了系统的异构性,通过为剩余时间最长的任务启

8、动备份任务的方法,提高了MapReduce在异构环境下的效率调度性能.针对当前Hadoop实现中假设计算结点是同构的且没有考虑数据存放位置等问题,文献[12]提出了根据计算结点的处理能力按比例存放数据的策略,该数据放置策略图1Hadoop的默认数据放置策略考虑到了结点异构性,通过提出的数据放置策略改进Fig.1DefaultdataplacementstrategyforHadoop了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。