基于Hadoop的小文件量化方法研究.pdf

基于Hadoop的小文件量化方法研究.pdf

ID:55733716

大小:587.97 KB

页数:4页

时间:2020-06-05

基于Hadoop的小文件量化方法研究.pdf_第1页
基于Hadoop的小文件量化方法研究.pdf_第2页
基于Hadoop的小文件量化方法研究.pdf_第3页
基于Hadoop的小文件量化方法研究.pdf_第4页
资源描述:

《基于Hadoop的小文件量化方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、NetworkandCommunication基于Hadoop的小文件量化方法研究:l:谭跃生,赵玉龙,王静宇(内蒙古科技大学信息工程学院,内蒙古包头014010)摘要:针对目前Hadoop平台不能高效处理海量小文件而出现的小文件问题,提出一种基于曲线拟合最小二乘法的确定Hadoop平台下何为小文件的方法。该方法首先确定小文件访问时间的量化方法,然后采用访问时间作为确立何为小文件的影响因子,通过对不同数据集大小的不同访问时间的实验,最终结合线性拟合的相关知识找到了小文件大小的量化方法。关键词:Hadoop;小文件问题;

2、曲线拟合的最小二乘法;线性拟合中图分类号:TP316.4文献标识码:A文章编号:1674—7720(2014)13—0042—03Researchontheapproachofsmallfilecut——ofpointsbasedonHadoopTanYuesheng,ZhaoYulong,WangJingyuEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,China)Abstract:Tosolvetheproblemoft

3、hesmallfilewhichcouldnotbehandledeficientlybythepresentHadoopplatform.Amethodbasedonleastsquarescurvefittingtoensure“howsmallissmall”isproposed.Firstandforemost,acriteriaforquantifyingtheaccesstimeofthesmallfileisdefined.WhatSmore,thesmallfileaccesstimeisusedtoa

4、ctastheimpactfactorsoftheproblemtodeterminewhatisasmallfile.Finally,themeansbasedontherelevantknowledgeoflinearfittingisfoundbytheexperimentoftheaccesstimeofthedifferentdatasets.Keywords:Hadoop;thesmallfileproblem;leastsquarescurvefitting;linearfittingHadoop[】是一

5、个具有高扩展性、高可靠性、高容错性(1)海量小文件耗费主节点内存;(2)海量小文件的I/O和高效性的开源软件系统,它已成为互联网、金融、生物效率低,没有一种优化机制来提高I/0性能;(3)HDFS信息学等领域进行大数据分析和处理的代表性云计算下没有明确的能够区分何为小文件的大小文件分界点;平台。它由HadoopDistributedFileSystem(HDFS)[21和(4)海量小文件的放置未考虑文件相关性[61。针对大小MapReduce131两部分组成,其中,MapReduce主要用来处文件的分界点问题提出一种确

6、定何为小文件的方法。在理数据密集型数据,而HDFS则主要负责大数据的存储。深入研究HDFS存储和访问机制的基础上,经过海量小HDFS的产生得益于GoogleFileSystem(GFS),它文件访问、指数拟合和线性拟合等过程,确定了大小文遵循一次写、多次读的流数据访问模式,采用Master—件的临界点。Slave架构,其中的Master,哏IlNameNode,作为单一的节1相关研究点来管理整个文件系统中所存储数据的元数据。为了快Hadoop集群分为NameNode和DataNode两部分,Na.速响应客户端的读写请求

7、,NameNode将文件的元数据meNode负责HDFS中文件元数据的存放和对客户端访存放在内存当中。HDFS设计之初就是为了处理海量大问的控制,DataNode则负责提供块存储,为客户端的I/O文件的,因此,它能高效地存储和处理海量大文件的读请求提供服务,并根据NameNode的指令执行块的读写写请求。然而,HDFS不能高效地处理海量小文件,小文操作。其中,NameNode为了向客户端高效地提供元数据件问题[51由此产生。目前,学术界关注的小文件问题有:信息.将每个文件的元数据信息都存放在内存当中,包括文件名、相应文

8、件对应的块号以及持有这些块的十基金项目:国家自然科学基金资助项目(61163025);内蒙古自然科学基金资助项目(2012MS0912)DataNode信息。因此,当客户端请求创建、读、写和删除42《微型机与应用》2014年第33卷第13期NetworkandCommunication等操作时,客户端都需要先向主节点查询元数据信息

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。