hadoop下mapreduce参数配置与连接查询算法研究与设计

hadoop下mapreduce参数配置与连接查询算法研究与设计

ID:33410283

大小:4.45 MB

页数:70页

时间:2019-02-25

hadoop下mapreduce参数配置与连接查询算法研究与设计_第1页
hadoop下mapreduce参数配置与连接查询算法研究与设计_第2页
hadoop下mapreduce参数配置与连接查询算法研究与设计_第3页
hadoop下mapreduce参数配置与连接查询算法研究与设计_第4页
hadoop下mapreduce参数配置与连接查询算法研究与设计_第5页
资源描述:

《hadoop下mapreduce参数配置与连接查询算法研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号!P393UDC004.75编号』鲤99S1108022@江.礞大擎硕士学位论文Hadoop下MapReduce参数配置与连接查询算法研究与设计MapReducealgorithmparameterconfigurationandconnectionqueriesResearchandDesignbasedonHadoop申请学位级别亟±学科(专业)通信生值皇丕统论文提交日期2Q!垒生垒旦论文答辩日期2Q!垒生鱼旦学位授予单位和日期答辩委员会主席评阅人独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研

2、究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:袅龆置乡、劫·中年l'月c7日学位论文版权使用授权书江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊(光盘版)电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质

3、论文的内容相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询,授权中国学术期刊(光盘版)电子杂志社将本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布(包括刊登)授权江苏大学研究生处办理。本学位论文属于不保密学位论文作者签名:虽;笨又莎尖少‘f年易月7日指导教师签名:l乱莲墨2汐I牛年6月7日江苏大学硕士学位论文摘要Hadoop所具有的并行化处理对开发者透明的优点,使其成为当前应用最广泛的云计算平台。但Hadoop平台下的各项技术还处于完善阶段

4、,其中代表性的有MapReduce参数配置和分布式连接查询。多达190多个参数的管理配置直接影响Hadoop系统运行性能,目前多依赖管理员的经验配置,缺乏统一的科学的方法;而基于数据仓库Hive的默认连接查询算法,因在节点之间传递的是完整的数据表,带宽消耗大和响应速度慢是算法的主要问题。为此,论文以MapReduce参数配置和分布式连接查询为研究对象。在硬件环境一定的Hadoop集群中,系统性能的好坏很大程度上取决于ReduceTask启动百分比参数配置的合适性。该参数的默认配置值为5%,主要是为了提高系统的slot资源利用率;而

5、在实际中,管理员一般将其提高到50%或更大,以大幅度地提高系统响应时间。论文即以该重要参数的配置为例,提出了一种基于权重决策分析法AHP的参数优化配置算法,以提高配置的科学性。算法的实现主要有以下3个关键步骤:(1)选取AHP模型的决策属性:论文选取与优化参数息息相关的3个参数为决策属性,以匹配通用的AHP模型;(2)由实验获得各决策属性值:利用MapReduce程序,通过分组实验得到各属性值;(3)由前两个步骤得到决策属性曲线,根据曲线反应的规律即可获得参数的最佳配置值。论文设计的基于虚拟机的分组实验,得出的ReduceTask

6、启动百分比参数最佳配置为45%,在该配置值下可以更好地均衡系统的slot资源利用率和响应时间。针对Hive在处理连接查询时,所存在的系统响应速度慢和带宽资源消耗大等问题,提出了一种基于数据预处理和双半连接的SDD.1改进算法。首先,引入预处理技术,在各分布节点对原始数据进行归并排序,以减少汇聚节点的数据映射次数,加快数据处理执行速度;其次,采用基于行和列的双半连接技术,进一步缩减在不同节点间的数据传输量,减少带宽资源消耗。实验表明,相比原始的Hive连接查询算法,改进算法在元组数达到特定规模后,可在一定程度上提高系统响应时间。关键

7、词:Hadoop,MapReduce参数配置,连接查询,AHP,SDD.1Hadoop下MapReduce参数配置与连接查询算法研究与设计ABSTRACTHadoophavebecomethemostwidelyusedcloudcomputingplatformcurrently,becauseitsparallelprocessingistransparenttodevelopers.ButmosttechnologyoftheHadoopplatformintheperfectstage,MapReduceparameter

8、configurationandjoinqueriesistypically.Hadoopsystemperformancedirectlyaffectedbymorethan190resourcemanagementconfigurationpa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。