MapReduce作业调度优化技术研究

MapReduce作业调度优化技术研究

ID:37344411

大小:5.91 MB

页数:62页

时间:2019-05-22

MapReduce作业调度优化技术研究_第1页
MapReduce作业调度优化技术研究_第2页
MapReduce作业调度优化技术研究_第3页
MapReduce作业调度优化技术研究_第4页
MapReduce作业调度优化技术研究_第5页
资源描述:

《MapReduce作业调度优化技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ResearchOnOptim娩ationofMapReduceJobSchedulingTechnologyAThesisSubmittedtoSoutheastUniVers时FortheAcademicDegreeofMasterofEngineeringBYLiangDaqiaoSupervisedbyAssociateProfessorSongAiboSchoolofComputerScience&EngineeringSoutheastUniVersi吼Na巧ingCHⅢAJune201

2、5东南大学学位论文独创性声明一本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:鎏去蜂东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复

3、制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括以电子信息形式刊登)论文的全部内容或中、英文摘要等部分内容。论文的公布(包括以电子信息形式刊登)授权东南大学研究生院办理。研究生签名:新签名:皋纽日期:独!£:纽.摘要随着互联网的飞速发展,现如今数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。互联网每天产生的数据数量已经远远超越现有IT基础设施的承载能力,实时性要求也将大大超越现有的计算能力。云计算数据处理系统Ha

4、doop采用了数据并行计算的思想处理大数据,在众多领域有着广泛应用。现有的Had00p作业调度器在调度作业集时,大多未考虑作业的截止时间要求,导致一部分作业无法在截止时间到来前完成;其次,大部分调度器在作业本地化执行方面采用的是“尽力而为”的策略,导致作业集无法充分利用数据本地性,网络传输耗费成为执行效率的瓶颈。并且大多调度器只针对同构集群,不能根据集群异构性因地制宜地选择合适的节点运行任务,导致作业执行效率不高。本文针对Hadoop调度中存在的问题,对Hadoop数据并行作业集调度优化技术进行了研

5、究。本文首先分析了Hadoop作业执行的流程,结合作业调度的过程,建立分级的作业集调度机制。针对作业集平均延迟较大的问题,提出了一个基于截止时间优先的作业预调度算法(第一级调度),建立一个面向多用户的多级等待队列,每一个队列中的作业按照截止时间优先的策略分配资源,估算作业预计剩余时间,试图减少作业集的延迟作业比例和平均延迟时间,并为下一级的作业子任务指派做准备;针对作业集执行效率较低的问题,首先将作业的子任务按照数据块位置信息合并成子任务组参与调度,加快调度效率。然后提出了任务等待代价模型和执行代价

6、模型,有效衔接两级调度,充分利用数据本地性减少网路传输耗费,同时利用集群异构性降低读写和计算耗费。最后将两个代价模型进行合并,并结合作业预调度算法,提出了一个基于最小费用流的子任务指派算法(第二级调度),利用该算法将作业内的子任务依次指派到特定的计算节点,降低子任务集的平均周转时间,提高整个作业集的执行效率。本文设计并实现了MCF调度算法,实现上述功能,并搭建了实验平台,实验结果表明MCF可以有效减少延迟作业比例和平均延迟时间,同时有效地降低作业子任务集的平均周转时间,提高作业集的执行效率,与FIF

7、O、Capacity、Fair相比具有一定的性能优势。关键字:大数据处理;MapReduce;作业调度;最小费用流IABSTRACT一⋯——————————————————————————————————————————————————————一WiththerapiddevelopmentofmeIntemet'data,W11ichhaspene仃.atedintoeveryareaottodav,sindustriesandbusinessareas,hasbecomeanimportantf

8、actorsofproduction.The锄ountofdatageneratedbytheIntemetdailyhasgonef打beyondthecan了ingcapacityofexistingITin仔a蛐ructure;alsotherequirementofreal.timinghasbeenbeyondtheexistingcomputingpower.Asacloudcomputingdataprocessingsystem,Hadoopusest

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。