基于mapreduce的连接算法研究

基于mapreduce的连接算法研究

ID:35173927

大小:4.64 MB

页数:49页

时间:2019-03-20

基于mapreduce的连接算法研究_第1页
基于mapreduce的连接算法研究_第2页
基于mapreduce的连接算法研究_第3页
基于mapreduce的连接算法研究_第4页
基于mapreduce的连接算法研究_第5页
资源描述:

《基于mapreduce的连接算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP391密级UDC论文编号化^一敞哀硕±学位论文论文题目:基于Ma口Reduce的连接算法研究:何利民研究生:梁倦杰导师专业:系统分析与集成研究方向:数据分析2016年5月分类号:TP391学巧代号:10512学号;2013111104000656湖北大学硕±学位论文基于MapReduce的连接算法研究作者姓名:何利民指导教师姓名、职称:梁俊杰,教授申请学位类别:理学硕±学位学科专业名称:系统分析与集成研究方向:数据

2、分析论文提交日期;^年《月I日论文答辩日期;占年月次日2学位授予单位:湖北大学学位授予日期:年月日?答辩委员会主席;Join过gori化mresearchbasedonMapReduceAThesisSubmittedfo"heD巧巧eofMas化rCandidate:HeLiminSurvisor:Prof.LfangJunfepejHubeiUniversityWuhan,China学位论文使用授权书、彼羯学隹论文的管理办法及规定本论文作者完全了解学

3、校关于揉存,郎学校有权谋留异向国宋有关部口戒机均遊交论文的复印件和电子版,允许沦文被查巧和谱阔。本人完全同意《中国博主""学營论文全文敎据库出嚴牵强》《》下、中擾优秀硕±学位添文企文数据库出版章薄幫称華程,见WWW.cnki.net),魔意将本人的学谊论文巧交中围学术期刊(化盎版)电子杂志社在《中国巧主学替论文全文数据库》、《中国优秀硕±学爸论文全文数羅库》中全义发索和W电子.巧絡茂其他数字缓体形式公开出版,异罔惠編入CNKI《中围知巧资源总摩》,在《中国I博硕去学植沦文评化数攝""库》中使用和在至撰两上传播,罔意

4、按牵埋规定革受相关朽按(请作者直接与杂志社联系,巧-0--1062791817、62793176627011巧化址48豕入;栗老邱:电话:、;通巧:北京淆华大学邮局84、信箱采編中吃邮雜:100084)。本投权书签署一式£巧,唆湖北大学学位巧定委员会办公室。学替论文作者签名;导邹空名;^年&月/B年《月田I縱扶学研究生学位论文作者倍息论文嫣呂基于MapReduce的连讓第法研究域名何利民学晋2013111104000656答辩日顯2016年5月20艮论文巧别博±口頭去cf

5、院计算机与信患工程学院专业系统分析与窠成联系运巧作者Enail.j作者通信地址;(含邮额)备值;注:卡派义如需镶密,讓密级别是.辩密时闺是___年____月。(澡密学位论义在解密盾适周子本授权书)基于MapReduce的连接算法研究摘要最近几年,大数据己经渗透到了公共健康、临床医疗、物験网、社交网络、社会管理、传统零售业和工业制造业等各行各业。我们处在大数据时代,数据呈现指数级増长和积累,大数据挖掘和分析处理受到工业界与学术界的重点关注。MapReduce作为一种分布式计算编程框架,不

6、仅可扩展性好,并具有很好的容错性和高可用等优势,能够完成海量数据的分布式计算任务,在大数据挖掘和分析处理方面有着不可替代的作用,是谷歌,阿里己己等企业和学术界研究应用大数据的重要技术平台。连接操作是大规模数据集的数据分析应用中最常用的操作。在MapReduce框架下,当参与连接的原始数据集分布不均匀容易造成某些个mapper任务预处理的数据量不均衡,产生map端倾斜的问题;mapper任务对倾斜数据集采用默认的哈希函数进行分区时会出现某些个reducer任务数据处理量远多于其他reducer任务,出现reduc

7、e端负载倾斜的问题。针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,本文设计MaReduce的频次分类连接。了基于p算法具体的研究内容包括;一Ha第,基于直方图设计了数据分类方法。因为doop本身无法感知mapper端输出数据的分布情况,导致reducer的负载不均衡,影响连接执行的效率。本文对mapper任务输出的中间结果基于直方图进行统计分析,根据数据在连接数据集中出现的频率将整个数据集分为H类。通过确定数据分布情况,从而设计适应的分区函数和数据分发机reducer制,确保每个的负载均衡,

8、提高连接査询效率。第二,基于数据分类设计了数据分发机制。为了避免数据连接的时候,各个节点的任务出现负载不均衡,对倾斜数据利用分区算法和广播算法实现数据重分布,消除数据倾斟影响;对非

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。