基于hadoop平台的大数据迁移与查询方法研究及应用

基于hadoop平台的大数据迁移与查询方法研究及应用

ID:34133831

大小:3.48 MB

页数:75页

时间:2019-03-03

基于hadoop平台的大数据迁移与查询方法研究及应用_第1页
基于hadoop平台的大数据迁移与查询方法研究及应用_第2页
基于hadoop平台的大数据迁移与查询方法研究及应用_第3页
基于hadoop平台的大数据迁移与查询方法研究及应用_第4页
基于hadoop平台的大数据迁移与查询方法研究及应用_第5页
资源描述:

《基于hadoop平台的大数据迁移与查询方法研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、(申请工学硕士学位论文)基于Hadoop平台的大数据迁移与查询方法研究及应用培养单位:计算机科学与技术学院学科专业:计算机应用技术研究生:刘珂指导教师:熊前兴教授2014年5月万方数据类号密级UDC学校代码10497学位论文题目基于Hadoop平台的大数据迁移与查询方法研究及应用英文ResearchandApplicationofBigData题目MigrationandQueryBased-onHadoopPlatform研究生姓名刘珂姓名熊前兴职称教授学位指导教师单位名称计算机科学与技术邮编430063申请学位级别硕士学科专业名称计算机应用技术论文提交日期2014.04

2、论文答辩日期2014.05学位授予单位武汉理工大学学位授予日期答辩委员会主席评阅人2014年5月万方数据独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文

3、被查阅和借阅。本人承诺所提交的学位论文(含电子学位论文)为答辩后经修改的最终定稿学位论文,并授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):导师(签名):日期万方数据武汉理工大学硕士学位论文摘要高效的数据管理系统对于数据应用管理非常重要,然而数据规模的持续增长、数据类型的不断变化、非结构化数据成为存储和处理对象等因素,逐渐动摇了传统关系数据库的主导地位,仅

4、仅使用传统关系数据库已经不能很好地解决上述问题,不能满足经济有效的存储、分析和访问数据。Hadoop由于对底层存储和并行处理透明化,同时拥有高性能的集群计算和存储能力,在分布式计算和大量数据处理方面脱颖而出。然而使用Hadoop平台对大数据进行处理,并实现高效率查询,需要对Hadoop与关系型数据库之间进行数据的迁移,将数据导入到Hadoop中进行分析处理,使用Hadoop来优化数据库核心工作效率及数据库性能、完成不断更新的查询需求。本文在讨论研究Hadoop平台相关架构及数据交换原理的基础上,对基于Hadoop平台的数据迁移提出了MapReduce技术的实现方案,MapR

5、educe可以实现更优的并发性,从而可以体现优化数据转换的能力。首先深入分析MapReduce工作机制,及Hadoop三种常用的作业调度器。在此基础上,对MapReduce的作业调度器进行优化设计,将公平调度器与优先权(高响应比优先)调度算法相结合,提出了基于优先权的公平调度器的改进算法,同时以TaskTracker的负载均衡监听器辅助进行调度工作。然后分析HBase和Hive各自的工作机制,对Hive-HBase相结合的数据查询方法进行探讨,设计了一个基于Hive-HBase的数据查询方案。最后,搭建实验环境对基于Hadoop平台的数据迁移及数据查询进行实验与分析,对比基

6、于不同调度算法的迁移性能,以及对比原系统与Hive-HBase相结合的查询方案二者进行数据查询的效率。经过实验分析,验证了本文构建基于Hadoop平台包括数据迁移和查询的完整数据处理的方案是可行的。数据迁移过程中对调度算法的优化提高了数据迁移性能,同时,使用Hadoop平台对大数据进行处理与传统关系数据库相比,在查询效率上体现其优势。因此,本文在对大数据进行处理上有一定参考价值。关键词:Hadoop,MapReduce,HBase,Hive,数据迁移,数据查询I万方数据武汉理工大学硕士学位论文AbstractEfficientdatamanagementsystemisqu

7、iteimportanttodataapplicationmanagement,however,becausethedatasizeiscontinualgrowing,thedatatypeischanging,andtheunstructureddataisbecominganessentialpartofdatastorageandprocessing,thedominanceofrelationaldatabasesisshakengradually.Usingrelationaldatabasescan’

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。