基于hadoop平台的分布式etl研究与实现

基于hadoop平台的分布式etl研究与实现

ID:33549382

大小:5.52 MB

页数:59页

时间:2019-02-27

基于hadoop平台的分布式etl研究与实现_第1页
基于hadoop平台的分布式etl研究与实现_第2页
基于hadoop平台的分布式etl研究与实现_第3页
基于hadoop平台的分布式etl研究与实现_第4页
基于hadoop平台的分布式etl研究与实现_第5页
资源描述:

《基于hadoop平台的分布式etl研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10255学号:2111480基于Hadoop平台的分布式ETL研究与实现RESEARCHANDIMPLEMENTATIONoFDISTRIBUTEDETLBASEDoNHADooPPLATFoRM专业:姓名:指导教师:答辩日期:计算机应用技术何刚孙莉2014年1月东华大学学位论文原创性声明本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究一l:作所取得的成果。除文中己明确注明和引用的内容外,本论文彳i包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明

2、的法律结果由本人承担。学位论文作者签名:口期:护l严年缅例叮月呼口东华大学学位论文版权使用授权书学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口,在年解密后适用本版权书。本学位论文属于不保密i。学位论文作者签名:缅刮指导教师签名:日期:刎妒年口/月。7日日期:纠尸年口/月7日基于Hadoop平台的分布式ElL研究与实现摘要数据抽取、转换和加载(Extra

3、ct.Transform.Load,ETL)是实现数据仓库领域中高质量数据的关键技术,也是为高层决策人员提供有效数据的核心技术。将海量数据通过ETL技术快速的抽取到数据仓库中是当前急需解决的重要问题,也是数据仓库领域共同关注的话题。本文运用数据仓库理论知识和大数据分布式处理技术,重点研究了分布式ETL框架、数据的并行处理和HDFS数据块合理分配的优化方法。本文作者主要研究和实现的工作如下:第一,分布式ETL框架的设计。分析Hadoop平台下的MapReduce_丁作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分

4、布式ETL框架。第二,事实并行处理的研究。从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。实验结果表明,与Hive数据仓库相比,两种算法在并行处理数据仓库的事实数据的问题上,具有更高的效率。第三,HDFS数据块分配算法的研究。以网络流最小代价最大流理论为基础,运用改进的最短增广路径的方法求解最大流,以结点的网络距离和负载均衡为代价,提出了一种把HDFS数据块分配到分布式数据仓库的分配算法。通过实验表明,本文提出的分配算法与已有算法相比,前者具有更高的有效性。最后本文给出了基于Hadoop平台的

5、分布式ETL系统的实现过程,性能优于目前已存在的分布式ETL系统。关键词:Hadoop分布式ETL数据处理分配算法RESEARCHANDIMPLEM匣NTATl0NOFDISTRIBUTEDETLBASEDONHAD00PPLATFORMABSTRACTDataextraction,transformationandload(ETL)isakeytechniqueoftheimplementationofhighqualityinthefieldofdatawarehouse.Anditisalsoacoretechniquethatprovidesthevaliddat

6、aforthehigh—leveldecisionmakers.Itisanimportantproblemurgentlysolved,whichisthemassdataloadedintodatawarehouserapidlybytheETLtechnique.Anditisalsothecommonconcernedtopicinthefieldofdatawarehouse.Datawarehousetheoryknowledgeandthedistributedprocessingtechniqueofmassdataareadoptedinthispape

7、r.ThispaperfocusesondistributedETLframework,paranelprocessingofdataandtheoptimizationapproachoftheHDFSdatablocksassignment.Themainresearchesandworksmadebythispaper’Sauthoraredescribedasfollows:Firstly,thedesignofthedistributedETLframework.MapReduceworkmechanismandjo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。