hadoop架构下数据挖掘与数据迁移系统设计与实现

hadoop架构下数据挖掘与数据迁移系统设计与实现

ID:32724114

大小:4.37 MB

页数:82页

时间:2019-02-15

hadoop架构下数据挖掘与数据迁移系统设计与实现_第1页
hadoop架构下数据挖掘与数据迁移系统设计与实现_第2页
hadoop架构下数据挖掘与数据迁移系统设计与实现_第3页
hadoop架构下数据挖掘与数据迁移系统设计与实现_第4页
hadoop架构下数据挖掘与数据迁移系统设计与实现_第5页
资源描述:

《hadoop架构下数据挖掘与数据迁移系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ADissertationSubmittedtoShanghaiJiaoTongUniversityfortheMasterDegreeofEngineeringDESIGNANDIMPLIMENTIONOFDATAMININGANDMIGRATIONSYSTEMBASEDONHADOOPAuthor:MingyuLvSpecialty:ComputerTechnologyAdvisor:Prof.XiaoyongLiSchoolofInformationSecurityEngineeringShanghaiJiaoTongUniversityS

2、hanghai,P.R.ChinaDecember,2012万方数据万方数据万方数据上海交通大学硕士学位论文摘要Hadoop架构下数据挖掘与数据迁移系统的设计与实现摘要通常情况下企业的信息系统会包含多个业务系统,每个业务系统包含自身的一套在线业务系统、备份系统和归档系统,系统管理复杂,易造成存储空间的浪费,并且系统扩展性较差。针对以上缺点,本文设计并实现了一个分层存储系统,采用一个大数据平台对多个业务系统数据实行统一管理,将每个业务系统的备份系统和归档系统合二为一。此分层存储系统提供基于Hadoop架构的数据挖掘和数据迁移系统的方案。具体内容如下

3、:(1)分析了MapReduce分布式架构、HBase数据库、HDFS分布式文件系统等Hadoop关键技术。(2)设计并实现了基于Hadoop架构的分层存储系统,并对系统和大数据平台的架构设计进行了详细的阐述。(3)设计并实现基于MapReduce模式的数据挖掘模块,将传统关系型数据库的分析方法应用于HBase数据库,有效的对HBase数据库数据进行挖掘分类。(4)设计并实现了数据迁移模块,实现了将在线业务平台的结构化数据和非结构化数据迁移到大数据平台的功能。结构化数据迁移的过程采用MapReduce数据迁移,设计了基于IO负载的调度算法,调度时

4、考虑到资源使用情况,避免将任务分配给IO负载重的节点。设计实现非结构化数据迁移工具,巧妙地利用FTP,多并发的将在线业务平台的日志文件等数据迁移到HDFS指定目录下。(5)对系统的功能和性能进行了完整的测试。测试结果表明,系统所有的功能模块都满足设计要求,且文中提出的IO调度器与默认调度器第I页万方数据上海交通大学硕士学位论文摘要相比有更好的迁移性能。论文设计的数据挖掘和数据迁移系统满足了特定的要求,具有较好的并发数据迁移性能,并且实现了大数据规模下的数据分类挖掘。关键字:Hadoop,大数据平台,MapReduce,数据挖掘,数据迁移第II页万

5、方数据上海交通大学硕士学位论文ABSTRACTDESIGNANDIMPLIMENTIONOFDATAMININGANDMIGRATIONSYSTEMBASEDONHADOOPABSTRACTEnterpriseinformationsystemsusuallycontainmultiplebusinesssystem,andeachbusinesssystemcontainsitsownsetofbusinesssystem,backupsystemsandarchivingsystem.Thedisadvantagesofthissystema

6、recomplexmanagerment,easilywasterofstoragespaceandpoorsystemscalability.Inconsiderationoftheseshortcomings,thisthesisdesignsandimplementsatieredstoragesystem,usingalargeplatformtomanagethemultiplebusinesssystemsandmakingeachbusinesssystembackupandarchivingsystemintoone.Thetie

7、redstoragesystemprovidesadatamininganddatamigrationsolutionbasedonhadoopframework.Thedetailcontentsareasfollowing:(1)ResearchHadoopkeytechnologies,includingMapReducedistributedarchitecture,HBasedatabase,HDFSdistributedfilesystem.(2)Designedandimplementedatieredstoragesystemba

8、sedonHadooparchitecture,anddetailedlystatedthesystemanddataplatforma

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。