基于hadoop平台的并行数据挖掘算法研究

基于hadoop平台的并行数据挖掘算法研究

ID:35056961

大小:5.55 MB

页数:71页

时间:2019-03-17

基于hadoop平台的并行数据挖掘算法研究_第1页
基于hadoop平台的并行数据挖掘算法研究_第2页
基于hadoop平台的并行数据挖掘算法研究_第3页
基于hadoop平台的并行数据挖掘算法研究_第4页
基于hadoop平台的并行数据挖掘算法研究_第5页
资源描述:

《基于hadoop平台的并行数据挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、TP游.分类号:单位代码:103610《获巧义乂學A誦论文题目:基于Hadoop平台的并行数据挖掘算法妍究作者姓名;张永芳专业名称:计算机科学与技术导师姓名;于碟副教授完成时间—;二〇六年六月论文编号:中图分类号:TP39:巧010公开学科分类号密级:安徽理王大学硕壬学位论文基于Hadoop平台的并行数据挖掘算法研究作者姓名:张永芳专业名称:计貸化科学与技术研究方向:数据較掘导师姓名:于礫副教授导师单

2、位;安徽理工大学答辩委员会主席:尹玉龙论文答辩日期16年6月4日:20安徽理工大学研究生处2016年6月6日ADissertationinComputerScienceandTechnologyResearchonParallelDataMininAlorithmBasedggonHadoopCandidate:ZhanYonfangggSuervisor:YuLipSchoolofComuterScienceandEnin

3、eerinpggAnHuiUniversityofScienceandTechnologyNo.168,ShungengRoad,Huainan,232001,P.R.CHINA独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加L乂标注和致谢的地方レ乂外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得安徽理工大学或其他教育化构的学位或证书而使用过的材料一。与我同工作的同志对本研究所做的任

4、何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:許却日期:年月采日学位论文版权使用授权书本学位论文作者完全了解安徽理工大学有保留、使用学位论文的规定,巧:研究生在校攻读学位期间论文工作的知识产权单位属于安徽理工大学。学校有权保留并向国家有关部口或化拘送交论文的复印件和滋盘,允许论文被查阅和借阅。本人授权安徽理工大学可1^乂将学位论文的全部或部分内容编入有关数L、、据库进行检索,可义采用影印缩印或担描等复制手段保存汇编学位论文。(保密的学位论文在解密后适用本

5、授权书)学位论文作者签秦:夺杂為签字曰期:兴乂年月来曰《导师签寺嫂签字曰期:兴/知《月8^曰摘要摘要由于科学研究、通信技术W及IT技术等的迅猛飞速发展,庞大的数据集合由GB往TB发展,甚至将来的ZB。云计算凭借其超强的计算能力和可靠的计算能一丝生机力为数据挖掘技术的改进带来了。本文采用Hadoop分布式云计算平台,基于该平台的两大核也技术MapReduce和HDFS,,实现数据挖掘算法中分类聚类算法的并行化通过实践论证了基于该平台的分类聚类算法具有良好的加速比、

6、扩展性及分布式运算效果。主要内容如下:1.引入开源分布式计算平台Hadoop,包含它的两大核也技术MapReduce和HDFS。详细介绍了MaReduce和HDFS的运行机制及实现原理。给出数据挖掘p技术的概念,介绍数据挖捆算法中的分类聚类算法;并根据现有的知识结合数据挖掘技术的特点分析数据挖掘的发展趋势。2.基于前面的Hadoop理论知识,完成了本文所需的高可靠Hadoop平台的搭建。针对1.0.0之前的Hadoo乏安全性认证,引入Kerberos的安全策略p版本缺;针对HD

7、FS的NameNode、MapReduce的JobTracker的单节点故障问题,使用了DRBD镜像块设备存储技术。最终搭建成功高可靠安全的Hadoop环境。3Hadoo-ans.着重介绍基于p平台实现KMe聚类算法的主要思想和实现的代码-Means聚类算法具有良好;并且通过几组实验,实践说明基于云计算平台的K的扩展性能和较好的扩展性能。4.详细介绍了基于Hadoop平台的朴素贝叶斯分类算法的主要思想及实现代码;并对MapReduce化的朴素贝叶斯算法和改进前的朴素贝叶斯算法比较,分析

8、改进后的分类算法的分布式运算效果。关键词:Hadoop平台;数据挖掘;分类聚类算街脚FS--I摘要AbstractWiththeseedydevelopmentofscientificresearchcommunicationstechnolop,gyandITte浊nology,BigDatasetsfromGBtoTB,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。