基于云计算平台的聚类算法的研究

基于云计算平台的聚类算法的研究

ID:33412331

大小:1.47 MB

页数:63页

时间:2019-02-25

基于云计算平台的聚类算法的研究_第1页
基于云计算平台的聚类算法的研究_第2页
基于云计算平台的聚类算法的研究_第3页
基于云计算平台的聚类算法的研究_第4页
基于云计算平台的聚类算法的研究_第5页
资源描述:

《基于云计算平台的聚类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、(申请工学硕士学位论文)(申请工学硕士学位论文)基于云计算基于云计算平台的聚类算法的研究平台的聚类算法的研究培养单位:计算机科学与技术学院姚蒙学科专业:计算机应用技术研究生:姚蒙武指导老师:薛胜军教授汉理工大学2014年4月万方数据分类号密级UDC学校代码10497学位论文中文题目基于云计算平台的聚类算法的研究英文ResearchofClusteringalgorithmBasedoncloudcomputing题目platform研究生姓名姚蒙姓名薛胜军职称教授学位博士指导教师单位名称计算机科学与技术学院邮编430063申请学位级别硕士学科专业

2、名称计算机应用技术论文提交日期2014-04论文答辩日期学位授予单位武汉理工大学学位授予日期答辩委员会主席评阅人2014年4月万方数据独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保

3、留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人承诺所提交的学位论文(含电子学位论文)为答辩后经修改的最终定稿学位论文,并授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):导师(签名):日期万方数据武汉理工大学硕士学位论文摘要聚类算法一直是数据挖掘算法中比较重要的一个分支,在无需先验知识的前提下,聚类算

4、法可以帮助研究人员从数据集合中获取数据特有的规律和组织结构。伴随着科技的发展,数据集中包含的数据量呈指数级增长,传统模式的聚类分析算法已经不足以应付当前的数据规模,Hadoop、Spark等分布式平台的出现为聚类分析的发展和研究提供了一个新的方向,同时,聚类算法也成了研究的重中之重。本文针对传统聚类算法难以有效解决大数据聚类处理的问题,通过对聚类算法的研究和优化,并结合当前云计算模式的发展主要做了如下工作:(1)首先对基于划分的最典型的K-means算法做了深入的分析,主要介绍了该算法的特点和执行过程。然后结合其自身特点,详细的阐述了K-mean

5、s算法存在的几个缺点,并针对这些缺点,提出了通过对数据集进行预处理以得出K-means算法初始条件的k值、初始聚类中心的方案。从优化算法初始值的角度对算法进行了一定程度的改进。由于基于划分的聚类算法对数据集形状比较敏感,而基于密度的聚类算法却能够很好的解决此类问题。因此,本文接着对基于密度的DBSCAN算法进行了分析和改进,改进的算法从一定程度上降低了算法执行的时间消耗。(2)为了解决传统模式的聚类算法难以处理大数据集的问题,文中探讨了MapReduce编程模型,并基于此基础,把改进后的算法在Hadoop的MapReduce框架下做了并行化的设计

6、。(3)通过对比实验比较了两种算法在处理任意形状数据集时的特点;论证了优化初始值后的K-means算法在聚类效果、算法复杂度上要优于原始算法,改进的DBSCAN算法降低了时间消耗。同时论证了两种并行化的算法能够充分体现出分布式计算的优点,大大的减少了运算的时间,使得数据处理效率有了很大的提高。关键词:聚类算法;Hadoop;MapReduce;K-means;DBSCANI万方数据武汉理工大学硕士学位论文abstractClusteringalgorithmhasalwaysbeenoneofthemostimportantbranchindat

7、aminingalgorithm.Withoutpriorknowledge,clusteringalgorithmcanhelpresearchersgettheregularpatternandspecificorganizationalstructureoftheobjectformdataset.Withthedevelopmentoftechnology,theamountofdatawhichiscontainedinthedatasetgrowsexponentially.Thetraditionalmodelofclusteran

8、alysisalgorithmhasbeeninsufficienttodealwiththecurrentdatasize.Newly

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。