基于云平台的聚类算法并行化研究.pdf

基于云平台的聚类算法并行化研究.pdf

ID:50117921

大小:4.89 MB

页数:58页

时间:2020-03-06

基于云平台的聚类算法并行化研究.pdf_第1页
基于云平台的聚类算法并行化研究.pdf_第2页
基于云平台的聚类算法并行化研究.pdf_第3页
基于云平台的聚类算法并行化研究.pdf_第4页
基于云平台的聚类算法并行化研究.pdf_第5页
资源描述:

《基于云平台的聚类算法并行化研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、‘.零廣'祭薦—.':密级单位代码:.么开..—京捉r^A哺:'■‘:c如义,扛‘:、';.iT.硕女緣化俗戈v;^lP麵.―;.^.譚焉V可皆^坪:,1皆岩:廉%:,?儀.,芽.議参1H'感p'婦顯龜-W顯擊.曜;巧蠻4作.'''’.八.'一..’,’..巧聲.含/:踰若.安祭巧巧為'‘';声P.;论文题目:暮于云平台的聚类算法并行化研究;;端i...'片.’',.’.;記;讀.V:’:-.'.'—--‘':_又巧:..‘.’.職v.地.V苗r巧/诺

2、追-1012041032学号—:_..J叫刮鑛..下巧中;、^:.:手姓名MMr:/导师逃篮量学科专业计算机系统结构,,爲羣秦;'研究方向嵌入式系统设计及其在通信中的应用藻r標..':’'i,,./i知?#申请学位类别王学硕丈心I,‘20153年月:.。鳥觀论义提交日期讀D袭-'交慾資帶I;,iV:’'..-^知扭叫卢靖也.i转.:满.',濟苗讀挙耀藻雜.鱗!南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的

3、研究工作及取得的研究成果。尽我所知,除了文中特别加^^^标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。一与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。一切本人学位论文及涉及相关资料若有不实,愿意承担相关的法律责任。研究生签名;娘雙日期;0中南京邮电大学学位论文使用授权声明本人授权南京邮电大学可W保留并向国家有关部n或机构送交论文的复印件和电子文可档;允许论文被查阅和借阅;可W将学位论文的

4、全部或部分内容编入有关数据库进行检索;论tu采用影印、缩印或污描等复制手段保存、汇编本学位论文。本文电子文巧的内容和纸质一致文的内容相。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。和研究生签名:善逝导师签名;若曰期;问丄—个-13六ParallelizedClusteringAlgorithmBasedOnThecloudPlatformThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheD

5、egreeofMasterofEngineeringByKunChengSupervisor:Prof.FangwuYaoMarch2015摘要聚类算法是数据挖掘中的重要内容,能够从数据中提取出隐藏的有用信息和知识来为人们服务,在工业、商业以及科研领域都得到了广泛应用。随着当今社会数据量急剧增加,单机聚类算法的计算能力渐渐无法满足需求,广大互联网公司为了从激烈的商业竞争中脱颖而出以获得商业成功和大量的经济利益,纷纷为大规模数据的处理寻求有效策略,于是多台计算机共同参与运算的分布式聚类算法成为当前研究热点。云计算平台是一个优秀的新型商业计

6、算模型,通过虚拟化技术把互联网中的节点资源相融合来提供优越的计算能力,并且能够根据计算任务中任务量的实时变化情况来动态扩展集群中的节点。系统将待处理的计算任务合理分配到计算机集群中的节点上,根据实际需求得到所需的存储空间和计算能力等资源,用户在无需理解云内部的知识和细节的情况下也可以使用云平台中的基础设施。Hadoop作为Apache基金会开发的开源云计算平台,以一种高效可靠可伸缩的方式处理数据,此外还具有高容错性和低成本等优点,是一个能够分布式处理海量数据的软件框架。Hadoop核心设计是底部HDFS(分布式文件系统)和上层MapRe

7、duce(编程模式),分别为海量数据提供存储和计算。本文主要研究如何运用云平台中大量计算机节点的并行计算能力来解决大规模数据聚类的难题。针对Kmeans算法中一些不足之处提出改进:采用Canopy算法作为Kmeans聚类的初始步骤,并基于“最小最大原则”优化初始聚类中心的选取;对Kmeans迭代过程加以优化使整体计算量得到降低,进一步提高算法效率。详细分析DBSCAN算法在参数选择,内存使用、I/O开销等方面存在的问题,提出了一个基于层次的优化算法。既解除了因参数选择不当而对算法效率造成的影响,还在一定程度上降低了查询次数从而减小I/O

8、开销。最后,通过搭建Hadoop平台分别对基于MapReduce的Kmeans和DBSCAN并行优化算法进行一系列的测试实验来验证性能。实验表明:Kmeans优化算法在迭代速度及聚类结果准确率上有所提升;D

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。