云计算环境下的并行数据挖掘策略研究

云计算环境下的并行数据挖掘策略研究

ID:34028014

大小:3.20 MB

页数:68页

时间:2019-03-03

云计算环境下的并行数据挖掘策略研究_第1页
云计算环境下的并行数据挖掘策略研究_第2页
云计算环境下的并行数据挖掘策略研究_第3页
云计算环境下的并行数据挖掘策略研究_第4页
云计算环境下的并行数据挖掘策略研究_第5页
资源描述:

《云计算环境下的并行数据挖掘策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南京邮电大学硕士学位论文云计算环境下的并行数据挖掘策略研究姓名:张敏申请学位级别:硕士专业:计算机软件与理论指导教师:李玲娟2011-03南京邮电大学硕士研究生学位论文摘要摘要云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,能为用户提供按需分配的计算能力、存储能力及应用服务能力;云计算为存储和分析海量数据提供了廉价高效的解决方案。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,对科学研究与商业决策等多个领域起到了指导作用,具有深远的社会

2、和经济意义。云计算环境下的并行数据挖掘策略的研究具有重要的理论意义和应用价值。本文从数据集划分方法、数据集分配方法及基于MapReduce的并行数据挖掘算法等方面对云计算环境下的并行数据挖掘策略做了研究。论文介绍了云计算和数据挖掘的相关概念和技术,并行数据挖掘中已有的的数据集的划分方法、并行机制和并行策略,已有的并行的关联规则挖掘算法、并行的聚类算法和并行的分类算法。在此基础上,设计了改进的并行数据挖掘策略,包括适用于云计算环境的数据集划分方法、数据集分配方法和改进的Apriori算法;设计了改进的Apriori算法在Hadoop中的MapRed

3、uce编程模型上的实现流程。并且搭建了Hadoop平台,利用该平台进行了算法功能和性能测试,测试结果表明:基于本文设计的并行数据挖掘策略,改进算法在云计算环境下能获得更高的频繁项集挖掘效率。论文研究成果在云计算环境及海量数据挖掘领域具有较高的应用和参考价值。关键词:数据挖掘,并行,云计算I南京邮电大学硕士研究生学位论文ABSTRACTABSTRACTCloudcomputingisabusinesscomputingmodel,itassignsthecomputingtaskstoalargenumberofcomputersinthereso

4、urcepool,itcanprovideuserswithcomputingpower,storagecapacityandapplicationservicecapabilitiesaccordingtotheirneeds;Cloudcomputingprovidescheapandefficientsolutionsofstoringandanalyzingmassdata.Dataminingistheprocessofdiscoveringinformationorpatternsthatareinteresting,non-triv

5、ial,implicit,previouslyunknownandpotentiallyusefulinlargedatabases.Dataminingplaysaguidingroleonscientificresearch,businessdecisions,andotherfields,withfar-reachingsocialandeconomicsignificance.Itisveryimportanttoresearchthedataminingstrategiesbasedoncloudcomputingfromthetheo

6、reticalviewandpracticalview.Thisthesisdoestheresearchontheparalleldataminingstrategyunderthecloudcomputingenvironmentfromtheaspectsofdatasetdivision,datasetallocationandparalleldataminingalgorithmbasedonMapReduceandsoon.Thisthesisintroducestheconceptsandtechniquesofcloudcompu

7、tinganddatamining,theexistingdatasetdivision,parallelmechanismandparallelstrategyofparalleldatamining,theexistingparallelassociationruleminingalgorithm,parallelclusteringalgorithmandparallelclassificationalgorithm.Then,itdesignsanimprovedparalleldataminingstrategy,includingda

8、tasetdivision,datasetallocationandimprovedApriorialgorithmfortheclou

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。