基于抽样的云频繁项集挖掘算法研究

基于抽样的云频繁项集挖掘算法研究

ID:27261014

大小:4.58 MB

页数:74页

时间:2018-12-02

基于抽样的云频繁项集挖掘算法研究_第1页
基于抽样的云频繁项集挖掘算法研究_第2页
基于抽样的云频繁项集挖掘算法研究_第3页
基于抽样的云频繁项集挖掘算法研究_第4页
基于抽样的云频繁项集挖掘算法研究_第5页
资源描述:

《基于抽样的云频繁项集挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于抽样的云频繁项集挖掘算法研究TheResearchofCloudFrequentItemsetsMining AlgorithmsWhichBasedonSample作者姓名宛婉学位类型学历硕士学科、专业计算机应用技术研究方向信息管理与智能决策导师及职称周国祥教授2013年3月基于抽样的云频繁项集挖掘算法研究摘要随着数据收集技术的发展,海量数据时代已经到来。当今社会商业竞争异常激烈,人们迫切希望从海量数据中,提取有用的信息以帮助进行商业决策。但是,传统的数据分析和数据挖掘技术在处理海量数据时,时间和空间的代价过大,很难满足人们的需求。例如,数据挖掘中传统的频繁项集挖掘需要多次扫描数据

2、集,消耗大量时间;还需要存储大量的候选项集,消耗大量内存。数据收集技术发展的同时,海量数据处理技术也以高并发、低成本的处理优势高速发展。近几年,以Hadoop生态系统发展最具代表性。Hadoop项目主要由两部分组成:HDFS和mapreduce,它们分别是GoogleFileSystem和GoogleMapReduce的开源实现。Hadoop分布式框架主要是以廉价的商业机器为计算节点构成云平台,达到高效处理海量数据的目的。将数据挖掘和Hadoop框架有机结合,利用Hadoop优秀的海量数据处理能力进行挖掘,将会给数据挖掘带来新的活力。本文主要针对数据挖掘中频繁项集挖掘和Hadoop框架相

3、结合,做了以下工作:(1)对Hadoop平台进行深入的研究和分析。Hadoop平台的最核心的两个部分是:用于海量数据存储的HDFS分布式文件系统和用于数据处理的Mapreduce并行编程框架。两者相辅相成,构成了Hadoop分布式框架。(2)为了进一步提高频繁项集挖掘效率,提出了一种基于Hadoop平台的并行抽样算法。这种算法利用mapreduce编程框架,单次扫描海量数据即可实现随机抽样。在抽样的过程中,还可以完成对数据的清理工作。(3)对传统频繁项集挖掘算法进行深入的研究后,提出了一种基于抽样的频繁项集并行发现算法。该算法基于Hadoop平台,充分发挥其处理海量数据的优势,实验证明该

4、算法具有良好的挖掘性能。关键词:数据挖掘;频繁项集;Hadoop;MapreduceTheResearchofCloudFrequentItemsetsMiningAlgorithmWhichBasedonSampleAbstractWiththedevelopmentofdatacollectiontechnology,theeraofmassivedataiscoming.Businesscompetitionisfierceintoday'ssociety,peopleareeageringtoextractusefulinformationsfrommassivedatawhic

5、hhelpthemtomakecorrectbusinessdecisions.However,thetraditionaldataanalysisanddataminingtechniquesaredifficulttomeetthedemandofpeopleindealingwithmassivedata,becauseoftheexcessivehighcostoftimesandspaces.Forexample,thetraditionalfrequentitemsetsminingneedstoscandatasetssomanytimesthatcostalotoftim

6、es.Anditalsoneedstostorealargenumberofcandidateitemsets,whichconsumeslargeamountofmemories.Atthesametime,cloudcomputingwithhighconcurrencyandlowcostofmassdataprocessing,isdevelopingwithhighspeed.Inrecentyears,Hadoopecosystem’sdevelopmentisthemostrepresentative.Hadoopismainlycomposedoftwoparts:HDF

7、SandMapreduce.Itusescheapcommercialmachinesascomputenodestoconstituteacloudplatformwhichcanefficientprocessingmassivedata.Combinedataminingwithcloudcomputing,thismeansusingtheadvandageofcloudcomputingsuchasefficientpro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。