基于spark的海量数据频繁模式挖掘算法研究

基于spark的海量数据频繁模式挖掘算法研究

ID:35058655

大小:3.20 MB

页数:72页

时间:2019-03-17

基于spark的海量数据频繁模式挖掘算法研究_第1页
基于spark的海量数据频繁模式挖掘算法研究_第2页
基于spark的海量数据频繁模式挖掘算法研究_第3页
基于spark的海量数据频繁模式挖掘算法研究_第4页
基于spark的海量数据频繁模式挖掘算法研究_第5页
资源描述:

《基于spark的海量数据频繁模式挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于SPARK的海量数据频繁模式挖掘算法研究RESEARCHONSPARKBASEDMASSIVEDATAFREQUENTPATTERNMININGALGORITHMS赵焱德哈尔滨工业大学2016年6月国内图书分类号:TP311.13学校代码:10213国际图书分类号:004.4密级:公开工学硕士学位论文基于SPARK的海量数据频繁模式挖掘算法研究硕士研究生:赵焱德导师:张炜副教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311.1

2、3U.D.C:004.4DissertationfortheMasterDegreeinEngineeringRESEARCHONSPARKBASEDMASSIVEDATAFREQUENTPATTERNMININGALGORITHMSCandidate:ZhaoYandeSupervisor:AssociateProf.ZhangWeiAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerSc

3、ienceandTechnologyDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要频繁模式挖掘的目的是从数据中找出出现频率较高的内容,它是数据挖掘领域众多研究方向中最重要的其中一个。按照数据集的不同,频繁模式分为频繁项集和频繁子序列。由于挖掘频繁模式是一个很消耗计算资源的过程,随着数据量的增加,人们必须借助于分布式的计算框架来保证处理的效率。本文第一部分专注于挖掘事务数据集上的频繁项集,研究基于分布式计算框架Spark的频繁项集挖掘算法。

4、本文首先设计实现了与经典频繁项集挖掘算法Apriori和FP-Growth相对应的基于Spark的分布式版本,然后又提出了一个基于Spark的具有FP-Growth和Apriori两个算法特点的两阶段频繁项集挖掘算法。通过实验我们发现了每个算法的优缺点,并找到不同算法的适用范围。这些算法能够充分应用集群的计算资源,快速解决大规模数据集上挖掘频繁项集的需求。除此之外,这一部分还介绍了如何使用挖掘频繁项集的思路在Spark上挖掘序列数据集上的频繁模式。除了研究在Spark上挖掘频繁模式的算法,为了能够在数值型的时间序列数据集上挖掘频繁模式,本文第二部分的主要内容

5、是时间序列的压缩。时间序列的压缩不仅能够有效减少数据量,还能够减少序列里的噪音。噪音的减少能够凸显出时间序列的趋势,从而有利于挖掘出有意义的频繁模式。本文从感知重要点的概念出发,通过对以往工作的扩展,设计并实现了两种基于感知重要点的时间序列压缩算法,基于全局感知重要点的压缩算法和基于局部感知重要点的压缩算法。这两种算法适用于不同类型的时间序列,并且通过实验对比了它们的运行效率和压缩的失真度。可视化是运用时间序列时一个很重要的需求,基于感知重要点的压缩算法能够很好的保留序列的趋势,具有非常好的可视化效果。关键词:频繁模式;Spark;时间序列压缩;感知重要点-

6、I-AbstractAbstractFrequentpatternminingaimstofindcontentsthoseoftenappearindatasets.Itisoneofthemostimportantresearchdirections.Accordingtodifferentdatasets,therearetwokindsoffrequentpattern,frequentitemsetandfrequentsubsequence.Becauseminingfrequentpatternscostsalotofcomputingreso

7、urcesanddatasetsisgettinglargerandlarger,peoplemustusedistributedcomputingframeworkstoguaranteeeffectiveness.Thefirstpartofthispaperfocusesonminingfrequentitemsetsintransactiondatasets,andresearchfrequentitemsetminingalgorithmsbasedondistributedcomputingframeworkSpark.Wefirstdesign

8、andimplementtheSparkversio

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。