基于spark的海量数据频繁模式挖掘算法研究

ID：35058655

大小：3.20 MB

页数：72页

时间：2019-03-17

资源描述：

《基于spark的海量数据频繁模式挖掘算法研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、硕士学位论文基于SPARK的海量数据频繁模式挖掘算法研究RESEARCHONSPARKBASEDMASSIVEDATAFREQUENTPATTERNMININGALGORITHMS赵焱德哈尔滨工业大学2016年6月国内图书分类号：TP311.13学校代码：10213国际图书分类号：004.4密级：公开工学硕士学位论文基于SPARK的海量数据频繁模式挖掘算法研究硕士研究生：赵焱德导师：张炜副教授申请学位：工学硕士学科：计算机科学与技术所在单位：计算机科学与技术学院答辩日期：2016年6月授予学位单位：哈尔滨工业大学ClassifiedIndex:TP311.1

2、3U.D.C:004.4DissertationfortheMasterDegreeinEngineeringRESEARCHONSPARKBASEDMASSIVEDATAFREQUENTPATTERNMININGALGORITHMSCandidate：ZhaoYandeSupervisor：AssociateProf.ZhangWeiAcademicDegreeAppliedfor：MasterofEngineeringSpeciality：ComputerScienceandTechnologyAffiliation：SchoolofComputerSc

3、ienceandTechnologyDateofDefence：June,2016Degree-Conferring-Institution：HarbinInstituteofTechnology摘要摘要频繁模式挖掘的目的是从数据中找出出现频率较高的内容，它是数据挖掘领域众多研究方向中最重要的其中一个。按照数据集的不同，频繁模式分为频繁项集和频繁子序列。由于挖掘频繁模式是一个很消耗计算资源的过程，随着数据量的增加，人们必须借助于分布式的计算框架来保证处理的效率。本文第一部分专注于挖掘事务数据集上的频繁项集，研究基于分布式计算框架Spark的频繁项集挖掘算法。

4、本文首先设计实现了与经典频繁项集挖掘算法Apriori和FP-Growth相对应的基于Spark的分布式版本，然后又提出了一个基于Spark的具有FP-Growth和Apriori两个算法特点的两阶段频繁项集挖掘算法。通过实验我们发现了每个算法的优缺点，并找到不同算法的适用范围。这些算法能够充分应用集群的计算资源，快速解决大规模数据集上挖掘频繁项集的需求。除此之外，这一部分还介绍了如何使用挖掘频繁项集的思路在Spark上挖掘序列数据集上的频繁模式。除了研究在Spark上挖掘频繁模式的算法，为了能够在数值型的时间序列数据集上挖掘频繁模式，本文第二部分的主要内容

5、是时间序列的压缩。时间序列的压缩不仅能够有效减少数据量，还能够减少序列里的噪音。噪音的减少能够凸显出时间序列的趋势，从而有利于挖掘出有意义的频繁模式。本文从感知重要点的概念出发，通过对以往工作的扩展，设计并实现了两种基于感知重要点的时间序列压缩算法,基于全局感知重要点的压缩算法和基于局部感知重要点的压缩算法。这两种算法适用于不同类型的时间序列，并且通过实验对比了它们的运行效率和压缩的失真度。可视化是运用时间序列时一个很重要的需求，基于感知重要点的压缩算法能够很好的保留序列的趋势，具有非常好的可视化效果。关键词：频繁模式；Spark；时间序列压缩；感知重要点-

6、I-AbstractAbstractFrequentpatternminingaimstofindcontentsthoseoftenappearindatasets.Itisoneofthemostimportantresearchdirections.Accordingtodifferentdatasets,therearetwokindsoffrequentpattern,frequentitemsetandfrequentsubsequence.Becauseminingfrequentpatternscostsalotofcomputingreso

7、urcesanddatasetsisgettinglargerandlarger,peoplemustusedistributedcomputingframeworkstoguaranteeeffectiveness.Thefirstpartofthispaperfocusesonminingfrequentitemsetsintransactiondatasets,andresearchfrequentitemsetminingalgorithmsbasedondistributedcomputingframeworkSpark.Wefirstdesign

8、andimplementtheSparkversio

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 72



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于spark的海量数据频繁模式挖掘算法研究

基于spark的海量数据频繁模式挖掘算法研究

相关文章

相关标签