欢迎来到天天文库
浏览记录
ID:55934949
大小:524.53 KB
页数:8页
时间:2020-06-16
《一种改进的数据流最大频繁项集挖掘算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、CN43—1258/TP计算机工程与科学第36卷第5期2014年5月ISSN1OO7—13OXComputerEngineering&ScienceVo1.36,No.5,May.2014文章编号:1007—130X(2014)05—0863—08一种改进的数据流最大频繁项集挖掘算法胡健,吴毛毛(江西理工大学信息工程学院,江西赣州341000)摘要:提出了一种基于DSM—MFI算法的改进算法DSMMFI—DS算法,它首先将事务数据按一定的全序关系存入DSFI—list列表中;然后按排序后的顺序存储到类似概要数据结构的树中;
2、接着删除树中和DSFI—list列表中的非频繁项,同时删除窗口衰退支持数大的事务项;最后采用自项向下和自底向上的双向搜索策略来挖掘数据流的最大频繁项集。通过用例分析和实验表明,该算法比DSM—MFI算法具有更好的执行效率。关键词:数据挖掘;数据流;界标窗口;最大频繁项集;窗口衰减支持数中图分类号:TP274.2文献标志码:Adoi:10.3969/j.issn.1007—13OX.2O14.05.030Animprovedalgorithmforminingmaximalfrequentitemsetsoverdatast
3、reamsHUJian。WUMao—mao(InstituteofInformationEngineering,JiangxiUniversityofScienceandTechnology,Ganzhou341000,China)Abstract:BasedonthealgorithmofDSM—MFI,animprovedalgorithm,namedDSMMFI—DS(Dic—tionarySequenceMiningMaximalFrequentItemsetsoverDataStreams),isproposed
4、.Firstly,itstorestransactiondataintoDSFI—listinalphabeticalorder.Secondly,thedataarestoredsequentiallyintothetreesimilartothesummarydatastructure.Thirdly,non—frequentiternsinthetreeandDSFI—listarere—moved,andthetransactionitemswiththemaximumcountofwindowattenuatio
5、nsupportsaredeleted.Finally,thestrategy(top—downandbottom—uptwo—waysearch)isusedtominemaximalfrequentitem—setsoverdatastreams,andcaseanalysisandexperimentsprovethatthealgorithmDSMMFI—DShasbet—terperformancethanthealgorithmDSM—MFI.Keywords:datamining;datastream;lan
6、dmarkwindows;maximalfrequentitemsets;windowattenu—ationsupportcount最大频繁项集。在某些应用中,只需要最大频繁项引言集而并不需要所有的频繁项集,这样,研究直接计算最大频繁项集的算法显示出重要意义。频繁模式的挖掘是关联挖掘的核心和基础_】],最近,数据库和数据挖掘继续集中到一个新的是影响挖掘算法效率的一个决定性的因素,它是产数据模型中,数据到达是以数据流的形式。在很多生关联规则的基础]。因此,在频繁模式l3挖掘应用中,实时产生了大量的数据流,比如从一个传方面取
7、得的任何进展都将对关联挖掘以至于其它感器网络到另一个传感器数据传输产生的数据;各数据挖掘任务的效率产生重要的影响。个连锁店事务数据的流入;web记录和在web上由于最大频繁项集【6中隐含着全部的频繁的点击流;在网络监控和交通管理的测量评估数据项集,因此可以将计算频繁项集的问题转化为计算等_1。本文就是基于这个背景提出了一个有效挖*收稿日期:20121203;修回日期:2013-04—03通信地址:34lOOO江西省赣州市客家大道l56号Address:156KejiaAvenue,Ganzhou341000,Jiangxi
8、,P.R.China964ComputerEngineering&Science计算机工程与科学2014,36(5)掘数据流中最大频繁项集的算法。并且按这个顺序存储到DSSEFI—tree树中;接着删除DSFI—list列表中的非频繁项对应在DSSEFI—2相关工作tree树中的项;然后删除DSFI—l
此文档下载收益归作者所有