面向数据流的频繁模式挖掘算法研究

面向数据流的频繁模式挖掘算法研究

ID:37038569

大小:3.14 MB

页数:72页

时间:2019-05-20

面向数据流的频繁模式挖掘算法研究_第1页
面向数据流的频繁模式挖掘算法研究_第2页
面向数据流的频繁模式挖掘算法研究_第3页
面向数据流的频繁模式挖掘算法研究_第4页
面向数据流的频繁模式挖掘算法研究_第5页
资源描述:

《面向数据流的频繁模式挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东北大学硕士学位论文摘要面向数据流的频繁模式挖掘算法研究·摘要l随着信息时代的发展,数据挖掘成了当前重要的研究方向,通过近十年的努力,数据挖掘技术已经相当成熟。然而,近几年来出现了一种新的数据模型,即数据流,这种数据模型广泛存在于现实生活中,如网站服务器的日志文件、股票交易、网络传感器、天气和环境监测等都产生大量的数据流。在数据流环境中进行挖掘是一项具有挑战性的工作,传统的数据挖掘技术只能处理静态数据,对这种大量的、快速的数据流却无能为力。频繁模式挖掘是数据挖掘中一项非常重要的任务,最近几年,在数据流

2、频繁模式挖掘领域已经产生了大量的研究成果。然而这些研究都需要大量的存储空间,挖掘效率也不够高,尤其是无法对新到来的数据进行实时更新。针对这些问题,本文提出了一种新的数据流频繁模式挖掘方案,包含相应的数据过滤、编码方法、新的概要数据结构和挖掘算法,并实现了面向数据流的频繁模式挖掘系统。首先,提出基于Hash结构的数据过滤和编码方法。针对数据流快速、无限的特征,通过滑动窗口来对数据流进行缓冲,从而限制每次处理的数据量。通过H础表对基本窗口中的数据进行过滤和重编码,进一步减小挖掘的数据量,而且简化数据类型,

3、得到项目之间的规范顺序。这些有助于构造和更新前缀树结构。其次,提出了一种新的概要数据结构NCH.Tree。在NCH.Trce结构中引入B+树的思想,把所有事务的时间信息存放在一个链表中,方便进行更新。再次,在数据过滤、编码和概要数据结构NCH—Tree的基础上,进一步提出数据流频繁模式挖掘算法,很好地满足了数据流频繁模式挖掘的需求。最后,设计并实现了面向数据流的频繁模式挖掘系统。在该系统中,设计了一种概要数据结构来存储频繁模式集,通过此结构,挖掘算法可以和用户进行交互,根据用户的不同需求返回不同的结果

4、。通过实验可以发现,本文所提出的面向数据流的频繁模式挖掘算法能很快对新到来的数据进行更新并保证较高的挖掘准确性,同时,此算法的挖掘效率高于同类算法。关键词:数据流挖掘;频繁模式;滑动窗口;H础表;B+树一Ⅱ一p■●j妇\,■FrequentPatternMiningAlgorithmResearchforDataStreamAbstractWimthedeVelopmeIltofmeinfomationera,datamininghasbeenallimponaIltresearchdirection

5、atpresent.【)ataminingtechllologyhasbeellmaturatingthrou曲oVertenyear’sdeVelopmeIlt.HoweV%anewdatamode印pearedinreceIltyearS,whichwidelyexistsinrealworld.Forexample,the109filesofwebseⅣ%stock觚lding,seIlsornet、)l,ork,weatheralldenviromentdetection,allofthese

6、createavast锄。蚰tofdatastre锄.Itisachallen百ngworktominingdatas仃I:锄s.Thetraditionaldataminingteclm0109ycanonlydealwithstaticdata,butishelplessforthiskindofVaStaIldf犯tdatastre锄.Frequ即tpatt锄miningis锄importanttaskindatamining.IIlrecentyears,therehaVebeeIlmanyv

7、aluableresearch缸lits0ndatas仃e锄6弼uelltpatt锄mining.Butinthoseresearches,plelltyofmeIllo叫spaceisstillneeded,趾dtheminingemciencyisnothi曲eIlougll.Especially,newdatacall’tbeupdatede伍cicIltly.Fortlleseproblems,thistllesisproposcdanewdatastream1jrequentpattenlm

8、iningschemeNCH·DSFM(NewCompaCtsatis匆theneedofdatastre锄miningwell.Lasny,a6嘲ueIltpatt锄miningsystemfordatas仃e锄wasdesi盟edaIldimplemeIlted-IIltllissystem,趾othersyIlopsisstm曲Jreisdesi班edtostore仔equcIltpattenlset.Usingmisstmmlre,themini

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。