序列模式的增量式挖掘算法研究(nxpowerlite)

序列模式的增量式挖掘算法研究(nxpowerlite)

ID:37544638

大小:2.88 MB

页数:106页

时间:2019-05-25

序列模式的增量式挖掘算法研究(nxpowerlite)_第1页
序列模式的增量式挖掘算法研究(nxpowerlite)_第2页
序列模式的增量式挖掘算法研究(nxpowerlite)_第3页
序列模式的增量式挖掘算法研究(nxpowerlite)_第4页
序列模式的增量式挖掘算法研究(nxpowerlite)_第5页
资源描述:

《序列模式的增量式挖掘算法研究(nxpowerlite)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、硕士学位论文MASTER’STHESIS摘要随着信息技术的发展,许多领域积累了大量的数据,迫切需要一种技术从中及时发现有用的知识,提高信息利用率,KDD技术应运而生。通常KDD包括数据准备、数据挖掘、解释与评价等步骤。其中数据挖掘是KDD的核心环节。目前,数据挖掘的研究主要集中在分类、关联规则、序列模式挖掘等方面。序列模式挖掘作为数据挖掘领域的研究热点之一,其任务是从序列数据库中挖掘出最大频繁序列供决策者做出决策。目前的挖掘算法主要分为两种,即一般的挖掘算法和增量式的挖掘算法。一般的挖掘算法如AprioriAll等以关联规则挖掘的相关算法为基础,当大型数据库

2、需要加入新的数据时需要重新挖掘,降低了挖掘的效率,不能满足要求。于是序列模式的增量式挖掘算法被提出,现有的算法有MFS、ISM、ISE、IUS等,它们在原有数据库挖掘结果的基础上,往往只需遍历新增加的数据,或者只需较少次数的遍历原有数据库就能挖掘出新的序列模式,提高了挖掘的效率,其中IUS算法是最为先进的算法。本文通过对IUS及其它算法的研究,发现这些算法往往都只考虑了向数据库中增加数据的情况,而很少有考虑大型数据库也有删除数据的情况,这是问题一。而且,这些算法都是基于“数据库的更新”,没有考虑到增量式挖掘的另一情况“算法参数的改变”,这是问题二。本文首先改

3、正了IUS算法中的错误之处,然后分别针对这两个问题,结合序列模式的增量式挖掘算法的设计原则,以IUS算法为基础,提出了一种序列模式的更新式算法USP(UpdmingSequentialPattems)用来解决问题一。该算法以原数据库的挖掘结果为基础,同时考虑添加和删除数据两种情况,选出其中符合条件的序列作为新数据库中的频繁序列和负边界序列,并在原频繁序列和加入数据库的频繁序列中产生新的序列,作为下一次的候选序列。提出CMS算法解决问题二,在不同的条件下,利用前次挖掘的结果加速本次挖掘过程。最后本文通过对这斜改进算法的分析,指出了它们不同于其它各种算法,以及比

4、其它算法更完善和有效之处。关键词:KDD数据挖掘序列模式增量式挖掘IUS算法硕士学位论文MASTER’STHESISAbstractWiththerapiddevelopmentofimformationtechnology.1argeamountsofdatahavebeenaccumulatedinmanyfields.Ithasbecomemoreandmoreurgenttomineusefulimformationandknowledgefromsuchhugedata.ThetechnologyofKnowledgeDiscoveryinData

5、base(KDD、hasemerged.ThestepsofKDDincludedatapreparing,datamining,explainingandevaluation,etc.OfthesestepsDataMining(DM)isthemostimportant.TheminingofsequentialpatternsisoneofthehottestspotsinthefieldofDM.Thepurposeofsequentialpatternsminingistofindthefrequentsequencesintransactiond

6、atabasesandthenusethesepatternstohelpdecision-makers.Theminingalgorithmsarcdevidedintotwotypes:thenormalonesandtheincrementalones.ThenormalalgorithmsofsequentialpatternsminingsuchasAprioriAllassumethedatabaseisstaticandevenasmallchangeinthedatabasewillrequirethealgorithmtorunagainc

7、ompletelytogettheupdatedfrequentsequences.Inpractice,thecontentofadatabasechangescontinuously,anddatamininghastObeperformedrepeatedly.Ifeachtimetheminingalgorithmsmustbererunfromscratch,itwillbeveryinefficientandtime—consuming.However,theincrementalalgorithmsaredifferent.Byusingthe

8、resultsofpreviousminingand

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。