基于索引数组的频繁项集挖掘算法

基于索引数组的频繁项集挖掘算法

ID:5350635

大小:274.85 KB

页数:3页

时间:2017-12-08

基于索引数组的频繁项集挖掘算法_第1页
基于索引数组的频繁项集挖掘算法_第2页
基于索引数组的频繁项集挖掘算法_第3页
资源描述:

《基于索引数组的频繁项集挖掘算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第26卷第1期计算机应用研究V01.26No.12009年1月ApplicationResearchofComputersJan.2009基于索引数组的频繁项集挖掘算法张忠平,李岩,林志杰,王爱杰(燕山大学信息科学与工程学院计算机应用技术,河北秦皇岛066004)摘要:基于现有的关联规则挖掘算法,提出了一种通过循环迭代增加项为项集后缀的方式产生所有项集的新方法,构造了一种新的数据结构一索引数组,存储所发现的频繁1一项集及其相关信息,以便快速发现项集与事务之间的关系;并提出了一种基于索引数组的频繁项集挖掘新算法

2、。该算法只需扫描数据库两次就能发现所有频繁项集。实验结果表明,该算法可以有效提高频繁项集的挖掘效率。关键词:数据挖掘;关联规则;频繁项集;索引数组中图分类号:TP311文献标志码:A文章编号:1001—3695(2009)01—0044—03FrequentitemsetsminingalgorithmbasedonindexarrayZHANGZhong—ping,LIYan,LINZhi-jie,WANGAi-jie(Dept.ofComputerApplicationTechnology,College

3、ofInformationScience&Engineering,Yat~hanUniversity,QinhuangdaoHebei066004China)Abstract:Thepaperpresentedanewapproachofincreasingitemtouuffixofitemsetrecursivelyaccordingtotheclassicalas—sociationruleminingalgorithms.Andusedanewdatastructure-indexarraytosto

4、refrequent1一itemsetanditscorrelativein—formation.Sotherelationsofitemsetsandtransactionswerefoundquickly.Presentedafrequentitemsetsminingalgorithmbasedonindexarrayandcouldmineallfrequentitemsetsthroughscanningdatabaseonlytwice.Theexperimentalresultsshowthat

5、theproposedalgorithmoutperformssimilarstate—of-the—artalgorithms.Keywords:datamining;associationrule;frequentitemsets;indexaray‘并利用了类似FP.growth的深度优先的计算顺序;缺点是要多0引言次执行交集操作才能得到项集的支持度。目前大多数算法都是围绕这三个算法改进,有的是从数据结构上改进,如基于矩数据库技术的广泛应用产生了大量的业务数据。随着数阵的频繁项集挖掘算法J、基于数组的频

6、繁项集挖掘算法J、据在日常决策中的重要性越来越显著,人们对数据处理技术的基于十字链表的频繁项集挖掘算法等;有的是根据频繁项要求也不断提高,需要对数据进行更深层次的处理,以便于对集的特性改进。’事物发展趋势的预测。因为数据的爆炸性增长,难以发现数据为减少频繁项集产生的数量,近年来国内外研究人员深入的全面信息,客观上需要一种新的技术来分析海量的原始数研究了压缩或近似的频繁模式挖掘算法,不管是压缩的频据,这样,数据挖掘技术就应运而生了。繁模式还是近似的频繁模式,都是频繁模式的一部分,属于频关联规则挖掘是数据挖掘领域

7、的重要研究方向之一,属于繁模式完全集的子集。当不需要产生所有频繁项集时,这种方描述性挖掘,它的目的就是挖掘出隐藏在数据间的相互关系,法十分有效,但是有损压缩会丢失支持度信息,从而无法产生即从数据中挖掘出满足一定条件的依赖性关系。1993年关联规则。Agrawal等人提出了Apriori关联规则挖掘算法,算法主要分为此,本文针对频繁项集的完全集进行了深入研究,应用集为两步:a)挖掘频繁项集,使用逐层搜索的迭代方式从大量候合论和索引理论提出了一种基于索引数组的频繁项集挖掘算法选项集中产生频繁项集,即支持度大于等于

8、用户预先给定的最(frequentitemsetsminingbasedonindexarray,FIMBIA)。该算法小支持度的项集;b)从a)步产生的频繁项集中挖掘强关联规只需扫描数据库两次,利用索引数组存储发现的所有频繁1一项则。关联规则挖掘的核心问题是如何有效地挖掘频繁项集。集及其相关信息,由频繁1一项集构成的所有项集按照一定的规2000年,HanJia—wei等人提出了不产生候选项集的FP

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。