数据挖掘之关联分析

数据挖掘之关联分析

ID:18752698

大小:73.57 KB

页数:8页

时间:2018-09-22

数据挖掘之关联分析_第1页
数据挖掘之关联分析_第2页
数据挖掘之关联分析_第3页
数据挖掘之关联分析_第4页
数据挖掘之关联分析_第5页
资源描述:

《数据挖掘之关联分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、关联规则挖掘算法研究报告摘要:数据挖掘是一个多学科交叉融合而形成的新兴的学科,它利用各种分析工具在海量数据中发现模型和数据间的关系。而在大规模事务数据库中,挖掘关联规则是数据挖掘领域的一个非常重要的研究课题。文中介绍了关联规则挖掘的研究情况,描述了经典Apriori算法的实现,并对该算法进行了分析和评价,指出了其不足和原因。并对FP树挖掘最大频繁项集的算法描述,并得到结论:数据库中潜在的最大频繁模式越多,运行时间越长。关键词:数据挖掘;关联规则;频繁项集简单地说,数据挖掘(datamining)是揭示存在于数据里的模式及

2、数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。数据挖掘也就是通过某种方法,利用历史数据,在条件集合和结果集合之间建立一个致信度比较高的模型。而关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系,它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾

3、客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。1关联规则的意义世间万物的事情发生多多少少会有一些关联。一件事情的发生,很可能是也会引起另外一件事情的发生。或者说,这两件事情很多时候很大程度上会一起发生的。那么人们通过发现这个关联的规则,可以由一件事情的发生来,来推测另外一件事情的发生,从而更好地了解和掌握事物的发展,动向等等。这就是数据挖掘中,寻找关联规则的基本意义。数据挖掘技术中的关联规则挖掘是通过计算机自动从一大对真实数据中发现这样的关联

4、规则出来。对于计算机而言,它需要知道所有的事情发生情况,并且把相应的事情合并成一个事务,通过对各个事务的扫描,来确定事情的关联规则。2关联规则的基本概念设I={i1,i2,…,im}是项的集合,其中的元素称为项(item)。记D为事务(transaction)T的集合,这里事务T是项的集合,并且TÍI。对应每一个事务有唯一的标识,如事务号,记作TID。设X是一个I中项的集合,如果XÍT,那么称事务T包含X[1]。一个关联规则是形如XÞY的蕴涵式,这里XÌI,YÌI,并且XÇY=F。规则XÞY在事务数据库D中的支持度(su

5、pport)是事务集中包含X和Y的事务数与所有事务数之比,记为support(XÞY),即support(XÞY)=P(XÈY),规则XÞY在事务集中的可信度(confidence)是指包含X和Y的事务数与包含X的交易数之比,记为confidence(XÞY),即confidence(XÞY)=P(X

6、Y),给定一个事务集D,挖掘关联规则问题就是寻找支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。3Apriori算法介绍3.1关联规则的挖掘可以分成两个步骤:a.根据最

7、小的支持度,在大量事务寻找高频率出现的频繁项集(Itemset)。b.根据最小的置信度,找到的频繁项集产生关联规则。其中第二个步骤比较容易,一般经过第一步的筛选后的频繁项集都不会很多,通过子集产生法就可以产生关联规则。第一个步骤是需要在大量的事务数据集中寻找高频率出现的项集Itemset,所以就需要一个比较高效的搜索查找方法。RakeshAgrawal等在1993年提出了第一步搜索频繁项集的经典Apriori算法[12,13]。通过遍历一大堆事务数据中,从一个一个的单个项开始记数,每次遍历完所有的事务后,裁减掉支持度记数

8、少于用户给定的支持度的项,然后逐步扩展到多项事务。最后保留下来的频繁项集,通过子集产生法来产生关联规则,然后去掉其中置信度低于用户指定的最低置信度的关联规则,最后剩下的就是满足用户需要的关联规则。Apriori算法的特点就是在于从单项开始,每次剪裁一点,利用它的Apriori性质,有效避免了对很多不可能的项的搜索过程[2]。3.2Apriori性质频繁项集的所有非空子集都必须也是频繁的。如果项集I不满足最小支持度阈值s,则I不是频繁的,即P(I)

9、,A)也不是频繁的,即P(I∪A)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。