数据挖掘中关联规则挖掘的应用研究

数据挖掘中关联规则挖掘的应用研究

ID:34127462

大小:254.70 KB

页数:5页

时间:2019-03-03

数据挖掘中关联规则挖掘的应用研究_第1页
数据挖掘中关联规则挖掘的应用研究_第2页
数据挖掘中关联规则挖掘的应用研究_第3页
数据挖掘中关联规则挖掘的应用研究_第4页
数据挖掘中关联规则挖掘的应用研究_第5页
资源描述:

《数据挖掘中关联规则挖掘的应用研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、http://www.paper.edu.cn数据挖掘中关联规则挖掘的应用研究吴海玲,王志坚,许峰河海大学计算机及信息工程学院,江苏南京(210098)摘要:本文首先介绍关联规则的基本原理,并简单概括其挖掘任务,然后说明关联规则的经典挖掘算法Apriori算法,通过一个实例分析进一步明确关联规则在CRM中的应用,最后展望了关联规则挖掘的研究方向。关键词:数据挖掘,关联规则,Apriori算法,CRM引言关联规则是表示数据库中一组对象之间的某种关联关系的规则,关联规则挖掘的主要对象是交易(Transaction)

2、数据库。这种数据库的一个主要应用是零售业,比如超级市场的销售管理。条形码技术的发展使得数据的收集变得更容易、更完整,从而可以存储大量的交易资料。关联规则就是辨别这些交易项目之间是否存在某种关系。例如:关联规则可以表示“购买了商品A和B的顾客中有80%的人又购买了商品C和D”。这种关联规则提供的信息[1]可以用作商品目录设计、商场货架的布置、生产安排、具有针对性的市场营销等。1关联规则的基本原理设I={i1,i2,……,im}是项的集合,设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得T⊆I。

3、每一个事务有一个标识符,称作TID。设X是一个项集,事务T包含X当且仅当X⊆T。关联规则是形如X⇒Y的蕴涵式,其中X⊆I,Y⊆I,并且X∩Y=∅。规则X⇒Y在事务集D中成立,具有支持度s,其中s是D中事务包含X∪Y(即X和Y二者)的百分比,它是概率P(X∪Y)。规则X⇒Y在事务集中具有可信度c,如果D中包含X的事务同时也包含Y的百分比c。这是条件概率P(XY∣)。即是support(X⇒Y)=P(XY∪)confidence(X⇒Y)=P(XY∣)[1]同时满足最小支持度(minsup)和最小可信度阈值(min

4、conf)的规则称作强规则。项的集合称为项集(itemset)。包含k个项的项集成为k-项集,例如集合{computer,software}是一个2—项集。项集的出现频率是包含项集的事务数,简称为项集的频率。项集满足最小支持度minsup,如果项集的出现频率大于或者等于minsup与D中事务总数的乘[2]积。如果项集满足最小支持度,则称它为频繁项集(frequentitemset)。2关联规则的发现任务关联规则挖掘的问题就是要找出这样的一些规则,它们的支持度或可信度分别大于指[3]定的最小支持度minsup和最

5、小可信度minconf。因此,该问题可以分解成如下两个子问题:1.产生所有支持度大于或等于指定最小支持度的项集,这些项目集称为频繁项目集(frequentitemsets),而其他的项目集则成为非频繁项目集(non-frequentitemsets)2.由频繁项集产生强关联规则。根据定义,这些规则必须满足最小支持度和最小可信度。关联规则挖掘的问题的主要特征是数据量巨大,因此算法的效率很关键。目前研究的重点在第一步,即发现频繁项目集,因此第二步相对来说是很容易的。-1-http://www.paper.edu.c

6、n3Apriori挖掘算法关联规则是反应两项或多项属性之间存在的相关性,其目的是为了从一些项的属性值来预测其他属性值,同时可以应用推广所反映一个事件和其他事件之间依赖或者关联的知识。最为著名的关联规则挖掘方法是由美国学者R.Agrawal提出的Apriori算法,主要是用于从大规模商业数据中挖掘关联规则。Apriori算法利用了项目集如下性质对数据库进行多趟扫描:任意频繁项集的子集都是频繁项集;任意非频繁项集的超集都是非频繁项集。第一趟扫描得到频繁-1项集的集合L1,第k趟扫描前先利用上趟扫描的结果项目集Lk-

7、1产生k-项集的集合Ck,然后再通过扫描数据库确定对Ck中每一候选k-项集的支持数,最后在该趟结束时求出频繁k项集合Lk,算法在Ck或Lk为空时终止。下面是Apriori算法的伪代码:算法:Apriori算法,使用逐步迭代法生成频繁项集输入:事务数据库D;最小支持度阈值minsup输出:D中的频繁项集LL1={large1-itemsets};for(k=2;Lk-1≠∅;k++){Ck=apriori_gen(Lk-1;minsup);//产生候选项foralltransactionstD∈{Ct=subse

8、t(Ck,t);//找出包含Ck的事务子集forallcandidatesc∈Ct{c.count++;}Lk={c∈Ck

9、c.count/

10、D

11、≥minsup}}}ReturnAnswerULkk算法:apriori_gen函数:输入:以Lk-1频繁(k-1)-项集,minsup:最小支持度作为输入参数输出:返回所有k-项集的集合Ckprocedureapriori_gen(Lk-1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。