最新数据仓库与数据挖掘课件8讲课教案.ppt

最新数据仓库与数据挖掘课件8讲课教案.ppt

ID:60768479

大小:1.36 MB

页数:37页

时间:2020-12-16

最新数据仓库与数据挖掘课件8讲课教案.ppt_第1页
最新数据仓库与数据挖掘课件8讲课教案.ppt_第2页
最新数据仓库与数据挖掘课件8讲课教案.ppt_第3页
最新数据仓库与数据挖掘课件8讲课教案.ppt_第4页
最新数据仓库与数据挖掘课件8讲课教案.ppt_第5页
资源描述:

《最新数据仓库与数据挖掘课件8讲课教案.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第8章集合论方法关联规则挖掘8.2关联规则挖掘8.2.1关联规则的挖掘原理8.2.2Apriori算法基本思想8.2.3Apriori算法8.2关联规则挖掘关联规则(AssociationRule)挖掘是从事务数据库、关系数据库和其它信息存储中的大量数据项集之间发现有趣的、频繁出现的模式、关联和相关性。应用(举例)购物篮分析、分类设计、捆绑销售、亏本销售等。8.2.1关联规则的挖掘原理关联规则是发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式。例1:在购买铁锤的顾客当中,有70%的人同时购买了铁钉。

2、分类设计---啤酒与尿布采用关联模型比较典型的案例是啤酒与尿布的故事。在美国,一些年轻的父亲在下班后经常去超市买婴儿尿布,超市也因而发现了一个规律,在购买婴儿尿布的年轻父亲中,30%---40%的人要购买啤酒,随后,超市调整了货架的摆放位置,把啤酒与尿布放在一起,明显增加了销售量。例2:年龄在40岁以上,工作在A区的投保人当中,有45%的人曾经向保险公司索赔过。可以看出来,A区可能污染比较严重,环境比较差,索赔率也相对比较高。购物篮分析如果问题的全域是商店所有商品的集合,则对每种商品可以用一个布尔量来表示该种商品是否被购

3、买,则每个购物篮可以用一个布尔向量来表示,而通过分析布尔向量则可以得到商品被频繁关联或同时购买的模式。这些模式就可以被表示为(00111011注意这里丢失了什么信息)。1.基本原理设I={i1,i2,…,im}是项(Item)的集合。记D为事务(Transaction)的集合(事务数据库),事务T是项的集合,并且TI。设A是I中一个项集,如果AT,那么称事务T包含A。定义1:关联规则是形如AB的蕴涵式,这里AI,BI,并且AB=。定义2:规则的支持度。规则AB在数据库D中具有支持度S,表示S是D中事务同时

4、包含AB的百分比,它是概率P(AB),即:其中

5、D

6、表示事务数据库D的个数,表示A、B两个项集同时发生的事务个数。定义3:规则的可信度规则AB具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(B

7、A),即:其中表示数据库中包含项集A的事务个数。定义4:阈值。在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf)。定义5:项的集合称为项集(Itemset),包含k个项的项集称之为k-项集。如:3-项集{牛奶,面包,

8、黄油}项集的频率是指包含项集的事务数。如果项集满足最小支持度,则它称之为频繁项集(FrequentItemset)。定义6:关联规则。同时满足最小支持度(min_sup)和最小可信度(min_conf)的规则称之为关联规则,即成立时,规则称之为关联规则,也可以称为强关联规则。2.关联规则挖掘过程关联规则的挖掘一般分为两个过程:(1)找出所有的频繁项集:找出支持度大于最小支持度的项集,即频繁项集。(2)由频繁项集产生关联规则:根据定义,这些规则必须满足最小支持度和最小可信度。3.关联规则的兴趣度例子:讨论不购买商品与购买商

9、品的关系。设,交易集D,经过对D的分析,得到表格:买咖啡不买咖啡合计买牛奶20525不买牛奶70575合计90101003.关联规则的兴趣度设定minsupp=0.2,minconf=0.6,得到如下的关联规则:买牛奶→买咖啡s=0.2c=0.8即80%的人买了牛奶就会买咖啡。满足关联规则。但观测上表同时得到结论:90%的人肯定会买咖啡。规则买咖啡→不买牛奶s=70/100=0.7c=70/90=0.78支持度和可信度分别为0.7和0.78,相比买牛奶又买咖啡更具有商业销售的指导意义。可见仅仅满足关联规则不一定最好。需要

10、引入兴趣度定义7:兴趣度:公式反映了项集A与项集B的相关程度。若即表示项集A出现和项集B是相互独立的。若表示A出现和B出现是负相关的。若表示A出现和B出现是正相关的。意味着A的出现蕴含B的出现。3.关联规则的兴趣度一条规则的兴趣度越大于1说明我们对这条规则越感兴趣(即其实际利用价值越大);一条规则的兴趣度越小于1说明我们对这条规则的反面规则越感兴趣(即其反面规则的实际利用价值越大);兴趣度I不小于0。所有可能的关联规则RulesSCI1买牛奶→买咖啡0.20.80.892买咖啡→买牛奶0.20.220.893买牛奶→不买

11、咖啡0.050.224不买咖啡→买牛奶0.050.525不买牛奶→买咖啡0.70.931.0376买咖啡→不买牛奶0.70.781.0377不买牛奶→不买咖啡0.050.0670.678不买咖啡→不买牛奶0.050.20.873.关联规则的兴趣度讨论I1﹑I2﹑I3﹑I6共4条规则:由于I1,I2<1,在实际中它的价

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。