数据挖掘算法之关联规则

数据挖掘算法之关联规则

ID:11940331

大小:40.00 KB

页数:8页

时间:2018-07-15

数据挖掘算法之关联规则_第1页
数据挖掘算法之关联规则_第2页
数据挖掘算法之关联规则_第3页
数据挖掘算法之关联规则_第4页
数据挖掘算法之关联规则_第5页
资源描述:

《数据挖掘算法之关联规则》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘算法之-关联规则挖掘(Association Rule)(2009-09-2021:59:23)转载标签:dm分类:DM在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。一、关联规则的定义和属性  考察一些涉及许多物品的事务:事务1中出现了物品甲,事务2中出现了物品乙,事务3中则同时出现了物品甲和乙。那么,物品甲和乙在事务中的出现相互之间是否有规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品

2、之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。  现实中,这样的例子很多。例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买铁锤的顾客当中,有70%的人同时购买了铁钉。这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品摆放在一起,能够促进销售。  有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货

3、数据一样处理。比如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40岁以上,工作在A区的投保人当中,有45%的人曾经向保险公司索赔过。在这条规则中,“年龄在40岁以上”是物品甲,“工作在A区”是物品乙,“向保险公司索赔过”则是物品丙。可以看出来,A区可能污染比较严重,环境比较差,导致工作在该区的人健康状况不好,索赔率也相对比较高。  设R={I1,I2...

4、...Im}是一组物品集,W是一组事务集。W中的每个事务T是一组物品,TR。假设有一个物品集A,一个事务T,如果AT,则称事务T支持物品集A。关联规则是如下形式的一种蕴含:A→B,其中A、B是两组物品,AI,BI,且A∩B=。一般用四个参数来描述一个关联规则的属性:    1.可信度(Confidence)设W中支持物品集A的事务中,有c%的事务同时也支持物品集B,c%称为关联规则A→B的可信度。简单地说,可信度就是指在出现了物品集A的事务T中,物品集B也同时出现的概率有多大。如上面所举的铁锤和铁钉的例子,该关联规则的可信度就回答了这样一个问题:如果一个顾客购买了铁锤,那么他也购买

5、铁钉的可能性有多大呢?在上述例子中,购买铁锤的顾客中有70%的人购买了铁钉,所以可信度是70%。   2.支持度(Support)  设W中有s%的事务同时支持物品集A和B,s%称为关联规则A→B的支持度。支持度描述了A和B这两个物品集的并集C在所有的事务中出现的概率有多大。如果某天共有1000个顾客到商场购买物品,其中有100个顾客同时购买了铁锤和铁钉,那么上述的关联规则的支持度就是10%。  3.期望可信度(Expectedconfidence)  设W中有e%的事务支持物品集B,e%称为关联规则A→B的期望可信度度。期望可信度描述了在没有任何条件影响时,物品集B在所有事务中出现的概率有

6、多大。如果某天共有1000个顾客到商场购买物品,其中有200个顾客购买了铁钉,则上述的关联规则的期望可信度就是20%。 4.作用度(Lift)  作用度是可信度与期望可信度的比值。作用度描述物品集A的出现对物品集B的出现有多大的影响。因为物品集B在所有事务中出现的概率是期望可信度;而物品集B在有物品集A出现的事务中出现的概率是可信度,通过可信度对期望可信度的比值反映了在加入“物品集A出现”的这个条件后,物品集B的出现概率发生了多大的变化。在上例中作用度就是70%/20%=3.5。 可信度是对关联规则的准确度的衡量,支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性

7、,显然支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。  期望可信度描述了在没有物品集A的作用下,物品集B本身的支持度;作用度描述了物品集A对物品集B的影响力的大小。作用度越大,说明物品集B受物品集A的影响越大。一般情况,有用的关联规则的作用度都应该大于1,只有关联规则的可信度大于期望可信度,才说明A的出现对B的出现有促进作用,也说明了它们之

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。