关联规则挖掘.doc

关联规则挖掘.doc

ID:52619845

大小:37.50 KB

页数:10页

时间:2020-03-29

关联规则挖掘.doc_第1页
关联规则挖掘.doc_第2页
关联规则挖掘.doc_第3页
关联规则挖掘.doc_第4页
关联规则挖掘.doc_第5页
资源描述:

《关联规则挖掘.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据挖掘的其他基本功能介绍一、关联规则挖掘关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。关联规则挖掘具有很多应用领域,如一些研究者发现,超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。1、基本概念设是项组合的记录,D为项组合的一个集合。如超市的每一张购物小票为一个项的组合(一个维数很大的记录),而超市一段时间内的购物记录就形成集合D。我们现在关心这样一个问题,组合中项的出现之间是否存在一定的规则,如A游泳衣,B太阳镜,,但是得不到足够支持。在规则挖掘中涉及到两个重要的指标:①、支持度支持

2、度,显然,只有支持度较大的规则才是较有价值的规则。②、置信度置信度,显然只有置信度比较高的规则才是比较可靠的规则。10因此,只有支持度与置信度均较大的规则才是比较有价值的规则。③、一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。关联规则挖掘实际上真正体现了数据中的知识发现。如果一个规则满足最小支持度,则称这个规则是一个频繁规则;如果一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。关联规则挖掘的通常方法是:首先挖掘出所有的频繁规则,再从得到的

3、频繁规则中挖掘强规则。在少量数据中进行规则挖掘我们可以采用采用简单的编程方法,而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。关联规则挖掘可以使我们得到一些原来我们所不知道的知识。应用的例子:*日本超市对交易数据库进行关联规则挖掘,发现规则:尿片→啤酒,重新安排啤酒柜台位置,销量上升75%。*英国超市的例子:大额消费者与某种乳酪。那么,证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则,这些关联规则究竟说明了什么?10关联规则挖掘通常比较适用与记录中的指标取离散值的情况,如果原始数据库中的指标值是取连续的

4、数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。参考文献1二、特征化与比较1、特征化是一种描述性数据挖掘,特征化通过数据挖掘的方法提供给定数据汇集的简洁汇总,如银行优质客户的特征,从而发现潜在的优质客户;转向其他银行的优质客户的特征,从而设法留住可能会转向其他银行的优质客户,特征化在银行客户关系管理等领域具有很大作用。描述性数据挖掘——特征化的基本原理①、属性删除某一类的特征化就是找出某一类

5、的共性,因此如果某个属性具有大量不同的值,而且每个值所占的比率都不能达到事先给定的临界值,同时在这个属性上没有概化操作符(指标上卷),则数据挖掘对其进行属性删除。②、属性概化10如果在属性上存在概化操作符,并且原属性取值没有达到事先给定的临界值,则数据挖掘就将这个属性概化到较高层次,即使原属性取值已经达到临界值,数据挖掘也可以继续进行属性概化。通过属性删除和属性概化,可以得到特征化的数据挖掘。2、比较特征化是给定某一类样本的特征,而比较则是区分不同的类,比较又通常称为挖掘类比较。如信用卡诈骗者和非诈骗者,这两类信用卡持

6、有者的比较。类比较通常是一个指定的类与一个其它的类、或者几个其它的类进行比较,类比较的基本方法是:首先在目标类上发觉特征,然后在对比类上进行同步概化,这样就可以挖掘类比较。特征化与类比较具有很广泛的应用领域。如:被外资并构公司与没有被外资并构公司进行类比较;不同审计意见的公司的类比较;信用卡诈骗与非诈骗类的比较;银行优质客户中忠诚客户与转向其他银行的原优质客户的比较;等等。参考文献2三、聚类分析10聚类分析就是根据样本之间的相似程度,将样本分成几个不同的类。如我国各城市社会经济发展程度的聚类分析,利用聚类分析研究我国女

7、子成衣的尺寸标准。原来测量了成年女子14个部位的指标数据:上体长、手臂长、胸围、颈围、总肩宽、前胸宽、后背宽、前腰节高、后腰节高、总体长、身高、下体长、腰围、臀围。经过聚类分析发现可以聚集为几类,每类主要在反映身高与反映胖瘦上有所区别,这样就可以制定几种标准尺寸,可以照顾到我国绝大多数成年女子的购衣要求。聚类分析在金融领域中有广泛应用,如根据股票价格的波动情况,可以将股票分成不同的类,总共可以分成几类,各类包含哪些股票,每一类的特征是什么,这对投资者、尤其对投资基金来说,可能就是很重要的信息。聚类分析也是分类,但是要划

8、分的类是未知的,这是聚类分析与一般判别分析的区别。聚类分析的基本原理1、样本间距离的度量距离采用绝对值距离、欧氏距离、切比雪夫距离等,其中:,利用距离可以度量不同样本之间的相似程度,在测量距离时,往往首先需要进行标准化变换,以消除量纲带来的影响。当指标为非数值指标时,2、相似程度的测量10最短距离法是测量相似程度的一种方法,利用最

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。