第6章聚类分析 ppt课件.ppt

第6章聚类分析 ppt课件.ppt

ID:58698579

大小:2.82 MB

页数:167页

时间:2020-10-04

第6章聚类分析 ppt课件.ppt_第1页
第6章聚类分析 ppt课件.ppt_第2页
第6章聚类分析 ppt课件.ppt_第3页
第6章聚类分析 ppt课件.ppt_第4页
第6章聚类分析 ppt课件.ppt_第5页
资源描述:

《第6章聚类分析 ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、什么是聚类聚类(Clustering)就是将数据分组成为多个类(Cluster或译为簇)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。簇之间的距离最大化在一个簇内的距离最小化1从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。2什么是聚类早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物将周围的人分为家人和非家人3聚类分析无处不在谁经常光顾商店,谁买什么东西,买

2、多少?按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以….识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样)4什么情况下需要聚类为什么这样分类?因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的响应率。5聚类分析无处不在挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!6聚

3、类分析无处不在谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以……制定更吸引的服务,留住客户!比如:一定额度和期限的免息透资服务!百盛的贵宾打折卡!在他或她生日的时候送上一个小蛋糕!手机套餐的制定7聚类的应用领域经济领域:帮助分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类……8生物学领域推导植物和动物的分类(门、纲、目、科、

4、属、种);对基因分类,获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究9聚类分析原理介绍聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分聚类的数目和结构都没有事先假定10有多少个簇?四个簇2个簇6个簇簇(类)的概念可能是模糊的如何对汉语方言进行分类?11聚类分析原理介绍我们看以下的例子:有16张牌如何将他们分为一组一组的牌呢?AKQJ12聚类分析原理介绍分成四组每组里花色相同组与组之间花色相异AKQJ花色相同的牌为一副Individualsuits13聚类分析原理介绍

5、分成四组符号相同的牌为一组AKQJ符号相同的的牌Likefacecards14聚类分析原理介绍分成两组颜色相同的牌为一组AKQJ颜色相同的配对Blackandredsuits15聚类分析原理介绍分成两组大小程度相近的牌分到一组AKQJ大配对和小配对Majorandminorsuits16聚类分析原理介绍这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”(Similar)因此衍生出一系列度量相似性的方法AKQJ大配对和小配对Majorandminorsuits17聚类分析原理介绍变量按测量尺度(MeasurementLevel)分类区间(Interv

6、al)值变量连续变量,如长度、重量、速度、温度等有序(Ordinal)值变量等级变量,不可加,但可比,如一等、二等、三等奖学金名词性(Nominal)变量类别变量,不可加也不可比,如性别、职业等下面介绍对各种不同类型的变量如何进行度量18度量对象间的相似与差异对象间的相似度或相异度通常基于每对对象间的距离的计算欧几里得距离Minkowski距离19度量对象间的相似与差异曼哈顿距离(Block距离)欧几里得距离是当q=2时的Minkowski距离的特例曼哈顿距离是当q=1时的Minkowski距离的特例当q=时得到无穷距离(无穷范数),由向量间各分量的最大差

7、决定20度量对象间的相似与差异距离所应满足的数学性质d(i,j)0d(i,i)=0d(i,j)=d(j,i)d(i,j)d(i,k)+d(k,j)除此之外,还可以使用加权的距离21二元属性变量二元变量只有两种状态:0或1例如给定描述患者的变量smoker,1表示患者抽烟,0表示不抽烟像处理一般数值量一样来处理二元变量会产生误导的聚类结果22二元属性变量的相依表如果所有的二元变量具有相同的权重,则可以得到上表所示的两行两列的相依表q是对象i和j值都为1的变量的数目r是在对象i值为1,但对象j值为0的变量数目……变量的总数是p=q+r+s+tObjectiO

8、bjectj23对称二元变量和非对称二元变量对二元变

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。