R语言-聚类分析.ppt

R语言-聚类分析.ppt

ID:58103548

大小:981.69 KB

页数:52页

时间:2020-09-05

R语言-聚类分析.ppt_第1页
R语言-聚类分析.ppt_第2页
R语言-聚类分析.ppt_第3页
R语言-聚类分析.ppt_第4页
R语言-聚类分析.ppt_第5页
资源描述:

《R语言-聚类分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类的基本步骤什么是类:粗略地讲,相似样品(或指标)的集合成为类。聚类的两个基本步骤邻近度度量的选择:检验每一对观测值(对象)取值的相似性。一个相似性(邻近度)的度量定义为对象间的“接近”程度。越接近越同质。组别构建算法的选择:根据邻近度的度量,被分配到各组的对象间的差别变大,而被分配到同一组的观测值应尽可能接近。关于聚类:聚类应用领域仓储管理:对不同类的商品在入库过程中进行聚类储存营销:发现客户集群并进行直销和重组天文:发现相似恒星群以及星系群地震研究:观测到的地震震源应聚集在大陆断层带基因分析:发现具有相似表达式的基因群…关于聚类:探索性的

2、分析方法作为一种探索性技术,Everitt(1993)评价到:“聚类方法基本上是用于产生一些假设而不是检验假设”。有多少作聚类分析的人就有多少聚类方法。聚类的分类:划分聚类方法层次聚类方法密度聚类方法网格聚类方法模型聚类方法在基于划分的聚类中,任务就是将数据划分成K个不相交的点集,使每个子集中的点尽可能同质。基于划分的方法,其代表算法有k-means算法、K-medoids等划分聚类方法k-means算法k-means算法基本步骤从n个数据对象任意选择k个对象作为初始聚类中心;根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离

3、;并根据最小距离重新对相应对象进行划分;重新计算每个(有变化)聚类的均值(中心对象);计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤2。k-means优缺点主要优点:是解决聚类问题的一种经典算法,简单、快速。对处理大数据集,该算法是相对可伸缩和高效率的。当结果簇是密集的,它的效果较好。主要缺点在簇的中心(平均值)被定义的情况下才能使用。必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏

4、感的。层次聚类方法层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为:凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。层次聚类优缺点层次聚类方法是不可逆的,也就是说,当通过凝聚式的方法将两组合并后,无法通过分裂式的办法再将其分离到之前的状态,反之亦然。另外,层次聚类过程

5、中调查者必须决定聚类在什么时候停止,以得到某个数量的分类。在不必要的情况下应该小心使用层次聚类方法。1、距离的定义距离的定义有很多,但是必须遵循一定的规则。假设表示样本之间的距离,则一般要求它满足如下条件:(1)对一切i,j都大于等于0(2)等于0当且仅当i=j(3)对一切i和j可以互换(4)如果距离的定义仅满足前三条,则称此距离为广义距离。常用的距离有,明氏距离,兰氏距离,马氏距离,斜交空间距离,列名变量的相似性度量。2、常用的距离明氏距离特别地,当k=1时,即为绝对值距离(1)明氏距离令表示样品与的距离设原始数据为明氏距离当k=2时,即为欧

6、氏距离当k=∞时,即为切比雪夫距离123452018104471055325.236.328.911.517欧氏距离切比雪夫距离例:明考夫斯基距离有以下两个缺点:①明氏距离的数值与指标的量纲有关。当各变量的测量值相差悬殊时,常发生“大数吃小数”的现象,为消除量纲的影响,通常先将每个变量进行标准化。②明氏距离的定义没有考虑各个变量之间相关性的影响。年龄收入家庭人口数甲3030001乙4032003(2)标准化的欧氏距离设原始数据为(3)马氏距离马氏距离是由印度著名统计学家马哈拉诺比斯(Mahalanobis)所定义的一种距离,其计算公式为:=马氏

7、距离又称为广义欧氏距离。马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。马氏距离不受指标量纲及指标间相关性的影响系统聚类法系统聚类法的基本思想先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。系统聚类法的基本步骤:1.计算n个样品两两间的距离,记作D=。2.构造n个类,每个类只包含一个样品。3.

8、合并距离最近的两类为一新类。4.计算新类与各当前类的距离。5.重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。6.画聚类谱系图。7

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。