数据挖掘聚类课件ppt.ppt

数据挖掘聚类课件ppt.ppt

ID:52268290

大小:1.46 MB

页数:115页

时间:2020-04-03

数据挖掘聚类课件ppt.ppt_第1页
数据挖掘聚类课件ppt.ppt_第2页
数据挖掘聚类课件ppt.ppt_第3页
数据挖掘聚类课件ppt.ppt_第4页
数据挖掘聚类课件ppt.ppt_第5页
资源描述:

《数据挖掘聚类课件ppt.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第五章聚类方法内容提要聚类方法概述划分聚类方法层次聚类方法密度聚类方法其它聚类方法2021/10/81什么是聚类聚类(clustering)也称为聚类分析,指将样本分到不同的组中使得同一组中的样本差异尽可能的小,而不同组中的样本差异尽可能的大。聚类得到的不同的组称为簇(cluster)。一个好的聚类方法将产生以下的聚类最大化类中的相似性最小化类间的相似性2021/10/82聚类与分类的差别聚类与分类最主要的差别是聚类的样本不具有类别标号,而分类的样本具有类别标号。聚类是无监督学习(unsupervisedlearning),而分类是有监督学习(s

2、upervisedlearning)。因此,分类里有训练和测试,而聚类没有训练。尽管分类是识别对象组类别的有效手段,但需要高昂的代价收集和标记训练样本集。因此,聚类提供了一种新的处理模式:先把数据集划分为组,然后给有限的组指定类别标号。2021/10/83对聚类方法的一些要求可伸缩性处理不同类型属性的能力发现任意形状的聚类用于决定输入参数的领域知识最小化处理噪声数据和孤立点的能力对于输入纪录的顺序不敏感高维性基于约束的聚类可解释性和可用性2021/10/84聚类分析中的数据类型数据矩阵相异度矩阵2021/10/85聚类分析中的数据类型区间标度度量

3、属性的取值为实数值,且不同属性取值区间差异较大将不同类型的属性取值标准化首先计算均值绝对偏差然后计算标准度量值或Z-score2021/10/86标准度量的聚类描述欧几里得距离曼哈顿距离民科夫斯基距离计算欧几里得距离与曼哈顿距离2021/10/87聚类分析中的数据类型二元变量属性的取值仅为0或1,0表示该变量不会出现,1表示该变量出现。二元变量相异度计算设q为对象i与j都取1的变量的个数设r为对象i取1而对象j取0的变量的个数设s为对象i取0而对象j取1的变量的个数设t为对象i与j都取0的变量的个数对象i与j的相异度定义为2021/10/88聚类

4、分析中的数据类型二元变量非对称如果二元变量的状态不是同等重要,例如疾病检查的阳性与阴性结果,称该二元变量是非对称的。我们把重要的状态编码为1,相对次要的状态编码为0,此时,两个都取1的匹配(正匹配)比两个都去0的匹配(负匹配)更有意义。此时,负匹配的个数可以认为不太重要,可以在计算中忽略,对象i与j的相异度定义为2021/10/89聚类分析中的数据类型二元变量相似度二元状态的相似度定义为系数sim(i,j)称为Jaccard系数。2021/10/810聚类分析中的数据类型分类变量属性的取值为多个状态。比如地图颜色是个分类变量,取值可以为:红色,黄

5、色,绿色,粉色,蓝色。1表示该变量出现。分类变量相异度计算设m为对象i与j匹配的数目(即它们取相同的状态值),p为全部变量的数目,对象i与j的相异度定义为2021/10/811聚类分析中的数据类型序数变量属性的取值为多个状态,这些状态值有一定的强度层次,可以排序。序数变量相异度计算首先,将变量f的取值状态替换为它的秩(1,2,3,...,M),即序数变量的排序数。其次,将秩的值域映射到区间[0,1],这可以通过以下变换实现其中Mf为f的取值状态数目。2021/10/812聚类分析中的数据类型比例标度变量属性的取值随时间的增长,呈指数增长的趋势。比

6、如状态的取值近视遵循下列公式其中A与B为正的常数,而t为时间。序数变量相异度计算把比例标度度量当做区间标度变量处理把比例标度度量当做序数变量处理对比例标度度量做对数变换2021/10/813聚类分析中的数据类型混合类型变量实际的应用中,一个数据库可以包含多种类型的变量,比如区间标度变量,对称二元,非对称二元,分类,序数,或者比例标度的。混合变量相异度计算其中为单个类型变量定义的距离;p为变量的个数。2021/10/814聚类分析中的数据类型向量对象的距离算法在某些应用中,如信息检索,文本文档聚类,生物学分类中,需要对大量符号实体进行比较和聚类,因

7、此,放弃了传统的距离度量方法。在计算两个向量的x与y的相似度时,我们可以采用余弦度量其中xT为x的转置,为x的欧几里得范数。2021/10/815聚类分析中的数据类型向量对象的距离算法余弦度量实际上计算的是向量x与y之间夹角的余弦值。余弦度量对于平移与放大是不变的。当变量为二元时,余弦度量表示x与y之间共有属性的比例。余弦度量也称为Tanimoto距离。2021/10/816主要聚类方法的分类聚类方法大致可以分为以下几类:划分聚类方法层次聚类方法密度聚类方法网格聚类方法基于模型的方法其它聚类方法2021/10/817主要聚类方法的分类划分聚类方法

8、划分方法将给定的数据集划分成k份,每份为一个簇。划分方法通常采用迭代重定位技术,尝试通过对象在簇之间的移动在改进划分。2021/10/8

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。