数据挖掘概念与技术CHAPTER7-聚类分析

数据挖掘概念与技术CHAPTER7-聚类分析

ID:39712442

大小:1.13 MB

页数:168页

时间:2019-07-09

数据挖掘概念与技术CHAPTER7-聚类分析_第1页
数据挖掘概念与技术CHAPTER7-聚类分析_第2页
数据挖掘概念与技术CHAPTER7-聚类分析_第3页
数据挖掘概念与技术CHAPTER7-聚类分析_第4页
数据挖掘概念与技术CHAPTER7-聚类分析_第5页
资源描述:

《数据挖掘概念与技术CHAPTER7-聚类分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第7章聚类分析什么是聚类(Clustering)分析?聚类分析中的数据类型主要聚类方法分类划分方法(PartitioningMethods)层次方法(HierarchicalMethods)基于密度的方法(Density-BasedMethods)基于网格的方法(Grid-BasedMethods)基于模型的聚类方法(Model-BasedClusteringMethods)孤立点分析(OutlierAnalysis)小结1什么是聚类分析?聚类:数据对象的集合/簇(cluster)同一簇中的对象彼此相似不同簇中的对象彼此相异聚类分析将数据对象分组成为多个类或簇聚类是无指导的

2、分类:没有预先定义的类典型应用作为洞察数据内部分布的独一无二的工具作为其它算法的预处理步骤2聚类的一般应用模式识别空间数据分析聚类产生GIS(地理信息系统)的专题地图thematicmaps在空间数据挖掘中检测空间聚类并解释它们图象处理经济科学(特别是市场研究)WWW文本分类Web日志数据聚类,发现类似访问模式群3聚类应用的例子市场营销:帮助市场营销者发现他们的基本顾客的不同组群,然后利用这一知识制定有针对性的营销计划国土利用在地球观测数据库中识别类似的国土使用区域保险对汽车保险持有者的分组城市规划根据房子的类型,价值,和地理位置对一个城市中房屋的分组地震研究应当将观测到的

3、地震震中沿大陆板块断裂进行聚类4什么是好的聚类方法?一个好的聚类方法应当产生高质量的聚类类内相似性高类间相似性低聚类结果的质量依赖于方法所使用的相似性度量和它的实现.聚类方法的质量也用它发现某些或全部隐藏的模式的能力来度量5数据挖掘对聚类的要求可伸缩性有的算法当数据对象少于200时处理很好,但对大量数据对象偏差较大大型数据库包含数百万个对象处理不同属性类型的能力许多算法专门用于数值类型的数据实际应用涉及不同的数据类型,i.e.混合了数值和分类数据发现任意形状的聚类基于距离的聚类趋向于发现具有相近尺度和密度的球状簇一个簇可能是任意形状的6数据挖掘对聚类的要求(续)用于决定输入

4、参数的领域知识最小化许多聚类算法要求用户输入一定的参数,如希望产生的簇的数目.聚类结果对于输入参数十分敏感参数难以确定,增加了用户的负担,使聚类质量难以控制处理噪声数据和孤立点的能力一些聚类算法对于噪音数据敏感,可能导致低质量的聚类结果现实世界中的数据库大都包含了孤立点,空缺,或者错误的数据对于输入记录的顺序不敏感一些聚类算法对于输入数据的顺序是敏感的,以不同的次序输入会导致不同的聚类7数据挖掘对聚类的要求(续)高维性(highdimensionality)许多聚类算法擅长处理低维的数据,可能只涉及两到三维数据库或者数据仓库可能包含若干维或者属性,数据可能非常稀疏,而且高度

5、偏斜整合用户指定的约束现实世界的应用可能需要在各种约束条件下进行聚类要找到既满足特定的约束,又具有良好聚类特性的数据分组是一项具有挑战性的任务可解释性和可用性用户希望聚类结果是可解释的,可理解的,和可用的聚类可能需要和特定的语义解释和应用相联系8第7章.聚类分析什么是聚类(Clustering)分析?聚类分析中的数据类型主要聚类方法分类划分方法(PartitioningMethods)层次方法(HierarchicalMethods)基于密度的方法(Density-BasedMethods)基于网格的方法(Grid-BasedMethods)基于模型的聚类方法(Model-

6、BasedClusteringMethods)孤立点分析(OutlierAnalysis)小结9数据结构数据矩阵(twomodes)相异度矩阵(Dissimilaritymatrix)(onemode)10评估聚类的质量有一个单独的“质量”函数,它度量聚类的“好坏”.很难定义“足够类似”或“足够好”对此问题是相当主观的.相异度/相似度矩阵相似性用距离函数表示,通常记作d(i,j)对于区间标度变量,二元变量,标称变量,序数和比例标度变量,距离函数的定义通常是很不相同的.根据应用和数据语义,不同的变量应赋予不同的权.11聚类分析的数据类型区间标度变量(Interval-scal

7、edvariables)二元变量(Binaryvariables)标称(名词性),序数,和比例标度变量(Nominal,ordinal,andratiovariables)混合类型变量(Variablesofmixedtypes)12区间标度变量区间标度变量:一种粗略线形标度的连续度量为了避免度量单位的影响,数据标准化(1)计算平均绝对偏差:其中(2)计算标准化的度量值(z-score)使用平均绝对偏差比使用标准差更具有鲁棒性13对象之间的相似性/相异性通常,使用距离来度量两个数据对象之间的相似性/相异性常用的距离

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。