数据挖掘算法_聚类数据挖掘ppt课件.ppt

数据挖掘算法_聚类数据挖掘ppt课件.ppt

ID:58779969

大小:723.00 KB

页数:31页

时间:2020-10-03

数据挖掘算法_聚类数据挖掘ppt课件.ppt_第1页
数据挖掘算法_聚类数据挖掘ppt课件.ppt_第2页
数据挖掘算法_聚类数据挖掘ppt课件.ppt_第3页
数据挖掘算法_聚类数据挖掘ppt课件.ppt_第4页
数据挖掘算法_聚类数据挖掘ppt课件.ppt_第5页
资源描述:

《数据挖掘算法_聚类数据挖掘ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘算法——聚类数据挖掘内容提要聚类的基本概念聚类挖掘方法聚类挖掘的形式化描述基于距离的聚类聚类的基本概念簇(Cluster):一个数据对象的集合在同一个簇中,对象之间具有相似性;不同簇中的对象之间是相异的。聚类(簇)挖掘或分析把一个给定的数据对象集合分成不同的簇。组内的对象具有很高的相似性,不同组的对象具有很低的相似性典型的应用作为一个独立的分析工具,用于了解数据的分布;作为其它算法的一个数据预处理步骤;应用聚类分析的例子市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的

2、市场计划;土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;聚类分析的应用实例,﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒.﹒.﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒.﹒.﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒年龄80类别1类别2类别3﹒.·﹒..﹒.·.收入600003

3、0000150000聚类分析的应用实例20世纪初,天文学家试图了解星星的发光度和温度之间的关系纵坐标:太阳明亮度的倍数横坐标:表面开式温度丹麦的Hertzsprung和美国的Russell独立提出结果:星星落到三个簇中解释:这三个簇代表了恒星生命周期中星体所处的不同阶段。每个簇中星星的发光度和温度是一致的,但簇间的关系则不同,揭示产生热和光的过程存在本质差异。占80%,通过原子核聚变有氢转化为氦产生能力聚类分析的应用实例两个变量的例子很容易判断当独立变量数目增加时,发现簇的难度开始增加美陆军委托他人研究如

4、何重新设计女兵服装,目的在于减少不同尺码制服的库存数,但必须保证每个士兵都有合体的制服。选取了3000名女性,每人有100多个度量尺寸。划分方法的基本思想是,给定一个n个样本的数据库,划分方法将数据划分为k个划分(k<=n),每个划分表示一个簇,同时满足:a.每个簇至少包含一个样本;b.每个样本必须属于且仅属于一个簇k-平均算法最为简单。每个簇用该簇中对象的平均值来表示。⑴首先将所有对象随机分配到k个非空的簇中。⑵计算每个簇的平均值,并用该平均值代表相应的簇。⑶根据每个对象与各个簇中心的距离,分配给最近的

5、簇。⑷然后转第二步,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。常见的聚类方法--划分聚类方法k-平均算法“K”–circa1967–thisalgorithmlooksforafixednumberofclusterswhicharedefinedintermsofproximityofdatapointstoeachotherHowK-meansworksAlgorithmselectsKdatapointsrandomlyAssignseachoftheremainingda

6、tapointstooneofKclusters(viaperpendicularbisector)Calculatethecentroidsofeachcluster(usesaveragesineachclustertodothis)K-meansClusteringK-MeansExample基于质心的k-means聚类算法坐标表示5个点{X1,X2,X3,X4,X5}作为一个聚类分析的二维样本:X1=(0,2),X2=(0,0),X3=(1.5,0),X4=(5,0),X5=(5,2)。假设要求的

7、簇的数量k=2。第1步:由样本的随机分布形成两个簇:C1={X1,X2,X4}和C2={X3,X5}。这两个簇的质心M1和M2是:M1={(0+0+5)/3,(2+0+0)/3}={1.66,0.66};M2={(1.5+5)/2,(0+2)/2}={3.25,1.00};基于质心的k-means聚类算法样本初始随机分布之后,方差是:e12=[(0-1.66)2+(2-0.66)2]+[(0-1.66)2+(0-0.66)2]+[(5-1.66)2+(0-0.66)2]=19.36;e22=8.12;总体

8、平方误差E2=e12+e22=19.36+8.12=27.48公式基于质心的k-means聚类算法第2步:取距离其中一个质心(M1或M2)最小的距离分配所有样本,簇内样本的重新分布如下:d(M1,X1)=(1.662+1.342)1/2=2.14d(M2,X1)=3.40==>X1∈C1;d(M1,X2)=1.79和d(M2,X2)=3.40==>X2∈C1d(M1,X3)=0.83和d(M2,X3)=2.01==>X3∈C1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。