数据挖掘_层次聚类

数据挖掘_层次聚类

ID:20684293

大小:297.00 KB

页数:34页

时间:2018-10-14

数据挖掘_层次聚类_第1页
数据挖掘_层次聚类_第2页
数据挖掘_层次聚类_第3页
数据挖掘_层次聚类_第4页
数据挖掘_层次聚类_第5页
资源描述:

《数据挖掘_层次聚类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、7.5层次聚类方法2021/8/9层次聚类2层次聚类方法概述层次聚类方法将数据对象组成一棵聚类树。根据层次分解是自底向上(合并)还是自顶向下(分裂),进一步分为凝聚的和分裂的。2021/8/9层次聚类3层次聚类方法概述凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。2021/8/9层次聚类4簇间距离最小

2、距离2021/8/9层次聚类5簇间距离最大距离2021/8/9层次聚类6簇间距离平均距离2021/8/9层次聚类7簇间距离均值距离2021/8/9层次聚类8AGNES算法AGNES(AGglomerativeNESting)算法最初将每个对象作为一个簇,然后这些簇根据某些准则被一步步地合并。两个簇间的相似度由这两个不同簇中距离最近的数据点对的相似度来确定。聚类的合并过程反复进行直到所有的对象最终满足簇数目。2021/8/9层次聚类9AGNES算法输入:n个对象,终止条件簇的数目k。输出:k个簇,达到终止条件规定簇数目。(1)将每个对象当成一个初始簇

3、;(2)REPEAT(3)根据两个簇中最近的数据点找到最近的两个簇;(4)合并两个簇,生成新的簇的集合;(5)UNTIL达到定义的簇的数目;2021/8/9层次聚类10AGNES算法例题序号属性1属性2111212321422534635744845第1步:根据初始簇计算每个簇之间的距离,随机找出距离最小的两个簇,进行合并,最小距离为1,合并后1,2两个点合并为一个簇。第2步:对上一次合并后的簇计算簇间距离,找出距离最近的两个簇进行合并,合并后3,4点成为一簇。第3步:重复第2步的工作,5,6点成为一簇。第4步:重复第2步的工作,7,8点成为一簇。第5

4、步:合并{1,2},{3,4}成为一个包含四个点的簇。第6步:合并{5,6},{7,8},由于合并后的簇的数目已经达到了用户输入的终止条件,程序终止。步骤最近的簇距离最近的两个簇合并后的新簇11{1},{2}{1,2},{3},{4},{5},{6},{7},{8}1{3},{4}{1,2},{3,4},{5},{6},{7},{8}1{5},{6}{1,2},{3,4},{5,6},{7},{8}1{7},{8}{1,2},{3,4},{5,6},{7,8}1{1,2},{3,4}{1,2,3,4},{5,6},{7,8}1{5,6},{7,8}{1

5、,2,3,4},{5,6,7,8}结束2021/8/9层次聚类112021/8/9层次聚类122021/8/9层次聚类132021/8/9层次聚类14AGNES特点AGNES算法比较简单,但经常会遇到合并点选择的困难。假如一旦一组对象被合并,下一步的处理将在新生成的簇上进行。已做处理不能撤销,聚类之间也不能交换对象。如果在某一步没有很好的选择合并的决定,可能会导致低质量的聚类结果。2021/8/9层次聚类15DIANA算法DIANA(DivisiveANAlysis)算法是典型的分裂聚类方法。在聚类中,用户能定义希望得到的簇数目作为一个结束条件。算法D

6、IANA(自顶向下分裂算法)输入:n个对象,终止条件簇的数目k。输出:k个簇,达到终止条件规定簇数目。(1)将所有对象整个当成一个初始簇;(2)FOR(i=1;i≠k;i++)DOBEGIN(3)在所有簇中挑出具有最大直径的簇C;(4)找出C中与其它点平均相异度最大的一个点p并把p放入splintergroup,剩余的放在oldparty中;(5)REPEAT(6)在oldparty里找出到最近的splintergroup中的点的距离不大于到oldparty中最近点的距离的点,并将该点加入splintergroup。(7)UNTIL没有新的oldpar

7、ty的点被分配给splintergroup;(8)splintergroup和oldparty为被选中的簇分裂成的两个簇,与其它簇一起组成新的簇集合。(9)END.序号属性1属性2111212321422534635744845DIANA算法例题第1步,找到具有最大直径的簇,对簇中的每个点计算平均相异度(假定采用是欧式距离)。1的平均距离:(1+1+1.414+3.6+4.24+4.47+5)/7=2.96类似地,2的平均距离为2.526;3的平均距离为2.68;4的平均距离为2.18;5的平均距离为2.18;6的平均距离为2.68;7的平均距离为2.

8、526;8的平均距离为2.96。找出平均相异度最大的点1放到splintergroup中,剩余

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。