各种聚类算法的比较.doc

ID：51642325

大小：47.00 KB

页数：4页

时间：2020-03-14

资源描述：

《各种聚类算法的比较.doc》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、各种聚类算法的比较聚类的目标是使同一类对象的相似度尽可能地小；不同类对象之间的相似度尽可能地大。目前聚类的方法很多，根据基本思想的不同，大致可以将聚类算法分为五大类：层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自数据挖掘中的聚类分析研究综述这篇论文。1、层次聚类算法1.1聚合聚类1.1.1相似度依据距离不同：Single-Link:最近距离、Complete-Link：最远距离、Average-Link：平均距离1.1.2最具代表性算法1）CURE算法特点：固定数目有代表性的点共同代表类优点：识别形状复杂，大小不一的

2、聚类，过滤孤立点2）ROCK算法特点：对CURE算法的改进优点：同上，并适用于类别属性的数据3）CHAMELEON算法特点：利用了动态建模技术1.2分解聚类1.3优缺点优点：适用于任意形状和任意属性的数据集；灵活控制不同层次的聚类粒度，强聚类能力缺点：大大延长了算法的执行时间，不能回溯处理 2、分割聚类算法2.1基于密度的聚类2.1.1特点将密度足够大的相邻区域连接，能有效处理异常数据，主要用于对空间数据的聚类2.1.2典型算法1）DBSCAN：不断生长足够高密度的区域2）DENCLUE：根据数据点在属性空间中的密度进行聚类，密度和网格与处理的结合3）OPTICS、DBCLASD、CU

3、RD：均针对数据在空间中呈现的不同密度分不对DBSCAN作了改进2.2基于网格的聚类2.2.1特点利用属性空间的多维网格数据结构，将空间划分为有限数目的单元以构成网格结构；1）优点：处理时间与数据对象的数目无关，与数据的输入顺序无关，可以处理任意类型的数据2）缺点：处理时间与每维空间所划分的单元数相关，一定程度上降低了聚类的质量和准确性2.2.2典型算法1）STING：基于网格多分辨率，将空间划分为方形单元，对应不同分辨率2）STING+：改进STING，用于处理动态进化的空间数据3）ＣＬＩＱＵＥ：结合网格和密度聚类的思想，能处理大规模高维度数据4）WaveCluster：以信号处理思

4、想为基础2.3基于图论的聚类2.3.1特点转换为组合优化问题，并利用图论和相关启发式算法来解决，构造数据集的最小生成数，再逐步删除最长边1）优点：不需要进行相似度的计算2.3.2两个主要的应用形式1）基于超图的划分2）基于光谱的图划分2.4基于平方误差的迭代重分配聚类2.4.1思想逐步对聚类结果进行优化、不断将目标数据集向各个聚类中心进行重新分配以获最优解2.4.2具体算法1）概率聚类算法期望最大化、能够处理异构数据、能够处理具有复杂结构的记录、能够连续处理成批的数据、具有在线处理能力、产生的聚类结果易于解释2）最近邻聚类算法——共享最近邻算法SNN特点：结合基于密度方法和ROCK思想

5、，保留K最近邻简化相似矩阵和个数不足：时间复杂度提高到了O(N^2)3）K-Medioids算法特点：用类中的某个点来代表该聚类优点：能处理任意类型的属性；对异常数据不敏感4）K-Means算法1》特点：聚类中心用各类别中所有数据的平均值表示2》原始K-Means算法的缺陷：结果好坏依赖于对初始聚类中心的选择、容易陷入局部最优解、对K值的选择没有准则可依循、对异常数据较为敏感、只能处理数值属性的数据、聚类结构可能不平衡3》K-Means的变体Bradley和Fayyad等：降低对中心的依赖，能适用于大规模数据集Dhillon等：调整迭代过程中重新计算中心方法，提高性能Zhang等：权值

6、软分配调整迭代优化过程Sarafis：将遗传算法应用于目标函数构建中Berkhin等：应用扩展到了分布式聚类还有：采用图论的划分思想，平衡聚类结果，将原始算法中的目标函数对应于一个各向同性的高斯混合模型5）优缺点优点：应用最为广泛；收敛速度快；能扩展以用于大规模的数据集缺点：倾向于识别凸形分布、大小相近、密度相近的聚类；中心选择和噪声聚类对结果影响大3、基于约束的聚类算法3.1约束对个体对象的约束、对聚类参数的约束；均来自相关领域的经验知识3.2重要应用对存在障碍数据的二维空间按数据进行聚类,如COD(ClusteringwithObstructedDistance)：用两点之间的障碍

7、距离取代了一般的欧式距离3.3不足通常只能处理特定应用领域中的特定需求4、用于高维数据的聚类算法4.1困难来源因素1）无关属性的出现使数据失去了聚类的趋势2)区分界限变得模糊4.2解决方法1)对原始数据降维2)子空间聚类CACTUS：对原始空间在二维平面上的投影CLIQUE：结合基于密度和网格的聚类思想，借鉴Apriori算法3)联合聚类技术特点：对数据点和属性同时进行聚类文本：基于双向划分图及其最小分割的代数学方法4.3不足：不可避免地带来了

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

各种聚类算法的比较.doc

各种聚类算法的比较.doc

相关文章

相关标签