各种聚类算法介绍和对比

ID：25993659

大小：240.38 KB

页数：9页

时间：2018-11-24

资源描述：

《各种聚类算法介绍和对比》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、.WORD完美格式.一、层次聚类1、层次聚类的原理及分类1）层次法（Hierarchicalmethods）先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后，再计算类与类之间的距离，将距离最近的类合并为一个大类。不停的合并，直到合成了一个类。其中类与类的距离的计算方法有：最短距离法，最长距离法，中间距离法，类平均法等。比如最短距离法，将类与类的距离定义为类与类之间样本的最短距离。层次聚类算法根据层次分解的顺序分为：自下底向上和自上向下，即凝聚的层次聚类算法和分裂的层次聚类算法（agglomerative和divisive），也可以理解为

2、自下而上法（bottom-up）和自上而下法（top-down）。自下而上法就是一开始每个个体（object）都是一个类，然后根据linkage寻找同类，最后形成一个“类”。自上而下法就是反过来，一开始所有个体都属于一个“类”，然后根据linkage排除异己，最后每个个体都成为一个“类”。这两种路方法没有孰优孰劣之分，只是在实际应用的时候要根据数据特点以及你想要的“类”的个数，来考虑是自上而下更快还是自下而上更快。至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等（其中类平均法往往被认为是最常用也最好用的方法

3、，一方面因为其良好的单调性，另一方面因为其空间扩张/浓缩的程度适中）。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。 2）Hierarchicalmethods中比较新的算法有BIRCH（BalancedIterativeReducingandClusteringUsingHierarchies利用层次方法的平衡迭代规约和聚类）主要是在数据量很大的时候使用，而且数据类型是numerical。首先利用树的结构对对象集进行划分，然后再利用其它聚类方法对这些聚类进行优化；ROCK（AHierarchicalClusteringA

4、lgorithmforCategoricalAttributes）主要用在categorical的数据类型上；Chameleon（AHierarchicalClusteringAlgorithmUsingDynamicModeling）里用到的linkage是kNN（k-nearest-neighbor）算法，并以此构建一个graph，Chameleon的聚类效果被认为非常强大，比BIRCH好用，但运算复杂度很高，O(n^2)。2、层次聚类的流程凝聚型层次聚类的策略是先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中

5、，或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类，它们只是在簇间相似度的定义上有所不同。这里给出采用最小距离的凝聚层次聚类算法流程：(1)将每个对象看作一类，计算两两之间的最小距离；(2)将距离最小的两个类合并成一个新类；(3)重新计算新类与所有类之间的距离；(4)重复(2)、(3)，直到所有类最后合并成一类。聚类的效果如下图，黑色是噪音点：.技术资料.专业整理..WORD完美格式.另外我们可以看出凝聚的层次聚类并没有类似基本K均值的全局目标函数，没有局部极小问题或是很难选择初始点的问题。合并的操作往往是最终的，一旦合并两个簇之后就不

6、会撤销。当然其计算存储的代价是昂贵的。3、层次聚类的优缺点优点：1，距离和规则的相似度容易定义，限制少；2，不需要预先制定聚类数；3，可以发现类的层次关系；4，可以聚类成其它形状缺点：1，计算复杂度太高；2，奇异值也能产生很大影响；3，算法很可能聚类成链状 r语言中使用hclust(d,method="complete",members=NULL)：进行层次聚类。d为距离矩阵；method表示类的合并方法，single最短距离法，complete最长距离法，median中间距离法，mcquitty 相似法，average 类平均法，centroid

7、重心法，ward离差平方和法；members为NULL或d长度的矢量。二、划分聚类法k-means基于划分的方法（Partition-basedmethods）：其原理简单来说就是，想象你有一堆散点需要聚类，想要的聚类效果就是“类内的点都足够近，类间的点都足够远”。首先你要确定这堆散点最后聚成几类，然后挑选几个点作为初始中心点，再然后依据预先定好的启发式算法（heuristicalgorithms）给数据点做迭代重置（iterativerelocation），直到最后到达“类内的点都足够近，类间的点都足够远”的目标效果。Partition-base

8、dmethods聚类多适用于中等体量的数据集，但我们也不知道“中等”到底有多“中”，所以不妨理解成，数据集越大，越有可能陷

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 9



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

各种聚类算法介绍和对比

各种聚类算法介绍和对比

相关文章

相关标签