有关k-均值聚类算法理解.doc

有关k-均值聚类算法理解.doc

ID:57424906

大小:1.31 MB

页数:7页

时间:2020-08-17

有关k-均值聚类算法理解.doc_第1页
有关k-均值聚类算法理解.doc_第2页
有关k-均值聚类算法理解.doc_第3页
有关k-均值聚类算法理解.doc_第4页
有关k-均值聚类算法理解.doc_第5页
资源描述:

《有关k-均值聚类算法理解.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、有关k-均值聚类算法的理解1.K-均值聚类算法的历史:聚类分析作为一种非监督学习方法,是机器学习领域中的一个重要的研究方向,同时,聚类技术也是数据挖掘中进行数据处理的重要分析工具和方法。1967年MacQueen首次提出了K均值聚类算法(K-means算法)。到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。它是聚类方法中一个基本的划分方法,常常采用误差平方和准则函数作为聚类准则函数迄今为止,很多聚类任务都选择该经典算法,K-means算法虽然有能对大型数据集进行高效分类的优点,但K-means算法必须事先确定类的数目k,而实际应用过程中,k值是很难确定

2、的,并且初始聚类中心选择得不恰当会使算法迭代次数增加,并在获得一个局部最优值时终止,因此在实际应用中有一定的局限性。半监督学习是近年来机器学习领域的一个研究热点,已经出现了很多半监督学习算法,在很多实际应用中,获取大量的无标号样本非常容易,而获取有标签的样本通常需要出较大的代价。因而,相对大量的无标签样本,有标签的样本通常会很少。传统的监督学习只能利用少量的有标签样本学习,而无监督学习只利用无标签样本学习。半监督学习的优越性则体现在能同时利用有标签样本和无标签样本学习。针对这种情况,引入半监督学习的思想,对部分已知分类样本运用图论知识迭代确定K-means算法的K值和

3、初始聚类中心,然后在全体样本集上进行K-均值聚类算法。2.K-算法在遥感多光谱分类中的应用基于K-均值聚类的多光谱分类算法近年来对高光谱与多光谱进行分类去混的研究方法很多,K-均值聚类算法与光谱相似度计算算法都属于成熟的分类算法.这类算法的聚类原则是以数据的均值作为对象集的聚类中心。均值体现的是数据集的整体特征,而掩盖了数据本身的特性。无论是对高光谱还是对多光谱进行分类的方法很多,K-均值算法属于聚类方法中一种成熟的方法。使用ENVI将多光谱图像合成一幅伪彩色图像见图1,图中可以看出它由标有数字1的背景与标有数字2和3的两种不同的气泡及标有数字4的两个气泡重叠处构成。

4、图1原始图像用ENVI进行K-means分类,分类结果如图2,背景被分成标有数字1的红色与标有数字2的绿色两类;一种气泡被分为两类,一类归为标有数字2的绿色的背景类,一类为标有数字4的蓝色的气泡类;另外一种气泡被分为标有数字3的黄色与标有数字5的浅蓝色两类。通过ENVI用K-均值(K-means)进行分类,K-means算法对于两种气泡的分类效果都很好。图2K-均值分类后的图像3.K-算法的步骤:第一步:选K个初始聚类中心,,其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定,例如可选开始的K个模式样本的向量值作为初始聚类中心。第二步:逐个将

5、需分类的模式样本{x}按最小距离准则分配给K个聚类中心中的某一个。对所有的i≠j,j=1,2,…,K,如果则,X其中k为迭代运算的次序号,第一次迭代k=1,表示第j个聚类,其聚类中心为。第三步:计算各个聚类中心的新的向量值,j=1,2,…,K,求各聚类域中所包含样本的均值向量:其中为第j个聚类域中所包含的样本个数。以均值向量作为新的聚类中心,可使如下聚类准则函数J最小:在这一步中要分别计算K个聚类中的样本均值向量,所以称之为K-均值算法。第四步:若,j=1,2,…,K,则返回第二步,将模式样本逐个重新分类,重复迭代运算;若,j=1,2,…,K,则算法收敛,计算结束。4

6、.K-均值聚类算法的优缺点:优点:算法的特点是:第一,能根据较少的已知聚类样本的类别对树进行剪枝确定部分样本的分类;第二,为克服少量样本聚类的不准确性,该算法本身具有优化迭代功能,在已经求得的聚类上再次进行迭代修正剪枝确定部分样本的聚类,优化了初始监督学习样本分类不合理的地方;第三,由于只是针对部分小样本可以降低总的聚类时间复杂度。缺点:①在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适。这也是K-means算法的一个不足。有的算法是通过类的自动合并和分裂,得到较为合理的类型数目K,例如

7、ISODATA算法。关于K-means算法中聚类数目K值的确定在文献中,是根据方差分析理论,应用混合F统计量来确定最佳分类数,并应用了模糊划分熵来验证最佳分类数的正确性。在文献中,使用了一种结合全协方差矩阵的RPCL算法,并逐步删除那些只包含少量训练数据的类。而文献中使用的是一种称为次胜者受罚的竞争学习规则,来自动决定类的适当数目。它的思想是:对每个输入而言,不仅竞争获胜单元的权值被修正以适应输入值,而且对次胜单元采用惩罚的方法使之远离输入值。②在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。