k值均值算法论文

k值均值算法论文

ID:20469781

大小:334.75 KB

页数:18页

时间:2018-10-12

k值均值算法论文_第1页
k值均值算法论文_第2页
k值均值算法论文_第3页
k值均值算法论文_第4页
k值均值算法论文_第5页
资源描述:

《k值均值算法论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、K值均值聚类算法在教学分组中的应用K-均值聚类是流行、经典、简单的聚类方法之一。聚类是非监督学习的一种方法,也是常用的统计数裾分析技术,应用领域很广,涉及机器学习、数据挖掘、模式识别、图像分析和生物信息学等。在统计和机器学习中,K-均值算法是~种聚类分析方法,它将n个观察对象分类到k个聚类,每个观察对象将被分到与均值最接近的聚类中。其基本思想是:通过迭代的方法,逐次更新各聚类屮心的值,直至得到最好的聚类结果。K值均值聚类原理所谓聚类问题,就是给定一个兀素集合D,其屮每个兀素具有n个可观察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素

2、相异度尽可能高。其中每个子集叫做一个簇。与分类不同,分类是示例式学习,要求分类前明确各个类別,并断言每个元素映射到一个类别,而聚类是观察式学习,在聚类前可以不知道类别甚至不给定类别数量,是无监督学习的一种。口前聚类广泛应用于统计学、生物学、数据库技术和市场营销等领域,相应的算法也非常的多。本文仅介绍一种最简单的聚类算法k均值(k-means)算法。1.1算法简介k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样木的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到

3、最优,从而使生成的每个聚类内紧凑,类间独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。1.2算法描述K值均值聚类算法在教学分组中的应用K-均值聚类是流行、经典、简单的聚类方法之一。聚类是非监督学习的一种方法,也是常用的统计数裾分析技术,应用领域很广,涉及机器学习、数据挖掘、模式识别、图像分析和生物信息学等。在统计和机器学习中,K-均值算法是~种聚类分析方法,它将n个观察对象分类到k个聚类,每个观察对象将被分到与均值最接近的聚类中。其基本思想是:通过迭代的方法,逐次更新各聚类屮心的值,直至得到最好的聚类结果。K值均值聚类原理所谓聚类问题,就是给定一个兀素集合D,

4、其屮每个兀素具有n个可观察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度尽可能高。其中每个子集叫做一个簇。与分类不同,分类是示例式学习,要求分类前明确各个类別,并断言每个元素映射到一个类别,而聚类是观察式学习,在聚类前可以不知道类别甚至不给定类别数量,是无监督学习的一种。口前聚类广泛应用于统计学、生物学、数据库技术和市场营销等领域,相应的算法也非常的多。本文仅介绍一种最简单的聚类算法k均值(k-means)算法。1.1算法简介k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的

5、所有数据样木的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。1.2算法描述1、为中心向量cl,c2,…,ck初始化k个种子2、分组:(1)将样木分配给距离其最近的屮心向量(2)由这些样本构造不相交(non-overlapping)的聚类3、确定屮心:用各个聚类的中心向量作为新的中心4、重复分组和确定中心的步骤,直至算法收敛。1.3算法k-means算法不变输出图1.1算法流程图输入:簇的数目k和包含n个对象的数据库

6、。输出:k个簇,使平方误差准则最小。算法步骤:1.为每个聚类确定一个初始聚类中心,这样就宥K个初始聚类中心。2.将样本集中的样本按照最小距离原则分配到最邻近聚类3.使用每个聚类屮的样木均值作为新的聚类屮心。4.重复步骤2.3直到聚类中心不再变化。5.结束,得到K个聚类PS1.将样本分配给距离它们最近的中心M量,并使0标函数值减小*Xt一巧

7、2({1,2,…,/<})2、更新簇平均值3、计算准则函数E计算准则函数(2)选择评价聚类性能的准则函数k-means聚类算法使用误差平方和准则函数来评价聚类性能。给定数据集X,其中只包含描述属性,不包含类别属性。假设X包含k个聚类+集X1,X

8、2,...XK;各个聚类子集屮的样木数量分别为uhn2,...,nk;各个聚类子集的均值代表点(也称聚类中心)分别为ml,则误差平方和准则函数公式为:kE=

9、p-mJ2i=lpEXi(3)相似度的计算根据一个簇中对象的平均值来进行。1)将所有对象随机分配到k个非空的簇屮。2)计算每个簇的平均值,并用该平均值代表和应的簇。3)根据每个对象与各个簇屮心的跑离,分配给最近的簇。4)然•转2),重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止1.4聚类例子O

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。