k值均值算法论文

ID：20469781

大小：334.75 KB

页数：18页

时间：2018-10-12

资源描述：

《k值均值算法论文》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、K值均值聚类算法在教学分组中的应用K-均值聚类是流行、经典、简单的聚类方法之一。聚类是非监督学习的一种方法，也是常用的统计数裾分析技术，应用领域很广，涉及机器学习、数据挖掘、模式识别、图像分析和生物信息学等。在统计和机器学习中，K-均值算法是~种聚类分析方法，它将n个观察对象分类到k个聚类，每个观察对象将被分到与均值最接近的聚类中。其基本思想是：通过迭代的方法，逐次更新各聚类屮心的值，直至得到最好的聚类结果。K值均值聚类原理所谓聚类问题，就是给定一个兀素集合D，其屮每个兀素具有n个可观察属性，使用某种算法将D划分成k个子集，要求每个子集内部的元素之间相异度尽可能低，而不同子集的元素

2、相异度尽可能高。其中每个子集叫做一个簇。与分类不同，分类是示例式学习，要求分类前明确各个类別，并断言每个元素映射到一个类别，而聚类是观察式学习，在聚类前可以不知道类别甚至不给定类别数量，是无监督学习的一种。口前聚类广泛应用于统计学、生物学、数据库技术和市场营销等领域，相应的算法也非常的多。本文仅介绍一种最简单的聚类算法k均值（k-means）算法。1.1算法简介k-means算法，也被称为k-平均或k-均值，是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样木的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到

3、最优，从而使生成的每个聚类内紧凑，类间独立。这一算法不适合处理离散型属性，但是对于连续型具有较好的聚类效果。1.2算法描述K值均值聚类算法在教学分组中的应用K-均值聚类是流行、经典、简单的聚类方法之一。聚类是非监督学习的一种方法，也是常用的统计数裾分析技术，应用领域很广，涉及机器学习、数据挖掘、模式识别、图像分析和生物信息学等。在统计和机器学习中，K-均值算法是~种聚类分析方法，它将n个观察对象分类到k个聚类，每个观察对象将被分到与均值最接近的聚类中。其基本思想是：通过迭代的方法，逐次更新各聚类屮心的值，直至得到最好的聚类结果。K值均值聚类原理所谓聚类问题，就是给定一个兀素集合D，

4、其屮每个兀素具有n个可观察属性，使用某种算法将D划分成k个子集，要求每个子集内部的元素之间相异度尽可能低，而不同子集的元素相异度尽可能高。其中每个子集叫做一个簇。与分类不同，分类是示例式学习，要求分类前明确各个类別，并断言每个元素映射到一个类别，而聚类是观察式学习，在聚类前可以不知道类别甚至不给定类别数量，是无监督学习的一种。口前聚类广泛应用于统计学、生物学、数据库技术和市场营销等领域，相应的算法也非常的多。本文仅介绍一种最简单的聚类算法k均值（k-means）算法。1.1算法简介k-means算法，也被称为k-平均或k-均值，是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的

5、所有数据样木的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类内紧凑，类间独立。这一算法不适合处理离散型属性，但是对于连续型具有较好的聚类效果。1.2算法描述1、为中心向量cl,c2,…，ck初始化k个种子2、分组:(1)将样木分配给距离其最近的屮心向量(2)由这些样本构造不相交(non-overlapping)的聚类3、确定屮心:用各个聚类的中心向量作为新的中心4、重复分组和确定中心的步骤，直至算法收敛。1.3算法k-means算法不变输出图1.1算法流程图输入：簇的数目k和包含n个对象的数据库

6、。输出：k个簇，使平方误差准则最小。算法步骤：1.为每个聚类确定一个初始聚类中心，这样就宥K个初始聚类中心。2.将样本集中的样本按照最小距离原则分配到最邻近聚类3.使用每个聚类屮的样木均值作为新的聚类屮心。4.重复步骤2.3直到聚类中心不再变化。5.结束，得到K个聚类PS1.将样本分配给距离它们最近的中心M量，并使0标函数值减小*Xt一巧

7、2({1,2,…，/<})2、更新簇平均值3、计算准则函数E计算准则函数（2）选择评价聚类性能的准则函数k-means聚类算法使用误差平方和准则函数来评价聚类性能。给定数据集X，其中只包含描述属性,不包含类别属性。假设X包含k个聚类+集X1，X

8、2，...XK;各个聚类子集屮的样木数量分别为uhn2，...，nk;各个聚类子集的均值代表点（也称聚类中心）分别为ml,则误差平方和准则函数公式为：kE=

9、p-mJ2i=lpEXi（3）相似度的计算根据一个簇中对象的平均值来进行。1）将所有对象随机分配到k个非空的簇屮。2）计算每个簇的平均值，并用该平均值代表和应的簇。3）根据每个对象与各个簇屮心的跑离，分配给最近的簇。4）然•转2），重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止1.4聚类例子O

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 18



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

k值均值算法论文

k值均值算法论文

相关文章

相关标签