数据挖掘中的聚类分析方法

数据挖掘中的聚类分析方法

ID:23969102

大小:65.62 KB

页数:3页

时间:2018-11-12

数据挖掘中的聚类分析方法_第1页
数据挖掘中的聚类分析方法_第2页
数据挖掘中的聚类分析方法_第3页
资源描述:

《数据挖掘中的聚类分析方法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、:据挖掘中的聚类分析方法随着计算机应川的啓及,信息系统产生的数据量口益增大,如何有效地利用巨量的原始数据分析现状和预测未来,己经成为人类面临的一大挑战。rh此数据挖掘技术应运而生并得以迅猛发展,这是快速增长的数据W:和FI益贫乏的信息足之间矛盾运动的必然结果。数据挖掘(DataMining),又称为数据库屮的知识发现(简称KDD),是从大呈数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。数据挖掘是一门新兴的技术,它以数据库技术作为基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起,进行如何从数据库中得到有用信息的研宂。数

2、据挖掘技术得到了人们的普遍关注,广泛应用于银行金融、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。聚类分析是数据挖掘中的-个重要研究领域。所谓聚类,就是把没有类别标记的样本集按某种准则划分成若干类,使类内样本的相似性尽可能大,而类间样本的相似性尽量小,是一种无监锷的学习方法。聚类分析通常是在没有先验知识支持的前提K进行的,它所要解决的就是在这种前提下,实现满足要求的类的聚合。聚类分析的研宄主要集屮在聚类算法上,产生性能好而且实用的聚类算法是其终极目的。聚类是一个富有挑战性的研究领域,采用基于聚类分析方法的数据挖掘在实践中己取得了

3、较好的效果,在实际操作中往往不是采用单一的手段,而是采用多种手段和方法相结合根据潜在的各项应用,数据挖掘对聚类的典型要求有以下9个方面:(1)可仲缩性可伸缩性是指算法不论对于小数据集还是对于大数据集,都应是有效的在很多聚类算法当中,对于数据对象小于200个的小数据集合性很好,而对于包含成千上万个数据对象的大规模数据库进行聚类时,将会导致有不同的偏差结果。此外,可伸缩性算法应该随着数据库大小的变化,其运行时间应该线性变化。(2)处理不同字段类型的能力算法不仅要能处理数值型数据,还要有处理其它类型字段的能力,包括分类标称类型(catalog流Viminal),序数型(

4、ordinal),二元类型(binary),或者这些数据类型的混合。(3)能够发现任意形状的聚类(4)用于决定输入参数的领域知识最小化在聚类分析当屮,许多聚类算法要求用户输入一定的参数,如希望簇的数目聚类结果对于输入参数很敏感,通常参数较难确定,尤其是对于含有高维对象的数据集更是如此。要求用人工输入参数不但加重了用户的负担,也使得聚类质量难以控制。(5)处理高维数据的能力既可处理属性较少的数据,又能处理属性较多的数据很多聚类算法擅长处理低维数据,一般只涉及两到三维,通常最多再加二维的惜况下能够很好地判断聚类的质fi聚类数据对象在高维空间是非常具有挑战性的,尤其是考

5、虑到这样的数据可能高度偏斜并且非常稀疏。例如,考虑包含不同地区的温度测量的数据集如果温度在一个相当长的时间周期内重复地测量,则维度的增长正比于测量的次数为低维数据开发的传统的数据分析技术通常不能很好地处理这样的高维数据。(6)能够处理噪声数裾现实世界中的数据库常常包含了孤立点空缺未知数据或有错误的数据一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果所以我们希望算法可以在聚类过程中检测代表噪声和离群的点,然后删除它们或者消除它们的负面影响。(1)结果对于输入记录顺序不敏感一些聚类算法对于输入数据的顺序是敏感的对于同一个数据集合犷以不同的顺序提交给同一个算法时

6、,可能产生差别很大的聚类结果,这是我们不希望的研究和开发对数据输入顺序不敏感的算法具有重要的意义。(2)基于约束的聚类在实际应用当屮可能需要在各种约束条件下进行聚类找到既要满足特定的约束,又要具有良好聚类特性的数据分纟11是一项具有挑战性的任务我们希望聚类算法可以在考虑这些限制的情况下,仍具有较好的表现。(3)可解释性和可用性聚类的结果最终都是要面向用户的,用户期望聚类得到的信息是可理解和可应用的,但是在实际挖掘屮有时往往不能令人满意。这就要求聚类算法必须与一定的语义环境语义解释相关联。领域知识对聚类分析算法设计的影响是一个很重要的研究方面。1、基于划分的方法根裾

7、对象在划分之间移动的衡U参数和簇的表示方法不同,基于划分的方法主要包括有k一平均值算法,k一中心点算法。k一means©法的相似度计算根据一个簇中对象的平均值即簇的质心来进行,它的处理过程如下首先,随机地选择k个对象作力初始的k个簇的质心;然后对剩余的每个对象,根据其与各个质心的距离,将它赋给最近的簇;再后重新计算每个簇的质心这个过程不断重复,直到准则函数收敛通常采用的准则函数为平方误差和准则函数这里的SSE足数裾库屮所有对象的平方误差总和,p为数据对象,m,是簇C的平均值这个准则函数使生成的结果尽可能的紧凑和独立。k一means算法对于孤立点敏感,一个极大值的对

8、象可能在相

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。