基于数据挖掘的聚类分析和传统聚类分析的对比研究

基于数据挖掘的聚类分析和传统聚类分析的对比研究

ID:10366982

大小:52.00 KB

页数:4页

时间:2018-07-06

基于数据挖掘的聚类分析和传统聚类分析的对比研究_第1页
基于数据挖掘的聚类分析和传统聚类分析的对比研究_第2页
基于数据挖掘的聚类分析和传统聚类分析的对比研究_第3页
基于数据挖掘的聚类分析和传统聚类分析的对比研究_第4页
资源描述:

《基于数据挖掘的聚类分析和传统聚类分析的对比研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于数据挖掘的聚类分析和传统聚类分析的对比研究【关键词】聚类分析  聚类分析是人们认识和探索事物内在联系的一种手段,成语“物以类聚,人以群分”是这一理念的最朴素和直观的反映,其目的是将一个数据集划分为若干聚类,并使得同一个聚类内的数据对象具有较高的相似度,而不同聚类中的数据对象的相似度尽可能低。聚类分析(Clusteringanalysis)是分类分析的逆向方法,但聚类分析中要划分的类的数目是未知的,就是说聚类把没有分类的记录,在不知道应分成几类的情况下,按照数据内在的差异性大小,合理地划分成几类,并确定每个记录所属

2、别。聚类分析在经济、生物、医学等许多领域有着广泛的应用,比如在市场研究中,面对个体经营户的“营业收入额”、“营业支出额”、“产品销售水平”等多个评价指标,无法按照一个指标去分类,就可以通过聚类按照数据间的自然联系把分散的记录“聚”成几“堆”,然后再对每堆进行深入分析[1]。还可以通过聚类分析把一组数据按照其相似性和差异性分为几个类别,使属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小,应用到消费群体的分类、消费者需求背景分析、产品销售趋势预测、个体经营户场所的细分等工作环节。  1基于统计学的

3、传统聚类分析  在统计学中,聚类分析是多元统计分析的重要组成部分,属于探索性统计分析方法。按照分类目的可分为两大类:指标聚类(又称R型聚类)和样品聚类(又称Q型聚类),其中指标聚类是指将若干个指标归类的方法,其目的是将指标降维,从而选择有代表性的指标,样品聚类是指将若干个样品归类的方法,其目的是找出样品间的共性。聚类分析的关键是选择指标或样品间的相似性度量?相似系数,指标聚类常用相关系数rij表示变量间的相似程度,rij的绝对值越大表明变量间相似程度越高,而样品聚类常用距离dij表示,dij越小,表明样品间相似程度越

4、高。  由于指标聚类实质上是对变量进行分类,也可进行主成分分析或因子分析,因此目前的聚类分析方法主要针对样品聚类。系统聚类是统计学中进行聚类分析的最常用方法,既可用于样品聚类,也可对指标聚类,其聚类过程主要分3步:开始将各个样品或指标各自视为一类,计算类间相似系数矩阵,然后将相似系数最大,即相似程度最高的两类合并成新一类,并计算新类与其余类间相似系数,最后重复第2步,直至全部样品或指标被并为一类。系统聚类的每一步都要计算类间相似系数,其算法主要包括最大相似系数法、最小相似系数法、重心法、类平均法、最小离差平方和法,其

5、中后3种仅用于样品聚类。但相似系数的定义不同将导致系统聚类结果有所差异,尤其在样品聚类中,分类样品越多时差异愈加明显,这就要求在聚类分析前,应尽可能选择有效变量。同时可尝试使用多种相似系数计算方法,并结合相关专业知识获得理想结论。  2基于数据挖掘的聚类分析方法  数据挖掘(DM)是一个从存储于数据库中的大量数据中,利用各种方法提取隐含和潜在的对决策极为有利的信息和知识的过程,其目的是从大量的数据中发现知识,并服务于决策。数据挖掘涉及数据库、统计学、人工智能、可视化等多个学科,它的过程一般包括数据准备、数据开采、结果

6、表达和解释,其中数据开采是数据挖掘过程中的关键一步,通过选定某个特定的数据挖掘算法(如关联、分类、回归等),用于搜索数据中的模式,其中聚类分析已成为对海量数据集进行合理分类的首选方法。  聚类分析是面向实际应用的技术,因此,聚类的定义与待处理的数据类型有关。传统的聚类分析已有多种算法,但由于数据挖掘的处理对象是海量的高维数据集,又有许多新的算法被提出,如基于网格的聚类算法,基于密度的聚类算法以及模糊聚类算法等。实际上,在数据挖掘中,大多数对象并没有严格的类属性和隶属关系,它们在属性等方面存在着重叠性、交叉性,比较适合

7、进行模糊划分,因此数据挖掘中的聚类分析主要为模糊聚类分析。  在模糊聚类分析中,主要的聚类算法是模糊C?均值算法(FCM)。FCM算法是基于对目标函数的优化基础上的一种数据聚类方法,是通过目标函数的迭代优化算法来实现对给定样品集合的划分。聚类结果是每一个数据点对聚类中心的隶属程度,该隶属程度用一个数值来表示。确定合适的聚类准则是FCM算法的关键步骤之一,一般可选用最小平方误差和准则。FCM算法的主要步骤可分为:①初始化聚类中心点值P(0),确定迭代停止阈值ε;②计算由隶属度的值组成的划分矩阵U;③利用划分矩阵更新聚类

8、中心值;④重复第2步,直至聚类中心值满足停止阈值ε的条件,则迭代停止。由以上步骤可以看出,算法的过程就是不断地修正聚类中心值P和由隶属度值所组成的划分矩阵U,属于动态聚类过程。(责任编辑:admin)  3数据挖掘中的聚类分析和传统聚类分析的对比研究  数据挖掘是近几年里发展起来的一门崭新的学科,由于它与统计学都关心从数据中发现某种结构,因而从

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。