空间数据挖掘聚类算法研究.pdf

空间数据挖掘聚类算法研究.pdf

ID:53748637

大小:436.04 KB

页数:6页

时间:2020-04-22

空间数据挖掘聚类算法研究.pdf_第1页
空间数据挖掘聚类算法研究.pdf_第2页
空间数据挖掘聚类算法研究.pdf_第3页
空间数据挖掘聚类算法研究.pdf_第4页
空间数据挖掘聚类算法研究.pdf_第5页
资源描述:

《空间数据挖掘聚类算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第22卷第6期滨州学院学报2006年12月Vol.22,No.6JournalofBinzhouUniversityDec.,2006空间数据挖掘聚类算法研究112宋殿霞,王艳,邹光辉(1.上海水产大学信息学院,上海200090;2.空军大连通信士官学校电子教研室,辽宁大连116600)摘要:聚类分析是当今飞速发展的数据挖掘和数据信息分析的一个重要技术,因此聚类分析已经成为数据挖掘领域一个非常活跃的研究课题.针对空间数据库对聚类算法的特殊要求,分析了空间聚类算法的构造思想及其优缺点,探讨了空间聚类算法目前的工作、算法的一些开放性问题以及今后的研究方向.

2、关键词:空间聚类算法;空间数据库;数据挖掘中图分类号:TP301.6文献标识码:A文章编号:167322618(2006)0620043206[1]随着空间数据库的开发和广泛应用,空间数面讨论的要求,探讨分析每类算法的优缺点、聚类据的数量已呈现指数型增长,其复杂程度远超出人领域开放性的问题及其研究方向.们的想像,空间数据挖掘和知识发现的研究变得越1空间聚类算法构造思想分析来越重要.处理空间数据库最有趣并且开发较好的方法就是空间数据挖掘聚类算法,它是数据挖掘和1.1划分聚类算法分析的一个极为重要的技术,已被广泛地应用于工划分方法的基本思想是:给定一个包含

3、n个d程、生物、计算机和遥感等领域.空间聚类是一个富维对象的数据库D,首先构建数据的k个初始划有挑战性的研究领域,尽管与非空间聚类非常相分,每个划分表示一个聚类簇,这里k(≤n)是要求似,但是空间数据库对聚类算法提出了一些特殊的用户输入的参数,然后采用迭代重定位技术,尝试要求:(1)算法在大型数据库上的运行时间应为线通过对象在划分间移动来改进划分,通常采用相似性的;(2)算法应该分出任意形状的聚类;(3)算法度函数来评判划分的质量.即一个划分算法将n个应该对现实世界数据库中所包含的噪声数据不敏对象组织成k个簇,使得每个对象离它的簇中心的感;(4)算法应

4、对输入数据顺序不敏感;(5)不要求偏差(相似度函数值)达到最小.当达到局部最优的了解数据的先验知识,不对用户作领域知识的要k个中心时,每个对象在簇中的隶属就自动地确定求;(6)算法应该能够处理高维数据.了.需要注意的是,发现全局最优解是NP-难在高维的大型空间数据库上,有效的聚类算法问题.满足这6个因素是必要的,但现有的算法几乎没有划分算法的弱点是它要求用户输入参数k,而一个算法能够满足以上所有条件.因此,对一个具k的确定需要用多种值估计,直到找到合适的一个体问题要综合考察各种因素,选取合适的方法.现值;并且算法发现的簇是具有类似大小的凸形,不针对各种

5、空间聚类算法的研究现状与构造思想,将能发现任意形状的聚类.近年来出现的经典划分算[2]它们大致分为4类:划分算法、分层算法、基于密度法有:k-平均算法、EM算法、k-中心点算法的算法和基于网格的算法.针对每类算法,基于上等.理论分析证明:k-平均算法在处理大数据集收稿日期:2006204216第一作者简介:宋殿霞(1975—),女,山东德州人,讲师,从事聚类分析和优化算法研究.44滨州学院学报第22卷时,是相对可伸缩和有效的快速收敛算法,当初始和迭代重定位方法的集成.中心选择很好并且簇能很好分离时,这个算法运行早期的分层聚类方法如AGNES和DIANA

6、都结果很理想.但由于该算法的初始点是随机选取比较简单.但它们经常会遇到选择合并或分裂点的的,这就导致它经常收敛于局部最优解,而且对噪困难,从而导致低质量甚至错误的聚类结果;而且,声和边界点也比较敏感.为了克服该算法以上缺这类聚类方法不具有良好的伸缩性.改进分层聚类点,目前已有一些新算法,如基于免疫规划的K-质量的一个研究方向是:将分层聚类和其他聚类技[3][4,5][8]means聚类算法,启发式的k-平均算法等.术进行集成,形成多阶段聚类,如BIRCH算法、[9][10]k-平均初始值的选择、相异度的计算和计算聚类CURE算法、CHAMELEON算法

7、等.平均值上采取不同的策略,构造新的k-平均算BIRCH是一个综合的分层聚类方法,其基本法,是需要深入研究和探讨的课题.EM算法是以思想是:将数据对象压缩成许多子聚类,然后在这概率为背景对k-平均算法的扩展.它不把对象分些子聚类上执行聚类过程.实验表明:BIRCH方法配给一个确定的簇,而是根据对象与簇之间隶属关在大型数据库中有很好的线性伸缩性,能得到较好系的概率分配对象,在簇之间没有严格的边界.近的聚类结果,而且对动态聚类非常有效.但是年来EM算法思想应用方面的文章大量出现,如BIRCH只能发现球状的聚类,因为它用了半径或文献[6].直径的概念来控制聚

8、类的边界;另外,数据输入顺k-中心点算法的优点是对噪声点和边界点不序会影响算法的结果且要求用户

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。