浅谈基于k-means算法的文本聚类的研究与实现

浅谈基于k-means算法的文本聚类的研究与实现

ID:34822002

大小:3.32 MB

页数:66页

时间:2019-03-11

浅谈基于k-means算法的文本聚类的研究与实现_第1页
浅谈基于k-means算法的文本聚类的研究与实现_第2页
浅谈基于k-means算法的文本聚类的研究与实现_第3页
浅谈基于k-means算法的文本聚类的研究与实现_第4页
浅谈基于k-means算法的文本聚类的研究与实现_第5页
资源描述:

《浅谈基于k-means算法的文本聚类的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:密级:公开学号:2007208单位代码:10407硕士学位论文论文题目:基于K-means算法的文本聚类的研究与实现研究方向数据挖掘专业名称计算机应用技术研究生姓名高娟导师姓名、职称喻金平教授2009年12月31日江西·赣州摘要网络的快速发展和广泛普及,使得人们要接收的信息量呈指数级增加。文本作为信息的重要载体,蕴含着大量有价值的资源,等待着人们进行发掘和研究。但是,文本信息内容和格式的多样化、复杂化,决定了人们难以发现感兴趣的相关信息。随着文本挖掘技术的诞生和发展,人们可以快速有效地从大量的文本资源中发现简洁、精练、可理解的知识。而文本聚类作为文本挖掘的重要分支,其研究也越

2、来越多地引起了人们广泛的重视。K-means算法以其简单性和快速性在文本聚类中得到广泛应用,但是传统的K-means算法对初值的依赖性很强,需要事先给出要生成的簇的数目k,而这个参数k的确定一般是根据用户的经验知识给出的;另外,其初始聚类中心是随机选取的,这种随机性往往导致聚类结果的不稳定。可以说,不同的k值和不同的初始聚类中心对聚类质量和时间效率造成的影响是很大的。本文对文本挖掘和聚类分析做了较为全面的研究,开展的工作主要包括以下几个方面:首先,本文深入研究了文本挖掘的相关理论和关键技术,包括中文分词、降维操作、文本表示、权重评价及相似度计算等方面。其次,本文对传统K-means算

3、法进行了深入研究,针对其存在的不足,从两方面改进了传统K-means算法:(1)提出扇形切分法确定初始聚类数目k。根据文本特征项对文本描述的重要性程度划分重要特征项,选取只包含重要特征项的文本集做为样本,运用扇形切分法对其进行初步聚类,得到的初步聚类数作为K-means算法的k的取值。(2)从文本挖掘的自身特点出发,通过聚类的分布特点来反向确定初始中心,即根据中心对象之间的相似度小而中心对象与本簇中其它对象间的相似度大的原理,寻找最有效的k个文本对象来作为初始聚类中心:它们两两之间的相似度较低,且每个中心周围都有与之相似度较高且数目大于某一阈值的对象。最后,本文设计并实现了一个简单的

4、基于K-means算法的文本聚类系统,并在其基础上通过实验对改进K-means算法的有效性进行了验证,结果证明,改进K-means算法能有效地解决传统K-means算法的随机性所产生的聚类效果不稳定的问题,其时间复杂度也有所降低。关键字:文本挖掘;聚类;K-means;改进K-means;扇形切分法IABSTRACTWiththerapiddevelopmentandfar-rangingpopularizationofnet,theinformationwhithpeoplereceivedisincreasingexponentially.Text,astheimportantc

5、arrierofinformation,containsalargenumberofvaluableresourcesandwaitingpeopletominandresearch.Butthediversityandcomplexityoftextinformationwasnotpropitiousforfindinginterestingandrelevantinformation.AsitsborninganddevelopmentofTextmining,peoplecanquicklyandefficientlyfindsimple,conciseandundersta

6、ndableknowledgefromalargenumberoftextresources.Textclustering,asanimportantbranchoftextmining,theresearchoftextclusteringismoreandmoreattractedwidespreadattention.K-meansalgorithmwithitssimplicityandrapidityiswidelyusedinthetextclustering.However,thetraditionalK-meansalgorithmwashighlydependent

7、ontheinitialvalue,anditneedstogivetheparameterkinadvance,whichisalwaysdeterminedbyknowledgeandexperienceofusers.Inaddition,theinitialclustercentersofitarerandomlyselected,thisrandomnessoffenledtoinstabilityofclusteringresults.Soto

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。