基于蚁群的文本聚类算法的改进研究

基于蚁群的文本聚类算法的改进研究

ID:33566281

大小:1.76 MB

页数:59页

时间:2019-02-27

基于蚁群的文本聚类算法的改进研究_第1页
基于蚁群的文本聚类算法的改进研究_第2页
基于蚁群的文本聚类算法的改进研究_第3页
基于蚁群的文本聚类算法的改进研究_第4页
基于蚁群的文本聚类算法的改进研究_第5页
资源描述:

《基于蚁群的文本聚类算法的改进研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连理工大学硕士学位论文基于蚁群的文本聚类算法的改进研究姓名:王曙光申请学位级别:硕士专业:系统分析与集成指导教师:夏昊翔20060601大连理工大学硕士学位论文摘要聚类方法的研究是一个古老但是一直富有挑战的问题,然而如今htemet上的文本信息飞速的增长,人们在大量文本中获取信息的需求也随之升高,所以对于文本聚类技术的研究更显重要。近些年,人们受自然界中蚂蚁堆积尸体、分类幼体等现象的启发,由DeⅡcubourg等人首先提出了基于蚁群的聚类算法。蚁群聚类算法与文本聚类技术的结合就形成了基于蚁群的文本聚类算法。该方法对于解决文本聚类问题显示了较好的前景,但当前还不完善,值得进一步研究。本文对标准

2、的蚁群聚类算法以及后来典型的改进算法进行了研究,发现在一些情况下不能得到满意的聚类结果。其原因可归结为两个方面:一方面是由于算法本身不够完善,蚂蚁的行动缺乏目的性,蚂蚁的“抬起⋯‘移动⋯‘放下”的动作都有很大的随机性,影响了算法的收敛,另外当蚂蚁周围的环境发生变化时,蚂蚁的状态不能做出调整;另一方面,文本的相似度计算不够精确,以往的聚类方法大多采用基于VsM的关键词匹配的文本相似度计算方法,这种方法的最大的缺点就是忽略了词之间的语义信息,忽略了各维度之问的联系。本文针对以上两个问题对当前的蚁群聚类算法进行改进,其关键创新点在于:1.扩展蚁群聚类算法,通过为蚂蚁增加两个记忆器,使蚂蚁在对文档的拾

3、起,移动方向的选择,放下位置的选择上更有目的性,另外通过对比较概率以及蚂蚁观察半径的动态调整,增强了蚂蚁对环境的适应性。2.在文本聚类的相似度计算上引入基于语义的方法——基于本体的相似度计算方法,来提高文本相似度的计算精度,并以wordNet为本体实现了这一算法。论文最后利用源于Reuters一21578标准语料库的50篇文档对所提出的算法进行了实验,并利用聚类精度和召回率对实验结果进行了评价,然后把评价结果与标准的蚁群聚类算法进行了比较。结果证明本文所提出的基于本体的扩展算法在聚类精度和召回率上优于标准的蚁群聚类算法,达到了算法改进的目的。另外通过与K-me强s算法的结果比较也显示了本文算法

4、的优越性。关键词:文本聚类;蚁群聚类算法:语义相似度;本体;Wor血et基于蚁群的文本聚类算法的改进研究OnImproviIlgAnt-basedTextClusteringAlgorithmAbstractDatacluste血gis蛆oldbutchallengillgresearchtopic.Wimtoday’srapidexplosionoftextuali11fo皿曲tionoverthehltemet,merequirememofobt枷ngjnfor妇1ation盘omhugeamountoftextsis珀pidlyincreasiIlgaswell.Researchon血e

5、textclustcringteclulologyhasconsequentlyobtained簪eata仕emion.Inrecentyears,inspiredbyt11ecoIpseandlarval—soningactivitiesobseⅣedinreala11tcolonies,aIl岫asedclusteringalgo血岫hasbeenintroduced,followingt11epionee血gworkofDeneubourget.a1..Thecombillationoftheantclusterhlgtecllnology趾d也eteXtclusteringteclln

6、ologyleadstotlledeVelopmentOfant-basedtextclust耐ngalgori也ms.Inthisthesis,thest缸心ard妞tclusteringalgorm皿andsometypic“vari锄tsareanalyzed;a11dmeconclusionis恤ttheperforIllaIlceof也esealgofithsisnotsosatisfktoryinV莉oussitIlations.Thelilllita_tionsof也e∞algorithmscanberecOgllizedint、voaspects.On也eonehand,iti

7、sargued血thc也esisthat也eants’behaviorpattemscanbemodinedtopursuebetteralgoritll】[Ilicperfb珊ance.Forex锄叩le,toomanyr眦domfactorsofa11tactiVitiesareintroducedmtllestandardamclusteringalgorithmandt}1iswouldp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。