基于电阻距离的中文文本谱聚类算法研究

基于电阻距离的中文文本谱聚类算法研究

ID:76080181

大小:3.48 MB

页数:59页

时间:2022-01-13

基于电阻距离的中文文本谱聚类算法研究_第1页
基于电阻距离的中文文本谱聚类算法研究_第2页
基于电阻距离的中文文本谱聚类算法研究_第3页
基于电阻距离的中文文本谱聚类算法研究_第4页
基于电阻距离的中文文本谱聚类算法研究_第5页
基于电阻距离的中文文本谱聚类算法研究_第6页
基于电阻距离的中文文本谱聚类算法研究_第7页
基于电阻距离的中文文本谱聚类算法研究_第8页
基于电阻距离的中文文本谱聚类算法研究_第9页
基于电阻距离的中文文本谱聚类算法研究_第10页
资源描述:

《基于电阻距离的中文文本谱聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着计算机技术的迅速发展和普及,电子信息日益增多,人们已经从信息资源匾乏的时代迅速过渡到信息极为丰富的数字化时代。面对海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合理有效的组织和管理文本信息己经成为信息处理领域一个十分重要的研究课题。近年来,作为保证文本挖掘质量前提的文本聚类方法的研究受到越来越多的学者重视。聚类是将对象集合中的所有元素依据其特征相似性聚合为不同类的过程,被广泛应用于各种实际应用中。现有的许多聚类算法,如k均值、谱聚类,是一种单维度的聚类,主要依据数据集中的某一维所表现出的相似性进行聚类。协同聚类是利用

2、多维数据之间明确的对应关系进行高维同时聚类。Dhillon针对文本和单词两种异构数据提出了一种基于图分割的协同聚类算法。这种方法是把文本和单词表示成二分图形式,然后进行使用谱聚类算法进行聚类。本文提出了一种基于电阻距离的中文文本谱聚类算法。本算法先将文本表示成二分图模型,然后将这个二分图看作是电网路图,节点之间的权值为电阻,则可计算出任意节点间的有效电阻距离,最后使用谱聚类算法对这个基于电阻距离的二分图进行聚类。实验结果证明,该方法是一种切实可行且效果优异的数据聚类算法。关键词:中文文本聚类;电阻距离;谱聚类;二分图;协同聚类;IAbstra

3、ctWiththerapiddevelopmentandpopularityofinformationtechnology,anincreasingnumberofelectronictextscomeforth,peoplehaveexperiencedfromaninformationresourcelacktimetoaninformationabundanceone.Facingtomassiveinformationresource,peoplecanhardlyfindquicklyandeffectivelytheinforma

4、tionneeded.Therefore,howtoorganizeandmanagedocumentinformationrationallyandeffectivelyhasbecomeaveryimportresearchtaskininformationprocessingfield.Inrecentyears,astheprerequisitetoensurethequalityoftextminingmethods,thedocumentclusteringmethodresearchhasattractedmoreandmore

5、scholars.Clusteringorganizesalloftheelementsofacollectionintogroupsbasedonitscharacteristicsimilarity,arewidelyusedinavarietyofpracticalapplications.Manyoftheexistingclusteringalgorithm,suchask-means,spectralclustering,isasingle-dimensionalclustering,adimensionalbasedprimar

6、ilyonthedatasetshownbythesimilarityofclustering.TheCo-clusteringalgorithmusestheclearlycorrespondencebetweenmultidimensionaldatatoclusteringthemultidimensionaldataatthesametime.Dhillonpresentthenovelideaofmodelingthedocumentcollectionasabipartitegraphbetweendocumentsandword

7、s,usingwhichthesimultaneousclusteringproblemcanbeposedasabipartitegraphpartitioningproblem.ThispaperpresentsaspectralclusteringforChinesedocumentBaseonResistanceDistance.Thedocumentisfirstlyrepresentedasabipartitegraphmodel,andthenthebipartitegraphisseenasacircuit,andweight

8、betweentheedgesareseenasresistance,afterthatwecancalculatetheeffectiveresistanceof

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。