基于中文检索的web聚类算法研究

基于中文检索的web聚类算法研究

ID:35059618

大小:1.85 MB

页数:47页

时间:2019-03-17

基于中文检索的web聚类算法研究_第1页
基于中文检索的web聚类算法研究_第2页
基于中文检索的web聚类算法研究_第3页
基于中文检索的web聚类算法研究_第4页
基于中文检索的web聚类算法研究_第5页
资源描述:

《基于中文检索的web聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP391单位代码:10190研究生学号:201307012密级:无硕士学位论文基于中文检索的Web聚类算法研究ResearchonWebClusteringAlgorithmBasedonChineseRetrieval研究生姓名:田世元专业:计算机科学与技术指导教师姓名:赵辉指导教师职称:副教授2016年4月硕士学位论文长春工业大学硕士学位论文原创性声明本人郑重声明:所呈交的硕士学位论文,《基于中文检索的Web聚类算法研究》是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含

2、任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者签名:年月日长春工业大学硕士学位论文版权使用授权书本学位论文作者及指导教师完全了解“长春工业大学硕士学位论文版权使用规定”,同意长春工业大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权长春工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名:年月日校内指导教师签名

3、:年月日硕士学位论文摘要随着大数据时代的到来,用户对信息搜索的精确度和效率提出了更高要求,而传统的搜索引擎存在着一定的不足。聚类检索是对搜索引擎的返回结果聚类,然后将提取的标签和类簇呈现给用户。用户根据标签就可以直观地获取检索结果的总体信息,能够迅速定位自己想要查找的内容,提高了用户的查询效率。Carrot2是一个开源的聚类搜索引擎系统,它采用的聚类算法在Web检索聚类方面有很强的代表性。文章选取Carrot2采用的K-means和Lingo算法进行了深入研究,并针对算法的不足及存在问题做了一定的改进。K-means是经典的划分聚

4、类算法,其具有简单易懂、运行速度快的优点,然而也存在着一些不足,如K值的确定、初始聚类中心的选取、易受噪音点和孤立点的影响等多个方面。文章首先结合Web检索结果的特点确定了K值并选出初始聚类中心,然后用权重法代替平均法降低了噪声数据的影响。在经过多次试验后,又发现文档的合理归类问题。文章根据Web检索结果的排名特点,改进了权值计算公式,使文档归入排名靠前的类簇中。如“华为”的检索结果中,将文档“华为手机大全”放入“手机”和“大全”的类簇中都不为错,但归入“手机”的类簇中显然更加合适。Lingo算法是基于潜在语义索引的聚类算法。本文

5、分析了Lingo算法中影响聚类效果的因素,通过引入位置信息和词长信息对其权值计算公式进行了改进,以提高聚类的准确率。实验表明,改进后的K-means算法解决了硬聚类算法的文档合理归类问题,而且具有良好的聚类效果,标签的可读性也较高。改进的Lingo算法的准确率也有了较大提高。关键词:Web检索聚类K-meansLingo特征权值I硕士学位论文AbstractWiththeadventoftheeraofbigdata,usersputforwardhigherrequirementsoninformationsearchingac

6、curacyandefficiency,butthetraditionalsearchenginehassomedrawbacks.Clusteringsearchisthesearchenginereturnstheresultofclustering,andthenextractthelabelandclassclusterispresentedtotheuser.Accordingtothelabel,theusercanobtaintheoverallinformationoftheretrievalresultdirec

7、tly,andthenquicklylocatetheinformationofinterest,whichcanimprovetheefficiencyofthequery.Carrot2isanopensourceclusteringsearchenginesystem,whichusesclusteringalgorithmhasastrongrepresentationintheWebRetrievalClustering.Inthispaper,theK-meansandLingoalgorithmsusedinCarr

8、ot2aredeeplystudied,andsomeimprovementsaremade.ThispaperselectsK-meansalgorithmandLingoCarrot2usedtostudyandmakesomeimprovem

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。