欢迎来到天天文库
浏览记录
ID:35178305
大小:5.60 MB
页数:57页
时间:2019-03-20
《主题元搜索引擎排序算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、?,I.:朱穿'.V,:為:;;.去v麵‘:r辑.烹1r^/V;..誦.,;.-,;^国内图书分类号:TP312学校代码;1007900441国际图书分类号.:;密级公开专业硕±学位论文主题元搜索引擎排序算法研究硕±研究生;王然导师;程晓荣企业导师原涛申请学位:工程硕±专业领域:软件工程培养方式:全日制所在学院:控制与计算机工程学院答辩日期:2016年6月授予学位单位;华北电力大学ClassifiedIndex:TP312U.D.C:004.41Thesisforth
2、eMasterDegreeResearchandImprovementoftheTopicMetaSearchEngineSortAlgorithmCandidate:WangRanSupervisor:Prof.ChengXiaorongSchool:SchoolofControlandComputerEngineeringDateofDefence:June,2016Degree-Conferring-Institution:NorthChinaElectricPowerUniversity华北电力大学硕±学位论文原创性声明本人郑重声
3、明:此处所提交的硕±学位论文《主题元搜索引擎排序算法研》,巧,是本人在导师指导下在华北电力大学攻读硕±学位期间独立进行研究工。论文中除己注明部分外不包含他人已发表或撰作所取得的成果据本人所知,写过的研究成果。对本文的研巧工作做出重要贡献的个人和集体,均己在文中W明确方式注明。本声明的法律结果将完全由本人承担。^為'作者签名:玉^/曰期:《年^月曰/华北电力大学硕±学位论文使用授权书《主题元搜索引擎排序算法研究》系本人在华北电力大学攻读硕i学位期间在导师指导下完成的硕±学位论文。本论文的研究成果归华北电为大学所
4、有,本论文的研究巧容不得yx其它单位的名义发表。本人完全了解华北电力大学关、口或机构送交论于保存使用学位论文的规定,同意学校保留并向国家有关部文的复印件和电子版本,同意学校将学位论文的全部或部分内容编入有关数据。,1、库进行检索,允许论文被查阅和借阅本人授权华北电力大学可^采用影印缩印或扫描等复制手段保存、可W公布论文的全部或部分内容。""本学位论文属于(请在上相应方框内打V):保密□,在年解密后适用本授权书/不保密口作者签名:襄'曰期:年6月7曰导师签名:曰期:年^月曰私y华北电力大学硕士学
5、位论文摘要主题搜索引擎的产生是针对某种具体的组织、行业的网络信息来构建的,这是一个能够使该组织、行业的搜索要求满足的搜索引擎。随着网络信息的多元化形成,没有任何一种主题搜索技术能应用到所有的主题信息领域,而主题元搜索引擎的出现很好地解决了这个现象。主题元搜索引擎将元搜索引擎和主题搜索引擎相结合,在提高查全率的同时又进一步提高了查准率。其中搜索引擎的分词技术和排序技术是影响搜索结果的关键性。本文以开源的搜索引擎Nutch为原型,使用主题提取器在多个搜索引擎中提取种子站点,再从各种子站点上搜索关键词,实现搜索的主题化和多元化,提高了查准率和查全率
6、。针对Nutch搜索引擎按字分词和排序效果差的问题,本文主要完成了以下两方面的工作:第一,参考各种资料以及相关中文分词插件文档,通过实验对Paoding,IKAnalyzer等中文分词器进行了时效性以及准确率等方面的对比,选取在大量文字分词时,时间和准确度等方面性能更优且有丰富的本地词库的ICTCLAS2015分词器,进行了Nutch中文分词模块的改进。第二,本文提出了结合使用PageRank算法并加入本地浏览器书签作为参考因子的方法,对Nutch的评分机制进行了改进,提高了搜索结果的确切度。对改进后的算法进行了验证,通过对实验数据的分析说明
7、了改进后的算法不仅可以提高PR值较高的页面的排序结果,而且对本地书签有相关性的搜索结果的排名有所提高。本文通过结合ICTCLAS2015中文分词插件和改良中文分词算法对Nutch搜索引擎系统进行了二次开发,在此基础上,结合网站PR值和本地书签影响因子对Nutch排序算法进行改进,经试验测试表明,改进后的算法在搜索结果更确切,更符合用户的需求。关键词:主题元搜索引擎;ICTCLAS2015;中文分词;Nutch;排序算法I华北电力大学硕士学位论文AbstractThegenerationofthetopicsearchenginewasused
8、tomeettherequirementsofkindsoforganizationorindustryaboutsearchinginformationfromt
此文档下载收益归作者所有