【硕士论文】垂直搜索中的数据清洗和排序算法研究.pdf

【硕士论文】垂直搜索中的数据清洗和排序算法研究.pdf

ID:32030804

大小:3.33 MB

页数:52页

时间:2019-01-30

【硕士论文】垂直搜索中的数据清洗和排序算法研究.pdf_第1页
【硕士论文】垂直搜索中的数据清洗和排序算法研究.pdf_第2页
【硕士论文】垂直搜索中的数据清洗和排序算法研究.pdf_第3页
【硕士论文】垂直搜索中的数据清洗和排序算法研究.pdf_第4页
【硕士论文】垂直搜索中的数据清洗和排序算法研究.pdf_第5页
资源描述:

《【硕士论文】垂直搜索中的数据清洗和排序算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要摘要“信息过载”问题随着web信息资源的迅速膨胀变得越来越严重,而搜索引擎是解决这一问题的基本工具。由于传统搜索引擎是面向大众用户的,检索结果往往面向各行各业,因此用户不容易找到自己所需要的信息。垂直搜索引擎的出现在一定程度上解决了通用搜索引擎对专业领域及特定主题信息覆盖率过低的问题。在国家科技支撑项目子课题一“基于本体的农业搜索引擎’’(2006BADl0A1410)和国家自然科学基金~“农业复杂自适应搜索引擎”(60774096)的支持下,本文围绕农业垂直搜索引擎的关键问题开展研究。中国搜索引擎用户不满意因素的调查结

2、果显示:用户对结果的排序不满意占了很大的比重。本文对搜索排序算法进行了认真分析,现有通用搜索引擎大都采用了输入一输出的响应模式,该模式没有考虑用户反馈。论文提出了一种基于lucene基础排序算法的改进算法,该改进算法考虑了多个排序因素:(1)为了体现网页链接的重要性,算法融合了pagerank算法;(2)网站等级得分;(3)用户反馈得分:将反映用户兴趣的点击行为和网页浏览时间转化为兴趣度并作为搜索结果排序的一个得分因子。该算法通过实验验证了其优越性。优秀的排序算法也需要一个高质量的数据来源,高质量的搜索结果必然依赖于高质量的

3、数据,为了避免得到重复、相似或者信息不完整的搜索结果,数据的正确性是至关重要的,否则就会出现“一流的引擎,二流的数据库"的现象,所以,数据预处理工作相当重要,数据清洗工作也被提到显著位置。本文设计了基于MD5数字签名的数据消重算法,在查准率、查全率和响应时间上都满足实际需求,同时,在处理不完整信息方面提出了处理方法,即利用其它项属性值来推测缺失项属性值,以及使用最可能的值来填充缺失值,该方法己成功应用于农业垂直搜索引擎中。最后,本文设计一个农业垂直搜索引擎,从总体设计到核心模块设计进行了详细说明。该垂直搜索引擎的系统测试结果

4、显示其在查准率、查全率、响应时间三个重要指标中均表现良好,满足了项目的实际需求。关键词:垂直搜索用户反馈搜索排序算法数据清洗ABSTRACTWiththerapidexpansionofthewebinformationresources,the”informationoverload”problemisgettingworse,andthesearchengineisthebasictooltosolvethisproblem.Becausethetraditionalsearchisforenginepublicuser

5、s,andthesearchresultsareforallkindsofindustries,SOitisdifficultforUSCEStofindtheinfonnationtheyneed.Toacertainextent,theverticalsearchengineresolvestheproblemsoflowcoverageofinformationforprofessionalareasandspecificsubjectswhichacommonsearchenginehas.Thisarticleis

6、studyinghowtoresolvethekeyproblemswhiledeveloppingaverticalsearchenginefortlleagriculturalarea.Thisresearchw懿supportedbythenationalscienceandtechnologysupportingplanundergrantNO·2006BAD10A1410named“anagriculturesearchenginebasedonOntology",thenationalSciencefoundat

7、ionofChinaundergraniNO.60774096named“anagricalturecomplexadaptivesearchengine”.InthesurveyofthefactorsaboutdissatisfactionwhileusingtheearchengineinChina,itrevealsthatthedissatisfactionwiththeresultsoftherankingmakesupalargeproportionofallthefactors.Thisarticlemade

8、acarefulanalysisabouttherankingalgorithm.Mostofthecommonsearchenginesadopttheinput..outputrespondingmodelwithoutconsideringthefeedbackfromtheuser

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。