主题搜索引擎设计与实现

主题搜索引擎设计与实现

ID:20611214

大小:409.00 KB

页数:46页

时间:2018-10-14

主题搜索引擎设计与实现_第1页
主题搜索引擎设计与实现_第2页
主题搜索引擎设计与实现_第3页
主题搜索引擎设计与实现_第4页
主题搜索引擎设计与实现_第5页
资源描述:

《主题搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第四代搜索引擎——天网主题搜索引擎的设计与实现北京大学学士论文第四代搜索引擎——主题搜索引擎的设计与实现DesignandImplementationofFocusedSearchEngine,4thGenerationSearchEngine北京大学计算机科学技术系计算机软件专业九七级学士毕业论文指导教师:李晓明王建勇作者:罗昶学号:097081362001年6月45第四代搜索引擎——天网主题搜索引擎的设计与实现北京大学学士论文指导老师对论文工作的评语“面向主题的搜索引擎”,是我们“天网”搜索引擎下一步发展的重要方向之一。罗昶同学的

2、毕业论文,是这一新方向的良好开端。论文从系统实现的角度,较全面的阐述了实现一个高质量主题搜索引擎系统的各个方面,着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用,并提出了“主题度”的概念,用以衡量主题搜索引擎的质量,意在指明一个搜索引擎在一个主题下的主题度越高,则它越贴近这个主题,用户就越容易找到跟这个主题相关的资料。特别地,将上述认识用于实践中,高质量地完成了一个面向影视主题的搜索引擎系统,搜集了十多万影视信息,在影视信息方面提供着比“天网”通用搜索引擎更有效的服务;论文内容丰富,所涉及的工作量很

3、大,且有较强的系统性,是一篇很有参考价值的论文,为“天网”的发展做出了贡献。老师签名:__________45第四代搜索引擎——天网主题搜索引擎的设计与实现北京大学学士论文论文摘要互联网上的信息每天都以指数量级的速度爆炸性增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜

4、索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个分类细致精确、对硬件要求低,数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。本文阐述了第四代搜索引擎天网主题搜索引擎的设计与实现,并着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用。论文最后定义了独创的“主题度”来衡量主题搜索引擎的性能,一个搜索引擎在一个主题下的

5、主题度越高,证明这个搜索引擎越贴近这个主题,用户就越容易找到跟这个主题相关的资料。有了“主题度”,就可以很容易的比较使用多种搜集策略以后的天网主题搜索引擎与原天网通用搜索引擎的差别,说明了前者在特定的主题下要比后者更准确贴切。关键词:互联网、万维网、搜索引擎、数据发掘、主题搜索、主题度45第四代搜索引擎——天网主题搜索引擎的设计与实现北京大学学士论文AbstractInformationontheInternetgrowsexplosivelyeveryday.Searchengineprovidesallthesurfersonit

6、withanentrance,fromwhichtheycanreacheverycorneroftheweb.Therefore,searchenginebecomesthemostpopularnetworkservicesecondtoemail.Withinformationcontinuingtoexplodeinalldirections,however,somespecifiedkindsofusersarenotsatisfiedwithonlyoneentrance.Inthemeanwhile,duetocurre

7、nthardwareconditions,itisnotlikelytocrawlfulldataontheInternet.Whatweneedisafocusedsearchengine,wellclassified,requestinglowhardwarecondition,containingprofoundandentiredata,andupdatingintime.Sinceitusesintelligentstrategiessuchashuman-classificationandsample-extraction

8、,itiscalledthe4thgenerationsearchengine,moreefficientandaccuratethantheprecedingones.Inthispaper,describedaret

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。