《论文_搜索引擎的研究与实现(定稿)》

《论文_搜索引擎的研究与实现(定稿)》

ID:45552980

大小:149.81 KB

页数:22页

时间:2019-11-14

《论文_搜索引擎的研究与实现(定稿)》_第1页
《论文_搜索引擎的研究与实现(定稿)》_第2页
《论文_搜索引擎的研究与实现(定稿)》_第3页
《论文_搜索引擎的研究与实现(定稿)》_第4页
《论文_搜索引擎的研究与实现(定稿)》_第5页
资源描述:

《《论文_搜索引擎的研究与实现(定稿)》》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、烫披科孩侖降么司——搜索引擎的研究与实现开发时间:2005年4月目录目录第一章引言4第二章搜索引擎的结构52.1系统概述52.2搜索引擎的构成52.2.1网络机器人52.2.2索引与搜索52.2.3Web服务器62.3搜索引擎的主耍指标及分析62.4小节6第三章网络机器人73.1什么是网络机器人73.2网络机器人的结构分析73.2.1如何解析HTML73.2.2Spider程序结构83.2.3如何构造Spider程序93.2.4如何提高程序性能113.2.5网络机器人的代码分析123.3小节14章基于LUCENE的索引与搜索154.1什么是Lucene金文检索154.2LUCENE的原理分

2、析154.2.1全文检索的实现机制154.2.2Lucenc的索引效率154.2.3屮文切分词机制174.3Lucene与Spider的结合184.4小节21第五章基于TOMCAT的WEB服务器225.1什么是基于TOMCAT的WEB服务器225.2用八接口设计222.3.1客户端设计222.3.2服务端设计235.3在Tomcat上部署项目255.4小节25第六章搜索引擎策略263.1简介263.2而向丄题的搜索策略262.2.1导向词262.2.3权威网贝和中心网页276.3小节27参考文献28摘要网络中的资源非常丰富,但是如何有效的捜索信息却是一件困难的事情。建立捜索引擎就是解决这个

3、问题的最好方法。本文首先详细介绍了基丁•英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,木人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。新闻搜索引擎是从指定的Web页而中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客八端请求后从索引数据库中搜索出所匹配的新闻。本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码來说明,图文并茂、易于理解。AbstractTheresourcesintheinternetareabundant,butitis

4、adifficultjobtosearchsomeusefulinformation.Soasearchengineisthebestmethodtosolvethisproblem.Thisarticlefistintroducesthesystemstructureofsearchenginebasedontheinternetindetail,thengivesaminuteexplanationformSpidersearch,engineandwebserver.Inordertounderstandthetechnologymoredeeply,Ihaveprogrammeda

5、newssearchenginebymyself.Thenewssearchengineisexplainedandsearchedaccordingtohyperlinkfromaappointedwebpage,thenindexseverysearchedinformationandaddsittotheindexdatabase.Thenafterreceivingthecustomers1requestsfromthewebserver,itsoonsearchstherightnewsformtheindexengine,Inthechapterofintroducingsea

6、rchengine,itisnotonlyelaboratethecoretechnology,butalsocombinewiththemoderncode,picturesincluded,easytounderstand・第一章引言而对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现V1994年。这类搜索引擎-般都索引少于1,000,000个网页,极少重新搜

7、集网页并去刷新索引。ifuflK检索速度非常慢,-•般都要筹待10秒英至更长的时间。在实现技术上也基木沿川较为成熟的IR(InformationRetrieval)^网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3刀到4刀,网络爬虫WorldWebWorm(WWWW)平均每天承受人约1500次查询。人约在1996年出现的第二代搜索引擎系统人多采川分布式方案(多个微型计算机协同工作)來提高

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。