基于JAVA技术的搜索引擎的研究和实现

基于JAVA技术的搜索引擎的研究和实现

ID:44068133

大小:157.00 KB

页数:23页

时间:2019-10-18

基于JAVA技术的搜索引擎的研究和实现_第1页
基于JAVA技术的搜索引擎的研究和实现_第2页
基于JAVA技术的搜索引擎的研究和实现_第3页
基于JAVA技术的搜索引擎的研究和实现_第4页
基于JAVA技术的搜索引擎的研究和实现_第5页
资源描述:

《基于JAVA技术的搜索引擎的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于JAVA技术的搜索引擎的研究和实现7SP教程,Java技巧及代码摘要网络中的资源非常丰富,不过怎么有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最佳方法。本文首先周详介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、web服务器三个方面进行周详的说明。为了更加深刻的理解这种技术,本人还亲口实现了一个口己的搜索引擎??新闻搜索引擎。新闻搜索引擎是从指定的web页面屮按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过web服务器接受客户端请求后从索引数据库中搜索出所匹配的

2、新闻。本人在介绍搜索引擎的章节中除了周详的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。abstracttheresourcesintheinternetareabundant,butitisadifficultjobtosearchsomeusefulinformation.soasearchengineisthebestmethodtosolvethisproblem.thisarticlefistintroducesthesystemstructureofsearchenginebasedonthe

3、internetindetail,thengivesaminuteexplanationformspidersearch,engineandwebserver,inordertounderstandthetechnologymoredeeply,ihaveprogrammedanewssearchenginebymyself・thenewssearchengineisexplainedandsearchedaccordingtohyperlinkfromaappointedwebpage,thenindexseverysearch

4、edinformationandaddsittotheindexdatabase・thenafterreceivingthecustomersrequestsfromthewebserver,itsoonsearchstherightnewsformtheindexengine,inthechapterofintroducingsearchengine,itisnotonlyelaboratethecoretechnology,butalsocombinewiththemoderncode,picturesincluded,eas

5、ytounderstand.第一章引言面对浩瀚的网络资源,搜索引擎为所冇网上冲浪的用户捉供了一个入口,毫不夸张的说,所冇的用户都能从搜索出发到达口己想去的网上所冇一个地方。因此他也成为除了屯子邮件以外最多人使用的网上服务。搜索引擎技术伴随WWW的发展是引人注忖的。搜索引擎人约经历了三代的更新发展:第一•代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的ir(informationret

6、rieval)>网络、数据库等技术,相当于利用一些己有技术实现的一个www上的应用。在1994年3月到4月,网络爬虫worldwebworm(wwww)平均每天承受大约1500次查询。大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)來提高数据规模、响应速度和用户数量,他们一般都保持一个人约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的儿个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。altavist

7、a搜索引擎声称他们每天大概要承受20,000,000次查询。2000年搜索引擎2000年大会上,按照google公司总裁larrypage的演讲,google正在用3,000台运行linux系统的个人计算机在搜集web上的网页,而且以每天30台的速度向这个微机集群里添加计算机,以保持和网络的发展相同步。每台微机运行多个爬虫程式搜集网页的峰值速度是每秒100个网页,平均速度是每秒48.5个网页,一天能搜集超过4,000,000网页搜索引擎-词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜

8、索引擎,他们通过网络机器人程式收集上千万到几亿个网页,并且每一个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括firstsearch、google>hotbot等。在中国,搜索引擎通常指基于网站H录的搜索服务或是特定网站的搜索

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。