基于java技术搜索引擎的设计与实现

基于java技术搜索引擎的设计与实现

ID:28055031

大小:18.98 KB

页数:6页

时间:2018-12-08

基于java技术搜索引擎的设计与实现_第1页
基于java技术搜索引擎的设计与实现_第2页
基于java技术搜索引擎的设计与实现_第3页
基于java技术搜索引擎的设计与实现_第4页
基于java技术搜索引擎的设计与实现_第5页
资源描述:

《基于java技术搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于JAVA技术搜索引擎的设计与实现  摘要:随着科技的进步与发展,互联网成为21世纪的宠儿,网络信息也复杂多样。这些繁杂的网络信息在给我们带来便利的同时也产生了极大的问题,比如如何在这海量的信息里面找到自己所需要的内容,成为当前互联网技术的热门领域。互联网信息复杂多样,因此想要迅速、快捷的找到所需要的信息内容,就需要搜索引擎来帮忙实现。本文就对搜

2、索引擎的工作原理,组成和数据结构等方面进行分析,对搜索引擎未来的发展方向进行探索。众所周知,智能化是未来的一个大的趋势,想要实现搜索引擎的智能化,就需要使搜索引擎具备自我学习的能力,适应用户的查询需求。  关键词:搜索引擎;智能化;信息检索  中图分类号:文献标识码:A文章编号:1007--0205-01  1搜索引擎概述  随着信息时代的来临,互联网的迅速普及应用,已经成为我们正常生活中不可或缺的一部分。因为互联网信息具备共享等多种特性,使得网络信息成倍的增加。谷歌公司所收录的网页信息都已经过亿,而且每天还在不断的攀升,

3、想要在这么多数据里面,选取对自己有用的信息,就需要借助搜索引擎来进行实现。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  搜索引擎是从1994年诞生,随着互联网的信息日益增多,搜索引擎也在不断的发展,从199

4、4年到现在历经三个阶段。搜索引擎的第一个阶段就是1994年到1996年,这个阶段的搜索引擎以集中式检索为主。当时网络信息并没有很多,一般都是少于百万的网页,也没有索引,检索速度也非常慢。也是采用网络、数据库等关键技术来实现。第二个阶段是1996年到1998年,这个期间,搜索引擎采用分布式检索方案,使用多个微型计算机来协同工作,其目的是为了提高数据规模和响应速度。一般可以响应千万次的用户检索请求。第三代搜索引擎,就当前所使用的搜索引擎,也是搜索引擎极为繁荣的时期。它拥有完整的索引数据库,除了一般的搜索,还有主题搜索和地域搜索

5、。但是这些搜索结果反馈给用户的数据量较大,检索结果的相关度又成为研究的核心。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  我们通常所用的搜索引擎也分为多种,按照信息的搜集方法和服务提供方式的不同进行区分,常

6、用的有三类,第一,目录式搜索引擎。它是以人工方式进行信息的搜集,由编辑员进行审查并制作成信息摘要,将其进行分类置入架构中去。这类搜索方式的搜索结果准确,信息质量高,但是需要大量的人工成本,信息更新不及时,维护量大。第二,机器人搜索引擎。就是我们常说的网络爬虫,是由一个网络蜘蛛的机器人程序以某种策略自动地在互联网中搜集和发现信息,这种信息查询方式是由索引器完成的。索引器为搜集到的信息建立一个完整的索引,根据用户所输入的关键词,对索引库进行检索,从而查询到信息并将信息反馈给用户。这种检索方式,可以保证数据的及时更新,减少人工成

7、本,但是返回的信息很多,相关度不高。第三,元搜索引擎。这类搜索引擎比较奇怪,没有自己的数据信息,而是根据用户输入的查询关键字向其他搜索引擎发出请求,由其他搜索引擎来完成,并且将返回的结果进行筛选,排序处理,然后将这些信息作为自己的结果反馈给用户。  2搜索引擎的系统架构  一般来说,搜索引擎的工作流程分为四步,从网上抓取网页,建立索引数据库,根据用户的关键词在索引数据库中进行搜索,对搜索结果进行相关度排序处理。它主要由网络蜘蛛、索引器和检索器三部分组成。网络蜘蛛,英文名称WebSpider,它的主要功能是从指定的IP出发,

8、便利整个互联网中所存在的网页,它可以借助网页中的URL爬到其他网页中去,不停的对这个过程进行重复,将爬过的网页搜集起来并存储到页面存储库中去。Indexer,索引器,它的主要功能是将WebSpider收集回来的网页进行分析,提取网页中所含的信息,并按照相关度进行计算,将这些相关信息建立完整的网页索引数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。