搜索引擎分类及主要技术研究

搜索引擎分类及主要技术研究

ID:46718712

大小:72.00 KB

页数:5页

时间:2019-11-27

搜索引擎分类及主要技术研究_第1页
搜索引擎分类及主要技术研究_第2页
搜索引擎分类及主要技术研究_第3页
搜索引擎分类及主要技术研究_第4页
搜索引擎分类及主要技术研究_第5页
资源描述:

《搜索引擎分类及主要技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、搜索引擎分类及主要技术研究搜索引擎分类及主要技术研究摘要Imterner的发展形成了一个巨人的全球化信息空间,其大容量异构性分布性和动态性给信息检索带來了挑战。快速获取所需信息是用户囱临的重人问题,搜索引擎技术可用來解决这一问题,搜索引擎以一•定的策略在互联网中搜集发现信息对信息进行理解、捉取、组织和处理并为用户捉供检索服务,从1何起到信息导航的作川。搜索引擎的性能主要取决于索引数据库的容量存放内容更新和搜索速度是否易用等。搜索引擎是以传统信息检索技术为基础,利用其索引模型匹配策略等方而的技术成果,并针对Web资源的特点发展起來的信息检索技术。涉及多

2、领域的理论和技术,数据库信息检索、人工智能、自然语言、处理统计、数据分析、数据挖掘、计算机网络分布式处理等木文以工作方式,対搜索引擎进行分类介绍搜索引擎各组成部分的和关研究和关键技术搜索器策略检索策略搜索结果处理信息检索Agent多媒体搜索引擎等。关键词搜索引擎多媒体搜索引擎信息检索1.搜索引擎的分类(一)全文索引它们从互联网提取各个网站的信息(以网页文字为主),建立起数拯库,并能检索与用户查询条件和匹配的记录,按一能的排列顺序返凹结果。根据搜索结果來源的不同,全文搜索引擎可分为两类,一类拥有口己的检索程序仃ndexer),俗称“机器人”(Robot

3、)程序,能自建网页数据库,搜索结果直接从自身的数据库小调J1L另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果。(二)目录索引冃录索引虽然有捜索功能,但严格意义上不能称为真正的搜索引擎,只是按冃录分类的网站链接列表而己。用户完全对以按照分类冃录找到所需要的信息,不依靠关键词(Keywords)进行查询。(三)元搜索引繁元搜索引擎(METASearchEngine)接受用户杳询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方而,有的直接按來源排列搜索结果。(四)分布式搜索引擎

4、分布式搜索引擎按区域、主题、IP地址或其它标准创建分布式索引服务器,索引服务器Z间相互可以交换屮间信息,且查询可以被重新定向。信息搜索机器人负责本区域内的信息搜索,并建立索引信息存入索引数据库。(%1)信息检索Agent信息检索Agent是智能化的程序能够学习用户需求具有智能性主动性协作性等特点。1.搜索引擎技术分析2.1搜索器由于Web信息的人容量分布性和动态性,保持全面而又最新的资料收集是影响搜索引擎性能的重要方血。搜索器是一个机器人程序Robot口动地在互联网中搜集信息下载到木地文档库,为提高其工作效率常使用分布式并行计算技术。2.2分析器分析

5、器对本地文档库进行分析以便用于索引文档分析技术包括分词、过滤和转换等,一般词能够表达完整的语义对象所以通常选用词作为文木特征的元数据,在分词时大部分系统从全文中抽取词条也有部分系统只从文档的某些部分如标题等抽取词条,汉语分词主要有2人类方法:基于词典与规则或者基于统计,前考应川词典匹配汉语词法或具他汉语语言知识进行分词。分词后通常要使用禁用词表stoplist來公除出现频率很高的无义词条如antheof的另外需要对词条Jit行单/复数转换词缀去除(stemming)同义词转换(conflation)等工作。2.3索引器索引器的功能是理解搜索器所搜索的

6、信息从中抽取出索引项,将文档表示为一种便于检索的方式并存储在索引数据库屮生成文档库的索引表,索引器采川的文档表示方法有多种如矢量空间模型、布尔模型、概率模型等。索引表一般使用某种形式的倒排表InversionList,由索引项查找相应的文档,即将Wob文档集合排序存储的同时有一个排好序的关键词列表用于存储关键词=>文章的映射关系索引表,也可能耍记录索引项在文档中出现的位置以便检索器计算索引项之间的相邻或接近关系,如这样的映射关系索引[关键词=>出现关键词的文章编号出现次数其至包括位置起始偏移量结束偏移量出现频率。2.4检索器检索器的功能是根据用户的查

7、询在索引库中找出相关文档进行文档与查询的相关度评价返回相关度符介某一阈值的文档集合其检索方法有以下几种:基于关键词的检索、基于概念的检索、基于内容的检索。2.5用户接口用八接口的作用是为用户提供可视化的查询输入和结果输出界而提供用户相关性反馈机制在输出界面中搜索引擎将检索结果展现为一个线性的文档列表其中包含了文档的标题摘要所在URL等信息用户需要逐个浏览以寻找出所需的文档。2.6搜索结果处理搜索引擎通常会对一个查询返回人量的结果列表混合着相关文档和不相关文档为提高查询效率对结果列表进行处理的技术包括以下几个方面:文档摘要、检索结果排序、检索结呆的联机

8、聚类、推测用户最终目的。1.信息检索Agent搜索引擎的工作方式是用户驱动的即系统只能响应用户显示提出的检索

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。