搜索引擎技术研究发展

搜索引擎技术研究发展

ID:16025971

大小:219.00 KB

页数:13页

时间:2018-08-07

搜索引擎技术研究发展_第1页
搜索引擎技术研究发展_第2页
搜索引擎技术研究发展_第3页
搜索引擎技术研究发展_第4页
搜索引擎技术研究发展_第5页
资源描述:

《搜索引擎技术研究发展》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、搜索引擎技术研究发展*本文研究得到国家自然科学基金资助(60205007)、广东省自然科学基金资助(001264、031558)、广东省科技计划项目资助(2003C50118)、南京大学计算机软件新技术国家重点实验室研究基金资助印鉴1,2 ,陈忆群1,张钢1(1中山大学计算机科学系广州510275)(2南京大学计算机软件新技术国家重点实验室南京210093)摘要:介绍搜索引擎技术。首先以工作方式做分类介绍,接着介绍各部分工作原理和技术研究,包括关键技术如:搜索器策略、检索策略、搜索结果处理、信息检索Agent

2、、多媒体搜索引擎等。最后展望搜索引擎发展重要方向。关键词:搜索引擎多媒体搜索引擎信息检索SearchenginetechnologyresearchdevelopYinJian1,2,ChenYiqun1andZhangGang11DepartmentofComputerScience,ZhongshanUniversity,Guangzhou,5102752StateKeyLaboratoryforNovelSoftwareTechnology,NanjingUniversity,Nanjing,21009

3、3Abstract:introducesearchenginetechnology.Firstcategorizethesystemsaccordingtoitsworkingtype,thenexameachpart’stheoryandtechnology.AnalyzedaretheimportanttechnologyincludingRobotstrategy,searcherstrategy,resultreorganize,InformationRetrievalAgent,Multimedia

4、searchengineandsoon.Finallyweconcludethepaperwithsomefutureworkonresearchfieldofsearchengine.Keyword:Searchengine,MultimediaSearchengine,Informationretrieval1.引言13因特网的发展形成了一个巨大的全球化信息空间,方便了信息的收集和获取。1999年统计数据[1]表明,Web上大约有2800000台服务器,存储网页超过8亿,并且仍以惊人的速度增长。Web信息

5、的大容量、异构性、分布性和动态性给信息检索带来了挑战,如何快速获取需要的信息是用户面临的重大问题。搜索引擎技术可用来解决这一问题。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。搜索引擎提供的导航服务已成为互联网上非常重要的网络服务。同时,高性能的Web信息检索技术也是充分利用Web资源发展电子商务、远程教学、数字化图书馆等方面应用的重要基础。目前,搜索引擎技术已成为计算机工业界和学术界争相研究、开发的对象,并逐渐体现其经济价值。搜

6、索引擎的性能主要取决于:索引数据库的容量、存放内容、以及更新速度,搜索速度,用户界面的友好程度以及是否易用等。搜索引擎是以传统信息检索技术为基础,利用其索引模型、匹配策略等方面的技术成果并针对Web资源的特点发展起来的信息检索技术,涉及多领域的理论和技术:数字图书馆、数据库、信息检索、信息提取、人工智能、机器学习、自然语言处理、计算机语言学、统计数据分析、数据挖掘、计算机网络、分布式处理等,具有综合性和挑战性。本文对搜索引擎技术进行了系统的介绍和分析,以工作方式对搜索引擎进行分类,介绍搜索引擎各组成部分的相关

7、研究和关键技术(搜索器策略、检索策略、搜索结果处理、信息检索Agent、多媒体搜索引擎等),并对未来搜索引擎的主要发展方向进行了展望。2.搜索引擎的分类按照信息搜集方法、服务提供方式和系统结构的不同,搜索引擎系统可以分为不同的类别,下面介绍按照搜索引擎工作机制对其进行分类。搜索引擎作为用户层和Web信息层之间的中间层,内部结构有所不同。如图1所示,用户可以直接从机器人搜索引擎或者目录式搜索进行检索,或者通过元搜索引擎进行检索,或者通过信息检索Agent进行检索。由此搜索引擎系统可以分为以下类别。图1搜索引擎工

8、作机制分类(1)机器人搜索引擎:由一个机器人(Robot)程序以某种策略自动地在互联网中搜集和发现信息,下载到本地文档库对文档内容进行自动分析,由索引器为搜集到的信息建立索引,对用户的查询输入由检索器检索索引库,最后对查询结果进行处理,返回给用户。其优点是具有庞大的全文索引数据库、信息量大、更新及时、毋需人工干预,适用于检索难以查找的信息或者一些比较模糊的主题,缺点是返回信息过多,有很多无关信息,用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。