搜索引擎研究新技术

搜索引擎研究新技术

ID:33927285

大小:145.17 KB

页数:3页

时间:2019-02-28

搜索引擎研究新技术_第1页
搜索引擎研究新技术_第2页
搜索引擎研究新技术_第3页
资源描述:

《搜索引擎研究新技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、维普资讯http://www.cqvip.com2005年5月情报探索第3期(总第期)搜索引擎研究新技术林端宜陈榕虎(福建中医学院信息管理研究所福州350003)摘要介绍了近期两类国内搜索引擎技术的研究状况:爬虫系统性能优化技术研究及高级文件搜索引擎核心技术研究。爬虫系统性能优化侧重于:对爬行方式的优化实现海量信息源的高效索引;对URL数据库存取算法的优化提高用户检索的响应速度。高级文件搜索引擎研究是通过对字符串匹配的扩展、属性过滤的扩展、查询结果优化排序、输出结果的优化选择等7种核心技术的有效结合,丰富了文件搜引擎的功能。关键词互联网搜索引擎爬虫技术检索技术搜索引擎作为网络信息搜寻的工具,它

2、以一定长足进步。但至今,功能再强大的搜索引擎都仍然的策略在互联网中搜集、发现信息,对信息进行理存在信息丢失、招回率不高、精确率不高等问题。用解、提取、组织和处理,并为用户提供检索服务。户需要更快、更准、更方便、更有效的查询服务成为早期的搜索引擎将互联网中的资源服务器做为搜索引擎技术发展研究追求的目标。搜索的目标,并将收集的数据按概念进行分类,用户2003年3月“全国首届搜索引擎和网上信息挖从分类引导中索取所需的信息资源。随着网络资源掘学术研讨会”在北京大学举行,该会收录论文3O成几何量级增长,这种方式很快就被淘汰。1994篇,基本反映了当前国内研究状况及进展,本文将其年,Spider程序被应用

3、到索引程序中,Yahoo、Coogle中最具代表性的lgloo1.2版网络搜索引擎和天网等相继出现,搜索引擎技术在应用和性能方面得到FTP搜索引擎关键技术的研究状况做一介绍。横向整合即对不同的数据库中相同学科专业的数字字化,通过DC元数据的应用,可以对知识资源实现对象进行优化整合。纵向整合则是将不同学科专业横向和纵向整合,通过建立DC、MARC等多种元数的数字资源整合为具有多维立体网状结构的有机知据的关联,并以XML结构的RDF资源描述体系封装识整体。整合多种元数据,实现对数字资源的综合整合,最终现在的数据库通常只是将信息简单地数字化和实现文本、图像、音频、视频等不同媒体,图书、期刊、有序化,

4、无法根据各类读者的需要组合成特定的知会议录、学位论文等不同类型,书目、文摘、索引、引识体系。怎样让读者在众多信息源中迅速、直接选文、综述、评论、全文等不同级次资源的链接,建立起中自己所要检索的相关信息,能不能将信息整理、筛文献、机构、人物等科学研究所需的知识元素之间的选,划分成许多类别分明、有特色的“知识块”,以利联系和整合,从而形成知识因子的有序化,使知识的于读者使用呢?知识仓库的出现,为我们解决相关条目、事件、来源线索等相关信息形成有机的联系,问题提供了有效的技术手段。20世纪9o年代,西成为具有特定知识结构功能的知识仓库。方管理学家提出了知识管理的概念,认为采用现代参考文献1孙利红.数字

5、图书馆资源组织.现代图书情报技术,信息技术和手段将信息加工整理成为知识,并对这2002(1)些知识按照某种知识结构进行有效的管理,形成具2崔风雷,肖珑.前行在数字图书馆事业的潮头.高校有规定使用功能的数据仓库,也就是知识仓库。图书馆工作,2003(3)数字图书馆应用系统是进行数字化建设及整合3刘柏嵩.一种面向语义Web的数字图书馆框架.大学各类数字资源的基础平台,它支持对知识和数字资图书馆学报,2003(1)源的采集、加工、处理、存储、归档、组织、发布和利用4金更达.网络资源界面整合和A目em界面实现探讨.等全过程。知识仓库是数字图书馆资源建设的核心大学图书馆学报,2/)02(1)内容之一。随

6、着信息数字化进程的加快,图书馆的5马文峰.数字资源整合研究.中国图书馆学报,2002工作重心开始向数字信息的描述、管理和服务转移。(4)6张必兰.图书馆知识仓库的建设研究.现代图书情报利用现代信息技术将更多的特色资源和常用资源数技术,2001(6)维普资讯http://www.cqvip.com第3期(总第95期)林塌宜等:搜索引擎研究新技术20O5年5月l爬虫系统性能优化技术研究内存空间超过一定的大小或每隔一定的周期,才启上海交通大学叶允明等的国家自然科学基金重动一个线程将该内存驻留的Trie与磁盘文件中存储大国际合作研究项目“Moo分布式爬虫系统的性能的Trie数据结构进行合并,在合并时进

7、行URL的检优化”研究介绍了一个大型的分布式爬虫系统索比较和插入。系统采用磁盘和内存交换的方式存Igloo1.2版所采用的性能优化的措施。取大数据结构的策略,保证Crawler搜索到的百万级1.1高速通信与优雅爬行的折中以上的数量级的URL存取的高性能,URL的内存命问题提出:中率将近100%,同时也避免了DNS服务器负载过1)web资源的海量性,用l5天爬行全部网页的重。30%(约l0亿个网页)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。