浅谈校园网多数据源信息检索系统的设计与实现论文

浅谈校园网多数据源信息检索系统的设计与实现论文

ID:25123226

大小:54.50 KB

页数:7页

时间:2018-11-18

浅谈校园网多数据源信息检索系统的设计与实现论文_第1页
浅谈校园网多数据源信息检索系统的设计与实现论文_第2页
浅谈校园网多数据源信息检索系统的设计与实现论文_第3页
浅谈校园网多数据源信息检索系统的设计与实现论文_第4页
浅谈校园网多数据源信息检索系统的设计与实现论文_第5页
资源描述:

《浅谈校园网多数据源信息检索系统的设计与实现论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浅谈校园网多数据源信息检索系统的设计与实现论文论文关键词:信息集成异构数据ODINutchLucene论文摘要:高校校园网信息资源数量巨大,各信息发布系统的相互独立及多种异构数据源的使用对在校园网范围内进行统一的信息检索设置了障碍,系统论文关键词:信息集成异构数据ODINutchLucene论文摘要:高校校园网信息资源数量巨大,各信息发布系统的相互独立及多种异构数据源的使用对在校园网范围内进行统一的信息检索设置了障碍,系统着重解决由非结构化文本数据和结构化数据库数据形成的多数据源的集成与整合问题,在Nutch搜索引擎基础上利用Lucene接口对多种源数据建立索引,构

2、建多数据源全文信息检索平台,从而有效地实现全网信息检索并提高检索速度和精度。一、引言随着校园信息化进程的不断深入,校园网上信息资源的数量迅速膨胀,各种相互独立的信息发布系统在提高效率的同时,也为校园网范围内统一的信息检索设置了障碍,校园网信息资源主要包括两类数据:一类是非结构化文本数据,以网页文件、文本文件、电子邮件等形式存储在多个信息系统当中:另一类是结构化数据,以数据记录的形式存储在不同的异构数据库之中。由于各独立信息系统间没有相互连接的渠道,快速检索校园网内部信息存在着较大困难。如何设计一个稳定而高效的架构,能够对多种信息数据源进行集成与整合,实现全网范围内全

3、文信息检索成为校园信息化过程中一个重要研究课题。校园网信息检索技术大体可分为三个发展阶段:第一阶段是基于数据库查询方式的结构化数据检索,应用于信息发布系统内部的检索功能,通常是通过匹配标题、作者和摘要等字段来实现信息检索。由于受到数据库性能、检索效率等因素影响,不能实现基于匹配正文内容的全文检索,因此该阶段检索方式从检索范围到检索性能及效果都并不能完全满足现阶段用户的需要:第二阶段是将基于互联网的搜索引擎技术应用于校园网,构建校园网信息检索平台。主要采用开源Lueene提供的全文检索功能和基于Lucene索引管理、存储和检索技术之上的Nutch搜索引擎技术。这两种方

4、式能够实现对非结构化文本数据和结构化数据库数据的检索,应用在网站站内索引、企业内部文档管理及知识管理系统等多方面,对应用系统内部全文信息检索取得了较好的效果,但要实现校园网全网范围内多系统综合信息检索还有待进一步完善与改进:当前校园网信息检索技术已经发展到多系统多数据源信息检索阶段,通过多种方式将各种数据源统一建立索引进行检索,对于非结构化文本的L等多种格式化文档解析的支持、以上述工作为基础,系统将分散分布、非结构化、异构的信息资源统一整合,提供给校园网用户统一的全文信息检索平台。二、系统体系结构多数据源校园网信息检索系统分为数据采集层和信息检索层两层体系架构,数据

5、采集层以Oracle全局数据库为核心向下通过ODI集成各异构数据库数据,并通过网络爬虫和非结构化文本数据解析来实现多数据源数据采集,向上通过数据库接口为上层应用提供数据:信息检索层采用以Lueene为基础的Nutch搜索引擎实现信息索引和检索。系统共包括异构数据库集成、异构文档解析、信息分类模块、信息索引模块、信息检索模块和系统管理模块六部分,系统体系结构如图1所示。校园网信息检索技术并不是简单地将开源搜索引擎技术应用于校园网,而是针对校园网内部数据特点设计相应的解决方案。异构数据库集成模块从系统底层做好结构化数据库数据的高效获取和有效组织。校园网内信息发布以ySQ

6、L数据库抓取数据到Oracle数据库等)的详细实现步骤使用Jvthon脚本语言结合数据库SQL语句录制成详细的步骤记录下来,形成知识模块,ODI中共有超过100种主流数据库引擎和应用系统的知识模块,基本上包含了普通应用所涉及的所有场景,因此ODI可以实现对校园网内多种异构数据库的支持。在一个数据集成任务中,ODI通过声明设计运用接口和关系图等概念声明数据集成规则,使集成的逻辑和技术层面分离,底层的技术方面由知识模块描述和定义,系统只需要把重点放在集成任务规则的制定上面,再将制定好的集成规则封装为一个服务模型。发布和订阅该模型便可实现类似于数据增量定时更新的功能,异构

7、数据库集成模块示意如图2所示。系统以全局数据库为核心通过ODI工具对校园网内异构数据库数据进行抽取、转换、清洗和加载,集成后的数据质量得到了提高,对异构数据源的处理也得到了加强。在对数据处理的过程中提取了信息的标题、作者、正文、发布时间、URL地址等字段,可定时对各异构数据库数据进行增量更新操作,从而替代利用网络爬虫获取信息数据。Oracle全局数据库可以集成校园网内大部分信息发布系统的数据并提供给信息索引和检索模块。2.Lucene与NutchLucelle不是一个完整的搜索引擎,而是一个用于实现全文检索的软件库,采用Java语言开发,提供了检索内核,其设计原

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。