基于本体的科技资源搜索引擎设计与实现

基于本体的科技资源搜索引擎设计与实现

ID:33435047

大小:2.10 MB

页数:50页

时间:2019-02-26

基于本体的科技资源搜索引擎设计与实现_第1页
基于本体的科技资源搜索引擎设计与实现_第2页
基于本体的科技资源搜索引擎设计与实现_第3页
基于本体的科技资源搜索引擎设计与实现_第4页
基于本体的科技资源搜索引擎设计与实现_第5页
资源描述:

《基于本体的科技资源搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于本体的科技资源搜索引擎设计与实现第一章绪论1.1研究背景与意义第一章绪论随着互联网和计算机技术的飞速发展,Intemet已经成了一个巨大的并且时刻不停变换的信息库。如何精准有效地在如此海量且还在不断爆炸性膨胀的纷杂数据中找到我们所需要的信息,一直以来都是一个需要解决的问题,这将使互联网从以前的盲目膨胀,逐渐体现出其行之有效,提供便利的经济效益。而以目前市场占有率最高的Google、Baidu、Yahoo来看,使用的信息搜索技术都是基于关键词的全文匹配或是基于主题分类,基于此技术构建的检索系统的召回率和精确度都达不到完全令人满意的效果。根据上海研发公共服务平台构建科学数据共享服务网的计划,新

2、建和完善生命科学、化学化工,医学、资源环境等5个左右的科学数据中心,建设天然活性产物数据库、城市空间数据库、中药与有效成分数据库等15个左右特色和主体数据库,形成以数据中心为核心、以自建特色主体数据库群为主体的科学数据共享服务网;研究开发共享技术与服务平台,开展数据产品的综合分析和深度开发服务,增强科研人员获取和利用数据能力。而在数据共享服务网中,各领域的数据存在相互调用的情况,诸多科技资源来自于各个不同渠道,比如新闻、报纸、网站、文献,或来自不同的国家,对其的描述语言、方式和细节都可能存在差异。因此,在传统搜索引擎中,当用户需要查询某个科技资源的时候,如果使用自己理解的关键词进行搜索的话,查

3、询的结果可能满足不了用户的需求。根据中国互联网络信息中心发布的(2007年中国搜索引擎市场调查报告》显示,国内44.71%的网民会每天多次使用搜索引擎,可见近半数网民高度依赖搜索引擎提供的服务。另外,每天使用一次搜索引擎的用户也占到17.2%,这意味着每日使用搜索引擎用户数高达61.91%。由此可见,网民的搜索依赖性呈现增强趋势。目前国内比较著名的搜索引擎有Google、Baidu、Yahoo等。以Google为例,Google目前拥有10亿个网址,30亿个网页,3.9亿张图像,Google支持66种语言接口,16种文件格式。面对如此海量的数据时,人们希望通过网上信息检索迅速快捷找到自己所需要

4、的信息,这时传统的搜索引擎的弊端就逐渐显露出来。例如,用户输入一个关键词进行搜索,常常会找到与之相关联的很多网页,但其中可能只有--d,部分和检索需求有关,而其它大部分检索结果和检索需求无关或相关性较小,而由于每个网页内容都很多,有时候必须逐一阅读这些网页上4基于本体的科技资源搜索引擎设计与实现第一章绪论的信息才能找到真正的答案,且网上还有哪些相关的网页没有被检索出来也无从知道,这就是所谓的“础chdata,Poorinformation"。中国互联网使用调查报告显示:71%的用户在使用搜索引擎的时候遇到过麻烦;平均搜索12分钟以后法现搜索受挫;搜索受挫中46%都是因为链接错误;86%的互联网

5、用户感到需要出现更有效的、准确的信息搜索技术来解决这一问题。另一项由CNNIC所做的调查显示;人们平均每天有四个问题需要从外界获取答案;其中31%的人使用搜索引擎寻找答案;平均每周花费8.75个小时找寻答案;53.3%时间花在从旁人那里获得答案,29%的时间花在亲戚朋友身上,24.3%的是时间花在销售商那里;而在网上查找答案的,半数以上都不成功【11。因此,传统的搜索引擎己不能满足人们的需求。传统搜索引擎建立在简单的关键字匹配原理之上,其弊病主要在于三个方面:一是相关性信息太多。传统的搜索引擎返回的相关网页太多,用户很难快速准确地定位到所需的信息。例如,用户在Google上输入几个关键字,它有

6、可能返回成千上万个网页,用户将浪费很多时间在这些网页中查找自己所需要的信息。二是以关键词的逻辑组合来表达检索需求,因为人们的检索需求往往是非常复杂而特殊的,是无法以几个关键词的简单组合来表达的,这样用户都没有将自己的检索意图表达清楚,搜索引擎自然也就没有办法找出令用户满意的答案了。三是以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表层,而没有触及语义,因此检索效果很难进一步提高。试想,当用户输入“苹果”,搜索结果中既包含一种水果信息又有一个电脑品牌;当用户输入“牛顿”,搜索结果可能会同时反馈“牛顿第一定律"和“这头牛顿时没了力气"这样的结果。这种机械关键字匹配导致的信息混杂,给用

7、户按照自己的需求进行搜索时带来了极大的不便。为解决这一技术瓶颈,满足用户对科技资源的搜索的需求,本文从理论上研究并探讨一种针对科技资源领域,基于本体技术、语义理解和数据共享的搜索引擎,并深入分析构建该系统的核心技术,提供一种建立搜索引擎的思路。1.2国内外研究现状传统搜索引擎因为需求繁多,人机对话语言不统一,且对于大众用户而言,产生的经济价值不大,所以目前都是依赖简单的搜索引擎,将用户的问题与数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。