提高网络信息搜索匹配准确率相关探究

提高网络信息搜索匹配准确率相关探究

ID:5953338

大小:26.50 KB

页数:5页

时间:2017-12-29

提高网络信息搜索匹配准确率相关探究_第1页
提高网络信息搜索匹配准确率相关探究_第2页
提高网络信息搜索匹配准确率相关探究_第3页
提高网络信息搜索匹配准确率相关探究_第4页
提高网络信息搜索匹配准确率相关探究_第5页
资源描述:

《提高网络信息搜索匹配准确率相关探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、提高网络信息搜索匹配准确率相关探究  摘要:步入信息化时代,人们获取信息的主要方式就是通过网络。Internet上的信息量不断更新增多,虽然为人们提供了丰富的信息资源,但是却也加大了人们搜索所需信息的难度。一些搜索引擎,诸如百度、Google等虽然提供了网页搜索的便捷方式,但由于关键词的匹配是信息检索技术的基础,因此搜索结果往往存在冗余及多余无用信息,搜索匹配准确率不高。如何在浩瀚如海的信息空间里快速、准确的查找到所需信息,是目前人们关注的焦点问题。关键词:网络信息搜索匹配准确率中图分类号:TP391文献标识码:A文章编号:1672-3791(2012)11(a)-0002-01

2、1搜索引擎技术基于Internet信息检索技术,将Internet上的网页间建立相关联的索引数据库,便于用户检索时在库中快速定位信息并提供信息给用户即为搜索引擎。搜索引擎由量大部分组成:前台和后台。例如:Google、百度等即为前台。前台主要用于为用户提供检索接口,依据用户的请求进行信息的检索,并反馈用户经过滤后的信息资源;后台用于实时搜集网页建立引擎。5搜索引擎可以大范围的进行信息源的检索,进一步提高召回率,且提升检索的全面性、综合性等。搜索引擎的缺点在于查询的时间相对较长。2造成网络信息搜索匹配准确率低下的因素(1)无关、重复信息过多。由于传统搜索引擎需要返回的网页有很多,而

3、且网页内存在大量无关且多余的信息,有部分网页内容相同,造成用户难以在海量信息中对所需信息准确、快速定位。(2)检索方式单一。由于通常情况下信息检索技术都是采用关键词匹配检索方式查询,关键词并不能将用户所需的信息资料准确的表达出来,或者用户很难找到合适的关键词进行查询。(3)关键词检索通常情况下仅使用词频信息,并没有涉及语义、句法及语用信息方面,所以只是在篇章或段落里面检索答案,并不是最明确的答案[1]。3网络信息搜索匹配原理信息搜索就是进行网络信息的快速匹配。词汇的检测、匹配需要依据语言特征,通过对基础语言词汇数据进行对比、对核才能完成。网络信息特征是传统信息搜索方法进行检索的依

4、据,但由于网络中的数据量较大,而且词汇存在相似的特征,造成网络中数据有很大一部分相似,传统的匹配搜索法检索结果会存在大量的非匹配词汇,用户在提取数据源时无法满足需求,导致搜索匹配准确率不高。4提高网络信息搜索匹配准确率的策略5(1)基于网页去重。在进行信息检索时将不同链接、却基本相同的信息资源进行后台整合,将多余的冗杂信息去除,就能够提高信息检索的精度及效率。(2)基于分面、分类。对一个概念进行不同角度的划分或将其分成不同的侧面,进行细分后编制能够替代主题词表的分类体系。这样用户进行信息检索时,先将检索到的关键词划分成为一些子类别,从中选择合乎自己要求的类别,选中后系统再次进行分

5、类,直到用户满意或系统分类到达节点。这样将其一步一步细化进行检索能够快速实现用户所需信息搜索,且准确率较高。(3)基于词频统计。统计法是信息检索的最基本方式之一。词频统计法又是最常用的统计方法。通常情况下作者都会在一篇文章中进行重点词语的强调,重点词语便会在文中反复出现。这样可以进行检索信息的关键词统计,并设置一个阈值,如果关键词出现的频率(词频率)超过了阈值,便会返回所对应的文章。还可以显示出关键词的顺序及在文中的位置。(4)基于自动文摘。科技的进步带动了自然语言处理技术的发展,使其得到了广泛的应用。用户在进行信息检索时,自然语言处理技术会对检索到的网页、文档进行自动抽取摘要信

6、息的功能,用户依据文摘选择符合自己需求的信息进行浏览,这样提高了检索的准确性及效率。5(5)基于知识的表示及处理。将与世界事实、关系及过程等信息编码,使其成为科学的数据结构即为知识表示。语义网络及产生式表示法是常见的两种知识表示法。采用知识表示方法进行信息检索,对于具有相同意义的关键词检索,当输入关键词以后,搜索的信息能够将同义的描述显示出来。(6)基于超链接技术。超链接是一种网状检索,能够进行沿链访问,是以超链接网络作为浏览基础进行浏览的方式。当网络中的信息、文档依照不同的主题进行分类存储以后,主题词表以及分类体系间所具备的相关联系会形成网状的结构。将分类体系中的类作为一个节点

7、,相互间的关系作为链,就形成了网状体系,在此基础上能够进行超链接检索。(7)基于语料库。语言的词汇、语义、语法结构及语用信息都属于语料库范围。语料库是进行信息检索、统计、比较研究的基础。目前自然语言处理的各环节已经融入了语料库研究,并有机结合自然语言处理方法,有效的促进了对用户检索意图的理解,加深了知识表示,极大的推动了信息检索匹配的准确性。(8)基于合适的网络检索工具。检索需求不同可以采用不同的检索引擎、专题数据库及主题指南等。这样可以较为准确的检索出所需的信息资料,提高搜索匹

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。