尚文清信息检索计算机应用技术

尚文清信息检索计算机应用技术

ID:35544471

大小:58.95 KB

页数:5页

时间:2019-03-26

尚文清信息检索计算机应用技术_第1页
尚文清信息检索计算机应用技术_第2页
尚文清信息检索计算机应用技术_第3页
尚文清信息检索计算机应用技术_第4页
尚文清信息检索计算机应用技术_第5页
资源描述:

《尚文清信息检索计算机应用技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、信息检索摘要:本文中主要是对信息检索、信息搜索、问答搜索、信息抽取、信息过滤、信息推荐的概念的一些理解及他们之间的区别。有学者将信息检索最本质的部分概括为:对信息集合与需求集合的匹配与选择。通俗一点来说,就是用户提出信息需求,需求表达方式可能是一个或组检索词、也可能是一幅图像、甚至是哼出的一段旋律。信息的集合是经过整理或序化的,信息可以是文本型,也可以是音频、视频、图像、图形,甚至是上述种类信息综合而成的多媒体信息。信息既可以是结构化的信息,如各种文献数据库的记录或XML文件,也可以是非结构的信息,如HTML页

2、面或图像。经典的信息检索技术主要是检索文本信息,后来为了检索音频、视频、图像等多媒体信息,就通过如下方法来实现:①先将这些非文本信息进行著录,也就是文字性描述,然后再利用文本信息检索的技术来实现检索;②直接基于音频、视频、图像的内容来实现检索。经典意义上的信息检索所处理的信息集合在一段时间内保持相对稳定不变,用户的信息需求则是不断变化的。例如,搜索引擎系统的有序信息集合在一段时间内保持不变(变化情况取决于系统的更新频率,可能是一个星期也可能是几天),而这些信息集合在网络上接受成千上万的来自不同用户的不同的检索请

3、求。下面将要讲到的信息推荐和信息过滤所面对的信息集合则相对是动态的,而来自用户的信息需求则相对不变或变化甚小,它们都可以看成是经典信息检索的一个的检索任务。[1]信息搜索搜索引擎是为满足人们对网络信息的搜索需求而新兴的一种网络工具,它利用网络自动搜索功能,对各种信息资源分门别类地进行标引、建库,并对信息进行理解、提取、组织和处理,从而起到信息导航的作用,帮助人们从不同形式的数字化信息中进行搜索。搜索引擎起源于传统的信息全文检索理论。狭义上的搜索引擎仅指基于因特网的搜索引擎;广义上的搜索引擎除此之外还包括基于目录

4、的信息检索服务。搜索引擎的研究极具综合性和挑战性,它涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的关键理论和技术,其核心问题是数据库的规模、索引数据库的质量和标引质量[2]。为适应发展,新一代搜索引擎的关键技术应运而生,带有明显的智能特征,因此被称为智能搜索引擎[3]。问答系统知识问答搜索引擎[3](AnswersSearching),是基于搜索的互动式问答平台,也称为问答式检索系统或问答系统。如同web2.0环境下的BBS,用户通过开放注册提问和回答问题

5、,随着时间的推移,这些问题形成大量的知识库,通过搜索实习知识的分享。知识问答搜索引擎支持用户通过以自然语言形式提问(如:什么是3G)。与基于网页对搜索引擎不同的是,知识问答搜索引擎给出的是问题的答案而不是链接,而且其本身也是一种服务。知识问答搜索引擎是搜索引擎自身为适应网络信息环境和用户需求发展到web2.0时代而提供的服务,在web2.0的新环境中,用户越来越喜欢分享、同创和参与的网络文化。知识问答搜索引擎具备如下基本特征:是基于开放的、借助网络人力资源的、有悬赏机制(荣誉积分)的互动式问答平台。知识问答搜索

6、引擎是充分利用网络人力资源来解决问题的成功体现,在互联网上每个人都可能是某一个方面的“专家”,而由这些“专家”来解答其擅长的问题,显然是再适合不过的。和搜索引擎紧密结台。严格来说,知识问答搜索引擎不是真正的搜索引擎,值所以被称为搜索引擎,主要是由于这些系统一般基于母体搜索引擎强大的用户群从而得到很好的发展,问答知识作为web页面内容被众多搜索引擎大量索引,并被用户利用。强调对知识的沉淀和分享。用户通过开放注册提问和回答问题,随着时间的推移,这些问题形成大量的知识库,通过搜索实习知识的分享。信息抽取[4]信息抽取

7、:抽取与用户所需内容相关的事实(件),用户分析事实(件)。信息抽取是一个输入/输出过程输入:未知文本信息输出:固定格式、无二义性数据(信息)这些被抽取出来的数据可以:直接显示给用户,存储于数据库或电子表格中以供随后分析信息检索和信息抽取对比:信息检索仅仅从文件集(数据库)中找出相关的文献(数据)并简单地显现给用户而信息抽取不是仅仅是指出某篇文献适合用户的需要,而是抽取真正适合用户的那些信息片段提供给用户信息检索和信息抽取对比总结[4]功能不同处理技术不同:信息检索系统通常利用统计及关键词匹配等技术,把文本看成词

8、的集合(bagsofwords),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成适用领域不同:由于采用的技术不同、信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。信息过滤[1]信息过滤是指计算机根据用户提供的一个过滤需求(userProfile),从动态变化的信

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。