信息检索复习重点

信息检索复习重点

ID:33861978

大小:325.65 KB

页数:5页

时间:2019-03-01

信息检索复习重点_第1页
信息检索复习重点_第2页
信息检索复习重点_第3页
信息检索复习重点_第4页
信息检索复习重点_第5页
资源描述:

《信息检索复习重点》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、信息检索课程复习重点内容一、综述章节:1、信息检索的定义和意义。定义:从非结构化的文档集中找出与用户需求相关的信息。意义:大多数信息都是文本形式的,没有预先定义的格式;在非结构化信息中,包括文本信息和多媒体信息,但是文本信息最简洁,最抽象,是人类记载知识的最主要的工具;传统管理软件需要嵌入IR技术;互联网数据的增长和在线文档(如联机用户手册等)的增长,向IR技术提出迫切需求。2、IR系统的体系结构和组件。体系结构:组件:文本处理形成索引词:删除停用词、提取词干(Stemming);建索引:为文档建立倒排索引表;搜索:根据倒排索引表

2、检索出与提问相关的文档;排序:将检索出的文档根据相关性排序;用户界面:管理和用户的交互过程(包括提问输入和文档输出、相关反馈、结果的可视化);提问操作:对提问进行变换,以改进检索结果(根据同义词词典(thesaurus)对提问进行扩展、利用相关反馈对提问进行变换)。3、信息检索质量的评价方式:准确率和召回率的定义和计算方法。偶然事件表:属于此类不属于此类判定属于此类ab判定不属于此类cd准确率(precision)=a/(a+b)召回率(recall)=a/(a+c)4、例举信息检索的应用若干。数字图书馆、内容安全、商务智能、电子政务

3、、远程教育、移动计算、军事情报、电子商务等。二、信息检索模型:1、信息检索模型的表示。四元组[?,Q,F,R(??,??)]D:文档集的机内表示Q:用户需求的机内表示F:文档表示、查询表示和它们之间的关系的模型框架(Frame)R(??,??):给queryqi和documentdj评分2、信息检索模型的分类。布尔模型、向量空间模型、概率模型、知识模型。3、布尔模型的优缺点。优点:查询简单,容易理解通过使用复杂的布尔表达式,可以很方便地控制查询结果缺点:不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回非常刚性:“与”

4、意味着全部;“或”意味着任何一个很难表示用户复杂的需求很难控制被检索的文档数量很难对输出进行排序很难进行自动的相关反馈4、向量空间模型是基于什么来表达的?基于关键词5、向量空间模型中两种常用的相似度比较算法:内积与余弦相似度的计算方法。内积(文档向量与查询向量的内积):文档D和查询Q可以通过内急进行计算:tsim(Di,Q)=∑(dik⋅qk)k=1dik是文档di中的此项k的权重,qk是查询Q中此项k的权重。余弦相似度(计算文档向量与查询向量的夹角的余弦):∑?(?⋅?)?=1?????????(??,?)=√∑??2⋅∑??2?

5、=1???=1?6、向量空间的关键词权重的计算方法是什么?根据词项在文档(tf)和文档集(idf)中的频率(frequency)计算词项的权重:tfij=词项j在文档i中的频率dfj=词项j的文档频率=包含词项j的文档数量idfj=词项j的反文档频率=log2(?/???)词项权重wij=????⋅????=????⋅log2?/???一个在当前文档中频繁出现,但是在剩余的其它文档中很少出现的词项获得较高的权重。7、概率模型基于什么理论?代数理论三、检索的改进技术1、有几种文本表示形式,分别为。字符串、词的集合、语言单元(如名词、短语)2

6、、中文检索系统主要有哪两种方案。基于字的检索按单字建立索引,需要在检索时进行逻辑运算;基于词的检索按词建立索引,检索时直接命中。3、中英文的异文合并方法分别有哪几种?英文(提取词干、形态还原):查表、词缀删除、后继变化数;中文(繁简转化):码对转换、字对转换词对转换。4、齐普夫定律的描述和意义?描述:1Rank(?)表示在按词频(f)降序排列的词表中所处的位置。Zipf(1949)发现:f∝rf⋅r=k(forconstantk)。??如果rank为r的词的概率为pr,N是所有词出现的次数:pr==,forcorpus??indepen

7、dentconstantA≈0.1。意义:好消息:停用词在文本中占的比重很大,排除停用词可以极大地节省索引文件的磁盘空间;坏消息:对大多数词来说,进行词汇之间的相关分析并不容易,因为它们出现的比较少。5、索引项选择的指导原则是什么?选择分辨力强的索引项6、倒排文档的组成并详述各个组成部分。倒排文档一般由两部分组成:词汇表(vocabulary)和记录表(postinglist)词汇表是文本或文本集合中所包含的所有不同单词的集合。对于词汇表中的每一个单词,其在文本中出现的位置或者其出现的文本编号构成一个列表,所有这些列表的集合就称为记录表

8、7、索引的过程与检索的过程是怎么样的。索引的过程:识别文档中的词删除停用词(stopwords)提取词干(stemming)用索引项的标号代替

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。