lecture6 信息检索导论第6章.ppt

lecture6 信息检索导论第6章.ppt

ID:57318356

大小:302.00 KB

页数:30页

时间:2020-08-11

lecture6 信息检索导论第6章.ppt_第1页
lecture6 信息检索导论第6章.ppt_第2页
lecture6 信息检索导论第6章.ppt_第3页
lecture6 信息检索导论第6章.ppt_第4页
lecture6 信息检索导论第6章.ppt_第5页
资源描述:

《lecture6 信息检索导论第6章.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第6讲文档评分、词项权重计算及向量空间模型上一讲回顾参数化索引及域索引词项频率及权重计算向量空间模型1提纲上一讲回顾排序式检索词项频率词项频率tf-idf权重计算向量空间模型23本讲内容对搜索结果排序(Ranking):为什么排序相当重要?词项频率(TermFrequency,TF):排序中的重要因子Tf-idf权重计算方法:最出名的经典排序方法向量空间模型(Vectorspacemodel):信息检索中最重要的形式化模型之一(其他模型还包括布尔模型和概率模型)34排序式检索(Rankedretriev

2、al)迄今为止,我们主要关注的是布尔查询文档要么匹配要么不匹配对自身需求和文档集性质非常了解的专家而言,布尔查询是不错的选择对应用开发来说也非常简单,很容易就可以返回1000多条结果然而对大多数用户来说不方便45布尔搜索的不足:结果过少或者过多布尔查询常常会倒是过少(=0)或者过多(>1000)的结果查询1(布尔与操作):[standarduserdlink650]→200,000个结果–太多查询2(布尔与操作):[standarduserdlink650nocardfound]→0个结果–太少在布尔检

3、索中,需要大量技巧来生成一个可以获得合适规模结果的查询56排序式检索排序式检索可以避免产生过多或者过少的结果大规模的返回结果可以通过排序技术来避免只需要显示前10条结果不会让用户感觉到信息太多前提:排序算法真的有效,即相关度大的文档结果会排在相关度小的文档结果之前67排序式检索中的评分技术我们希望,在同一查询下,文档集中相关度高的文档排名高于相关度低的文档如何实现?通常做法是对每个查询-文档对赋一个[0,1]之间的分值该分值度量了文档和查询的匹配程度78查询-文档匹配评分计算如何计算查询-文档的匹配得分

4、?先从单词项查询开始若该词项不出现在文档当中,该文档得分应该为0该词项在文档中出现越多,则得分越高后面我们将给出多种评分的方法896.1参数化索引及域索引我们将文档看成一系列词项的序列。实际上大多数文档具有额外的结构信息。元数据(DC都柏林核心)9101112图6-2基本的域索引示意图,每个域采用词典项的某种扩展表示方法图6-3一种域索引的实现方法,支持加权评分1213域加权评分给定一个布尔查询q和一篇文档d,域加权评分方法给每个(q,d)对计算出一个[0,1]之间的得分。例6-1练习:习题6-2131

5、46.2词项频率及权重计算词项频率Tf-idf权重计算14156.2.1词项频率每篇文档可以看成是一个二值的向量∈{0,1}

6、V

7、AnthonyandCleopatraJuliusCaesarTheTempestHamletOthelloMacbeth...ANTHONYBRUTUSCAESARCALPURNIACLEOPATRAMERCYWORSER...1110111111100000000110110011001001110100101516非二值关联矩阵(词频)每篇文档可以表示成一个词频向量∈N

8、

9、V

10、AnthonyandCleopatraJuliusCaesarTheTempestHamletOthelloMacbeth...ANTHONYBRUTUSCAESARCALPURNIACLEOPATRAMERCYWORSER...157423205722731572271000000000310220081001005110000851617词袋(Bagofwords)模型不考虑词在文档中出现的顺序JohnisquickerthanMary及MaryisquickerthanJohn的表示结果一样

11、这称为一个词袋模型(bagofwordsmodel)在某种意思上说,这种表示方法是一种“倒退”,因为位置索引中能够区分上述两篇文档本课程后部将介绍如何“恢复”这些位置信息这里仅考虑词袋模型1718词项频率tf词项t的词项频率tft,d是指t在d中出现的次数下面将介绍利用tf来计算文档评分的方法第一种方法是采用原始的tf值(rawtf)但是原始tf不太合适:某个词项在A文档中出现十次,即tf=10,在B文档中tf=1,那么A比B更相关但是相关度不会相差10倍相关度不会正比于词项频率tf1819一种替代原始

12、tf的方法:对数词频t在d中的对数词频权重定义如下:tft,d→wt,d:0→0,1→1,2→1.3,10→2,1000→4,等等19206.2.2DF权重除词项频率tf之外,我们还想利用词项在整个文档集中的频率进行权重和评分计算2021罕见词项所期望的权重罕见词项比常见词所蕴含的信息更多考虑查询中某个词项,它在整个文档集中非常罕见(例如ARACHNOCENTRIC).某篇包含该词项的文档很可能相关于是,我们希望像ARACHNOCENTRI

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。