词项(Term)加权问题细节

ID：39389547

大小：360.31 KB

页数：31页

时间：2019-07-02

资源描述：

《词项(Term)加权问题细节》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、IR（继续）参考JaimeCarbonell讲稿和《ModernInformationRetrieval》1Today’sTopics词项（Term）加权问题细节GeneralizedVectorSpaceModel(GVSM)最大边界相关法（MaximalMarginalRelevance）SummarizationasPassageRetrieval（基于片段提取的综述）2词项加权问题我们有了“共有词汇”假设：“文档”和“查询”等价于它们含有的词汇集合，它们的相关性可以完全由共有词汇的情况来决定向量空间模型最简单的：二元向量

2、，只是刻画一个词项的出现与否稍复杂些：计数向量，刻画一个词项在文档（查询）出现的次数一般的：我们可以考虑“以文档集合为背景，一个词项在一篇文档中的权重”3TermWeightingRevisited(1)Definitionswi“ithTerm:”词,词根,或者索引的短语，统称“词项”Dj“jthDocument:”文本索引的单位，例如，一篇网页，一个新闻报道，一篇文章，一个专利，一个法律案例，一本书，书的一章，等等。（根据需要确定这个基本单位）4TermWeightingRevisited(2)DefinitionsC，一个

3、收藏（收集，Collection）：一个索引文档的集合（例如，1998年人民日报的所有文章，Web等）Tf(wi,Dj)“TermFrequency:”，词频，wi在文档Dj中出现的次数。人们有时候通过除以该文档中最大的非停用词的TF对Tf进行规格化[Tfnorm=Tf/max_TF].5TermWeightingRevisited(3)DefinitionsDf(wi,C)“documentfrequency,文档频率:”，wi至少在其中出现一次的文档的个数.Df通常，我们取规格化的结果，即除以C中的文档总数。IDf(wi,C

4、)“InverseDocumentFrequency”:[Df(wi,C)/size(C)]-1.多数情况下人们用log2(IDf)，而不是直接的IDf。6TermWeightingRevisited(4)词项在TfIDf意义下的权重（相对于一个文档）一般来讲：TfIDf(wi,Dj,C)=F1(Tf(wi,Dj)*F2(IDf(wi,C))通常，F1=0.5+log2(Tf),orTf/Tfmaxor0.5+0.5Tf/Tfmax通常，F2=log2(IDf)，“抑制函数”在Salton的SMARTIR系统中：TfIDf(wi

5、,Dj,C)=[0.5+0.5Tf(wi,Dj/Tfmax(Dj)]*log2(IDf(wi,C))7TFIDF的（启发式）含义一个词项在一篇文档中的“重要性”和它在该文档中出现的次数成正比（局部）和它在文档集合中涉及文档的个数成反比（全局）重要性设计的目地区别两个文档对同一个查询的相关程度共有词（频）越多，则相关程度应该越高（同一性强）如果一个共有词在文档集合中出现得很普遍，则由它反映的相关程度应该越低（区分性差）8探个究竟K.Papineni,“WhyInverseDocumentFrequency,”Proc.NorthA

6、mericanAssociationforComputationalLinguistics,2001,pp.25-32.证明了IDF在某种距离函数意义下的优化特性。9TermWeightingbeyondTfIDf(1)概率模型传统概率方法（计算q和d相关的概率）R.R.Korfhage,InformationStorageandRetrieval.JohnWiley&Sons,Inc.,NewYork,1997G.Marchionini,InformationSeekinginElectronicEnvironments.Ca

7、mbridgeUniversityPress,NewYork,1995Improvesprecision-recallslightly完整的统计语言学模型(CMU)Improvesprecision-recallmoresignificantly概率模型的共同缺点是计算效率不够高10TermWeightingbeyondTfIDf(2)神经网络理论上有吸引力不幸的是，基本谈不上什么可扩展性（规模不能大）模糊集合研究还不够深入，也会有扩展性的困难11TermWeightingbeyondTfIDf(3)自然语言分析法首先分析和理解

8、D’s&Q采用某种基于自然语言理解的IR理论，从{d}中获取和q相关的子集一般来讲，自然语言理解依然是一个尚待解决的问题即使我们能做，还有一个可扩展性问题到现在为止，自然语言理解的方法只在很有限的领域对IR有所改善。12GeneralizedVectorSpac

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 31



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

词项(Term)加权问题细节

词项(Term)加权问题细节

相关文章

相关标签