信息检索中基于mls的语言模型准确性分析1

ID：34639225

大小：187.84 KB

页数：8页

时间：2019-03-08

资源描述：

《信息检索中基于mls的语言模型准确性分析1》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、信息检索中基于MLS的语言模型准确性分析1蔡勋梁，赵军中国科学院自动化研究所模式识别国家重点实验室北京E-mail:{xlcai,jzhao}@nlpr.ia.ac.cn摘要：基于语言模型的信息检索技术是一种具有理论优势的信息检索框架，这种技术所面临的一大问题是如何为严重数据稀疏的小文档建立语言模型。许多经验性的平滑技术看似严重地偏离观测数据，似乎背离了建模的准确性原则，但却带来了良好的性能。信息检索中一直以来没有一个合适的关于概率建模的理论框架，来对比和分析语言建模过程中准确性。本文通过引入最大似然集（MLS）估计这一针对小样本数据的概率估计方法，在其概率解释的理论框架下，通过实验对比

2、，揭示了语言模型在信息检索任务中是用来表达语义的模型，其准确性不等价于字符概率估计的准确性。关键词：信息检索、语言模型、准确性、极大似然集1引言基于语言模型的信息检索技术，是近年来提出的一种具有自身理论基础的新的信息检索框架，而且不断被实验验证具有良好的性能，一直是信息检索领域的研究热点。它最初始的基本思想是为每篇文档估计一个语言模型，并依据从这些语言模型中生成查询的概率来对文档进行排序[1][2]。统计语言模型是一种用于描述某种语言或者语言中的某一部分现象的生成规律的模型，在[3][13]语音识别、光学字符识别、自然语言处理的许多领域都有很广泛的应用。在信息检索这一特定任务里，需要面对

3、海量文本进行大规模计算，这使得信息检索中无法采用复杂的语言模型，通常用的最多的是以词为单位的N元语言模型，尤其最常见的是Unigram模型[]。当以词为单位时，变量数目多，分布倾斜度大，这是自然语言所固有的特性。几乎所有的统计语言模型建模都不可避免地遇到数据稀疏的问题。在各项应用中为了避免估计结果中大量零概[4][5][6][7][8]率的出现并使得估计尽量地接近真实分布，许多平滑技术被提出来。在信息检索任务中，由于构建的是文档级别的语言模型，而文档篇幅通常很小，即便只是简单的Unigram模型，也面临更为严峻的数据稀疏问题。在信息检索的语言建模中，比较常用的平滑方法有线形插值平滑法[2

4、][7][9][10]、绝对折扣法、Dirichlet平滑法、两阶段平滑法等等，[ZhaiandLafferty,2001]对信息检[11]索中常见的平滑方法进行了比较与分析。然而，这些常见的基于平滑的估计方法，几乎都是经验性而无理论指导的，在实际应用中往往都是根据系统的表现相应地调节获取最佳参数。这些平滑后的估计，往往都不再遵循任何统计原则，有时甚至极大地偏离了观测数据，但却能在各自适合的领域表现出不错的性能。这使得研究者面临一个困惑，即在信息检索中，追求严格的数学方法、忠于观测数据、准确的建模到底有多大意义？或者说语言建模的准确性应该如何把握？一直以来，研究人员很难对这些问题有一个理

5、论性的把握。要回答这些问题，首先需要有一种具有理论性的好的小样本建模技术，能得到理论上更为准确的估计，并能提供一个概率建模的解释框架，在其之下才能方便地与常见的平滑估计进行对比。1本文受到国家自然科学基金项目60372016，北京市自然科学基金项目4052027的资助。本文首先将介绍一种专门针对小样本概率估计的极大似然集(MaximumLikelihoodSet，MLS)[12]估计技术，它以“相对大似然”原则为小样本数据获取一组理论上最优的概率估计；然后提出一种简便的策略，将这一复杂技术引入到信息检索中的语言建模上来；在此基础上利用这种方法概率建模的解释框架，结合实验对比和分析，去揭示

6、语言模型在信息检索中所扮演的不同于其它任务中的角色，并分析应该如何认识建模的准确性。本文接下来将如下组织：论文第二部分介绍极大似然集估计技术，第三部分介绍将极大似然集估计融入基于语言模型的信息检索技术中的方法，第四部分是实验和结果，第五部分给出结论和分析。2极大似然集估计极大似然集估计是一种针对小样本离散有限变量(n>>k不满足，n和k都是有限整数，其中n为[12]样本个数，k为变量空间的大小）的概率质量函数(ProbabilityMassFunction,p.m.f)估计方法。它用“相对大似然”原则来替代极大似然原则，给观测序列分配一个大于其它任意未见序列的概率质量，这使得观测序列的概

7、率估计由极大似然点扩展到了一个“极大似然集”，在该集合中必定拥有各维度非零的概率，同时还提供了融合先验的能力，可以根据先验知识在MLS中选择最合理的概率分布。其主要思想为：对于具有k个可能取值的随机变量X的n个观测样本组成的观测序列，由于次序不影响似然函数，因此将次序不同而似然函数形式相同的观测序列划成同一“类型”，根据“所见的‘类型’至少应比未见的‘类型’更可能发生”的原则，去获取一组使观测“类型”总体的概率质量函数大于其它任意未

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 8



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

信息检索中基于mls的语言模型准确性分析1

信息检索中基于mls的语言模型准确性分析1

相关文章

相关标签