2014.6.14-最大熵Maximum entropy

ID：40554801

大小：611.00 KB

页数：6页

时间：2019-08-04

资源描述：

《2014.6.14-最大熵Maximum entropy》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、Maximumentropymodeling(一)0.写在前面的话初次接触最大熵的时候，有点觉得无厘头，因为熵是代表信息的混乱程度，那么最大熵不就是最大化信息的混乱程度？这样的模型能用吗？后来看了基本概念，最大熵是有前提的，就是要在保持我们的模型在符合已知信息的情况下，对未知信息保持最大熵。这个定义就简单明了的说明了最大熵的意义和条件。但具体如何应用呢？很多事情我们都是有个概念，但是对于具体怎么实现呢？在数学上的表现形式是什么呢？接下来根据自己的理解和部分参考文献介绍最一下大熵这个问题，争取做到既简单又

2、明了。主要参考《amaximumentropyapproachtonaturallanguageprocessing》。1.Introduction要对一个随机过程或者事件进行建模，要完成两个任务：1.决定有哪些捕捉到了这个随机过程或事件的统计量；将这些得到的统计量或者说facts用模型关联起来。2.Amaximumentropyoverview这里首先从一个实际的例子出发来引入maximumentropy的概念。假定我们现在面临的任务是：把英语单词in翻译成法语。我们的模型用p(f)来表示把这个单词翻

3、译成法语单词f的概率。为了能够更加准确的把in这个单词正确的翻译出来，我们收集了许多以前的翻译样本，这些我们收集的以前的翻译样本就构成了我们的训练集。现在我们应当做什么呢？自然是要先从收集的训练集中提取尽可能多和准确的有用的信息，然后把这个信息用来帮助我们构建我们的模型，其实就是用这个信息来合理的约束我们的模型，最后就用构建的模型来实现我们起初的任务。现在就要从训练集中提取信息了。通过观察，我们发现在训练集中in这个单词经常会被翻译为以下5个单词中一个：{dans,en,à,aucoursde,pend

4、ant}.利用这个信息，我们可以对我们的模型施加第一个约束，（一个泛泛的模型太多了，通过训练集中的信息逐步的施加约束，逐步的缩小模型的可行范围，到最后就可以确定求解出具体的模型了）。这个约束可以写成：上面这个式子代表了我们从训练集中提取的第一个信息。接下来，继续提取信息，施加约束，因为满足上述式子的模型也有很多啊，可以让第一项等于1，其他项都为0，即每次都把in翻译成dans。但这样显然不太合理。那假如说现在没有其他信息了，没有信息来进一步说明哪个词占得比例大一些，哪个词占得比例小一些，那怎样选择模型在

5、这5个单词上的概率才算合理呢？这时，我们都可以想到，最保险的做法就是让in被翻译成这5个单词的概率相等，也就是上面的这个模型就是对这5个词均匀分配，谁也不偏重，因为没有信息告诉我们要偏重谁啊，所以这个做法最保险，因为没有违背我们已知的信息（会被翻译成这5个词），也没有施加别的我们未知的假设。接下来，看能不能继续从训练集里挖掘信息呢？假如说我们现在有了一个新信息：在训练集中有30%的时候，in会被翻译成dans或者en。把这个信息写成概率形式施加到模型上，就得到：我们的模型越来越具体了，但是还是有很多分布

6、都可以满足上面的两个式子。假如说现在没有其他信息了，只知道我们的模型必须满足上面两个约束，那如何选取各个概率值呢？答案跟第一次选择分布的时候一样，最保险的做法就是让这5个单词在满足条件的情况下均匀分配，也就得到：上面的是比较简单的情况。假如说我们现在又观察到一个fact，就是有一半的时候，in会被翻译成dans和à。把这个信息再加入到上述的模型中，就得到：理论上，有了上面这个之后，我们大可以像之前一样，选择满足条件的情况下最均匀的分配各个单词的概率就行了。但是这时候就没有那么直观了。不能一下子写出来，但

7、是我们可以通过一定方法步骤求出来这个概率分布呀。那就遇到问题了，(1).我们要求的是最均匀分配的那个分布，那如何衡量这个均匀性“uniform”呢？(2).假如问题1解决了后，我们就沿着这个标准做就行了，那如何来具体找到那个mostuniform的model呢？大家想必也猜出来了，此时最大熵原理就应运而生了。3.最大熵建模（MaximumEntropyModeling）有了上面比较直观的例子后，接下来以比较正式的方式介绍最大熵建模。对于建模来说，我们的任务可以认为是要考虑一个输出为y∈?的随机过程，然后

8、构建一个可以准确表示这个过程的模型。具体到上面翻译的那个例子中，这个过程就是要产生一个in的对应翻译输出y∈{dans,en,?̀,aucoursde,pendant}.而产生y的这个过程可能会利用到别的context信息（例如上边我们发现的in后面跟着什么词有可能会被翻译成什么等）假定为x∈?.可以看出这样一个模型其实就是在估计给定contextx时，所估计的随机过程会输出y的条件概率p(y

9、x)∈?.（其中?，?，?就是所有的对应元素y

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

2014.6.14-最大熵Maximum entropy

2014.6.14-最大熵Maximum entropy

相关文章

相关标签