2014.6.14-最大熵Maximum entropy

2014.6.14-最大熵Maximum entropy

ID:40554801

大小:611.00 KB

页数:6页

时间:2019-08-04

2014.6.14-最大熵Maximum entropy_第1页
2014.6.14-最大熵Maximum entropy_第2页
2014.6.14-最大熵Maximum entropy_第3页
2014.6.14-最大熵Maximum entropy_第4页
2014.6.14-最大熵Maximum entropy_第5页
资源描述:

《2014.6.14-最大熵Maximum entropy》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Maximumentropymodeling(一)0.写在前面的话初次接触最大熵的时候,有点觉得无厘头,因为熵是代表信息的混乱程度,那么最大熵不就是最大化信息的混乱程度?这样的模型能用吗?后来看了基本概念,最大熵是有前提的,就是要在保持我们的模型在符合已知信息的情况下,对未知信息保持最大熵。这个定义就简单明了的说明了最大熵的意义和条件。但具体如何应用呢?很多事情我们都是有个概念,但是对于具体怎么实现呢?在数学上的表现形式是什么呢?接下来根据自己的理解和部分参考文献介绍最一下大熵这个问题,争取做到既简单又

2、明了。主要参考《amaximumentropyapproachtonaturallanguageprocessing》。1.Introduction要对一个随机过程或者事件进行建模,要完成两个任务:1.决定有哪些捕捉到了这个随机过程或事件的统计量;将这些得到的统计量或者说facts用模型关联起来。2.Amaximumentropyoverview这里首先从一个实际的例子出发来引入maximumentropy的概念。假定我们现在面临的任务是:把英语单词in翻译成法语。我们的模型用p(f)来表示把这个单词翻

3、译成法语单词f的概率。为了能够更加准确的把in这个单词正确的翻译出来,我们收集了许多以前的翻译样本,这些我们收集的以前的翻译样本就构成了我们的训练集。现在我们应当做什么呢?自然是要先从收集的训练集中提取尽可能多和准确的有用的信息,然后把这个信息用来帮助我们构建我们的模型,其实就是用这个信息来合理的约束我们的模型,最后就用构建的模型来实现我们起初的任务。现在就要从训练集中提取信息了。通过观察,我们发现在训练集中in这个单词经常会被翻译为以下5个单词中一个:{dans,en,à,aucoursde,pend

4、ant}.利用这个信息,我们可以对我们的模型施加第一个约束,(一个泛泛的模型太多了,通过训练集中的信息逐步的施加约束,逐步的缩小模型的可行范围,到最后就可以确定求解出具体的模型了)。这个约束可以写成:上面这个式子代表了我们从训练集中提取的第一个信息。接下来,继续提取信息,施加约束,因为满足上述式子的模型也有很多啊,可以让第一项等于1,其他项都为0,即每次都把in翻译成dans。但这样显然不太合理。那假如说现在没有其他信息了,没有信息来进一步说明哪个词占得比例大一些,哪个词占得比例小一些,那怎样选择模型在

5、这5个单词上的概率才算合理呢?这时,我们都可以想到,最保险的做法就是让in被翻译成这5个单词的概率相等,也就是上面的这个模型就是对这5个词均匀分配,谁也不偏重,因为没有信息告诉我们要偏重谁啊,所以这个做法最保险,因为没有违背我们已知的信息(会被翻译成这5个词),也没有施加别的我们未知的假设。接下来,看能不能继续从训练集里挖掘信息呢?假如说我们现在有了一个新信息:在训练集中有30%的时候,in会被翻译成dans或者en。把这个信息写成概率形式施加到模型上,就得到:我们的模型越来越具体了,但是还是有很多分布

6、都可以满足上面的两个式子。假如说现在没有其他信息了,只知道我们的模型必须满足上面两个约束,那如何选取各个概率值呢?答案跟第一次选择分布的时候一样,最保险的做法就是让这5个单词在满足条件的情况下均匀分配,也就得到:上面的是比较简单的情况。假如说我们现在又观察到一个fact,就是有一半的时候,in会被翻译成dans和à。把这个信息再加入到上述的模型中,就得到:理论上,有了上面这个之后,我们大可以像之前一样,选择满足条件的情况下最均匀的分配各个单词的概率就行了。但是这时候就没有那么直观了。不能一下子写出来,但

7、是我们可以通过一定方法步骤求出来这个概率分布呀。那就遇到问题了,(1).我们要求的是最均匀分配的那个分布,那如何衡量这个均匀性“uniform”呢?(2).假如问题1解决了后,我们就沿着这个标准做就行了,那如何来具体找到那个mostuniform的model呢?大家想必也猜出来了,此时最大熵原理就应运而生了。3.最大熵建模(MaximumEntropyModeling)有了上面比较直观的例子后,接下来以比较正式的方式介绍最大熵建模。对于建模来说,我们的任务可以认为是要考虑一个输出为y∈?的随机过程,然后

8、构建一个可以准确表示这个过程的模型。具体到上面翻译的那个例子中,这个过程就是要产生一个in的对应翻译输出y∈{dans,en,?̀,aucoursde,pendant}.而产生y的这个过程可能会利用到别的context信息(例如上边我们发现的in后面跟着什么词有可能会被翻译成什么等)假定为x∈?.可以看出这样一个模型其实就是在估计给定contextx时,所估计的随机过程会输出y的条件概率p(y

9、x)∈?.(其中?,?,?就是所有的对应元素y

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。