em算法在统计自然语言处理中的应用

em算法在统计自然语言处理中的应用

ID:34530872

大小:185.41 KB

页数:3页

时间:2019-03-07

em算法在统计自然语言处理中的应用_第1页
em算法在统计自然语言处理中的应用_第2页
em算法在统计自然语言处理中的应用_第3页
资源描述:

《em算法在统计自然语言处理中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、维普资讯http://www.cqvip.com第27卷第l9期计算机工程与设计2006年l0月VO1.27NO.19ComputerEngineeringandDesignOct.2006EM算法在统计自然语言处理中的应用王继曾,刘宽,任浩征,罗恒(兰州理工大学计算机与通信学院,甘肃兰州730050)摘要:在统计自然语言处理中会经常遇到一类参数估值问题,就是当观察数据为不完全数据时如何求解参数的最大似然估计,EM算法就是解决这类问题的经典算法。给出了EM算法的基本框架,结合HMM和PCFG模型给出如何应用EM算法求解参数的极大似然估计,讨论了EM算法的优点

2、和不足之处。关键词:自然语言;EM算法;参数估计;似然函数;隐马尔科夫模型;概率上下丈无关文法中图法分类号:TP391文献标识码:A文章编号:1000.7024(2006)19.3715.03ApplicationofEMalgorithminstatisticalnaturallanguageprocessingWANGJi—zeng,LIUKuan,RENHao—zheng,LUOHeng(SchoolofComputerandCommunication,LanzhouUniversityofTechnology,Lanzhou730050,China)

3、Abstract:Instatisticalnaturallanguageprocessing,oneclassproblemisoftenencounteredthathowtoestimatetheparameter'smaximum—likelihoodestimationwhenobserveddatasetisincomplete.EMalgorithmistheclassicalmethodtosolvethisproblem.Thebasicfra-meworkoftheEMalgorithmisdescribed,andthenhowtoap

4、plytheEMalgorithmisdemonstratedtosolvetheproblemofmaximum—likelihoodparametersestimationcombinewiththemodelsofHMMandPCFG.Finally,theadvantagesanddisadvantagesofEMalgo-rithmarediscussed.Keywords:naturallanguage;EMalgorithm;parameterestimation;likelihoodfunction;hiddenMarkovmodel;pro

5、babilisticcontextfreegrammar0引言EM算法求解参数的极大似然估计,最后给出了结论。1EM算法基本框架随着大规模机器可读语料库的出现和计算机运行速度和存储容量的快速提高,经验主义在自然语言处理领域也得本文给出的基本框架可以参见文献[1~3]。EM算法的基到了迅速复兴。基于统计学习方法的引入已经使计算语言本思想是将问题求解分为两步,即E步骤(对完全数据集似然学领域发生了极大的改变,这种学习方法能够通过语料库的函数的对数求条件期望)和M步骤(对求出的期望值进行最大训练自动或部分自动处理语言学知识,对“知识获取瓶颈”问化),然后不断地迭代

6、E步骤和M步骤,直到求出极大值点为题的解决具有重要意义。止。算法的形式化描述如下:但是,在统计自然语言处理中会经常遇到这样一类参数假定完全数据集为z=y),数据集为观察到的数据集,估值问题,就是当可观察数据为不完全数据时如何求解参数y为缺失(或隐藏)的数据集,则z在参数集@上的关于、Y的的最大似然估计。EM算法就是解决这类问题的经典算法,联合密度函数为p(zlO)=p(x,ylO)=pfylx,o~1o),其中∈,∈EM(expectationmaximum)算法是由Dempster,Laird和Rubiny。此时完全数据集z的似然函数为L(Olz(@lYl

7、O)。于1997年提出来的,这种方法广泛应用于不完全数据的参EM算法的第1步(E步)就是找到对数似然函数logpYl数估计。@)在给定观测数据集和当前参数集@。时关于未知数据集EM算法有两个主要的应用“:一个是用于数据确有缺Y的期望值,也就是计算下式的值:失情况下的参数估计,另一个应用是通过假定存在另外一些Q(@,0“’)=E[1ogp(X,Yl@)lx,o“’]缺失参数(这些参数可能是不存在的或隐藏的),这样可以大其中O就是经过优化后的新的参数集,使函数Q的值在新的大简化似然函数。后一种在统计自然语言领域的应用更为参数下不断增加。普遍。本文首先给出了EM算

8、法通用的基本框架,然后结合EM算法的第2步(M步)为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。