毕业论文--自然语言概率语法模型(N-gram)的研究

毕业论文--自然语言概率语法模型(N-gram)的研究

ID:35594584

大小:287.00 KB

页数:10页

时间:2019-03-30

毕业论文--自然语言概率语法模型(N-gram)的研究_第1页
毕业论文--自然语言概率语法模型(N-gram)的研究_第2页
毕业论文--自然语言概率语法模型(N-gram)的研究_第3页
毕业论文--自然语言概率语法模型(N-gram)的研究_第4页
毕业论文--自然语言概率语法模型(N-gram)的研究_第5页
资源描述:

《毕业论文--自然语言概率语法模型(N-gram)的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、新疆师范大学数理信息学院2008届信息与计算科学专业毕业论文自然语言概率语法模型(N-gram)的研究2008年5月12日自然语言概率语法模型(N-gram)的研究(10)新疆师范大学数理信息学院2008届信息与计算科学专业毕业论文亚克甫.斯依提新疆师范大学数理信息学院数学系信息与计算科学03-6班摘要:本文主要介绍了基于语料库的自然语言处理技术,即语料库语言模型中常用的统计语言模型N-gram的研究,及其在语料库自然语言处理中的应用。对语料库的概率统计及在这过程中出现的一些问题的解决方法进行了比较系统的讨论,使读者对N-gram模

2、型及其应用得到初步的理解。关键词:马尔可夫模型;N-gram模型;复杂度(困惑度);平滑算法;后继统计训练算法。自然语言概率语法模型(N-gram)的研究1、引言自然语言处理(10)新疆师范大学数理信息学院2008届信息与计算科学专业毕业论文是一项十分龙大而繁复的工程,它是自然科学和社会科学交叉的学科。自然语言处理的目的是实现计算机对语言信息的自动分析和理解。它的研究具有很强的生命力,是当代科学新的生长点,这不仅对信息科学,而且对人知语言学,心理学,以及对国民经济和社会的发展都会起到推动作用。近几年来,全球范围内的自然语言处理学界兴

3、起了对大规模语料库的研究兴趣。这主要是因为计算机产业和信息处理的迅速发展,计算机的存储能力和运算速度大大提高,使得在计算机中存储大量的文本和文本方便快速地扫描,检索成为可能;因特网上的电子文本数量与日俱增,可以比较容易地获得大量语料。另外语音识别领域在20世界70年代开始逐渐采用概率模型替代原来的基于规则的识别手段,概率模型的参数是通过大量语声语料经行统计顺练得来的。概率模型的识别效果大大优于使用规则的方法,这给自然语言处理领域对文本语料的研究提供了有益的借鉴。2、N-gram及其在语料库处理方面的应用2.1基于语料库的语言模型语料

4、库的语言模型可分为两种类型,即其于知识的语言模(规则模型)和统计语言模型,基于知识的语言模型是利用形式语法理论,文法规则和句法树经行研究的。自然语言句法,语义分析的最基础的理论是Chomsky的形式语法理论。由于知识的语言模型进展缓慢,因此由于大规模真实语料库的统计语言模型自20世纪80年代以来逐渐成为自然语言研究的热点。统计语言模型是用概率统计的方法揭示语言单位内在的统计规律。假设一个句子可以表示为一个序列语言模型就是要求句子w的概率:=这个概率的计算量太大,解决问题的方法是将所有历史按照某个规则映射到等价类等价类的数目远远小于不

5、同历史的数目当两个历史的最近的N-1个词(或)字相同时,映射两个历史到同一个等价类,在此情况下的模型称之为N-gram模型。2.2马尔可夫模型自然语言可以假设成是一个马尔可夫信源产生,该信源的符号集就是语言的最小单位词,信源不断的发出符号,这些符号串形成句子,文本或者语料库。假设由词串构成的句子它的概率可由条件概率得到P(w)==.=..(10)新疆师范大学数理信息学院2008届信息与计算科学专业毕业论文=..………..(1)这里称为n元文法式(1)在于计算公式的值,精确的是不可知的,只能采用估计值,用频率逼近,即:(2)其中,和是

6、词串和在训练语言模型时出现在训练语料库中的次数,假定大数定理成立,只要训练语料库的容量足够大,频率便趋近概率。2.3N-gram模型该模型基本这样一种假设,在词串中第个词的出现只与前面-1个词相关(=1,2….n),而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积,即:=也就是说,设n-1阶马尔可夫过程产生的词集串,第i个词wi的概率是由前i-1个词的条件概率给出的:P(wi/w1w2……wi-1)≈P(wi/wi-(N-1)……wi-2wi-1)(3)假设句子中第i个词的概率为:P(wi/wi-(N-1)…#wi-j…w

7、i-1)=P(wi/#wi-j…wi-1)(4)P(wi/wi-(N-1)…$wi-j…wi-1)=P(wi/$wi-j…wi-1)(5)式(4)中#是句子的开始符,式(5)中$是句子的结束符。N-gram模型的参数数量是Rn,其中R是词数,参数是由统计语料文本得来的,n的值不能太大,否则计算会很大。当n=1时的N-gram模型称为unigram模型,此时=这种模型假定语言单元之间相互独立,求解仅利用了语言单元的统计频度信息。(10)新疆师范大学数理信息学院2008届信息与计算科学专业毕业论文当n=2时的N-gram模型称为bigr

8、am模型,此时≈当n=3时的N-gram模型称为trigram模型,此时≈2.4转移概率的稀疏数据问题与平滑处理当语料库的规模不是足够大的条件下,大多数词或邻接词的搭配在语料中出现的词数都很少,甚至根本不出现。这样就形成了数据稀疏现象

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。