第五章n-gram语言模型

第五章n-gram语言模型

ID:44978691

大小:621.02 KB

页数:78页

时间:2019-11-06

第五章n-gram语言模型_第1页
第五章n-gram语言模型_第2页
第五章n-gram语言模型_第3页
第五章n-gram语言模型_第4页
第五章n-gram语言模型_第5页
资源描述:

《第五章n-gram语言模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、关毅guanyi@hit.edu.cn研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室第五章n-gram语言模型1、n-gram语言模型附录1、语言模型构造实例附录2、最大熵模型的理论基础研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室本章主要内容噪声信道模型噪声信道模型目

2、标:通过有噪声的输出信号试图恢复输入信号研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室噪声信道模型的应用噪声信道模型是一种普适性的模型,通过修改噪声信道的定义,可以将如下应用纳入到这一模型的框架之中研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室噪声信道模型的应用-语音识

3、别一个声学信号对应于一个语句,一个语音识别器需找到其对应的可能性最大的语言文本根据贝叶斯公式研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室噪声信道模型的应用-语音识别信息源对应于以概率生成语句文本,噪声信道对应于以概率分布将语句文本转换成声音信号。语音识别的目的就是由通过噪声信道而输出的声音信号恢复其原始的语句文本。研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.A

4、llRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室噪声信道模型的其他应用信源以概率生成语句文本,信道为,语音/图像/翻译文本/字音转换模型手写体汉字识别文本-〉书写(或者打印、扫描)-〉图像文本校错文本-〉输入编辑-〉带有错误的文本机器翻译目标语言的文本-〉翻译-〉源语言文本音字转换文本-〉字音转换-〉汉字(拼音)编码研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合

5、实验室噪声信道模型的其他应用信源以概率生成词性标注序列,信道为词性标注序列转为词序列的转换模型词性标注词性标注序列-〉词性词串转换-〉词串研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室香农游戏(ShannonGame)ClaudeE.Shannon.“PredictionandEntropyofPrintedEnglish”,BellSystemTechnicalJournal30:50-64.195

6、1.给定前n-1个词(或者字母),预测下一个词(字母)从训练语料库中确定不同词序列概率研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室语言模型P(T):语言模型,如何计算P(T)?根据链规则问题:1、参数空间过大,无法实用!2、数据稀疏问题研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎

7、中国联合实验室基本思想“马尔科夫假设”-下一个词的出现仅仅依赖于它前面的一个词或者几个词.假设下一个词的出现依赖于它前面的一个词:bigram假设下一下一个词的出现依赖于它前面的两个词:trigram……研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室N-gram语言模型最大相似度估计(MaximumLikelihoodEstimate)“n-gram”=n个词构成的序列unigrambigramtri

8、gramfour-gram(quadgram4-gram)……研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。