中文信息学报

中文信息学报

ID:37697221

大小:292.90 KB

页数:7页

时间:2019-05-29

中文信息学报_第1页
中文信息学报_第2页
中文信息学报_第3页
中文信息学报_第4页
中文信息学报_第5页
资源描述:

《中文信息学报》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中文信息学报第20卷第4期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.20No.4文章编号:1003-0077(2006)04-0068-073基于trigram语体特征分类的语言模型自适应方法梁奇,郑方,徐明星,吴文虎(清华大学计算机科学与技术系智能技术与系统国家重点实验室语音技术中心,北京100084)摘要:本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法。自适应采用了几种不同的计数意义上的插值算法。考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值。基于trigram语体特征分类的自适应算法根据trigram单元的语

2、体特征倾向动态分配权值,并选取了几种不同的权值生成函数。对口语语料做音转字的实验证明,使用这几种自适应算法可以让基准模型的性能有不同程度的提高,其中综合考虑单元可信度和特征倾向的算法效果最好,相对于本文的两个基准的汉字错误率下降率分别达到了5012%和2317%。关键词:计算机应用;中文信息处理;统计语言模型;trigram;自适应;语体;插值算法中图分类号:TP391文献标识码:ALanguageModelAdaptationBasedontheClassificationofaTrigram’sLanguageStyleFeatureLIANGQi,ZHENGFang,XUMing2xi

3、ng,WUWen2hu(TheStateKeylaboratoryofIntelligenceTechnologyandSystem,DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China)Abstract:Inthispaper,alanguagestylebasedadaptivemethodforlanguagemodelisproposedbasedonthediffer2encesbetweenoralandwrittenlanguages.Severalinterpolatio

4、nmethodsbasedontrigramcountsareusedfortheadap2tation.AninterpolationmethodconsideringKatzsmoothingcomputesweightsaccordingtotheconfidencescoreofatrigram.Anadaptationmethodbasedontheclassificationofatrigram’sstylefeaturecomputesweightsdynamicallyaccordingtothetrigram’slanguagestyletendencywithsevera

5、lweightgenerationfunctionsproposed.ExperimentsonspokenChinesecorporashowthatthesemethodscouldreducetheChinesecharactererrorrateforpinyin2to2characterconversiontosomeextent,moreorless,andtheoneconsideringbothatrigram’sconfidenceandstyletendencya2chievedthebestperformancewithcharactererrorratereducti

6、onof5012%and2317%,respectively,comparedwithtwobaselinesinthispaper.Keywords:computerapplication;Chineseinformationprocessing;statisticlanguagemodel;trigram;adaptation;lan2guagestyle;interpolationmethod1引言通常用于训练统计语言模型的语料绝大多数都是书面语的,因此训练出来的语言模型实际上是书面语语体的语言模型。在现实生活中,如在当面交谈、打电话、网上聊天、发手机短信等时,人们大都使用口语。口语和

7、书面语之间是存在一些差异的,在这些应用场合输入汉字所3收稿日期:2005-06-25定稿日期:2006-06-02作者简介:梁奇(1981—),男,硕士研究生,主要研究方向为统计语言模型.68[1][2]使用的中文整句输入法或随意发音的语音识别器如果仍然使用书面语训练出来的语言[3]模型,应用条件和训练条件是不一致的,必将造成系统总体性能的下降。从最大似然估计方法的原理可知,如果有充分的口语语料,那么训练出来

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。