统计语言模型平滑技术和压缩技术的研究与实现

统计语言模型平滑技术和压缩技术的研究与实现

ID:36799315

大小:1.43 MB

页数:64页

时间:2019-05-15

统计语言模型平滑技术和压缩技术的研究与实现_第1页
统计语言模型平滑技术和压缩技术的研究与实现_第2页
统计语言模型平滑技术和压缩技术的研究与实现_第3页
统计语言模型平滑技术和压缩技术的研究与实现_第4页
统计语言模型平滑技术和压缩技术的研究与实现_第5页
资源描述:

《统计语言模型平滑技术和压缩技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着全社会信息化进程的迅速发展,使用计算机处理语言文字的重要性与紧迫性日益显现出来,自然语言处理系统得到迅速发展。而目前根据计算机语言学经验主义的研究办法得到的自然语言处理系统的核心就是统计语言模型。统计语言模型是利用统计的方法描述自然语言内在规律的数学模型。统计语言模型的发展目前面临的两个主要问题是数据稀疏问题和规模过大问题,为此模型建立以后要对模型进行平滑和压缩。本论文主要针对目前正得到广泛推广与应用的统计语言模型,研究了模型的平滑技术和压缩技术,重点研究了模型的压缩技术。在介绍当前已有的

2、统计语言模型平滑技术和压缩技术基础上,本文针对average-count平滑方法,提出了一种改进方法;针对基于相对熵的剪枝方法优化了其计算方法;针对分组方法提出了一种基于方差的分组方法,然后将改进后的基于相对熵的剪枝方法和基于方差的分组方法相结合,作为本文最终的压缩方法。论文的最后通过统计语言模型性能测试实验平台来测试本文提出的这些改进技术的性能,平台通过测试模型的困惑度大小来测试平滑方法的优劣,通过中文整句拼音输入法的错误率大小来证明压缩方法的好坏。实验表明,本文提出的这些改进技术要好于原有方法

3、。关键词:统计语言模型、平滑、压缩、average-count、相对熵、方差AbstractWiththerapiddevelopmentoftheprocessofinformationsociety,theimportanceandurgencyofusingcomputerstoprocesslanguageisincreasinglyapparent,naturallanguageprocessingsystemhasbeendevelopedrapidly.Currentlyaccord

4、ingtotheempiricalstudyofcomputerlinguistics,thecoreofthenaturallanguageprocessingsystemisStatisticalLanguageModel.StatisticalLanguageModelisakindofmathematicalmodelwhichusesstatisticalmethodstodescripttherulesofnaturallanguage.ThedevelopmentofStatisti

5、calLanguageModeliscurrentlyfacingtwomajorproblems,thedatasparseproblemandlarge-scaleproblem.Afterestablishingthemodel,itneedstobesmoothedandcompressed.ThispaperaimsatthewidelypopularizedandusedStatisticalLanguageModel,researchesthesmoothingtechniquesa

6、ndcompressiontechniquesofmodel,focusingonthecompressiontechniques.Basingonintroducingthecurrentlyavailablestatisticallanguagemodelsmoothingtechniquesandcompressiontechnology,thispaperbringsforwardanimprovedmethodforaverage-countmethodandoptimizestheca

7、lculationoftherelativeentropy-basedpruningmethod.Forgroupingmethods,thispaperbringsforwardagroupingmethodbasedonthevariance.Thenthecompressionmethodwhichiscombinedthepruningmethodbasedonrelativeentropywiththegroupingmethodbasedonvarianceisfiguredasfin

8、alcompressionmethodbroughtbythispaper.Attheendpartofthepaper,statisticallanguagemodelperformancetestingexperimentalplatformisusedtotesttheimprovedtechniquesbroughtinthispaper.Theplatformgetsperplexityformodeltotestthemeritsofsmoothingmethod.Th

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。