词典与统计相结合的傣文分词方法与实现

词典与统计相结合的傣文分词方法与实现

ID:35097588

大小:4.97 MB

页数:53页

时间:2019-03-17

词典与统计相结合的傣文分词方法与实现_第1页
词典与统计相结合的傣文分词方法与实现_第2页
词典与统计相结合的傣文分词方法与实现_第3页
词典与统计相结合的傣文分词方法与实现_第4页
词典与统计相结合的傣文分词方法与实现_第5页
资源描述:

《词典与统计相结合的傣文分词方法与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号jEai密级公开UDC编号《余九聲巧女研《4#僅伶题目词典与统计相结合的俸女分词芳法与实现TitleDailanguageSegmentationBasedonDie村onarvandStatistics‘学院(所、中心)信息学院专业名称电子与通信工程研巧生姓名李慧学号12014002386导师姓名杨鉴职称教授2016年5月论女独创性声明及使用授权本论文是作者在导师指导下取得的研巧成果。除了文中特别加W标注和致谢

2、的地方外,论文中不包含其他人己经发表或撰写过的研巧成果,不存在勁窃或抄袭行为一。与作者同工作的同志对本研巧所做的任何贡献均已在论文中作了明确的说明并表示了谢意。(现就论文的使用对云南大学授权如下:学校有权保留本论文含电子版),也可W采用影印、缩印或其他复制手段保存论文;学校有权公布论文的全部或部,可W将论文用于查阅或借阅服务分内容;学校有权向有关机构送交学位论文用于学术规范审查、社会监督或评奖;学校有权将学位论文的全部或部分内容录入有关数掘库用于检索服务。(内部或保密的论文在解密后应遵循

3、此规定):W《欠:导师签名:省日期研究生签名_Imm_巧要随着计算机及互联网应用的普及,人们对语音合成技术提出了更广泛的应用,需求。文本处理是语音合成系统的重要组成部分,与汉语文本类似在俸语文本,,中对于倦语语音合成系统而言,分,不存在自然分界符因此词是文本处理的重要环节,分词的效果将直接影响到语言合成的自然度。分词技术归纳起来有H种:基于理解的分词方法、基于词典的分词方法W及基于统计的分词方法。基于理解的方法是利用语法、语义!^1及语句信息等知识进行分词,比较难W实现。

4、基于词典的分词方法有很高的分词效率,但是不能够识别未登录词。而采用基于统计的分词方法对未登录词有很好的识别,但分词的准确度却很低。因此,在对未登录词有较好识别的前提下,提高俸语分词的准确度,本文采用了基于词典与统计相结合的方法,并进行深入的研究。论文的主要工作包括:(1)详细介绍了FMM、MMSEG化及基于条件随机场(CRF)的分词原理。(2)获取语料库,从网络上下载语料,对这些语料进行整理。然后构建词典,对込些俸语文本进行分词,首先是基于正向最大匹配算法(FMM)的分词,指出了其不能

5、消除歧义。为了弥补这个缺陷,我们使用了MMSEG的分词方法,为了能够消除歧义,MMSEG加入了四种歧义消除规则,然而MMSEG对于未登录词一些专:RF,不能够识别,又提出了基于MMSEGK的分词方法这种分词方法对与有名词、人名及地名有了很好的识别。(3)对实验结果进行了分析,并对对H种分词方法进行了评估,包括准确度和召回率。实验结果表明:使用MMSEG+CRF分词具有较高的准确率,其正确率达到了97,召回95.6,1.6,是可换满足俸语分词要求的,.7%率到达了F值为%并且合成出的

6、语音是具有较好的自然度。关键词:语音合成;俸语分词;最大正向匹配算法(FMM);MMSEG;条件随机场(CRF)IAbstractAbstractWi化也epopularityofcomputersandInternetapplications,peoplevoicesynthesistechnologymademorewideraneofapplicatio打s.Textrocessinisanimortantartgpgppofthese

7、echsnthesissstemandChinesetextsimilartotheDailanuaeversionspyy,gg,化erearenonaturaldelimiters,化erefbre,for化epurposesof化eDailanguagespeechsnthesissstemsementationisanimortantartof化xtrocessinsementationyy,,gpppggresultswilldi

8、rectlyafect也enaturalnessofspeechsyrUhesis.Wordsegmentationsummedupinthreeways:basedsegmentationmethodtod-understandictionarbasedwordsementation

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。