欢迎来到天天文库
浏览记录
ID:50322348
大小:3.84 MB
页数:49页
时间:2020-03-05
《基于机器学习模型的傣语分词方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号密级公开编号碩士研究被嗲依讼式题目基干机器学习模型的傣语分词方法学院(所、中心)■雜专业名称生物医学工程研究生姓名辛振球学号导师姓名杨鉴职称教授年月扉页论文独创性声明及使用授权本论文是作者在导师指导下取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研宄成果,不存在剽窃或抄袭行为。与作者一同工作的同志对本研宄所做的任何贡献均已在论文中作了明确的说明并表示了谢意。现就论文的使用对云南大学授权如下:’学校有权保留本论文(含电子版),也可以釆用影印、缩印或其他复制手段保存论文;学校有权公布论文的全部或部分内容,可以将论文用于查阅或借阅服务;学校有权向有
2、关机构送交学位论文用于学术规范审查、社会监督或评奖;学校有权将学位论文的全部或部分内容录入有关数据库用于检索服务。内部或保密的论文在解密后应遵循此规定)研究生签名导师签名:遠曰期摘要摘要傣语分词是傣语语音合成的基础和前提。傣语语音合成系统包括前端文本分析和后端语音合成,而傣语分词是前端文本分析必不可少的环节,自动分词的效果将直接影响合成语音的自然度与清晰度。本文以提高傣语分词的准确率为目标,釆用机器学习模型,研宄傣语分词方法,为后端合成出高质量的语音做准备。论文的主要工作包括:、阐述了语音合成系统的基本流程,介绍了自动分词在文语转换系统中的重要作用,并概括了自动分词技术的研究进展,在此基础
3、上讨论了基于机器学习的分词方法;、使用朴素贝叶斯、决策树、条件随机场三种模型作为分类器,分别说明了各自的分类原理,在概率图模型和最大熵马尔可夫模型的基础上引入条件随机场,并指出了它们的优缺点及应用范围;、构建基于字符的傣语语言模型,釆用以傣语字符属性以及上下文相关信息为特征参数的方法实现傣语自动分词,包括设计字符属性集、上下文特征的提取、边界标记的选择;、介绍了实验平台与评测标准,主要开展了不同的边界标记集对分词准确率影响的实验以及不同的值对分类器整体性能表现的实验。实验结果表明:(釆用条件随机场模型的分类器,其傣语文本分词准确率最高,说明其性能优秀。(随着值的逐渐增加,分类器性能会有一定
4、的提升,对条件随机场来说,当时能满足实用条件。(傣语分词的研宄起步较晚,深入程度较浅,分词准确率还不能满足实用的要求。关键词:语音合成;文本分析;傣语分词;机器学习模型AbstractAbstractDaiwordsegmentationisthebasisandpremiseoflanguagespeechsynthesis.Daispeechsynthesissystemmainlyincludesfront-endtextanalysisandback-endspeechsynthesis.Daiautomaticwordsegmentationisanessentialpartof
5、thefront-endtextanalysis,theresultsofwhichdirectlyinfluencesthenaturalnessandintelligibilityofsyntheticspeech.Therefore,,Abstractsegmentationofalatestartandoflittledepth,wordaccuracycannotsatisfypracticalrequirements.Keywords:Speechsynthesis;Textanalysis;Daiwordsegmentation;Machinelearningmodels目录
6、目录親引言分词方法研宄进展论文选题背景与作者工作选题背景作者的工作论文的组织结构第二章机器学习理论与模型简介机器学习简介机器学习的定义机器学习的策略与模型朴素贝叶斯模型决策树模型算法算法条件随机场模型概率图模型隐马尔可夫模型最大熵马尔可夫模型无向图模型条件随机场本章小结第三章傣语分词方法傣语概述傣语的构词特点傣语分词系统流程图基于字符的傣语模型目录特征集数据的准备特征与属性信息的提取条件随机场中的特征模板本章小结第四章实验结果与分析实验平台实验评测方法实验设计实验结果与分析本章小结第五章总结与展望維展望参考文献参加的项目和发表的论文致谢第一章绪论第一章绪论引言社会的发展离不开语言,它是人类
7、最基本的交流工具和获取信息的媒介。语音是语言的声学表现形式,是人们通过发音器官产生的具有某种信息量的声音,是语言信息系统的载体,是人类重要的信息交换形式。随着计算机技术和人工智能的发展,利用计算机处理语音信息是人们研宄的热点问题其中包括语音识别、语音合成、自然语言处理等。语音合成是使计算机能根据输入文本的内容产生出相应的声音,能将任意文字信息实时地转化为清晰度、自然度较高的语音读出来。按照语音产生的过程,要使计算机说话,
此文档下载收益归作者所有