基于深度学习的中文分词方法研究

基于深度学习的中文分词方法研究

ID:37062674

大小:3.11 MB

页数:89页

时间:2019-05-16

基于深度学习的中文分词方法研究_第1页
基于深度学习的中文分词方法研究_第2页
基于深度学习的中文分词方法研究_第3页
基于深度学习的中文分词方法研究_第4页
基于深度学习的中文分词方法研究_第5页
资源描述:

《基于深度学习的中文分词方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于深度学习的中文分词方法研究作者姓名刘玉德学科专业通信与信息系统指导教师史景伦教授所在学院电子与信息学院论文提交日期2018年4月ResearchonChineseWordSegmentationMethodsBasedonDeepLearningADissertationSubmittedfortheDegreeofMasterCandidate:LiuYudeSupervisor:Prof.ShiJinglunSouthChinaUniversityofTechnologyGuangzhou,Chin

2、a分类号:TP391.1学校代号:10561学号:201520108911华南理工大学硕士学位论文基于深度学习的中文分词方法研究作者姓名:刘玉德指导教师姓名、职称:史景伦教授申请学位级别:工学硕士学科专业名称:通信与信息系统研究方向:自然语言处理论文提交日期:2018年4月10日论文答辩日期:2018年6月5日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:委员:华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外

3、,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外);学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位

4、论文。本人电子文档的内容和纸质论文的内容相一致。本学位论文属于:□保密,在年解密后适用本授权书。√不保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览;同意将本人学位论文提交中国学术期刊(光盘版)电子杂志社全文出版和编入CNKI《中国知识资源总库》,传播学位论文的全部或部分内容。(请在以上相应方框内打“√”)作者签名:日期:指导教师签名:日期:作者联系电话:电子邮箱:联系地址(含邮编):摘要近年来,随着文本信息的不断增多,人们迫切需要自然语言处理技术来挖掘和利用海量文本数据。中文分词是自然语言处理一项重要

5、的基础任务。大多数的上层的任务都要先进行分词的步骤,并且分词方法的质量对相关任务将会造成很大影响。中文分词任务因为存在歧义和未登录词等问题,使得中文分词的准确性受到了限制。基于词典匹配和传统统计技术的研究方法还存在很多局限性。随着深度学习方法在各个领域的成功,针对中文分词采用深度学习的研究方法是一种趋势。中文分词有分为字符和词语为单位的研究方法,由于字标注法能有效改善未登录词的影响,本文模型都是基于字标注法进行研究。本文采用深度学习对中文分词方法的研究主要有两个创新点:第一点是在中文分词模型BiLSTM+CRF上提出了

6、改进方案。先是引进了三种有效的字特征,分别是上下文特征、字形特征和拼音特征。上下文特征采用带有GLU单元的卷积神经网络进行提取,还针对模型提出了两种不同的卷积方式进行了比较。字形特征和拼音特征均采用前馈神经网络对汉字对应的五笔编码和拼音编码进行特征提取。针对三种特征的结合方式,本文提出了基于注意力机制的特征组合方法,取得了不错的效果。之后,在RNN网络中用GRU单元代替LSTM单元,有效提高模型的训练速度。第二点是提出了一种基于seq2seq模型的中文分词方法。先是根据中文分词序列等长的特点,提出了基础的seq2seq

7、模型。之后分别采用全局注意力机制和局部注意力机制对基础的seq2seq模型进行改进,并提出了特殊的模型变种。其中实验证明基于局部注意力机制的seq2seq模型在中文分词任务中要优于全局注意力机制。本文也试验了几种得分函数对全局注意力模型的影响,并验证了无需解码器反馈的得分函数同样有效。另外,引入注意力机制还有效地提高了模型的可解释性。实验结果表明,本文提出的改进的BiLSTM+GRU模型和seq2seq模型在中文分词任务中均达到接近前沿的水平。在用PKU数据集训练的字向量迁移到MSR数据集对应的模型再进行训练后,最终分

8、别取得了96.8%和97.0%的F1分值。关键词:中文分词;深度学习;字特征;seq2seq;注意力机制IAbstractInrecentyears,withtheincreasingnumberoftextualinformation,peopleurgentlyneednaturallanguageprocessingtech

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。