欢迎来到天天文库
浏览记录
ID:14725469
大小:1.31 MB
页数:63页
时间:2018-07-30
《基于词向量的规范词与非规范词的挖掘(最终版)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、分类号密级UDC编号10486硕士专业学位论文基于词向量的规范词与非规范词关系挖掘研究生姓名:汪明阔学号:2014282110172指导教师姓名、职称:姬东鸿教授专业类别(领域):计算机技术二〇一六年五月MiningRelationbetweenFormalandInformalWordsbasedonWordEmbeddingName:MingkuoWangStudentID:2014282110172Director:Prof.DonghongJiMajor:ComputerTechnique
2、May,2016论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文作者(签名):年月日基于词向量的规范词与非规范词关系挖掘摘要随着社交网络的快速发展,用户每天在互联网上产生了大规模的数据,这些数据无疑蕴含着极大的价值,比如可以基于这些数据做用户推荐、用户情感分析以及大数
3、据预测疾病等等。然而在应用自然语言处理相关算法对这些数据进行处理的时候,经常会遇到一个问题,即未登录词问题(Out-of-Vocabulary)。未登录词问题对诸多自然语言处理算法都有不利的影响,比如机器翻译、情感分析等。非规范词语是属于未登录词中的一种,如果能够将非规范词语进行规范化,无疑会大大提高自然语言处理相关算法的性能和效果。一般意义上,非规范词是规范词的不规则的形式,一个非规范词一般对应一个规范词且两者具有相同的语义。基于以上的认识,本文提出了一种基于多语义词向量的规范词与非规范词挖掘模
4、型,该模型分为三个部分,分别为多语义词向量模型的训练、基于规则的候选词对过滤以及基于支持向量机的分类算法。其中,多语义词向量模型的目的是学习出词语的多个语义表达,比如“稀饭”可以学习出两个语义表达,一种是常规的食物“稀饭”,另一种则对应为“喜欢”的非规范表达。训练的结果将具有相同语义的词语聚在同一个类别中,由于聚类的结果中包含大量的噪声数据,因此又设计了基于规则的过滤器对词对进行过滤,得到候选的词对,最后再使用支持向量机算法对候选词对进行分类处理,得到最终的规范词与非规范词词对。本实验将使用两种方
5、式来评估实验结果。一种是直接通过人工标注数据来评估,另一种是将实验产生的规范词与非规范词词对应用于具体的文本规范化任务中,实验结果表明不论是哪一种评估方式,通过本实验产生的规范词与非规范词词对都取得了很好的实验效果。关键词:多语义,词向量,规范词,非规范词,未登录词4基于词向量的规范词与非规范词关系挖掘AbstractWiththerapiddevelopmentofsocialnetwork,internetusersproducelargeamountofdata,whichundoubted
6、lycontainsgreatvalue.Forexample,peoplecanusethesedatatobuildarecommendationsystem,doemotionalanalysisorpredictthedisease’strends.However,whenappliednaturallanguageprocessingalgorithmtothesedata,peopleoftenencounteredwithaproblemcalledOut-of-Vocabulary
7、.TheproblemofOut-of-Vocabularyhasanadverseeffectonmanynaturallanguageprocessingalgorithm,suchasmachinetranslation,sentimentanalysisandsoon.InformalwordsisakindofOut-of-Vocabulary,ifwecanconvertinformalwordtoitsformalformat,itwillcertainlyhelpfulforimp
8、rovingtheresultofnaturallanguageprocessingalgorithm.Inageneralway,informalwordisavariantoftheformalword,aninformalwordoftenhasacorrespondingformalwordandtheyshowthesamesemantic.Basedonthebackgrounddescribedabove,thispaperdescribeasystemformini
此文档下载收益归作者所有