基于领域特殊性和统计语言知识的新词抽取方法

ID：35071381

大小：2.35 MB

页数：60页

时间：2019-03-17

资源描述：

《基于领域特殊性和统计语言知识的新词抽取方法》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、基于领域特殊性和统计语言知识的新词抽取方法梅莉莉2016年1月中图分类号：TP309.2UDC分类号：004.62基于领域特殊性和统计语言知识的新词抽取方法作者姓名梅莉莉学院名称计算机学院指导教师黄河燕教授答辩委员会主席廖乐健教授申请学位工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2016年1月ANewWordsExtractionMethodBasedonDomainSpecificityandStatisticalLanguageKnowledgeCandidateName：Mei

2、LiliSchoolorDepartment:SchoolofComputerScienceFacultyMentor:Prof.HuangHeyanChair,ThesisCommittee：Prof.LiaoLejianDegreeApplied:MasterofEngineeringMajor：ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence：Jan，2016研究成果声明本人郑重声明：所提交

3、的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知，文中除特别标注和致谢的地方外，学位论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名：日期：北京理工大学硕士学位论文摘要近年来，随着经济社会的快速发展，大量新词出现在人们生活中。在自然语言处理领域，许多研究方向等都离不开新词的自动抽取。作为语言信息处理领域的一项基础技术

4、，新词抽取技术具有巨大的研究价值和实际应用前景。本文提出了一种新颖的新词抽取方法，主要工作如下：1.提出了一个基于领域特殊性和统计语言知识的新词抽取方法。通过观察、分析语料的特点，采用基于领域特殊性的垃圾串过滤方法过滤垃圾串，得到候选新词列表；然后基于统计语言知识（包括词频、内部结合紧密性）对新词进行抽取。实验验证了该方法的有效性。2.新词抽取方法的优化，从两个方面对新词抽取方法进行了优化：优化内部结合紧密性，采用EMI来衡量，替换PMI；引入上下文外部特征，采用左熵和右熵来衡量词语的自由度。并从多方面采用多

5、种方法评估比较该方法的效果，评估不同统计特征的结合以及调整参数。实验结果显示，相比未优化前的方法，新词抽取的效果得到大大提升，准确率最大提升39%，召回率最大提升63%。3.新词抽取方法的应用验证，将抽取的新词应用在分词系统中，实验结果显示，在含有新词的语料上，分词效果提升了10%；另外，新词抽取方法能够应用在英文领域词典的构建上。实验验证了本文方法可扩展性和语言独立性的特点。基于领域特殊性和统计语言知识的新词抽取方法是一种无监督的方法，它不需要训练语料，不需要定义规则，克服了传统方法的缺点。此外，本文方法具

6、有很强的可扩展性和语言独立性，能够抽取大量的新词和领域词语。关键词：新词抽取；分词；领域特殊性；统计语言知识；领域词语抽取I北京理工大学硕士学位论文AbstractInrecentyears,withtherapiddevelopmentofeconomyandsociety,alargenumberofnewwordsappearinpeople'slife.Inthefieldofnaturallanguageprocessing,automaticextractionofnewwordsisindisp

7、ensable.Asthebasictechnologyoflanguageinformationprocessing,newwordsextractionhasgreatresearchvalueandpracticalapplication.Thispaperproposesanovelnewwordsextractionmethod,themainworkisasfollows:1.Thispaperproposesanewwordsextractionmethodbasedondomainspecif

8、icityandstatisticallanguageknowledge.Throughobservingandanalyzingcorpus,weperformafilteringalgorithmbasedondomainspecicitytoobtainacandidatelistofnewwords;then,weemploythestatisticallanguageknowledge(i

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 60



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于领域特殊性和统计语言知识的新词抽取方法

基于领域特殊性和统计语言知识的新词抽取方法

相关文章

相关标签