中文地名识别研究

中文地名识别研究

ID:33629947

大小:1.97 MB

页数:61页

时间:2019-02-27

中文地名识别研究_第1页
中文地名识别研究_第2页
中文地名识别研究_第3页
中文地名识别研究_第4页
中文地名识别研究_第5页
资源描述:

《中文地名识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、太原理工大学硕士研究生学位论文中文地名识别研究摘要命名实体识别是自然语言处理技术中一项关键而基础的任务,中文地名是命名实体的一个重要组成部分,且中文地名的特点比较复杂多样,构成比较随意,导致中文地名识别成为自然语言处理中一个难以解决的任务。本文主要对中文地名的识别进行研究,采用条件随机场(ConditionalRandomFields,CRF)模型来实现对中文地名的识别。本文首先概述了命名实体识别及其中文地名识别的概念、研究背景、国内外研究现状,并对现有的方法进行了研究和分析。通过对目前主流方法的学习,决定采用条件随机场对地名进行识别。条件随机场是目前性能

2、较好的模型之一,它既不受到隐马尔科夫模型中的独立性假设的限制,又不存在最大熵模型中的标记偏置问题,是一种优秀的统计学习方法。中文地名的识别可以转化为对序列进行标注,因此训练集和测试集的正确标注直接影响了识别性能。现有的识别模型在对语料进行分词时,大多采用ICTCLAS系统,由于该系统存在一些地名分词错误,降低了整体的识别性能。针对上述问题,本文建立了地名词典,将其添加入ICTCLAS系统的用户词典,从而保证地名分词的正确性。条件随机场虽然是很优秀的机器学习模型,但也存在收敛速度慢,训练时间长的缺点,因此选取合适而精炼的特征就尤其重要。本文在结合中文文本中地

3、名的特点并且学习分析了前人的研究,通过实验筛选了更优的特征,并且采用递增式学习策略进行特征模版的筛选,提高了条件随机场T太原理工大学硕士研究生学位论文的地名识别性能。实验结果表明本文提出的中文地名识别方法能够获得满意的识别效果,对1998年人民日报标记语料库进行开式测试,得到的准确率、召回率、F值分别为95.34%、89.28%、92.29%,有效的提高了中文地名的识别效果。关键词:自然语言处理,中文地名识别,CRF模型II太原理工大学硕士研究生学位论文ASTUDY0NCHINESEPLACENANⅢSRECOGNITl0NABSTRACTNamedent

4、ityrecognitionisoneofthekeyandbasictasksinnaturallanguageprocessingtechnology.Chineseplacenames,asanimportantpartofnamedentity,hasthecharacteristicsofcomplicationanddiversity,causingChineseplacenamesrecognitiontobeadifficultyinnaturallanguageprocessing.Onthebasisoftheintensivestud

5、yofmachinelearningmodel,thispaperadoptsconditionalrandomfieldmachineleamingmodeltoprocessChineseplacenamesrecognition.Firstly,thispapersummarizesthedefinitionofnamedentity、Chineseplacenamesrecognition、researchbackground、researchpresentsituationandthenmakeresearchandanalysisofthecu

6、rrentmethods.Bylearningthepresentmaintrendmethods,thispaperdecidestousethemethodofconditionalrandomfieldtoidentifytheplacenames.Conditionalrandomfield,asanexcellentstatisticallearningmethod,isnotrestrictedbytheindependenceassumptioninhiddenmarkovmodelandhasnomarkingbiasprobleminma

7、ximumentropymodel.TheidentificationofChineseplacenamescanbeconvertedintotheIII太原理工大学硕士研究生学位论文problemoftaggingthesequence,consequently,thecorrecttaggingoftrainingsetsandtestingsetsdirectlyaffectstherecognitionperformance.MostexistingrecognitionmodelsuseICTCLASsystemtosegmentwordsin

8、thecorpus,asthesystemhassomeplace

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。