基于最大熵汉语词性标注

基于最大熵汉语词性标注

ID:32727607

大小:1.59 MB

页数:61页

时间:2019-02-15

基于最大熵汉语词性标注_第1页
基于最大熵汉语词性标注_第2页
基于最大熵汉语词性标注_第3页
基于最大熵汉语词性标注_第4页
基于最大熵汉语词性标注_第5页
资源描述:

《基于最大熵汉语词性标注》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连理工大学硕士学位论文基于最大熵的汉语词性标注姓名:孔海霞申请学位级别:硕士专业:计算机应用指导教师:黄德根20071219大连理工大学硕士学位论文摘要词性标注是给文本中的每个词标注上正确的词性。它是自然语言处理的基础,其正确率将影响后期句法分析或组块分析的正确率。在词性标注时出现的错误会在后续自然语言处理链中被放大,正确标注词性对自然语言处理有非常重要的意义。本文的目的就是在文本分词的基础上,实现汉语词性标注,为后期词法分析和其它自然语言处理任务提供基础。本文首先阐述了汉语词性标注的研究现状及研究意义,然后在深入理解最大熵理论的基础

2、上实现了基于最大熵的汉语词性标注系统,最后利用统计规则和词性限定方法对未登录词进行了进一步标注。利用不同模板将不同的上下文信息导入最大熵模型,构建了四个最大熵标注模型,选出具有最优标注效果的模板作为最终模板。为了简化模型,采用了三种不同的特征选取方法精简最大熵模型的候选特征,为了进一步提高词性标注正确率,采用了规则和词性限定法,结合最大熵对未登录词做了进一步标注。论文给出了最大熵标注模型的算法,并给出了标注结果,及对未登录词进一步杯注后的结果。词性标注比较复杂,由于最大熵可以充分利用词的不同层次的上下文信息,能较好地解决复杂问题,因此用

3、最大熵进行词性标注,取得了较好的效果。实验结果表明,用最大熵进行中文词词性标注是有效的:开试测试J下确率为94.96%,未登录词的标注J下确率为63.32%。本文的研究成果可应用于实际翻译系统中,为自然语占后期处理提供了基础。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。关键词:词性标注;最大熵;模板;未登录词大连理工大学硕士学位论文ChinesePOSTaggingBasedonMaximumEntropyAbstractPartofspeech(P0s)taggingistheproblemofassigningPOS

4、orlexicalcategoriestoallthewordsinatext.ItisthebasicworkinNamralLanguageProcessing0N1J)’anditstaggingprecisiongreatlyaffectsthelaterstepofsyntaxanalysisorchunkanalysis.Theerro璐occurredinPOStaggingwillalwayspropagatethroughtheprocessingchain,sotaggingPOScorrectlyhasgreats

5、ignificanceinNLP.nemaingoalofthisthesisistoimplementChinesePOStaggingtaskbasedonwordsegmentation,andprovidethebasisforlatersyntacticparsingandotherNLPtasks.Inthisthesis,wefirstintroducethecurrentresearchstatusofPOStagginganditssignificance,thenimplementChinesePOStaggings

6、ystembasedonMaximumEntropy(ME)onthebasisofdeepunderstandingofMEtheory,andatlast,statisticalrulesandPOSconfinementareusedfortaggingunloggedwords.DifferentcontextinformationisintroducedtoMEmodelbyusingdifferenttemplates,fourMEPOStaggingmodelsarebuilt,andthetemplatewiththeh

7、ighesttaggingprecisionisselectedasthefinaltemplate.Inordertosimplifythemodel,threefeatureselectionmethodsareusedtosimplifyMEmodel’scandidatefeatures.InordertofurtherimprovethePOStaggingprecision,themethodofcombiningrules,POSconfinementandMEisadopted.Thisthesispresentsthe

8、algorithmofMEtaggingmodelanditsresult,moreover,theresultoffurtherunloggedwordstaggingisgiyen.POStagging

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。