试论中文时间表达式识别研究

试论中文时间表达式识别研究

ID:35189915

大小:3.91 MB

页数:65页

时间:2019-03-21

试论中文时间表达式识别研究_第1页
试论中文时间表达式识别研究_第2页
试论中文时间表达式识别研究_第3页
试论中文时间表达式识别研究_第4页
试论中文时间表达式识别研究_第5页
资源描述:

《试论中文时间表达式识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、复旦大学硕士学位论文中文时间表达式识别研究姓名:邬桐申请学位级别:硕士专业:计算机应用技术指导教师:黄萱菁2010-05摘要随着信息处理技术的飞速发展,命名实体识别技术越来越多的受到人们的关注。本文所研究的时间表达式识别,就是命名实体识别领域一项基础而重要的任务。时间表达式在自然语言处理领域有着非常广泛的应用。在主题检测与跟踪任务中,可以用时间来定位事件发生的先后顺序;在自动问答系统中,可以用来回答和时间相关的问题,如“多久,何时”;在机器翻译任务中,时间顺序的定位可以让译文更加通顺易读;甚至在网页结构分析方

2、面,也有研究利用时间表达式特征提高网页分析精度。时间表达式识别技术主要分为两类:基于机器学习的序列标注方法和基于规则的方法。本文分别对这两类方法进行了深入而细致的研究。对于序列标注方法,本文介绍了目前主流的有监督学习模型:条件最大熵和条件随机场,并且分别使用两种模型实现了完整的中文时间表达式识别系统。实验结果显示,虽然序列标注方法在命名实体识别领域占据主流地位,但是对于时间表达式识别任务,基于条件最大熵模型构建的系统F.score达到79.1%,基于条件随机场模型构建的系统F.score达到79.5%,两者都

3、无法缀有效的完成时间表达式识别任务。目前,时间表达式识别领域,最为广泛使用的仍然是经典的基于规则的方法,本文也针对基于规则的方法进行了深入的探索。首先,构建人工规则库:然后,为了提高召回率,解决人工消耗问题,设计了基于训练语料自动学习规则的时间表达式识别算法,这样做充分利用了训练语料中大量的己标注信息;接着,为了提高正确率,本文又结合错误驱动思想进行规则剪枝,削减了规则自动学习过程所带来的“噪声”;最终,为了进一步提高系统整体识别性能,提出“时间基元”概念,并将自然语言处理领域中的分词技术应用到“时间基元”规

4、则的构建中来,实验结果显示,该算法显著的提高了时间表达式识别的整体性能。“自动构建时间基元规则库”算法是本文的主要创新工作,它是一种基于正则文法的时间表达式识别算法:它基于“时间基元”进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F.score达到89.8%。此外,本文提出的算法具有很好的通用性和扩展性,它可以有效利用训练语料自动构建特定领域高精度的规则库,进而完成实体

5、识别任务。最终,结合上述研究成果,实现了完整的基于“自动构建时间基元规则库”算法的中文时间表达式识别系统。关键词:时间表达式识别,时间基元,TIMEX2,错误驱动,正则表达式,命名实体识别,条件最大熵,条件随机场中图分类号:TP3AbstractNamedentityrecognitiontechniquehasreceivedmoreandmoreattentionsrecentlyalongwiththegreatdevelopmentofinformationprocessingtechnology.I

6、nthisdissertation,itwillfocusontimeexpressionrecognition,whichisoneofthemostimportantdirectionswithinnamedentityrecognitionresearcharea.Timeexpressionhasquitealotofusefulapplicationswithinnaturallanguageprocessing.ItCallbeusedtodetermineeventsequenceintopic

7、detectionandtracking;itCanbeusedtoanswertimerelatedquestionssuchas‘'when’’and‘'howlong’’inautomaticquestionandanswersystem;itcallmakethetranslatedtexteasierunderstoodinmachinetranslation;itcallbealsousedtopromoteprecisionofanalysisofwebpagestructureinsomesp

8、ecialtasks.Therearetwomaintechnologiesintimeexpressionrecognition:sequencelabelingmethodbasedonmachinelearningtheoryandrule-basedmethod.Thisdissertationtakesdeepandcarefulresearchesintothesetwotechnolo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。