规则与统计相结合的日语时间表达式识别

规则与统计相结合的日语时间表达式识别

ID:5386662

大小:544.98 KB

页数:9页

时间:2017-12-08

规则与统计相结合的日语时间表达式识别_第1页
规则与统计相结合的日语时间表达式识别_第2页
规则与统计相结合的日语时间表达式识别_第3页
规则与统计相结合的日语时间表达式识别_第4页
规则与统计相结合的日语时间表达式识别_第5页
资源描述:

《规则与统计相结合的日语时间表达式识别》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第27卷第6期中文信息学报Vo1.27,No.62013年l1月JOURNALOFCHINESEINFORMATIONPROCESSINGNOV.,2O13文章编号:1003—0077(2013)06—0192—09规则与统计相结合的日语时间表达式识别赵紫玉,徐金安,张玉洁,刘江鸣(北京交通大学计算机与信息技术学院,北京100044)摘要:该文提出了一种基于自定义知识库强化获取规则集,以及规则与统计模型相结合的日语时间表达式识别方法。在按照Timex2标准对时间表达进行细化分类的基础上,我们结合日语时间词的特点,渐

2、进地扩展重构日语时间表达式知识库,实现基于知识库获取的规则集的优化更新,旨在不断提高时间表达式的识别精准度。同时,融合CRF统计模型提高日语时间表达式识别的泛化能力。实验结果显示开放测试F1值达0.8987。关键词:知识库;规则集;统计模型中图分类号:TP391文献标识码:AJapaneseTimeExpressionRecognitionbyCombiningRuleswithStatisticsZHAOZiyu,XUJin’an,ZHANGYujie,LIUJiangming(SchoolofComputera

3、ndInformationTechnology,BeijingJiaotongUniversity,Beijing100044,China)Abstract:Basedontheknowledgebasewedefined,thispaperpresentsaJapanesetimeexpressionrecognitionmeth—odthroughcombiningrulessetstrengthenedbyknowledgebasewithstatisticalmode1.AccordingtOtheTime

4、x2standards’granularclassificationontime,weprogressivelyexpandedandreconstructedtheknowledgebasegiventheJapanesetimecharacteristic,andthenachievedrulessetoptimizationandupdate,inordertOincreaserecognitionaC—curacy.Simultaneously,we{usedCRFmodeltOenhancethegene

5、ralizationabilityofJapanesetimeexpressionrec—ognition.OurexperimentalresultsshowthattheF1valuereaches0.8987onopentest.Keywords:knowledgebase;rulesset;statisticalmodel例如,在机器翻译中,可以使译文更加流畅E妇;在多1引言文档自动摘要中,可以对文档信息进行时序排序;在自动问答系统中,可以用于回答“多久,何时”等与时间表达式是句子中的重要成分,是关键信息时

6、间相关的问题。的载体。时间表达式的抽取和处理是当前自然语言时间表达式识别与规范化研究,最早是1995年处理中的一个重要研究方向。正确识别时间表达式信息理解会议(MessageunderstandingConfer—具有重要的意义。ence,MUC)把时间表达式的识别作为命名实体识近年来,时间表达式的识别和规范化在事件跟别的一个子任务。在美国国家技术标准局(NIST)踪,时间关系推理,时序定位等方面的应用越来越于2004年举办了第一届时问表达式识别与归一化多,不仅可以提高分词、句法分析的精度,还可改善(TimeExp

7、ressionRecognitionandNormalization,机器翻译、信息抽取、文本摘要、对话系统的性能。TERN)的评测后,ACE2005(AutomaticContent收稿日期:2013—08一Ol定稿日期:2013-0925基金项目:国家自然科学基金资助项目(61370130);科技部国际科技合作计划(K11F100010);中央高校基本科研业务费专项资金资助项目(2O1OJBZ2O07);北京市重点学科共建资助项目(计算机应用技术);中国科学院计算技术研究所智能信息处理重点实验室开放课题(IIP

8、2010-4);北京交通大学人才基金资助项目(2011RC034)。作者简介:赵紫玉(1987一),女,硕士研究生,主要研究方向为自然语言处理;徐金安(197O),男,副教授,硕士生导师,主要研究方向为自然语言处理和机器翻译;张玉洁(1961一),女,教授,硕士生导师,主要研究方向为自然语言处理、机器翻译和文本大数据处理;刘江鸣(1989一),男,硕士研究生

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。