泰语新闻事件触发词抽取研究

泰语新闻事件触发词抽取研究

ID:28462768

大小:60.00 KB

页数:8页

时间:2018-12-10

泰语新闻事件触发词抽取研究_第1页
泰语新闻事件触发词抽取研究_第2页
泰语新闻事件触发词抽取研究_第3页
泰语新闻事件触发词抽取研究_第4页
泰语新闻事件触发词抽取研究_第5页
资源描述:

《泰语新闻事件触发词抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、泰语新闻事件触发词抽取研究摘要:自然语言领域内事件抽取是信息抽取中一项重要的研宄课题。事件触发词的识别与抽取在事件抽取中扮演着重要角色。针对目前缺少对泰语触发词识别与抽取的技术研究,提出了通过屮文事件触发词入手构建初始泰语新闻事件触发词表,并根据初始泰语新闻事件触发词表自动抽取泰语触发词。实验结果表明此方法很好有效的实现了泰语新闻事件触发词的识别与抽取。Abstract:Theresearchofeventextractioninnaturallanguageprocessingfieldisanimportantresearchtopicinin

2、formationextractionarea,andtherecognitionandextractionofeventtriggerwordplaysadecisiveroleineventextraction.ForthecurrentsituationthatlacksoftechnologyresearchofThaitriggerwordrecognitionandextraction,proposetobuildtheinitialThainewseventstriggerwordstablebyChineseeventtrigger

3、words,andextractThaitriggerwordautomaticallybasedoninitialThainewseventstriggerwordtable.ExperimentalresultsshowthatthismethodcaneffectivelyrealizetheThainewseventstriggerwordrecognitionandautomaticextraction.关键词:事件抽取;新闻事件;泰语触发词表;触发词抽取Keywords:eventextraction;newsevents;Thaitr

4、iggerwordtable;triggerwordextraction中图分类号:TP311文献标识码:A文章编号:1006-4311(2017)11-0226-030引言随着全球化的推?M,屮国与泰国之间政治、经济、文化交流H益频繁。中泰两国之间各方面交往的新闻报道越来越多,而新闻报道能客观地反映一个国家对不同领域的政策和态度。对泰国新闻事件进行有效的抽取,有利于更好地了解泰语新闻报道的内容,以便更好地处理中国与泰国的国际关系。因此,对泰语新闻事件抽取研究至关重要。新闻事件抽取主耍把人们感兴趣的新闻以结构化的形式呈现出来,如什么时间,什么地方,

5、发生什么事,由哪些人参与或被涉及。事件在不同领域有着不同的定义,在信息抽取(InformationExtraction,TE)巾,事件是指某个特定的时间和环境下发生的、由若干角色参与、表现出若干动作特征的一件事情,通常情况下是句子级。在ACE(AutomaticContentExtraction)评测会议屮,事件定义为由事件触发词及事件元素构成。可见,事件触发词识别与抽取是事件抽取的关键。因此,本文将参照ACE2005[l]有关事件抽取的相关定义,开展泰语新闻事件触发词的抽取研究。1国内外研究现状作为信息抽取的一个热门研究领域,事件抽取研究主要聚焦

6、在屮英文两方面。Ahn[2]用英语句中的每一个词作为实例,使用二元分类的方法判别句中的词是否为触发词,用多元分类方法识别它所属事件类型。这种方法能够自动识别触发词和事件类型。但是,句子中的每一个词作为实例用于训练机器学习模型导致引入大量的反例,造成正反例严重失衡。HildaHardy[3]提出了基于数据驱动的方法进行篇章级的事件识別,并进一步证明了选取特征向量用于训练常见学习算法比人工定义规则模型进行事件识别用时更短而且不受专业限制。JiHeng[4]提出基于规则的方法对触发词、事件参与者和角色进行判断的方法实现同一话题集文档的事件抽取,不再局限于

7、对一篇文档进行事件抽取。由于考虑了全局信息,即话题集簇中的所有相关文档,该方法取得了很好的效果。赵妍妍[5]提出根据对构建的初始中文触发词表,先采用类似TF*IDF的方法过滤存在一词多义现象的触发词,再使用《同义词词林(扩展版)》扩充触发词表,不仅提高了召回率,而且解决了由于语料小构建的触发词表有限的不足。侯立斌[6]提出了通过LDA模型对词语聚类来解决词形特征过拟合问题,并使用基于字的事件触发词检测的方法解决屮文自动分词与标注与触发词边界不一致问题。LongTian[7]以CEC语料库作为训练语料及测试预料,提出了结合扩展事件触发词表与机器学习的

8、方法进行事件触发词的g动抽取。实验结果表明提取中文事件触发词的F值达到了71.2%。朱少华[8]采用基于马尔科夫逻辑网络,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。