基于树核函数的人物关系抽取研究

基于树核函数的人物关系抽取研究

ID:27407693

大小:1.13 MB

页数:17页

时间:2018-12-02

基于树核函数的人物关系抽取研究_第1页
基于树核函数的人物关系抽取研究_第2页
基于树核函数的人物关系抽取研究_第3页
基于树核函数的人物关系抽取研究_第4页
基于树核函数的人物关系抽取研究_第5页
资源描述:

《基于树核函数的人物关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于树核函数的人物关系抽取研究彭成钱龙华周国栋报告人:彭成苏州大学自然语言处理实验室http://nlp.suda.edu.cn/提纲引言相关工作研究动机我们的方法实验结果与分析下一步工作引言人物关系抽取人物关系抽取是实体关系抽取的一个重要分支,旨在抽取人名实体之间的各种社会关系。例如,关系实例“朱镕基会见克雷蒂安”中,存在着社会交互关系(CONTACT)。研究意义WEB给我们提供了一个巨大的信息库,其中隐藏着大量用户感兴趣的实体及其相互关系。人物关系抽取技术对社会网络的构建、问答系统等均具有重要意义。相关工作基于

2、共现的方法:Kautz等(1997):ReferralWeb.Mika(2005):Flink.基于机器学习方法:Matsuo等(2006):基于决策树的C4.5分类器。姚从磊等(2007):基于模拟退火算法。Jing等(2007):基于命名实体识别、关系检测、事件检测。Elson等(2010):基于角色名称识别和对话检测。Agarwal等(2011):基于社会交互事件检测。研究动机存在的问题:目前针对人物关系抽取的研究一般只涉及特定的领域或是依赖于大规模网页共现关系。通常情况下,人物关系类型比较单一。现有条件:随

3、着基于核函数的广泛采用,实体关系抽取技术得到迅速发展并日臻成熟。能否利用树核函数从新闻领域文本中抽取丰富的人物关系?如何提高其抽取性能?人物关系抽取方法人物关系定义静态人物关系:ACE语料原有定义的PER-SOC关系(Business,Family,Lasting-Personal)。动态人物关系:重新定义ACE的CONTACT事件(Meet,Phone-Write)为交互关系。基于树核函数的人物关系抽取方法结构化信息的构造《同义词词林》语义信息的融合重采样技术的应用结构化信息的构造删除实体并列结构(RMV_ENT

4、ITY_CC)当连接两个实体节点的路径中出现并列结构时,可以删除其中的一个并列部分。删除NP并列结构(RMV_NP_CC_NP)当连接两个NP节点的路径中出现并列结构时,保留最短路径所通过的那个并列部分。恢复右侧动词(EXT_RIGHT_VERB)扩展第二个实体到最低公共节点之间出现的动词短语结构。结构化信息的构造(续)语义信息融合语义信息对实体间语义关系的抽取具有重要的指导作用,我们在句法树中加入了两个实体词汇在《同义词词林》的语义编码信息。重采样技术的应用实验实验设置人物关系语料库包括关系正例880个,关系负例

5、18599个。人物关系类型主要为PER-SOC类和CONTACT类。本文实验采用五倍交叉验证策略。选择SVM作为分类器,采用的开源工具为支持卷积树核函数的SVMLightTK工具包。评估标准采用常用的准确率(P),召回率(R)和F1指标(F1)。本文采用近似随机技术进行显著性测试,并分别使用双下划线、单下划线和无下划线表示p≤0.01、0.01<p≤0.05和p>0.05,即差异非常显著、显著和不显著。实验结果——裁剪特征的影响裁剪规则PER-SOCContactTotalPRF1PRF1PRF1SPT(basel

6、ine)80.738.952.375.810.518.478.831.845.3+RMV_ENTITY_CC80.939.552.979.611.519.979.932.546.1(80.9)(39.5)(52.9)(79.6)(11.5)(19.9)(79.9)(32.5)(46.1)+RMV_NP_CC_NP82.439.853.581.718.229.681.634.348.3(81.5)(38.4)(52.0)(83.3)(21.0)(33.5)(81.3)(34.0)(47.8)+EXT_RIGHT_VE

7、RB81.839.653.381.221.533.981.035.048.8(80.9)(38.3)(52.8)(62.0)(11.0)(18.6)(75.9)(32.6)(45.5)结论:1.三种裁剪策略对总体性能提升显著。2.Contact类型的F1值明显低于PER-SOC类型,同时,其性能提升幅度大于PER-SOC类型。实验结果——语义信息的影响词林类别PER-SOCContactTotalPRF1PRF1PRF1SPT-OPT(baseline)81.839.653.381.221.533.981.035.

8、048.8SPT-OPT+CL_B81.938.151.881.823.536.281.234.348.1SPT-OPT+CL_M78.741.654.379.422.534.978.236.749.9SPT-OPT+CL_S81.441.054.481.122.935.680.536.450.1SPT-OPT+CL_WG81.942.755.982.423

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。