基于向量空间模型的中文微博实体链接.ppt

基于向量空间模型的中文微博实体链接.ppt

ID:50046155

大小:1.23 MB

页数:24页

时间:2020-03-08

基于向量空间模型的中文微博实体链接.ppt_第1页
基于向量空间模型的中文微博实体链接.ppt_第2页
基于向量空间模型的中文微博实体链接.ppt_第3页
基于向量空间模型的中文微博实体链接.ppt_第4页
基于向量空间模型的中文微博实体链接.ppt_第5页
资源描述:

《基于向量空间模型的中文微博实体链接.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于向量空间模型的中文微博实体链接吴泳钢昝红英范庆虎郑州大学自然语言处理实验室引言评测任务主要策略评测指标实验结果及分析郑州大学自然语言处理实验室引言命名实体歧义指的是一个命名实体指称项可对应到多个命名实体概念,在自然语言中,一词多义现象普遍存在,要让计算机正确地分析和理解自然语言,一个重要的前提条件就是能够在该词出现的特定语境下,进行词义消歧。郑州大学自然语言处理实验室评测任务给定一条微博,一个待链接的字符串,以及该字符串在这条微博中出现的位置,本任务要求首先判断该字符串是否指向了知识库中的某一个实体;若存在这样

2、的对应实体,则将该实体在知识库中的标号输出,若不存在,则输出空置符NIL。郑州大学自然语言处理实验室主要策略使用百度百科资源进行实体信息的特征抽取,建立待链接字符串所在上下文的向量空间模型,进行命名实体消歧,主要分为以下三步:数据预处理获取百度百科候选实体命名实体消歧郑州大学自然语言处理实验室数据预处理(1/4)本文采用的分词和标注工具是中科院分词,中文微博,语句短小,文本规则不强,因此要将待链接字符串预处理,经过对数据集观察发现,主要包括以下几种情况:外来人名命名实体分拆符号的不当郑州大学自然语言处理实验室数据预

3、处理(2/4)外来人名外来人名很多时候采用音译法,但是相同名字的不同翻译结果给外来人名的处理带来了一定麻烦,比如“Sarkozy”一般对应两种音译:“萨科齐”与“萨柯奇”,而百度百科实体“Sarkozy”的中文音译为“萨科齐”,本文通过百度搜索的纠错功能,如“萨柯奇”,获得如下图:郑州大学自然语言处理实验室数据预处理(3/4)命名实体拆分:数据集中存在一些待链接字符串需要拆分,将拆分后的部分命名实体进行检索,提高准确率,如“东北王张作霖”,搜索的核心对象为“张作霖”,分词结果取词性标注为“nr”的实体部分。郑州大学

4、自然语言处理实验室数据预处理(4/4)符号的不当数据集中存在一些待链接字符串的符号书写不规范问题,这样会影响到检索结果的准确性。如“<霸王别姬>”、“<晓说>”等,采用直接取出上述符号的做法。郑州大学自然语言处理实验室获取百度百科候选实体(1/4)本次任务的知识库只包含存在InfoBox结构的百度百科实体,如下图:因此,对于不包含上述结构的命名实体,则直接置为NIL。郑州大学自然语言处理实验室获取百度百科候选实体(2/4)对于那些不能直接在百度百科知识中检索到的命名实体,本文采用Jaccard系数上述公式的几何意义

5、表示A,B字符串的相交程度,即两字符串相同词的个数占两字符串所有词的并集比例的高低。郑州大学自然语言处理实验室获取百度百科候选实体(3/4)例如,搜索“东京FC队百度百科”,A={东京,FC,队};B1={东京,足球,俱乐部};B2={东京,FC,足球,俱乐部};B3={长友佑,都};B4={今,野泰幸};B5={东京,体育场};经过计算,得出“东京FC队”与“东京FC足球俱乐部”的相似度最高。故此,选择“东京FC足球俱乐部”作为目标实体,获取对应的百度百科实体。郑州大学自然语言处理实验室获取百度百科候选实体(4/

6、4)郑州大学自然语言处理实验室命名实体消歧(1/6)郑州大学自然语言处理实验室命名实体消歧(2/6)郑州大学自然语言处理实验室命名实体消歧(3/6)根据“苹果”实体对应的百度百科候选实体,得到如下两组特征向量:a)信不信由你目标超越苹果公司b)信不信由你目标超越蔷薇科落叶乔木郑州大学自然语言处理实验室命名实体消歧(4/6)将上述a)特征向量转化为关键字A1={信不信由你目标超越苹果公司},b)特征向量转化为关键字A2={信不信由你目标超越蔷薇科落叶乔木}进行检索,只获取前10条数据。关键字A1的部分检索结果,如图:

7、郑州大学自然语言处理实验室命名实体消歧(5/6)郑州大学自然语言处理实验室命名实体消歧(6/6)关键字A2的部分检索结果,如图:郑州大学自然语言处理实验室评测指标郑州大学自然语言处理实验室实验结果及分析(1/3)郑州大学自然语言处理实验室实验结果及分析(2/3)我们发现在NIL结果召回率高的情况下,出现了NIL结果准确率偏低的现象,说明在第一步获取待链接命名实体时,错误地将一些实体的标识符置为NIL,没有找到其对应的百科实体,比如:“美帝”,指向“美国”;“超人”、“大柴油机”指向“沙奎尔·奥尼尔”。郑州大学自然语

8、言处理实验室实验结果及分析(3/3)另外,能够找到对应百度百科候选实体的命名实体,没有获取到正确的实体消歧结果,比如:“王维”,并不是指向“唐代诗人王维”;“勒布朗”,获取的百度百科实体是“戈登·布朗”,并不是“勒布朗·詹姆斯”等。综合上述情况,导致整个正确输出的个数偏低。郑州大学自然语言处理实验室谢谢郑州大学自然语言处理实验室

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。