中文同义词自动抽取研究.ppt

中文同义词自动抽取研究.ppt

ID:49856255

大小:3.24 MB

页数:28页

时间:2020-03-03

中文同义词自动抽取研究.ppt_第1页
中文同义词自动抽取研究.ppt_第2页
中文同义词自动抽取研究.ppt_第3页
中文同义词自动抽取研究.ppt_第4页
中文同义词自动抽取研究.ppt_第5页
资源描述:

《中文同义词自动抽取研究.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文同义词自动抽取研究南京师范大学计算机学院自然语言处理小组曹冉孙玉霞狄颖指导老师:曲维光周俊生目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法《同义词词林(扩展版)》在《同义词词林(扩展版)》中,编码末尾为=的词语集合表示的是同一个语义。因此,目标词的同义词即为包含目标词的编码末尾为=的词

2、语集合。目标词“规则”对应的同义词集合:Di24A01=规则守则准则则规律章法轨道清规戒律规例规约目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法中文概念词典CCDCCD中使用Synset字段来描述概念。但是在Synset中的词语并不完全是同义词,而是某种意义上的相关词。一个词语也可能出现在多个Synset中。如目标词“爱好”:概念编号定义Synset01745360吸引普通大众喜好流行爱好盛行风行00273902一种附属的活动嗜好爱好

3、业余爱好基于中文概念词典本文提出基于典型同义词的过滤方法。基本思想:在包含目标词的Synset中统计出典型同义词。使用典型同义词按照一定规则在Synset中过滤出同义词。典型同义词统计方法典型同义词统计方法基于典型同义词的过滤算法最终“爱好”的同义词为{嗜好,喜好,业余爱好,偏好,偏爱,偏袒,喜欢}。概念编号i017453600.4002739021.0044633250.25047001750.75055650690.125056084830.125055732850.75基于语义词典-实验结果基于同义词词林获取到5277个目标词的

4、同义词,平均每个词语对应13个同义词。基于CCD获取到5727个目标词的同义词,平均每个对应6个同义词。基于字典的方法获取到的同义词的目标词大多是普通名词、动词、形容词。宏平均准确率宏平均召回率宏平均F1值微平均准确率微平均召回率微平均F1值TYCL0.29470.34470.27640.32250.41830.3642CCD0.22360.22980.19550.31170.21180.2522Final0.35880.60410.39680.30250.63580.4100目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文

5、概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法基于模式匹配方法-基本思想在互联网上抓取目标词的百度百科词条在百科词条概述中,利用人工提取的“目标词+模式词+候选同义词”模式取得高质量同义词。利用高质量同义词在百科全文中获取限定语料,自动提取出上下文环境模式。利用目标词和上下文环境模式提取同义词。基于模式匹配的方法人工模式提取基于770个词条百科,手动进行模式提取,这里的模式是指同义词提示词。模式类型模式数量实例前置名词模式39模式:昵称例:周笔畅的昵称是笔笔。前置动词模式64模式:又名例:栀

6、子花又名栀子。后置模式8模式:美称例:杭州素有人间天堂的美称。基于模式匹配的方法自动模式获取基于百科全文获取包含同义词词对的句子。在获得的句子集合上,提取左右词语列表、左三元组列表,并根据获得的列表进行同义词穷尽自动抽取。如下表所示:模式类型左词语列表右词语列表左三元组列表排名前5、,称和又、,。;等、「同义词」、,「同义词」,,又称称「同义词」、”、“总计7424131基于模式匹配的方法-规则过滤由于网络资源存在不规范性,需要对获取到的同义词进行筛选。筛选方法:首先对获取到的同义词进行分词,然后使用如下规则进行筛选:规则1若候选同义

7、词是一个完整的分词结果,同义词有效。规则2若候选同义词分词结果中包含{共和国,市,州,镇,县,郡,帝国}中任一后缀,同义词有效。规则3若候选同义词分词结果是两个字数词性一致的词语,同义词有效。规则4若候选同义词分词结果包含目标词语,同义词无效。上述四个规则,优先度依次递减。基于模式匹配的方法-实验结果对于给定的9455个目标词,其中有8268个词语能够获取到对应的词条百科。基于词条概述能够获取到同义词的有815个目标词。目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列

8、结构的方法同义词传递性扩充的方法基于并列结构的方法-基本思想并列结构包含的两个词语一般有共同的形态,语义相似或相关,中间使用“和,或,逗号,顿号”等并列连词进行连接。假设并列结构包含的两个词语中一个是目标词,则另一个可以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。