句法分析-中国计算机学会

句法分析-中国计算机学会

ID:39178640

大小:1.37 MB

页数:27页

时间:2019-06-26

句法分析-中国计算机学会_第1页
句法分析-中国计算机学会_第2页
句法分析-中国计算机学会_第3页
句法分析-中国计算机学会_第4页
句法分析-中国计算机学会_第5页
资源描述:

《句法分析-中国计算机学会》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、汉语并列关系的识别研究北京信息科技大学研三郑略省2021/9/212主要内容研究的意义并列关系的标注方式并列关系的构成角色并列关系的特征选择实验结果分析结论3研究的意义自然语言深层处理技术已用于机器翻译、信息抽取和问答系统等方面句法分析是自然语言深层处理的基础依存句法比短语句法更容易处理有江南南部小到中雨贵州西部将华南RootSBVCOOATTADVVOBCOOATT4研究的意义目前依存句法分析研究的重心放在统一建模上,对汉语特殊结构的研究较少McDonald的方法整体识别效果LAS和UAS为78.2%,80.8%并列关系识别效果偏低,正确率和召回率分别为64.0%,54

2、.8%5研究的意义汉语并列结构研究主要在于识别并列结构的边界,并不能直接应用到依存句法分析当中(贵州南部、江南、华南西部)将有小到中雨6主要内容研究的意义并列关系的标注方式并列关系的构成角色并列关系的特征选择实验结果分析结论7并列关系的标注方式依存语法中并列关系(COO)的标注方式由并列词组、核心词和尾词组成并列词组,指的是在同一并列结构中发生并列关系的所有并列成分核心词,指的是在并列词组中有一个并列成分充当核心节点的作用,其它并列成分均以核心词为父亲节点尾词,指的是距离核心词最远的并列成分标注方式是遵循左核心原则8主要内容研究的意义并列关系的标注方式并列关系的构成角色并

3、列关系的特征选择实验结果分析结论9并列关系的构成角色角色表是识别并列关系的基础。根据角色表,计算机能够理解汉语并列结构编码意义例子H并列词组的核心词经济、政治和外交B并列词组的非核心词经济、政治和外交O以上之外其它的角色贵州OHOBOOB……南部江南、、华南……西部COOCOO10并列关系的构成角色并列关系可分为无标记和有标记无标记:结构复杂,不易识别“指手画脚,照本宣科”,“深入细致,扎实有效”有标记:结构上由并列标记连接连词:和、与、并……”,中国和南非标点符号:主要是逗号为主编码意义例子H并列词组的核心词经济、政治和外交B并列词组的非核心词经济、政治和外交R并列词组

4、内部的并列标记仓库、厂房和民宅I并列词组内部的非并列标记汇率和股票价格O以上之外其它的角色贵州OHRBRIB……南部江南、、华南……西部11并列关系的构成角色有标记并列关系比较难识别的是嵌套并列关系,主要困难在于个别并列成分充当多重角色老虎HRBRXRB……、和麻雀竹、……梅编码意义例子H并列词组的核心词经济、政治和外交B并列词组的非核心词经济、政治和外交R并列词组内部的并列标记仓库、厂房和民宅I并列词组内部的非并列标记汇率和股票价格X并列词组的核心词,又是另一个并列词组的非核心词松鼠、麻雀和竹、梅、松、柏O以上之外其它的角色COOCOOCOO12并列关系的构成角色该文根

5、据并列关系的特点和上下文信息,制定了完整角色表编码意义例子H并列词组的核心词经济、政治和外交指手画脚,照本宣科X并列词组的核心词,又是另一个并列词组的非核心词松鼠、麻雀和竹、梅、松、柏B并列词组的非核心词青草、鲜花和河流、湖泊R并列词组内部的并列标记仓库、厂房和民宅I并列词组内部的非并列标记汇率和股票价格L核心词的上文贵州南部、江南、华南西部F尾词的下文华南西部和北部有小到中雨C既是上文又是下文那些诗句、那些祝辞,喜悦、激动、欣慰之情O以上之外其它的角色13主要内容研究的意义并列关系的标注方式并列关系的构成角色并列关系的特征选择实验结果分析结论14并列关系的特征选择特征的

6、合理选择是识别并列关系的关键。特征集是判别某个词或字在并列关系中充当何种角色的主要依据。15并列关系的识别特征集通常由未识别的词与其词性,上下文与其词性组成,或相互复合而成。如表原子特征复合特征W(i)W(i+1)W(i+2)W(i-1)W(i-2)P(i)P(i+1)P(i+2)P(i-1)P(i-2)W(i)+P(i)W(i+1)+P(i+1)W(i+2)+P(i+2)W(i-1)+P(i-1)W(i-2)+P(i-2)P(i+2)+P(i+1)+P(i)P(i+1)+P(i)+P(i-1)P(i)+P(i-1)+P(i-2)……16并列关系的特征选择并列结构还有个很

7、重要的特点,就是结构的平行性,也就是修饰词的共享或相似各种/rX形/n、Y形/n、蝶形/n当地/nl群众/n和外地/nl游客/n并列结构还有其它表现形式,较难识别的是修饰词和被修饰词的词性均为“n”的情况企业/n及/c投资/n机构/n政治/n和/c工资/n待遇/n17并列关系的特征选择18并列关系的特征选择19并列关系的特征选择以D表示词性为“n”的类别(A,Q,M,U),U表示词性非“n”。在特征集中引入D标记。原子特征复合特征……D(i)D(i+1)D(i+2)D(i-1)D(i-2)……D(i)+P(i)D(i+1)+P

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。