基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc

基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc

ID:51188061

大小:311.50 KB

页数:8页

时间:2020-03-09

基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc_第1页
基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc_第2页
基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc_第3页
基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc_第4页
基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc_第5页
资源描述:

《基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于二元根词相关性的汉语三字格词语知识挖掘研究*山东大学盛玉麒(*本文得到国家社科基金项目“基于语料库的汉语根词相关性句法模型研究”的经费资助)一、词相关性1.相关性理论“相关性”通常指随机事件之间的关系。在数理语言学领域常指两个语言单位的关系程度。可以是字与字之间的相关性、也可以是词与词、短语与短语、句子与句子之间的关系。在计算语言学中,常用“共现”一词表示两个成分共同出现在一个语句中。相比之下,“共现”只是强调同时出现,而“相关性”则明确度表达了“关系的程度”。统计学有“相关分析”法,专门研究随机变量之间的相关性,包括偏相关、复相关、定序变量相关等

2、不同类型相关性的统计分析。本文所谈“二元相关性”是指任意两个词之间的关系程度。可以把这种关系想象成词的矩阵,纵横分别按照自然数列排列全部词,两两组合的节点数就是相关性组合的理论数值。假设有10000个词,那么,相关性组合的理论数值就是10000*10000=1亿个。但是实际应用中绝不会有那么多。因为许多词之间由于句法功能的差异以及应用分布的关系,包括合理组合与非合理组合。例如下面的例子:李嘉诚称,“事实上,中国人有好人,也都有差的;外国亦都有好有差,国籍没有特别的关系。”没有分词的情况下,可根据标点符号分隔的两个相邻单位之间就存在相关性,“事实上,中国

3、人有好人”、“中国人有好人,也都有差的;”等等。分词标注词性后,得到如下文本:李/nr嘉诚/nr称/v,/w“/w事实/n上/f,/w中国/ns人/n有/v好/a人/n,/w也/d都/d有/v差/a的/u;/w外国/n亦/d都/d有/v好/a有/v差/a,/w国籍/n没有/d特别/a的/u关系/n。/w”/w其中“李/nr嘉诚/nr称/v,/w”算上标点一共4个单位,其中的二元相关性组合就有“李/nr嘉诚/nr”、“嘉诚/nr称/v”和“称/v,/w”3组。显然“李/nr嘉诚/nr”和“嘉诚/nr称/v”具有合理性,而“称/v,/w”就不具有合理性。根

4、据相关性的程度可大致分为“高、中、低、无”四种。相关性与结构关系不同,结构关系是具有内在逻辑规定性的关系,例如主谓、述宾、偏正、述补等基本句法结构关系。相关性是指“随机变量”之间的关系,随机变量是不确定性的量,并不能确定是否存在真正的逻辑关系,所以要通过统计分析来求证。2.相关性的获得获得相关性的途径有两条:一是从理论预设为主,将所有的词建立二元搭配矩阵,然后逐一筛选排查;二是从抽样语料中进行统计分析,找出实际使用中存在的相关性组合。前一种方法具有“穷尽性”,但是工作量大,可控性不足,因为人工筛选排查过程如何防止错漏是一个大问题。判断标准也不好掌握。因

5、为词离开具体的语境后,往往很难判断其合理性。后一种方法往往受限于抽样语料的规模。从理论上说,不管语料库多大,都具有不完备性,因此一定会有遗漏。二者相比,后者具有现实可行性。本研究采用基于语料库的统计分析方法进行词相关性的知识挖掘。3.相关性的意义用相关性来描述语言单位之间的关系具有统计学的意义。现代汉语关于词的定义中有“结构稳定性”、“历史继承性”、“社会通用性”等标准。其中的“结构稳定性”用相关性进行描述就属于“高相关性”。新词语多属尚未达到“稳定性”的程度,可以用“中低稳定性”加以描述。因此,在新词语知识挖掘研究中,相关性研究就有了重要的意义。从词

6、长看,新词语一般多为2——4个音节,5音节以上的很少。其中,双音节词与双音短语之间的区别难度最大。三字格中除了少数被收入辞典的惯用语等固定短语之外,多数为临时短语,真正的“三音节词”并不多。四字格中除成语外,情况与三字格类似。固定短语一般都是从临时短语发展来的,都经过了“临时短语”——“准固定短语”的阶段,因此,从3-4音节的相关性组合中挖掘“准固定短语”应是新词语研究的一个重点。二、抽样语料库根据2003年1月分解放军报电子版文本语料,通过word字数统计结果为2128619个汉字,不计空格字符数为3119202个。采用中科院计算所自动分词软件进程分

7、词和标注词性作为预处理。自动分词后得到830797词次,统计结果得到词种37065个。其中:单音词4702个,累计使用次413186次;双音词24543个,累计使用次380400次;三音词4663个,累计使用次27167次;四音词2899个,累计使用次9398次;五字以上词258个,累计使用次646次。列表如下:表1.抽样语料库词频统计结果词长词种所占比例累计频次所占比例单音词470212.69%41318649.73%双音词2454366.22%38040045.79%三音词466312.58%271673.27%四音词28997.82%93981.

8、13%五字以上2580.70%6460.08%合计37065100.00%830797100.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。