双字组合理解模式探索

双字组合理解模式探索

ID:11524650

大小:81.00 KB

页数:8页

时间:2018-07-12

双字组合理解模式探索_第1页
双字组合理解模式探索_第2页
双字组合理解模式探索_第3页
双字组合理解模式探索_第4页
双字组合理解模式探索_第5页
资源描述:

《双字组合理解模式探索》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、双字组合作者简介:王淑华(1976-),女,上海大学文学院博士后。由于汉语中“词”和“短语”经常存在划界不清的情况,因此,本文将两个单音节语素的组合称为“双字组合”,不刻意强调或区分它到底是“词”还是“短语”。理解模式探索王淑华(上海大学文学院,上海200444)提要:新词语不断增加,计算机处理真实文本时不可避免地要面对大量的未登录词。本文认为,从词典中的已登录词出发,描写每个单字的构词属性,如构词时的位置、能产的构词模式、处于不同位置的单字构词时对另一个构词成分在句法和语义上的要求、组合以后的意义理解模式等,有助于计算机准确

2、地识别和理解未登录词。关键词:双字组合未登录词意义组合原理引言近年来,随着社会生活、科学技术以及人们思想观念的发展变化,新词语在不断增加。《现代汉语词典》第5版中新增词语有6000余条,而《现代汉语新词语信息(电子)词典》中一共收录了近4万个新词语[1]。事实上,不管工具书、在线词典等规模有多大、更新有多快,都不可能覆盖语言中的全部词汇。计算机在处理真实文本时,不可避免地要面对大量的未登录词新词语主要是两种,一种是新产生的词语,一种是旧词产生新义的,即词典中没有进行解释的。未登录词是指词典中没有出现的词语。有些词虽然不是新词语

3、,但词典中没有出现,对计算机来说也是未登录词。。虽然汉语中的词汇在不断地发展变化,但是用于组词的汉字并没有增加,常用汉字一直有着极高的覆盖率。据冯志伟(1997)统计:2400个常用汉字的覆盖率是99%,3800个常用汉字的覆盖率是99.9%。鲁川(2003)指出:随着信息时代的到来,“新词”和“未登录词”激增,但是“汉字”未增,“这就证明了:汉族人既有用旧字创造新词的能力,又有看旧字懂新词的领悟力”,所以“我国人工智能学者和语言学者要通力合作,让电脑模拟汉族人看旧字懂新词的智力。”[3]0.3不仅组成“新词”和“未登录词”的

4、“汉字”没有增加,而且“新词”和“未登录词”的内部构造方式也没有变化。亢世勇(2001)和苏新春(2003)的考察结果基本相同苏文把“状谓”结构从偏正结构中独立出来进行考察,但不影响结论。:新词语的构词方法以复合式为主,复合式词语中,又以偏正、述宾、联合三种结构最多。0.4苑春法(1995)以汉语语素数据库中的22016个复合名词、15666个复合动词、3276个复合形容词为考察对象,比较全面地考察了汉语复合词中词义与语素义之间的关系。他指出:“复合词的词义和组成复合词的语素意义之间关系密切,语素在构词时意义绝大多数保持不变,

5、少数变化情况又是有规律可循,这使语素可以在未登录词处理的研究方面起很大的作用”。0.5基于以上几点,我们认为,加强对单字(单音节语素)构词属性的描写,可以帮助计算机正确地处理未登录词;明确每个单字构词时对另一个构词成分在语法、语义上的限制与要求,有助于计算机正确地识别出未登录词;明确每个单字和不同类型的构词成分组合时的语义表现以及组合后的意义内容,有助于计算机准确地求解出未登录词的词性和意义。1双字组合的理解模式81.1意义组合原理与复合词的词义意义组合原理(principleofcompositionality)也叫弗雷格原

6、理,由现代数理逻辑的创始人、德国著名的数学家、哲学家、逻辑学家弗雷格(Frege)提出。其基本思想是“一个复合表达式的意义是它的部分表达式意义的函项”陈波(2000)第27页。。美国逻辑学家蒙塔古(Montague)在此基础上更进一步,主张把自然语言作为与逻辑人工语言本质上相通的一种符号形式系统进行研究。他认为,不仅复合句的意义由其直接构成成分的意义组合而成,其它语言表达式(如短语)也是如此。复合语言表达式的意义组合,不仅有直接成分的意义参与,还和直接成分组合时所用的结构运算的意义分不开。确切地说,复合语言表达式的意义是语形结

7、构运算的意义对直接成分的意义进行语义运算的结果邹崇礼(1995)第8页。。这是蒙塔古对意义组合原理更彻底更严格的表述。就汉语而言,对于一个由单字A、B组成语言单位AB来说,单位AB的意义不仅与直接成分A、B的意义有关,还和A、B的组合方式有关。例如,一个动语素和一个名语素组成一个复合词,光知道A、B本身的意义和性质并不足以求出单位AB的意义和性质,还需要知道A和B是以什么样的方式组合的。如果AB是动宾结构,而且宾语是动词词义内部规定的内容,那么求解单位AB的意义,把B的意义代入A意义中的相关部分即可;如果AB是定中结构,那么一

8、般是把A的意义加在B的意义之上。1.2计算机理解未登录词对于计算机来说,理解未登录词的过程,其实就是一个利用已知条件进行推理的过程。计算机遇到未登录词时,总是先把它们分割为单个的汉字,处理的首要目的就是要判断单字是否能够重新组合,如果能组合起来,再进一步判断其性质,求解出词义

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。