现代汉语语法信息词典的收词原则

现代汉语语法信息词典的收词原则

ID:14350850

大小:98.00 KB

页数:12页

时间:2018-07-28

现代汉语语法信息词典的收词原则_第1页
现代汉语语法信息词典的收词原则_第2页
现代汉语语法信息词典的收词原则_第3页
现代汉语语法信息词典的收词原则_第4页
现代汉语语法信息词典的收词原则_第5页
资源描述:

《现代汉语语法信息词典的收词原则》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、《现代汉语语法信息词典》的收词原则 王惠chswh@nus.edu.sg 关键词:现代汉语、语法词典、收词原则 一.前言 《现代汉语语法信息词典》是一部供计算机分析与生成汉语句子而使用的机器词典。词典计划收词6万左右,所收条目包括:名词n,时间词t,处所词s,方位词f,数词m,量词q,区别词b,代词r,动词v,形容词a,状态词z,副词d,介词p,连词c,助词u,语气词y,象声词o,叹词e,前接成分h,后接成分k,成语i,简称略语j,习用语l,语素g,非语素字x,标点符号w等26类。其中前18类是语言学界普遍认可的词,后8

2、类只是借助这些术语对词典中所收的非词成分进行归类[1]。为行文方便,本报告中将对词典中收录的这26类成分都统称为“词语”。北京大学计算语言学研究所从1986年起就开始研制《现代汉语语法信息词典》。该项研究先后纳入国家“七五”攻关项目和“八五”科技攻关项目《中文信息处理技术应用开发平台》[3]的总规划,并与国家自然科学基金项目“自然语言的计算理论”相配合。经过七年的连续开发,目前,该研究已取得重要的阶段性成果,词典已初步完成了五万词的收录、归类及属性描述。本报告就是在这些实际工作经验的基础上,详细介绍这部电子词典的收词原则

3、。 二.收词原则 词典的收词原则依赖于其应用目标。《现代汉语语法信息词典》(以下简称“电子词典”)是供计算机使用的,与供人使用的词典相比较,收词原则应有所区别;本词典又是一部面向中文信息处理各个领域的通用性词典,它不依赖于任何特定的语言处理模型及算法,因而,与一般依赖于某个具体处理系统的电子词典相比较,收词原则也有很大的区别。下面从6个方面对这部电子词典的收词原则进行介绍:1.规范原则(1).符合国家标准《信息处理用现代汉语分词规范》的词语,都属于电子词典的收词范围。根据该《信息处理用现代汉语分词规范》中对“分词单位”的

4、定义:“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组”。语言学中所定义的词:“最小的能自由运用的语言单位,首先是电子词典的收录对象。在目前已收录的五万余条词语中,词占95%以上,包括了全部的18个基本类。对于其中的9个封闭类:方位词、量词、代词、副词、介词、连词、助词、语气词、叹词等,电子词典尽可能全部收录。而另外9个开放类,名词、时间词、处所词、动词、形容词、状态词、区别词、数词、象声词等,由于其数目众多,电子词典不可能都收录,而是还要进一步参照下面将要介绍的其它几个收词原则

5、(如高频原则、稳定原则、词部件原则等)进行取舍。除了18类基本词以外,符合《信息处理用现代汉语分词规范》的成语、习用语、缩略语3类比词大的语言成分也属于电子词典的收录范围。这些固定短语大多数是由语素和词组合而成,其构成成分和格式都是在汉语的长期发展中形成的,不可随意切割,而且其意义也带有整体性。在句子中所起的作用与词相当,是汉语词汇体系的重要成员。如: 成语:胸有成竹、走马观花、子虚乌有固定短语习用语:跑龙套、卖关子、总而言之简称略语:三好、人大 由于这3类固定短语数量也非常可观,电子词典对其处理策略与处理开放类的策略相

6、同,只选收其中一部分使用频率高、稳定性强的。(2).不符合分词规范的词语,原则上将不予收录。这主要包括以下几种情况:1).不是分词单位的词实际文本中的数词千变万化,如:“一、十一、一亿八千万、第六、五分之二、一千多、三十几、数万……”等等。但根据分词规范,可以作分词单位的只有:a.系数词“一、十、两、几”等b.位数词“十、百、千、万、亿、兆”等c.助数词“第、初、零、分之、多、数、约”等d.数量词“若干、许多、不少、大量、少许”等那么,除了这4组,其它数词都不是分词单位,因而也不属于电子词典的收录范围之内。2).不是分词

7、单位的短语成分,如:a.(一)般说(出其)不意热胀(冷缩)超低(空)(三)年来之首最关并以应按b.在讲话中写论文学不好科技发展时间就是生命听说读写早来桌子上c.联合国教科文组织国家标准局北京大学中国少年先锋队其中a组可能在词频统计时这些字的组合出现频度较高,但它们不在合理的层次上,既不成词也不成短语,b组是自由短语,c组是组织、机构、单位的名称。2.高频原则现代汉语词语非常丰富,即使是严格符合《信息处理用现代汉语分词规范》的分词单位,也数不胜数。因而,电子词典不可能见词就收。为了做到收词量一定而词的覆盖面最大或词的覆盖面

8、足够大而收词量最少,电子词典应在规范原则的基础上,遵守高频原则,尽可能多地选收那些使用频率高、适用面广的词语,尽量少收低频词。词语频度主要是通过对大规模语料的统计、分析获得。我们词语的频度,主要是参照电子工业部提供的“频度词表”(约4万词语)以及我们七五时选的五万词、北京语言学院编写的《现代汉语频率词典》等现有的9种

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。