现代汉语字、词基础部件统计分析.pdf

现代汉语字、词基础部件统计分析.pdf

ID:52388206

大小:330.00 KB

页数:7页

时间:2020-03-27

现代汉语字、词基础部件统计分析.pdf_第1页
现代汉语字、词基础部件统计分析.pdf_第2页
现代汉语字、词基础部件统计分析.pdf_第3页
现代汉语字、词基础部件统计分析.pdf_第4页
现代汉语字、词基础部件统计分析.pdf_第5页
现代汉语字、词基础部件统计分析.pdf_第6页
现代汉语字、词基础部件统计分析.pdf_第7页
资源描述:

《现代汉语字、词基础部件统计分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、现代汉语字、词基础部件统计分析,邢红兵北京语言文化大学语言信息处理研究所,北京100083xinghb@blcu.edu.cn提要本文依据《信息处理用(11313000.1字符集汉字部件规范》喻规定的汉字基础部件,对“现代汉语研究语料库系统”。(以下简称“语料库”)中使用的全部汉字和词进行基础部件拆分,并对拆分出的部件进行统计和分析。文章分三部分:对“语料库”中使用的汉字进行拆分,对拆分出的结果is行静态和动态的分析;岁词为单位,对“语料库”中使用的全部9h词直接进行基础部件拆分,对词和部件的关系进行统计和分析;对基础部件构字、构词的情况进行分析。关键词汉字

2、部件,基础部件,部件拆分。StatisticalresultsandanalysisofBasicComponentsinChineseCharactersandWordsXingHongbingLanguageInformationProcessingCenter,BeijingLanguageandCultureUniversity,Beijing100083xinghb@blcu.edu.cnAbstractAccordingto"ChineseCharacterComponentStandardofGB13000.1CharacterSetforIn

3、formationProcessing",wedocomponentdisassemblytoallChinesecharactersandwordsusedin"CorpusforModernChineseResearch”Thenwecalculatethestaticanddynamicfrequencyofdisassembledcomponentsincharactersandwords,inthispaperweanalyzethestatisticalresults.KeywordsChinesecharactercomponent,basic

4、component,componentdisassembly1前言《信息处理用GB13000.1字符集汉字部件规范》已经颁布实施,该规范的实施是我国中文信息处理发展中的一件大事,它必将进一步推动我国中文信息处理事业走向标准化和规范化。本文以该规范规定的基础部件为依据,对“语料库”中所使用的汉字和词进行基础部件拆分,并对拆分结果进行分析。本文的写作基于以下几个方面的考虑:(1)为规范提供动态的统计数据;(2)为汉字信息处理,特别是汉字的编码提供统计数据;(3)为汉字教学提供一些统计数据;(4)为汉字的研究提供可查询的丰富的资料。.本文承国家自然科学荃金重点项目

5、(项目号:69433010)的资助.56"去除一些标点、符号、英文字母以及一些错字、“死字”等,“语料库”所使用汉字共4868个,1857660字次,平均每字使用次数为381.61次。在这4868个汉字中,集内字4,822个,占总字数的99.0550%;集外字46个,占总字数的。.9540%。我们对这4868个汉字进行部件拆分,得到“语料库”用字基础部件序列表。此表包括字形、该字的使用次数、使用频度、部件数、基础部件序列等信息口我们知道,能够独立使用的最小的语言单位是词。一个汉字可以是一个词,但很多时候一个汉字只代表语素,是构词的单位;有的汉字甚至只表示音节

6、,例如:“猩猩”中的“猩”、“蝴蝶”中的“蝴”等。因此,我们还将对“语料库”中的词进行部件分析。该“语料库”共用词47006个(其中已经排除用阿拉伯数字表示的数词,英文词以及一些特殊符号等),1236897词次,平均每个词使用11.12次。我们对这四万七千多词进行部件拆分,得到“语料库”用词基础部件序列表。此表包括词形、词长、使用次数、部件序列等信息。在此基础上,对拆分出的基础部件进行统计,得出“语料库”基础部件表,此表包括基础部件、能否单用、是否是单笔、构字字数、构词词数、使用次数等信息。2汉字包含的基础部件数量我们首先分析一下汉字的平均部件数:库中共使用

7、汉字4868个,拆分的基础部件总数量为15216个,平均每字的部件数为3.1257个;加上各字的使用次数,库中共使用汉字1857660字次,基础部件总使用次数为4324716次,平均每字的部件数为2.3280个。下面的表是我们对部件数不同的汉字的字数及在“语料库”中的出现次数进行统计的结果:字数占总字数比例(%)字次占总字次比例‘%)平均使用次数单部件字2194.498840114521.59411831.71两部件字119524.548168083336.6500569.73三部件字}186738.352558836431.6723{四部件字I!10702

8、1.98031442767.7665134.84五部

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。