第五章中文信息处理

第五章中文信息处理

ID:76618192

大小:873.50 KB

页数:33页

时间:2022-01-18

第五章中文信息处理_第1页
第五章中文信息处理_第2页
第五章中文信息处理_第3页
第五章中文信息处理_第4页
第五章中文信息处理_第5页
第五章中文信息处理_第6页
第五章中文信息处理_第7页
第五章中文信息处理_第8页
第五章中文信息处理_第9页
第五章中文信息处理_第10页
资源描述:

《第五章中文信息处理》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第五章中文信息处理汉字信息处理与汉字输入法汉字信息处理自20世纪60年代以来,日本、中国及其他一些国家相继开展了汉字信息处理的研究。1974年,我国将汉字信息处理研究课题“748工程”列为国家重点工程,研制汉字精密照排系统和汉字情报检索系统。20世纪70年代末到80年代初,我国在汉字基本属性、编码和存储、输入与输出设备和汉字应用系统等方面的研究取得了迅速的进展。尤其是激光精密照排系统已达到世界领先水平,微型机汉字信息处理技术进入了实用阶段,使我国计算机应用的深度和广度都向前迈进了一大步。汉字信息处理

2、的基本问题文字信息的计算机处理过程要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。首先要解决用0、1代码串表示文字符号的问题,也就是前面提到的编码问题。以英文信息的计算机处理为例,英文字符的编码标准是ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际标准字符编码。为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB1988

3、。其中除了将货币符号置换为人民币符号外,其他都与ASCII码相同。汉字信息处理的基本问题计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码,输入到计算机的内存中。为了对输入的文字进行编辑加工,必须使用相关的应用软件,如Word2000、WPS2000,或其他文字处理软件。经过编辑的文本仍然以ASCII码表示。输出时,这些代码必须转换成字符字形的点阵,以便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息。

4、这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。汉字信息处理的基本问题文字、符号的点阵信息由显示器或打印机输出时,必须通过相应的驱动程序,将点阵信息转换为显示器、打印机的电子或机械的操作。文字信息的计算机处理过程如图4.1所示。文字信息的计算机处理过程汉字信息处理的基本问题汉字信息的计算机处理过程与英文信息处理过程是类似的。不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大。我国经过多年的研究,汉字处理的基本问题已经解决。汉字信息处理的基本问

5、题为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码。这就是汉字的交换码。1981年5月,我国国家标准总局颁布《信息交换用汉字编码字符集》(GB2312-80),作为汉字交换码编码的国家标准,简称国家标准汉字编码,或国标码。收进该标准的字符共有7445个。其中一级汉字3755个,二级汉字3008个,共计6763个。一、二级汉字约占近代文献汉字累计使用频度的99.99%。为便于查找,一级汉字按汉语拼音顺序排列;二级汉字一般不易熟记它们的发音,故按部首和笔画排

6、列。另外还包括常用符号、序号、GB1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。汉字编码标准累计使用频度不足0.001%的汉字数量接近1万个。为了满足计算机实际应用的需要,我国在GB2312-80的基础上扩大收字的范围,制定了“汉字内码规范”GBK,包含了20902个汉字,又称为扩展的国标码。在Windows95/98和其后的Windows2000中,装入了GBK的全部汉字和符合GBK和GB2312-80的输入法。由于汉字的字符多,一个字节八位二进制代码不足以表示

7、所有的常用的汉字。为了不与西文的ASCII码混淆,在微型机汉字系统中,国标码的每个符号都用两个字节(十六位)代码来表示,并作为转换为机内码或其他汉字处理代码的依据。汉字编码标准汉字国标码就是GB2312-80为汉字规定的代码,也称为交换码。国标码是汉字编码的国家标准。在GB2312-80代码表中,纵向分为0~93,共94行;横向也是0~93,共94列。行与列分别用七位二进制码表示,第一字节表示行,第二字节表示列。其值都从0100001到1111110。这正是ASCII码的可打印字符的编码。其范围为十

8、六进制的21~7E。汉字国标码是将第一字节和第二字节连写而得到的。由于二进制形式太长,通常用十六进制表示。例如:汉字第一字节第二字节十六进制区位码啊0110000010000130211601保0110001010001131231703播0110010010010132251805国标码国标码还可以表示成区位码的形式。在GB2312-80代码表中,将行号称为区号,列号称为位号,分别有94个区和94个位。将汉字置于其中,由区号与位号标识出汉字在代码表中的位置。区号与位

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。