国标、区位、汉字内码的区别.doc

国标、区位、汉字内码的区别.doc

ID:50413942

大小:37.52 KB

页数:2页

时间:2020-03-08

国标、区位、汉字内码的区别.doc_第1页
国标、区位、汉字内码的区别.doc_第2页
资源描述:

《国标、区位、汉字内码的区别.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、1.查一下国标码、区位码、汉字内码一样么?有什么区别?答:国家标准汉字交换码(国标码):我国制定了“中华人民共和国国家标准信息交换汉字编码”,标准代号为GB2312—80,这种编码又称为国标码。在国标码的字符集中共收录了一级汉字3755个,二级汉字3008个,图形符号682个,三项字符总计7445个。国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。国际码是二字节码,用两个七位二进制数编码表示一个汉字。目前国标码收入6763个汉字,其中一级汉字(最常用)3755个,二级汉字3008个,另外还包括682个西文字符、图符。一级汉字为常用字,按拼音顺序

2、排列,二级汉字为次常用字,按部首排列。国标码的范围是2121H—7E7EH。区位码:国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码在国标GB2312—80中规定,所有的国标汉字及符号分配在一个94行、94列的方阵中,方阵的每一行称为一个“区”,编号为01区到94区,每一列称为一个“位”,编号为01位到94位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。区位码的前两位是它的区号,后两位是它的位号。用区位

3、码就可以唯一地确定一个汉字或符号,反过来说,任何一个汉字或符号也都对应着一个唯一的区位码。汉字“母”字的区位码是3624,表明它在方阵的36区24位,问号“?”的区位码为0331,则它在03区3l位。所有的汉字和符号所在的区分为以下四个组:(1)01区到15区。图形符号区,其中01区到09区为标准符号区,10区到15区为自定义符号区。01区到09区的具体内容如下;1)01区。一般符号202个,如间隔符、标点、运算符、单位符号及制表符;2)02区。序号60个,如1.~20.、(1)~(20)、①~⑩及(一)~(十);3)03区。数字22个,如0—9及X一XII,英文字母52个,其中大写A—Z、

4、小写a—z各26个;4)04区。日文平假名83个;5)05区。日文片假名86个;6)06区。希腊字母48个;7)07区。俄文字母66个;8)08区。汉语拼音符号a—z26个;9)09区。汉语拼音字母37个。(2)16区到55区。一级常用汉字区,包括了3755个一统汉字。这40个区中的汉字是按汉语拼音排序的,同音字按笔划顺序排序。其中55区的90一94位未定义汉字。(3)56区到87区。二级汉字区,包括了3008个二级汉字,按部首排序。(4)88区到94区。自定义汉字区。第10区到第15区的自定义符号区和第88区到第94区的自定义汉字区可由用户自行定义国标码中未定义的符号和汉字。国家标准汉字机

5、内码(内码):汉字的机内码是指在计算机中表示一个汉字的编码。机内码与区位码稍有区别。如上所述,汉字区位码的区码和位码的取值均在1~94之间,如直接用区位码作为机内码,就会与基本ASCII码混淆。为了避免机内码与基本ASCII码的冲突,需要避开基本ASCII码中的控制码(00H~1FH),还需与基本ASCII码中的字符相区别。为了实现这两点,可以先在区码和位码分别加上20H,在此基础上再加80H(此处“H”表示前两位数字为十六进制数)。经过这些处理,用机内码表示一个汉字需要占两个字节,分别称为高位字节和低位字节,这两位字节的机内码按如下规则表示:高位字节=区码+20H+80H(或区码+A0H)

6、低位字节=位码+20H+80H(或位码+AOH)由于汉字的区码与位码的取值范围的十六进制数均为01H~5EH(即十进制的01~94),所以汉字的高位字节与低位字节的取值范围则为A1H~FEH(即十进制的161~254)。1.Unicode、Utf8/utf16代表的含义?答:Unicode:unicode.org定制的编码机制,要将全世界常用文字都涵盖进去.在1.0中是16位编码,由U0000到UFFFF.每个2byte码对应一个字符;在2.0开始抛弃了16位限制,原来的16位作为基本位平面,另外增加了16个位平面,相当于20位编码,编码范围0到0x10FFFF。Utf8:Utf8以字节为单

7、位对Unicode进行编码。Utf8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符,Utf8编码与ASCII编码完全相同。Utf8编码的最大长度是4个字节。从上表可以看出,4字节模板有21个x,即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21位。utf16:utf16:编码以16位无符号整数为单位。16bit编码,是变长码,大致相当于20位编码,值在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。