《字符编码测试总结》word版

《字符编码测试总结》word版

ID:30310755

大小:90.54 KB

页数:17页

时间:2018-12-28

《字符编码测试总结》word版_第1页
《字符编码测试总结》word版_第2页
《字符编码测试总结》word版_第3页
《字符编码测试总结》word版_第4页
《字符编码测试总结》word版_第5页
资源描述:

《《字符编码测试总结》word版》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、字符编码测试总结字符编码测试总结2011-05-2302:401.字符编码基础知识1.1.字符编码基本概念现代编码模型的编码思想包括:有什么字符、他们的编号、这些编号如何编码成一系列的码元,以及最后这些单元如何编码为8位字节流。对应于如下术语:1)字符表一个系统所支持的所有抽象字符的总合。2)编码字符集定义了如何使用称为码点的非负整数集表示一个字符集,一个整数对应一个抽象的字符。3)字符编码形式定义将编码字符集的整数代码转换成有限大小整数代码值以利于使用固定位的二进制表示数字的形式的系统存储。例如使用8位或16位单元存储数字信息。字符编码形式定义了如何用单个或多个码值表示码点的方法。例

2、如utf8是一种编码形式,utf-16则是另一种编码形式。4)字符编码机制定义固定大小的整数代码如何映射到基于8位字节数据的文件系统存储或者基于8位字节网络传输。在多数使用unicode的场合,一个简单的字符编码机制用来指定每个整数的字节顺序是大字节在先顺序还是小字节在先顺序。还有其他复杂的字符编码机制。1.2.字符编码发展字符编码的历史大致可以分为三个阶段:1)ascii阶段刚开始只支持英语,其他语言不能够在计算机上存储和显示。使用一个字节来存一个字符。2)ansi编码(本地化)为使计算机支持更过语言,通过使用0x80~0xFF范围的2个字节来表示1个字符。不同的国家和地区制定了不同

3、的标准,由此产生了各种各样的编码标准,如gb2312、big5、jis等。这些使用两个字节来表示一个字符的各种汉字延伸编码方式,称为ansi编码。3)Unicode阶段(国际化)为了使国际间信息交流更加方便,国际组织制定了unicode字符集,为各种语言中的每一个字符设定了统一并且唯一的数字编号,以满足跨语言、跨平台进行文本转换、处理的要求。Unicode仅仅制定了字符集,用来给unicode编码的标准有utf-7、utf-8、utf-16、unicodeLittle、unicodebig等。1.3.主要编码1.3.1.Asciiascii全称美国信息互换标准代码(americanst

4、andardcodeforinformationinterchage)。主要用于显示现代英语和其他西欧语言,是现今最通用的单字节编码,等于国标标准iso646。包含控制字符32个和可打印字符94个。编码单元为8位,取值单位从0x00-0x7F,最高为0。1.3.2.汉字编码汉字编码均采用双字节编码,编码单元为8位。1.3.2.1.Gb2312-80Gb2312是对ascii的中文扩展,是中华人民共和国国家标准汉字信息交换用编码。收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母等共7445个图形字符。其中汉字以外的图形字符682个,汉字6763个。为了与系统中基

5、本的ascii字符集区分开,所有汉字编码的每个字节的第一位都是1。Gb2312的汉字编码规则是:第一个字节的值在0xB0到0xF7之间,第二个字节的值在0xA0到0xFE之间。但是gb2312收录的汉字太少,以致很多常用字都没有收录,如朱镕基的"镕"字。为了解决这些问题,以及配合unicode的实施,全国信息技术化技术委员会制定了gb13000,即gbk。Gbk向下与gb2312完全兼容,向上支持iso-10646国际标准。1.3.2.2.GbkGbk包含了20902个汉字,其编码范围是0x8140-0xfefe,剔除高位0x80的字位。收录汉字包括:1)gb2312中全部汉字、非汉字

6、字符2)big5中的全部汉字3)与iso-10646相应的国家标准gb13000中的其他cjk汉字4)其他汉字、部首、符号等。其分布图如下:其编码区分成三个部分:1)汉字区包括a)Gbk/2:0xb0a1-f7fe,收录gb2312汉字6763个,按原序排列,0xd7fa-0xd7fe为空洞。b)Gbk/3:0x8140-a0fe,收录cjk汉字6080个,0x817f-0xa07f为空洞c)Gbk/4:0xaa40-fea0,收录cjk汉字和增补汉字8160个,0xaa7f-0xfe7f为空洞2)图形符号区包括a)Gbk/1:0xa1a1-0xa9fe,除gb2312的符号外,还增补

7、了其他符号b)Gbk/5:0xa840-0xa9a0,扩充非汉字区3)用户自定义区1.3.2.3.Gb18030-2000GB18030-2000是2000年推出的国家标准。它可以视为GBK的升级,因为它主要增加了Unicode3.0中新增的一些字符。除了GBK的字符,它能表示UNICODE中所有的字符。中国出售的所有软件产品都要求支持GB18030。GB18030与GBK完全兼容,除了欧元符号:在GB18030中是A2E3,在GBK中是0x8

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。