字符集与编码课件.ppt

字符集与编码课件.ppt

ID:58431209

大小:664.00 KB

页数:42页

时间:2020-09-07

字符集与编码课件.ppt_第1页
字符集与编码课件.ppt_第2页
字符集与编码课件.ppt_第3页
字符集与编码课件.ppt_第4页
字符集与编码课件.ppt_第5页
资源描述:

《字符集与编码课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、字符集与编码1.字符集成字符编码2.ASCII3.GB字符集4.UNICODE20.ASCII码表示vs.二进制表示int型数10000的表示内存存储形式0010011100010000二进制形式0011000100110000001100000011000000110000ASCII形式文本存储形式10000213+210+29+28+24=8192+1024+512+256+1631.字符集成字符编码字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符编码(Chara

2、cterEncoding):字符编码就是将符号转换为计算机可以接受的数字系统的数,称为数字代码41.1字符与编码的发展系统内码说明系统阶段一ASCII计算机刚开始只支持英语,其它语言不能够在计算机上存储和显示。英文DOS阶段二ANSI编码 (本地化)为使计算机支持更多语言,通常使用0x80~0xFF范围的2个字节来表示1个字符。比如:汉字'中'在中文操作系统中,使用[0xD6,0xD0]这两个字节存储。 不同的国家和地区制定了不同的标准,由此产生了GB2312,BIG5,JIS等各自的编码标准。这些使用2个字节来代表一个字符的各种汉字延伸编码方式,称为A

3、NSI编码。在简体中文系统下,ANSI编码代表GB2312编码,在日文操作系统下,ANSI编码代表JIS编码。 不同ANSI编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段ANSI编码的文本中。中文DOS,中文Windows95/98,日文Windows95/98阶段三UNICODE (国际化)为了使国际间信息交流更加方便,国际组织制定了UNICODE字符集,为各种语言中的每一个字符设定了统一并且唯一的数字编号,以满足跨语言、跨平台进行文本转换、处理的要求。WindowsNT/2000/XP/Vista/7,C#,Java1

4、.2字符串在内存中的存放方法(一)在ASCII阶段:426F6231323300Bob123引入非ASCII字符之后:D6D0CEC431323300中文1231.2字符串在内存中的存放方法(二)Unicode被采用后:2D4E87653100320033000000中文1232.ASCIIASCII(AmericanStandardCodeforInformationInterchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语ASCII字符集:主要包括控制字符(回车键、退格、换行键等);可显示字符(英

5、文大小写字符、阿拉伯数字和西文符号)。ASCII编码:使用7位(bits)表示一个字符,共128字符;但是7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。ASCII字符集映射到数字编码规则如下图所示:82.1ASCII码表的扩展集EASCII扩展ASCII编码(ExtendedASCII,延伸美国标准信息交换码)是将基本ASCII码由7位扩充为8位,表示256个字符。基本ASCII码:最高位为0,称为基本ASCII码;扩充的ASCII码:最高位为

6、1,扩充部分编码范围为10000000~11111111,相应的十进制数为128~255用ASCII码组成的文件,称为“文本文件”,其扩展名为.TXT。10ASCII码表的扩展集112.2ANSI各个国家和地区所制定的不同ANSI编码标准中,都只规定了各自语言所需的“字符”。比如:汉字标准(GB2312)中没有规定韩语字符。这些ANSI编码标准所规定的内容包含两层含义使用哪些字符。也就是说哪些汉字,字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编码”。“字

7、符集”和“编码”一般都是同时制定的。平常我们所说的“字符集”,比如:GB2312,GBK,JIS等,除了有“字符的集合”这层含义外,同时也包含了“编码”的含义。3.1GB码的编码空间一个字符的国标码由两个部分组成,分别是该字符的区号和位号。GB码规定共有94个区,每个区中有94个位。 编码空间为:94*94=8836个码位1~9区是西文字母、数字、日文假名、图形符号16~87区是汉字区,其中16~55区是一级汉字(40*94-5=3755个)56~87区是二级汉字(32*94=3008个)10~15,88~94区是用户自定义区133.1GB码的编码空间汉字

8、编码表的大小是94×94=8836由于ASCII码的34个控制代码

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。