数字媒体及应用new

数字媒体及应用new

ID:17858242

大小:102.50 KB

页数:30页

时间:2018-09-07

数字媒体及应用new_第1页
数字媒体及应用new_第2页
数字媒体及应用new_第3页
数字媒体及应用new_第4页
数字媒体及应用new_第5页
资源描述:

《数字媒体及应用new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1、文本概述  文字:一种书面语言,由一系列称为“字符”(character)的书写符号构成。  文本:文字信息在计算机中的表示形式,是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,是计算机中最常用的一种数字媒体。组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。2、文本处理  文本在计算机中的处理过程:文本的准备(如汉字的输入)、文本编辑、文本处理、文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。5.1.1文本的表示与字符的编码 1、文本的表示  文本是计算机表示文字及符号信息的最常用也是最基本的一种数

2、字媒体。由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。2、西文字符集编码 字符集:常用字符的集合。 西文字符集:由拉丁字母、数字、标点符号及一些特殊符号组成。 字符的编码:字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。(1)标准ASCII编码字符集。  美国标准信息交换码(AmericanStandardCodeforInformationInterchange):使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO-646标准。基本的ASCII字符集共有128个

3、字符,其中包括96个可打印字符(常用字母、数字、标点符号等),32个控制字符。常用的特殊字符的ASCII码:空格(32)、A(65)、B(66)、…、Z(90)、a(97)、b(98)、…、z(122)、数字0(48)、1(49)、…、9(57)。  其编码规则为:用7位二进制数对每一个字符进行编码(字符的ASCII码),在计算机内部则用字符的ASCII码存储和表示该字符。在计算机中的存储方法是:用一个字节(8位)来存储一个字符的ASCII码。每个字节中多出来的最高位一般保持为“0”。 (2)扩充ASCII编码字符集。 标准ASCII字符集只有128个不同的字符,在很

4、多应用中无法满足要求。按照IS02022标准(《七位字符集的代码扩充技术》)的规定,ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每个扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均是高位为“1”的8位代码(十进制数128~255),称为扩展ASCII码。3、汉字编码字集(1)GB2312-80汉字编码字符集。 《信息交换用汉字编码字符集·基本集》(GB2312-80),其组成部分包括: 第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)。 第二部分:一级常

5、用汉字,共3755个,按汉语拼音排列。 第三部分:二级常用字,共3008个,按偏旁部首排列。  ①区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示。如:“大”字的区号20,位号83,区位码是2083,用2个字节表示为:0001010001010011B(即十六进制1453H)。   ②国标交换码:将GB2312字符集中每个汉字的区号和位号必须分别加上32(即二进制0010 0000,十六

6、进制20H),就可以得到该汉字的“国标交换码”(简称交换码)。因此,“大”字的国标交换码是:0011010001110011B(即十六进制3473H)。 ③机内码:把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为1的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。即将汉字的区号和位号必须分别加上160(即二进制10100000,十六进制AOH),就可以得到该汉字的“机内码”。如:“大”字的机内码是:1011010011110011(即十六进制B4F3H)。 综上所述,可以总结如下公式:国

7、标码=区位码+2020H,机内码=区位码+A0A0H。   (2)GBK汉字编码字符集。   GB2312-80只有6763个汉字,使用时功能不够。1995年发布GBK,全称为《汉字内码扩展规范》  GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。它除了包含GB2312中的全部汉字和符号,还包括繁体字和中、日、韩文字中的大量汉字。 GBK的编码是用2字节编码表示,第1字节的最高位必为“1”,第2字节的最高位不一定是“1”。与GB2312-80保持兼容。  (3)UCS/Unicode与GB180

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。