《文本信息加工》doc版

《文本信息加工》doc版

ID:33164434

大小:128.00 KB

页数:2页

时间:2019-02-21

《文本信息加工》doc版_第1页
《文本信息加工》doc版_第2页
资源描述:

《《文本信息加工》doc版》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、薆蒀膅肆莅蚆肁肆蒈蕿羇肅薀螄袃肄芀薇蝿肃莂螂肈肂蒄薅羄膁薇螁袀膁芆薃螆膀葿蝿螂腿薁蚂肀膈芁袇羆膇莃蚀袂膆蒅袆螈芅薇蚈肇芅芇蒁羃芄荿蚇衿芃薂葿袅节芁螅螁芁莄薈肀芀蒆螃羆艿薈薆袂荿芈螂螈莈莀薄肆莇蒃螀羂莆蚅薃羈莅莅袈袄羂蒇蚁螀羁蕿袆聿羀艿虿羅罿莁袅袁肈蒃蚈螇肇薆蒀膅肆莅蚆肁肆蒈蕿羇肅薀螄袃肄芀薇蝿肃莂螂肈肂蒄薅羄膁薇螁袀膁芆薃螆膀葿蝿螂腿薁蚂肀膈芁袇羆膇莃蚀袂膆蒅袆螈芅薇蚈肇芅芇蒁羃芄荿蚇衿芃薂葿袅节芁螅螁芁莄薈肀芀蒆螃羆艿薈薆袂荿芈螂螈莈莀薄肆莇蒃螀羂莆蚅薃羈莅莅袈袄羂蒇蚁螀羁蕿袆聿羀艿虿羅罿莁袅袁肈蒃蚈螇肇薆蒀膅肆莅蚆肁肆蒈蕿羇肅薀螄

2、袃肄芀薇蝿肃莂螂肈肂蒄薅羄膁薇螁袀膁芆薃螆膀葿蝿螂腿薁蚂肀膈芁袇羆膇莃蚀袂膆蒅袆螈芅薇蚈肇芅芇蒁羃芄荿蚇衿芃薂葿袅节芁螅螁芁莄薈肀芀蒆螃羆艿薈薆袂荿芈螂螈莈莀薄肆莇蒃螀羂莆蚅薃羈莅莅袈袄羂蒇蚁螀羁蕿袆聿羀艿虿羅罿莁袅袁肈蒃蚈螇肇薆蒀膅肆莅蚆肁肆蒈蕿羇肅薀螄袃肄芀薇蝿肃莂螂肈肂蒄薅羄膁薇螁袀膁芆薃螆文本信息加工任务一:中文信息处理技术发展简史如何让计算机能够处理汉字,即汉字的输入、存储,加工处理,传输、输出,曾是一个重大难题,在计算机中文信息处理技术的发展史上,下面的事和人是值得记住的:(1)20世纪80年代初期,我国推出第一个汉字操作

3、系统是______________________。(2)“计算机五笔字型汉字输入技术”的发明人是______________________________。(3)1984年,联想公司成立,半年后推出__________________。(4)中国科学院院士,计算机学家__________,经大量调查研究后,巧妙地利用数学知识和软、硬件的实践经验,针对汉字字数多、印刷用汉字字体多、精密照排要求分辨率很高所带来的技术困难,发明了高分辨率字形的高倍率信息压缩技术(压缩倍数达到500∶1)和高速复原方法,率先设计了提高字形复原速度的专用芯

4、片,使汉字字形复原速度达到700字/秒的领先水平,在世界上首次使用控制信息(或参数)来描述笔画的宽度、拐角形状等特征,以保证字形变小后的笔画匀称和宽度一致。这一发明成为华光和方正激光照排系统的基石,在我国的报业和印刷业掀起了一场“告别铅与火、迎来光与电”的技术革命,被誉为“中国激光照排之父”、“当代毕昇”、“中国自主创新第一人”。2001年荣获国家最高科技奖。(5)1993年Windows3.2发布,这是第一个简体中文版的Windows操作系统,此后windows及其中文版本不断升级。(6)1999年,中国科学院软件研究所、北大方正、

5、康柏中国公司合作推出中国新一代国产操作系统_____________________________________。任务二:汉字的输入法利用一个仅有英文字母、数字、符号等的键盘实现对汉字的输入,最核心的技术就是用键盘上的文字符号对汉字进行编码,然后用编码来输入所对应的每一个汉字。这里的编码就是所说的汉字输入码。每一种汉字的输入法,其实就是一种输入编码。好的输入法(输入编码)必须好记、易用的特点,并尽量减少重码,重码的意思就是同一个编码对应多个汉字,重码多的输入法会使的汉字的输入速度减慢。在众多的输入法中,按其编码规则可分为音码、形码

6、、音形结合码及其他。(1)音码:按读音进行编码,如_____________________________________,这种编码的缺点是重码多。(2)形码:按字形进行编码,如_____________________________________,这种编码的缺点是不好学、不好记。(3)音形结合码:也叫混合码,是一种把读音与字形相结合进行编码,如_________________,这种编码是对音码与形码进行取长补短。(4)其他输入码,是以上三类输入编码外的其他一些编码,如__________________________。汉字

7、的输入编码解决了汉字的输入问题,所有的输入码统称为汉字的外码,但汉字的存储、输出问题如何解决?这就与汉字另外两种编码有关,即机内码与字型码。任务三:汉字的机内码和字型码,汉字存储采用存储机内码的原因一个输入编码可能对应多个汉字(重码),一个汉字也对应着多个输入编码(不同输入法),因此不可能把汉字的输入码作为存储汉字的依据。那么有一种选择是存储汉字的字形,但要表示出汉字的字形,需要用“点阵”或“矢量”的方式,比如点阵,点阵有大点阵,如72╳72点阵或更大;有小点阵,如16╳16点阵或更小,点阵中的每一个点用一个二进制位表示,1代表有点,

8、0代表空白,如下图。一个字节是一个八位的二进制数,这样一个字节只能表示八个点,可得出存储一个16╳16点阵的字形就需要32字节,这32字节信息就叫做汉字的16点阵字型码,用于描述汉字的形体;存储一个72╳72点阵的字型码

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。