语言文字信息处理研究

语言文字信息处理研究

ID:1340461

大小:299.50 KB

页数:59页

时间:2017-11-10

语言文字信息处理研究_第1页
语言文字信息处理研究_第2页
语言文字信息处理研究_第3页
语言文字信息处理研究_第4页
语言文字信息处理研究_第5页
资源描述:

《语言文字信息处理研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、湖北民族学院学士学位论文语言文字信息处理研究学生姓名:学号:指导教师姓名:学科、专业名称:研究方向:二〇一一年十月目录郑重声明本人的学位论文是在导师指导下独立撰写并完成的,学位论文没有剽窃、抄袭、造假等违反学术道德、学术规范和侵权行为,否则,本人愿意承担由此而产生的法律责任和法律后果,特此郑重声明。学位论文作者(签名):年月日摘要摘要:本文从三个方面阐述语言文字信息化与国家安全的问题。在信息时代的大背景下,语言文字信息化对国家安全的作用凸显出来。首先从信息时代的国家安全来看,信息时代的国家安全的要素已呈现出综合

2、化、跨国化的发展趋势,维护信息疆域安全成为维护国家主权完整的核心内容之一,语言文字信息化中的不安全因素就是国家安全的隐患。第二部分从三个方面分析安全隐患:中文信息处理标准的制高点我们没有完全占领;中文信息处理核心技术的自主知识产权我们没有完全掌握;语言资源匮乏,不能满足中文信息处理的需要。文章最后提出为了国家的安全必须全方位地研究我国语言文字信息化中的重大课题。关键词:模型驱动架构;特定领域建模;元模型;建模语言第一章什么是中文信息处理技术文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母

3、或文字。例如,在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码。在汉字的情况下,一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)。在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。计算机之所以能有较高的运算和处理能力,是由于它利用了电子处理技术以

4、及二进制数运算这一法则。计算机中的运算器,利用半导体器件的两个状态(通和断)的变化,代表二进制数字串中的一个二进制数位上的“1”或“0”的变化,从而能够高速地执行二进制数的数值或逻辑运算。实际上,计算机无论做数值的或任何种类信息的运算或处理,最基本的运算操作就是这种二进制数的演算。在本节中先讨论英文信息的处理。英文信息处理技术中,要考虑以下各种字母、数字和一些必需的符号:●A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个字母。●0,1,2,…,9,共10个阿拉伯数字。●+,−,×,=,>,

5、<,…,!,?,*,[,(,{,…,共32个图形符号。●用于计算机动作控制的控制符号,共34个。以上共计128个字母、数字、符号统称为字符。对于这些字符,应制定统一的字符代码标准,以便各种不同型号的计算机系统都遵守这一标准,从而使各个计算机系统之间能够互相交换信息。对于字符代码的标准,在20世纪60年代已由美国国家标准局制定了美国国家标准信息交换码(英文缩写为ASCII,这是一种用7位二进制数表示的代码,7位二进制数共可得到128种编码即27=128,正好分配给128个字符)。实际上每个字符使用一个字节(byt

6、e)的信息量,而一个字节包含8位二进制数,实际使用其中的7位,尚留出一位,作为每个字符信息的奇偶校验位。国际标准组织(ISO)依据美国标准的ASCII码,制定了英文字符编码的国际标准,即ISO646,为世界各国的计算机产业界从事计算机设备的工业生产以及信息处理技术的国际化、通用化提供了依据。中国在1975年由当时的第四机械工业部颁布了依据ISO646制定的7位字符的编码标准(代号为GB1988),其中除了个别货币符号有改动外,其余内容完全相同。第一节、文字信息处理的全过程大致包含如下三个环节:一、文字信息的输入

7、。通常是通过键盘把组成英文词汇的各个英文字母逐个地输入。这一过程中,键盘的作用是把输入的每个字母、数字或符号转换成它们所对应的代码,供下一步信息处理用。键盘同时也是使用或操作计算机的人和计算机系统之间的界面。因此,键盘要设计得方便人们的使用和操作,以提供良好的人机界面。文字信息处理包括多种不同的处理要求。例如,在文稿的编二、文字信息的处理。辑操作中有对文字(或文字中包含的字母)的增、删、改操作;有对若干个字、整个句子或整段文字的增、删、改操作。在对文字串的处理中,有分类、合并、比较、排序、检索以及对齐等操作。这

8、些种类的操作都可以通过预先编制相应的处理程序来实现。三、文字信息的输出。文字信息处理完毕后,要把处理结果的代码信息转换成文字的形式输出,输出方式包括显示和打印。为此,在计算机系统中要存储有关文字的字形信息。计算机中存储的文字字形,是以点阵式字形的形式表示的。通常,英文字符信息用5×7或7×9的点阵表示。这样的字形点阵信息和计算机中二进制数的存储相对应,即有笔画经过的点用二进制数1表示,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。