《中文信息处》ppt课件

《中文信息处》ppt课件

ID:27270175

大小:1.22 MB

页数:33页

时间:2018-12-01

《中文信息处》ppt课件_第1页
《中文信息处》ppt课件_第2页
《中文信息处》ppt课件_第3页
《中文信息处》ppt课件_第4页
《中文信息处》ppt课件_第5页
资源描述:

《《中文信息处》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第五章中文信息处理概述一、中文信息处理《计算机科学技术百科全书》(清华大学出版社,1998)中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。中文信息处理分为汉字信息处理与汉语信息处理两部分中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。参考文献《中文信息处理技术——原理与应用》,李宝安等,清华大学出版社,2005年7月第1版《中文信息处理技术教程》,朱巧明,清华大学出版社,

2、2005年版《计算语言学概论》,俞士汶主编,商务印书馆,2003年9月第1版《计算语言学》,刘颖,清华大学出版社,2002年版中国语言文字网http://www.china-language.gov.cn/中文信息处理中文信息处理分为汉字信息处理与汉语信息处理两部分信息的两个层次: 符号层——中文/汉语/汉字 内容层——符号所承载的意义中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等)符号层的信息处理拼音文字:小字符集——比较容易非拼音文字:大字符集——难度很大汉字是一个大字符集《说文解字》(东汉)

3、:9353字《玉篇》(南朝)收录16,917字《广韵》(宋代)收字26,194字《字汇》(明朝)收录33,197字《康熙字典》(清朝)收录47,043字《汉语大字典》(1992年)5.6万《中华字海》(1994年)8.6万拉丁字母只有26个符号斯拉夫字母只有33个符号阿尔明尼亚字母只有38个符号泰米尔字母只有36个符号缅甸字母只有52个符号泰文字母只有44个符号老挝字母只有27个符号藏文字母只有35个符号韩文字母只有24个符号日文假名只有48个符号符号层的信息处理汉字输入自动输入键盘输入字形识别声音识别手写体识别印刷体识别在线手写脱机手写整字键盘通用键盘主辅式感应式形码音

4、码形音结合码123456789内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析语境分析内部表示转换译词选择译后编辑译文输出词形变化句子生成译文123456789101112机器翻译全过程需要语言知识 !!!中文信息处理的现状和发展趋势现状 符号层的处理成果已经得到广泛应用; 中文输入/字库/字处理软件/排版/……内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索二、文字信息处理的基本问题文字信息的计算机处理过程要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。文

5、字信息的输入文字信息的处理文字信息的输出二、文字信息处理的基本问题文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码。汉字一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。二、文字信

6、息处理的基本问题英文字符的编码标准是ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际标准字符编码。为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB1988。其中除了将货币符号置换为人民币符号外,其他都与ASCII码相同。计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码,输入到计算机的内存中。经过编辑的文本仍然以ASCII码表示。输出时,这些代码必须转换成字符字形的点阵,以

7、便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。汉字信息的计算机处理过程与英文信息处理过程是类似的。不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大。我国经过多年的研究,汉字处理的基本问题已经解决。汉字信息处理的基本问题三、中文信息处理主要研究对象基础研究:汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等输入技术:中文输入法、中文手写输

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。