中文信息处理技术发展简史

中文信息处理技术发展简史

ID:5319069

大小:368.90 KB

页数:6页

时间:2017-12-08

中文信息处理技术发展简史_第1页
中文信息处理技术发展简史_第2页
中文信息处理技术发展简史_第3页
中文信息处理技术发展简史_第4页
中文信息处理技术发展简史_第5页
资源描述:

《中文信息处理技术发展简史》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中文信息处理技术发展简史张华平中文信息处理技术发展简史Ã张华平(中国科学院计算技术研究所软件实验室北京100080)E-mail:zhanghp@software.ict.ac.cnHomepage:www.nlp.org.cn;http://pipy_world.y365.com摘要:真正意义上的中文信息处理迄今已经有20余年的历史了,随着计算机的普及和Internet的蓬勃发展,中文信息处理技术实实在在的改变了人们的生活。本文根据目前所能收集的文献资料,集中整理了中文信息处理技术发展的简史,并从自身专业的角度,针对重大的研究工作做了粗浅的评述,旨在提供一个中文信息处理技术发展的脉络,达到

2、“以史为鉴”或者“温故而知新”的效果。关键词:中文信息处理技术,简史1、引言在我国,中文信息处理已经不是什么新鲜事物了,随着科学技术的发展,中文信息处理技术已经深入到了社会生活的各个方面。所谓“中文信息处理”,指的是用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。它是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。其中,“中文”是指中国通用的所有语言种类,包括汉语及其他少数民族的语言;但一般都是指汉语。“信息”

3、是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负熵。所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。严格意义上讲,“汉语计算机自动分析”比“中文信息处理”更加确切,为表述的习惯,在这里,我们依然沿袭这一称呼。2002年9月,笔者有幸参加了在台北市举行的第十九届国际计算语言学学术会议(Theth19InternationalConferenceonComputationalLinguistics)SIGHAN(SpecialInterestGrouponHAN)研究兴趣组关于“十

4、年后的中文处理”的讨论,台北“中研院”的黄居仁教授详尽的回顾了中文信息处理在台北的二十年发展史。实际上,祖国大陆的中文信息处理历史更加悠久、而且取得了许多实实在在的、改变了人们生活的成就,然而境外的研究群体、我们国家非中文信息处理领域的人员、乃至从事这一方向研究的人员也知之甚少。因此,笔者依据目前所能收集的文献资料,整理出中文信息处理二十年的科学发展史,并从自己专业的角度出发,予以评述,希望能对投身这一领域的研究人员或者工程技术人员提供一些历史参考资料,并盼望有心人能够“以史为鉴”或者“温故而知新”。本文的第一部分将综述中文信息处理的难点,第二部分按照发展的各个阶段,阐述中文信息处理的发展史,

5、最后探讨目前中文信息处理的问题及应对方案。2、中文信息处理的难点汉语在世界上属于汉藏语系,是一种孤立语。汉语在历史上先后吸收和同化了匈奴、鲜[1]卑、突厥、契丹、满、蒙古、梵语等语言里面的许多成分。其主要特点有:Ã基金项目:国家重点基础研究项目(G1998030507-4;G1998030510)作者简介:张华平(1978.2-):男,江西波阳人,硕博连读生,主要研究领域为计算语言学与中文信息处理。中文信息处理技术发展简史张华平(1)汉语的独一无二的特色是:完全使用由象形文字演化而来的方块汉字;(2)词语没有形态标记;汉语是以字为基本单位,词之间没有明显的标记,词本身也没有明显的形态标志。所

6、以中文信息处理的基础课题和特有的问题就是中文分词,分词本身的也有一定的错误[2]率,这无疑降低了后续处理的实际效果。(3)结构松散,比如:我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌,脸都肿了。(4)语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意[3]合”,三靠虚词。(5)语义灵活,一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达[3]不同的意思,同一意思可以用不同结构表达。另外.现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起来的.而汉语无论在语音、文字表示,还是在词汇,语法,语义及其语用等各个层面上都与之存在着很大的差异.

7、这使得无法直接套用西方已成熟的理论和技术,汉语无疑是计算模型比较不发达的语言。这对从事中文信息处理的研究者来说是一个巨大的挑战和压力。3、中文信息处理发展史从我国早在1956年的开始了俄汉机译研究,并于1959年取得成功,至今差不多有50年的[4]历史,但当时的技术主要是词与词翻译和模式匹配,缺乏句法和语义分析,几乎谈不上真正的中文信息处理。下面笔者依据时间顺序,根据当时的主流研究方法和研究的主要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。