中文信息处理技术原理与应用(4)ppt培训课件

中文信息处理技术原理与应用(4)ppt培训课件

ID:12926715

大小:1.64 MB

页数:33页

时间:2018-07-19

中文信息处理技术原理与应用(4)ppt培训课件_第1页
中文信息处理技术原理与应用(4)ppt培训课件_第2页
中文信息处理技术原理与应用(4)ppt培训课件_第3页
中文信息处理技术原理与应用(4)ppt培训课件_第4页
中文信息处理技术原理与应用(4)ppt培训课件_第5页
资源描述:

《中文信息处理技术原理与应用(4)ppt培训课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文信息处理技术原理与应用(四)北京信息工程学院计算机系李宝安1OCR技术概况汉字识别种类汉字识别原理汉字识别一般方法汉字识别产品介绍汉字识别技术的最新进展汉字识别系统的未来发展第四章汉字识别技术2OCR技术概况将汉字输入到计算机里一般有两种方法:人工键入和自动输入。其中人工键入速度慢而且劳动强度大,一般的使用者每分钟只能输入40~50个汉字。自动输入又分为汉字识别输入及语音识别输入。汉字识别(ChinesecharacterRecognition)通俗地说,是用电子计算机自动辨识印刷在纸上和人写在纸(或介质)上的汉字。学科上属于模式识别和人工智能的范畴,是文字

2、识别技术的最高峰;应用上是一种汉字信息处理系统中高速自动输人方式,汉字识别也是新一代计算机智能接口的一个重要组成部分。汉字识别的研究,它涉及到模式识别和图像处理、人工智能、形式语言和自动机、统计决策理论、模糊数学、组合数学、信息论、计算机、汉字情报处理等学科,也涉及到语言文字学、心理学、生物学等,是一门综合性的技术。汉字识别技术可以分为印刷体识别及手写体识别技术。而手写体识别又可以分为联机(on-line)与脱机(off-line)两种。从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。到目前为止

3、,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段。与脱机手写体和联机手写体识别相比,印刷体汉字识别已经实用化,而且在向更高的性能、更完善的用户界面的方向发展。3文字识别印刷体识别手写体识别单一印刷体识别多种印刷体识别联机手写体识别脱机手写体识别图4-1文字识别的分类4汉字识别应用领域使汉字高速自动输入计算机,解决汉字信息处理系统中手工输入效率低这个关键问题。是办公自动化中不可缺少的文字自动输入设备的基础和便于输入(联机识别)的手段,也是建立在自然语言理解基础上的自动翻译机的理想输入方式。是智能计算机智能接口的组成部分。智能计算

4、机是在更高的程度上,更完善地模拟和取代人类部分脑力劳动的全新一代的计算机。使保密资料自动、快速地输入计算机。联机手写汉字识别是一种很方便的汉字输入方法。可以应用于笔迹鉴别、掌上电脑、手机、以及利用汉字识别技术制成的自动阅读机(或言文阅读机)等,对扩大计算机在国民经济各部门的应用有实际意义。5印刷体文字识别的研究历程早在1929年,Taushek就在德国获得了一项有关OCR的专利。欧美国家从50年代就开始了西文OCR(OpticalCharacterRecognition,光学字符识别)技术的研究,以便代替人工键盘输入。印刷体汉字的识别最早可以追溯到60年代。19

5、66年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000汉字的单体印刷汉字识别系统80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。我国对印刷汉字识别的研究始于70年代末、80年代初,大致可以分为三大阶段:(1)第一阶段从70年代末期到80

6、年代末期,主要是算法和方案探索。(2)第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。(3)第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。联机手写输入技术进入实用化阶段并继续发展。6汉字识别种类1.联机(或实时或在线)手写汉字识别(OnlineHandwrittenChineseCharacterRecognition)用笔在图形输入板上写字,人一面写,机器一面认,是一种很方便的汉字输入手段,也是汉字识别中最简单的一种类型。2.单一印刷体汉字识别(PrintedChineseCharacte

7、rRecognition)识别印刷在纸上的某种印刷体(一般为宋体)或某种打印机、照排机输出的汉字。3.多种印刷体汉字识划(Mu1tifontChineseCharacterRecognition)同时能识别印刷在纸上的宋、仿宋、黑、楷等体以及若干典型的打印机、照排机的输出汉字。4.手写印刷体(或限制性手写体)汉字识别(HandprintedChineseCharacterRecognition)识别人写在纸上的符合若干限制的规整汉字。一般的限制有:楷书、笔画数正确,书写在方格中等。书写用纸和笔也不能任意。5.特定人手写汉字识别(Persona1Handwriti

8、ngChineseCha

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。