初探非特定人脱机手写汉字识别

初探非特定人脱机手写汉字识别

ID:21739924

大小:69.50 KB

页数:14页

时间:2018-10-24

初探非特定人脱机手写汉字识别_第1页
初探非特定人脱机手写汉字识别_第2页
初探非特定人脱机手写汉字识别_第3页
初探非特定人脱机手写汉字识别_第4页
初探非特定人脱机手写汉字识别_第5页
资源描述:

《初探非特定人脱机手写汉字识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、初探非特定人脱机手写汉字识别非特定人脱机手写汉字识别陈友斌丁晓青吴佑寿  一、汉字识别概述  汉字已有数千年的历史,也是世界上使用人数最多的文字,对于中华民族灿烂文化的形成和发展有着不可磨灭的功勋,并将继续发挥重要的、其它文字形式难以取代的功能。然而,汉字是非字母化、非拼音化的文字,在当今高度信息化的社会里,如何快速高效地将汉字输进计算机,已成为影响人机接口效率的一个重要瓶颈,也关系到计算性能否真正在我国得到普及应用。围绕这一新题目,人们提出了各种解决方案。目前,汉字输进主要分为人工键盘输进和机器自动识别输进两种。人工键盘输进是指用手工击键方式按照一定的规律把汉字输进到计算机,目前已有数百种键

2、进方案。但是,和拼音文字的打字机不同,人们需要经过一定时间的学习练习才能把握某种键进方法,更为严重的是:对于大量已有的文档资料,采用人工键进方法将要花费大量的人力和时间。为此,机器自动识别输进就成为了必须探究的课题。  自动识别输进分为语音识别和字符识别两种。汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的新题目,它涉及模式识别、图象处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义。  汉字识别技术可分为印刷体汉字识别和手写体汉字识

3、别两大类,后者又可分为联机(on-line)手写汉字识别和脱机(off-line)手写汉字识别,如图1所示:  从识别的角度来看,多体印刷体汉字识别难于单体印刷体汉字识别,手写体识别难于印刷体识别,而脱机手写识别又难于联机手写体识别。可喜的是,经过科研职员的努力,我国已有印刷体汉字识别和联机手写汉字识别的商品出售,目前已形成百家争叫、百花齐放的局面,但是脱机手写汉字识别还处于实验室探究阶段。在脱机手写汉字识别领域,非特定人脱机手写汉字识别又难于特定人手写汉字识别。  二、手写汉字识别中存在的新题目及困难  手写汉字识别是一种重要的、适用于把手书文稿随时输进计算机的方法,也是机器字符识别最为困难

4、的一个课题,这些困难和新题目表现在:  (1)汉字种别多。仅《康熙字典》中就包含了49000多个汉字,而常用的汉字就有4000多个,因而汉字识别新题目属于大种别(或者称为超多类)模式识别新题目,在模式识别理论和方法探究方面有重大意义。  (2)汉字字形结构复杂。  (3)汉字集合中相似字较多,有些汉字的差别仅为一点或一个笔画,由于手写变形的存在,使得手写体中相似字的区分比印刷体要困难得多。  (4)因不同人书写风格的差异造成手写汉字的变形很大,具体表现在以下几个方面:  ●基本笔画变化。横不平,竖不直,直笔变弯,折笔的拐角变成圆弧等。  ●笔画模糊,不规范,该连的不连,不该连的却相连。  ●笔

5、画和笔画之间、部件和部件之间的位置发生变化。  ●笔画的倾斜角、笔画的是非、部件的大小发生变化。  ●对于脱机手写汉字,不同人使用不同的书写笔可能造成笔画的粗细变化。  其中,手写汉字字形的变化是最难以解决的新题目。  一般以为,联机手写汉字识别较脱机手写汉字识别相对轻易些。联机手写汉字识别是一种人工实时地把汉字输进计算机的方法,它利用书写板把笔画变为一维电信号,输进计算机的是以坐标点序列表示的笔尖移动轨迹,因而被处理的是一维的线条(笔画)串,这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息,而脱机手写汉字识别处理的仅是二维的汉字点阵图象,是汉字识别领域中最后一个十分困难的新题目,目前仍

6、然处于实验室探究阶段。  由此可见,对非特定人脱机手写汉字识别而言,假如对手写汉字的书写不加任何限制,则识别难度相当大。科学探究中人们总是遵循从易到难的规律,从简单的新题目进手来寻求突破口。由于自由手写汉字识别太难,人们提出了手写印刷体汉字识别,这已成为目前脱机手写汉字识别的主要探究对象。所谓手写印刷体是指书写工整的楷书手写体,要求书写者工整书写,尽量少连笔。  三、脱机手写汉字识别方法简介  自从ibm公司的casey和nagy于1966年首次发表有关汉字识别的文章以来,汉字识别取得了很大的进展,提出了很多理论和方法。对于脱机手写汉字识别而言,其识别过程通常如图2所示:  通常,原始文稿通过

7、光电扫描仪等输进设备转换成原始的二维图象信号,可以是灰度图象(grayscaleimage)或二值图象(binaryimage)。行字切分是将整页版面的原始图象先按书写行分割开,然后再从每行中切分出单个汉字图象。预处理通常包括大小回一化、平滑、细化或轮廓化等处理过程。特征抽取和分类器的设计是整个系统中最为重要的环节,稳定特征的抽取和良好性能的分类器的设计是整个识别系统的核心,它们直接决定了识别系统

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。