脱机手写体汉字识别综述

脱机手写体汉字识别综述

ID:44665889

大小:301.57 KB

页数:9页

时间:2019-10-24

脱机手写体汉字识别综述_第1页
脱机手写体汉字识别综述_第2页
脱机手写体汉字识别综述_第3页
脱机手写体汉字识别综述_第4页
脱机手写体汉字识别综述_第5页
资源描述:

《脱机手写体汉字识别综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、脱机手写体汉字识别综述摘要:脱机手写体汉字识别是模式识别领域最具挑战性的课题之一.本文分析了近年来脱机手写体汉字识别的最新进展,讨论了脱机手写体汉字分割、特征提取和分类器设计等关键技术的各种主流方法,介绍了3种典型的汉字识别数据库,并提出了脱机手写体汉字识别的难点问题和今后发展的趋势,为该领域的研究者指明研究方向,共同促进脱机手写体汉字识别技术的发展.关键词:脱机手写体汉字识别;字符分割;特征提取;分类器设计;1引言汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题之一,它涉及模式识别、图像处理、

2、统计理论等学科,呈现出综合性的特点,在办公和教学自动化、银行票据自动识别、邮政自动分拣、少数民族语言文字信息处理等技术领域,都有着重要的理论意义和实用价值[1].汉字识别技术可分为印刷体和手写体汉字识别两大类•手写体汉字识别又可分为联机(on2Iine)和脱机(off21ine)手写体汉字识别•脱机手写体汉字识别可分为受限和非受限两种情况,如图1所示.图1汉字识别的分类清华大学、中科院自动化所等著名高校和科研院所都致力于汉字识别的研究,以汉王科技股份有限公司为首的科技企业也推出了一系列成熟的商业产品[2]•目前

3、,很多论文提出的脱机手写体汉字识别的方法在不同的字符数据库试验中,取得了95%〜99%的识别率,但是对真正的手写文档的识别效果却难以达到实际应用的要求.目前脱机手写体汉字识别仍处于实验室研究阶段,成功的商业产品仍未发布[2〜4].本文着重讨论脱机手写体汉字识别的现状和存在的问题,明确今后的发展趋势,为脱机手写体汉字识别领域的广大研究人员提供参考和借鉴.2手写汉字字体特点从识别的角度分析,汉字具有如下4个特点.2.1汉字类别多汉字的个数很多,国家标准GB1803022000《信息交换用汉字编码字符集基本集的扩充》

4、收录27484个汉字[5].汉字个数在模式识别问题中体现为汉字的类别,因此汉字识别问题属于超大规模数据集的模式识别问题.2.2字体结构复杂汉字基本笔画(stroke)分为:横、竖、撇、点、折[6].笔画的组合方式分为相离、相接和相交三种.特征结构笔画和相应笔画的组合方式在以笔画为特征的汉字识别中起到关键作用.汉字的组合方式包括独体字和合体字•合体字又包括上下结构、左右结构、品字结构等多种结构•以部件(radical)为基础的手写体汉字识别中,需根据汉字的组合方式对已提取的部件进行重新组合.2.3字形变化多手写体

5、汉字字形总的来说可以分为:手写印刷体(hand2printfashionscripts)行书(fluentscripts)和草书(cursivescripts).对于相同的字形又因不同人书写风格的差异造成手写汉字的变形•脱机手写汉字在日常生活中以行书为主.对于行书和草书等笔迹相连的情况,字符分割是识别的关键环节,如果出现分割错误,将影响后续识别结果的精度.2.4相似字多汉字集合中相似字较多,由于手写体汉字变形的存在,使得手写体中相似字的区分比印刷体要困难得多[11.比如,在手写体中的一点,可能会因为不当的预处理

6、而消失,从而造成字符的误识•因此要求预处理方法能够针对手写汉字的特点,做到尽量不丢失笔画信息•在识别过程中,对于相似的字体,可以采用更精确的细分类过程进行鉴别•在识别后处理阶段,通常采用相似字符集作为候选字符集的主体.3识别过程对于脱机手写体汉字识别而言,其识别过程通常如图2所示.图2脱机于写体汉字识别流程图原始的手写文稿通过扫描仪等OCR(OpticaICharac2terRecognition)设备,转换成灰度图像或者二值图像,并进行预处理•字符特征分为统计和结构特征两种模式•识别阶段,根据提取的特征,选择

7、相应的分类器及其组合形式进行模式分类•识别后处理根据前后文字的上下文关系选择最合乎逻辑的字词,能进一步提高识别准确率,最后输出分类结果.Characters4图像预处理很多图像处理技术可以应用于脱机手写体汉字图像,包括:(对灰度图像)二值化、(对二值图像)伪灰度化、去噪、骨架化、边缘提取、倾斜矫正等.本节主要介绍字符图像分割的关键技术和方法.基于切分的汉字识别方法是目前汉字识别的主流方法•汉字的分割通常首先对整篇文档做行切分,再在行分割的基础上进行单个字符的分割.图3显示了手写体汉字分割处理的一般流程只有当每一

8、单个字符的图像都能正确地从整个文本页面图像中分割出来,才有可能进行正确的文字识别[5].然而,手写体汉字的书写随意性很大,相邻汉字之间的位置关系也复杂多样.手写体汉字的书写可能产生如下4种基本位置排列情况[7,8],如图4所示.肢札展札正常竝连电腔过分图4手写体汉字4种朽写位置关系(1)正常:汉字各自分开独立为整体;单个汉字中各个部件间的距离远小于字间距离.(2)粘连:汉字的某一笔在一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。