基于笔划合并的手写体信函地址汉字切分识别

基于笔划合并的手写体信函地址汉字切分识别

ID:38287533

大小:322.43 KB

页数:5页

时间:2019-06-03

基于笔划合并的手写体信函地址汉字切分识别_第1页
基于笔划合并的手写体信函地址汉字切分识别_第2页
基于笔划合并的手写体信函地址汉字切分识别_第3页
基于笔划合并的手写体信函地址汉字切分识别_第4页
基于笔划合并的手写体信函地址汉字切分识别_第5页
资源描述:

《基于笔划合并的手写体信函地址汉字切分识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据万方数据王嵘,等:基于笔划合并的手写体信函地址汉字切分识别由其中的中文手写字符的特点所决定的:1)相邻字符间的字符间距较小,在竖直方向投影上笔划可能有重叠,甚至有笔划的粘连和交叉;2)汉字结构复杂,一个汉字中含有多个部件,部分左右结构的汉字,字符内间距较大;3)书写风格变化大,同一样本中,汉字的大小和笔划的粗细有较大变化。本文进一步阐述了基于笔划提取和合并的字符切分方法,经过实际的测试,获得了较好的效果。1预处理预处理的目的是获得初始二值地址行图像中文本行的全局特征,并对部分图像进行增强操作,改善图像质量,为后续的切分和识别做准备。1.1参数提取1)笔迹宽度[73笔迹宽度是指书写笔

2、划的粗细程度,在后续的图像增强中,将以此为依据判断图像的模糊程度。通过对文本行的水平黑像素游程的长度作直方图分析,如图1a所示,对处于极大值附近的游程长度作加权平均,得到最终的笔划宽度。700500辆壁,00100Jf一5O510152025303540游程长度(a)文本行图像水平黑像素游程长度直方图100j璺70黼辎4010山LJIL.山L』JIj..JL.1▲■OlOO200300400500600700位置(b)文本行图像的垂直投影图(c)文本行字符平均高度计算示意图图1参数提取2)字符平均宽度[7]字符平均宽度的准确估计对字符切分有着直接的影响。估计的方法是对文本行图像的垂直投影图

3、在一定阚值上作水平的游程分析,图1b为图1c中样本的垂直投影直方图,取与笔划宽度相关的阈值,即在图1b中水平线处做游程分析,可以得到较好的估计。3)字符平均高度字符平均高度的准确估计对字符切分也有着直接的影响。如图1c所示,字符平均高度的估计是对文本行分段计算图像高度^i后的平均。1.2图像增强由于信函文本本身或扫描质量造成部分图像质量较差,表现在字符笔划过细,出现大量笔划断裂,这一现象对进一步的操作造成了很大的影响,因此,在预处理中采用了闭运算的方法增强图像。考虑到时间和处理的效果,对笔迹宽度参数设置了阈值,仅仅对低于阈值的样本做了闭运算的操作。2笔划的提取笔划是指汉字中的横、竖、撇、捺

4、4种基本笔划。由于实际的地址文本行中,字符间矩较小,笔划间存在着大量的粘连和交叉,一般的连通域和候选切分点的方法很难有效地解决这些位置上的切分问题,并会给后续的识别引入噪声,因此考虑采用笔划提取的方法,将原始图像提取出若干的笔划,从而区分出属于不同字符的笔划,再在后续的合并处理中生成分离的字符。采用黑游程跟踪的方法[83来提取笔划。首先从图像中寻找到一条黑游程,作为笔划的开始,然后对该黑游程进行逐行跟踪,在当前黑游程的下一行左右的一定范围内,找到所有的黑游程,并根据已有的游程平均宽度和游程直线拟合得到的笔划方向,确定归入该笔划的黑游程,并确定出下一行的跟踪范围,直到找不到新的游程,跟踪结束

5、,得到一个笔划。从图像中提取的笔划分别用外接矩形和凸包来描述。外接矩形就是包含笔划的最小矩形,凸包是指围绕笔划的凸多边形,凸包的生成算法参见文[9]。图2分别给出了笔划提取后生成的外接矩形和凸包的示例。黑(a)原始图像(b)提取出的笔(c)提取出的划外接矩形笔划n包图2笔划的提取3笔划的合并提取出字符的笔划后,需要依据一定的准则将其合并,生成字符本身或者组成字符的部件,称之为万方数据500清华大学学报(自然科学版)字根。本文选用了几种距离来描述两笔划或字根间的关系,并按照一定步骤,对上述距离加权平均后作为最终的合并准则。1)外接矩形水平交叠距离如图3a中所示,如果厶、L,分别为两笔外接矩形

6、BB。、BB,的左边界坐标,尺。、R,分别为两字符外接矩形BB,、BB,的右边界坐标,定义外接矩形水平交叠距离为DoL—max(厶,L,)一min(Ri,R,),当两外接矩形水平方向上有交叠时这一距离是负的。留7誊(a)外接矩形水平(b)外接矩形(c)凸包质心I司距交叠距离质心间距图3笔划间的距离2)外接矩形质心水平间矩外接矩形质心是根据每一笔划外接矩形4个边的坐标以及字根外接矩形的合并形成过程计算出来的,它大致可以反映出笔划或字根图像中的黑像素分布状况。用外接矩形上、下、左、右4条边的坐标可以很容易地计算出笔划外接矩形的几何中心:f鱼去垦,互去墨1,丁。B。分别是外接矩形B目的上、下边界

7、坐标。由于最初生成的外接矩形只包含有基本的汉字笔划,因此其质心可以近似地由几何中心来表示。经过合并后,两个或者更多的笔划组成了新的外接矩形,这样笔划的分布不再是均匀的,必须考虑每个笔划在外接矩形里的分布状况,重新计算出新的质心,大多数情况下这一质心是不和其几何中心相同的。为了简化质心的计算过程,本文采用了如下的计算方法:如图3b中所示为外接矩形BB,和BBj,BB,的质心ci的坐标为(C∽C,),

8、si是外接矩形B目的面

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。