图像汉字识别方法及原理的研究

图像汉字识别方法及原理的研究

ID:22649446

大小:144.39 KB

页数:16页

时间:2018-10-30

图像汉字识别方法及原理的研究_第1页
图像汉字识别方法及原理的研究_第2页
图像汉字识别方法及原理的研究_第3页
图像汉字识别方法及原理的研究_第4页
图像汉字识别方法及原理的研究_第5页
资源描述:

《图像汉字识别方法及原理的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、1.2研究现状及存在问题汉字识别技术自六十年代开始有人从事研宄。IBM公司的凯瑟和纳吉最先开始研允印刷体汉字识别,并且发表了关于汉字识别的第一篇文章。中国较晚开始进行汉字识别的研允70年代初先开始研宂英文字母、数字等方而的文字识别,汉字识别的研允是从70年代末开始的,到1986年中国的汉字识别研宂有了一定的阶段性进展。20世纪90年代之后,我国扫描仪的广泛使用以及办公自动化技术的不断提高,大大推动了汉字识别技术的发展。目前,印刷体汉字是技术已经取得了较为显著的成果,对高分辨率图像和无特效的文字图像有较好的识别效

2、果,识别率可以达到98%以上,如“汉王OCR”、“紫光OCR”等。但当图像中的汉字在字体、大小、排版、对齐方式等方而变化,且图像分辨率低、背景复杂时,OCR软件的识别率就会大大下降。由文献[4]可知,FI前汉字识别系统主要包括预处理、字符分割、特征提取、匹配识别等阶段。整个过程包括载入图像后,进行预处理得到二值图像,通过不同的途径使获得汉字图像的干扰因素降到最低,然后进行行和列的字符分割,将文字分割出来,然后使用各种汉字图像的模式识别算法,提取汉字的特征,最后与标准汉字匹配,识别图像中的中文文本。针对复杂背景下

3、的汉字识别,文献[5]针对SIFT(ScalcInvariantFeatureTransform)算法的优势,提出了一种新的SSIFT(Shapc-SIFT)算子,其对经过旋转、缩放、噪声干扰后的图片,有较好的汉字识别效果。但其维数过多,且对诸如“一”、“川”等笔画数非常少的汉字,识别效果很不理想。文献[6]提出一种新型的汉字识别系统,从汉字图像中抽取图像的有关内容特征,与模板汉字图像数据库中存储标准汉字图像进行匹配,从而来确定待奔询的图像中的文字。但其引入了高维向量索引,容易引起维数危机,且识别率不高。文献P

4、]第一次提出了SURF算法,它是在SIFT算法的基础上提出的一种快速鲁棒特征提取的配准算法。SURF算法不但在图像旋转、平移、缩放、噪声等方而的影响下仍然具有很好的鲁棒性,而且通过加入积分图像和箱式滤波器,也很好地提高了匹配时间。文献[8-10]对几种典型的局部特征算法进行了性能评价,结果表明,SURF算法在性能方而最为强大。SURF算法A前主要应用于图像的配准,还尚未应用于汉字识别。而目前在文献[5]、文献[11]、文献[12]等多处己将作为SURF算法基础的SIFT算法应用到汉字识别系统中,并且识别效果都比

5、较理想,综合SURF算法的优势,本文考虑将SURF算法引入复杂背景图像的汉字识别系统中1.3研究内容及技术路线1.3.1研宄内容本论文研究的主要内容是基于汉字识别的相关识别算法,结合SURF算法的优势,使用C++语言完成汉字识别系统的研究开发,并完成幵发过程屮各个阶段的文档。汉字识别的整个流程是载入汉字图像后,对图像进行预处理,使用不同的方法來降低汉字图像的干扰因素,将图像屮的汉字分离出來后使用不同的模式识别方法提取出汉字的特征,与标准库屮的汉字进行匹配,最后识别出图像屮的汉字。对图像屮的文字分离出來之后利用各

6、种模式识别算法对汉字图像进行分析,提取汉字的特征,继而与标准汉字进行匹配判别,从而识别出图像屮的汉字文本内容。汉字识别系统的功能结构图。该系统的主要功能包括:(1)图片预处理模块。在载入图片后,首先对图片去除噪声,继而分别进行图像的版面分析、二值化等处理,从可能降低文字的干扰因素,从而最大程度方便、准确地提取出汉字的特征。(2)字符分割模块。根据水平方内和垂直方向字和字之间的距离,将单个汉字从整个图像屮分离出來。先将整个图像以行进行切割,再从垂直方向分离出一个个字符。(3)特征提取模块。根据预处理及字符分割的结

7、果,利用各种模式算法对汉字图像进行分析,从而进行汉字的特征提取。(4)匹配识别模块。把提取的汉字特征和标准库屮的汉字特征进行匹配,从而识别出汉字。一般采用欧氏距离计算,选取特征点的最短距离进行匹配。2图像汉字识别方法及原理的研究2.1预处理由于设备扫描效果差等客观因素,以及美化或强调某些文字而通过软件进行特殊处理等人为因素,图像不可避免地存在一些噪声干扰,文字的缩放、亮度变化、复杂背景等等都是常见的问题。这将严重影响整个系统的识别率。因此为了汉字图像更好得进行匹配识别,在最初对图像进行预处理是非常必要的。由文献

8、[13]可知,预处理可以分为对整体图像和单个字符分别进行处理,对整体图像的处理过程包括:图像灰度化、二值化、倾斜矫正、版面分析和行字切分;对单个字符依次进行单字二值化、平滑去噪、归一化以及细化等过程。(1)灰度化由于在计算机中的图像一般都是彩色的,而计算机在图像处理中识别的图像为灰度图像,且许多处理算法也是针对灰度图像进行处理的,所以,对输入图像首先应进行灰度化处理。彩色图像通常使用R

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。