基于OCR邮件信息识别系统

基于OCR邮件信息识别系统

ID:36457158

大小:121.50 KB

页数:6页

时间:2019-05-10

基于OCR邮件信息识别系统_第1页
基于OCR邮件信息识别系统_第2页
基于OCR邮件信息识别系统_第3页
基于OCR邮件信息识别系统_第4页
基于OCR邮件信息识别系统_第5页
资源描述:

《基于OCR邮件信息识别系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、广东科技学院基于OCR的邮件信息识别系统叶选华(广东科技学院)摘要邮件分拣的主要任务是把邮件按照业务品种、邮件种类或地址等信息进行分离,而邮件分拣的一个重要环节是对邮件信息进行识别和理解。为提高邮件分拣的效率,优化业务处理流程,需设计一套邮件自动分拣系统,本文根据OCR技术进行了邮件自动分拣系统信息识别部分的探讨,包括OCR原理以及应用于邮件信息识别中的工作流程。关键词:OCR,自动分拣机,数字图像处理,Sobel算子1.我国邮件自动分拣系统现状我国自动分拣机的应用大约始于1980 年代,近期的市场兴起和技术发展始于1997 

2、年。自动分拣的概念先在机场行李处理和邮政处理中心得到应用,然后普及到其他行业。随着业界对现代化物流的实际需求的增长,各行业对高速精确的分拣系统的要求正在不断地提高。这一需求最明显地表现在烟草、医药、图书及超市配送领域,并有望在将来向化妆品及工业零配件等领域扩展。这些领域的一个共同特点是产品的种类繁多、附加值高、配送门店数量多、准确性要求高和人工处理效率低等特点。2.OCR简介2.1.OCR的概念OCR是英文OpticalCharacterRecognition的缩写,中文意思就是通过光学技术对文字进行识别。它产生于1929年,

3、由德国的科学家Tausheck首先提出,并且申请了专利。几年后,美国科学家Handel也提出利用技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成为现实。现在这一技术已经由计算机来实现,OCR的意思也就演变成为利用光学技术对文字和字符进行扫描识别,并将其转化成计算机内码。2.2.OCR的发展6广东科技学院大致可分为三个阶段。第一阶段始于60年代初期,只能识别印刷体的数字,英文字母和部分符号;第二阶段是基于手写体字符的识别,前期只限于手写体数字的识别,从时间上来看,是60年代中期到70年代初期;第三阶段主要解决的技术问题

4、就是对于质量较差的文档及大字符集的识别,例如汉字的识别。2.3.我国OCR技术的发展我国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究;70年代末开始进行汉字识别的研究;到1986年汉字识别的研究进入一个实质性的阶段,取得了较大的成果,不少研究单位相继推出了中文OCR产品。时至今日,对印刷体汉字的识别率达到98%以上,可识别宋体、黑体、楷体、仿宋体、繁体等多种字体,并且可以对多种字体、不同字号混合排版进行识别;对手写体汉字的识别率达到70%以上。国家的“863计划”对OCR技术的研究给

5、予了很大的资助,促使OCR的研究取得了重大进展。3.OCR技术识别邮件的过程邮件识别涉及到OCR技术几乎所有方面,包括图像预处理、版面分析、文本提取、手写数字识别、字符分割、后处理等,是一个非常复杂的系统工程。信封图像经预处理之后,进行版面分析并从版面分析得到的邮政编码块中提取邮政编码。然后借助地址库,建立后处理规则。4.信封预处理邮件封面通过摄像头拍照,即可得到信封图像,而原始的信封图像会存在噪声点,倾斜,对比度较低等一系列问题,对接下来的版面分析与理解造成影响,因此,需要对原始信封图像进行预处理。通常,信封图像预处理包括以

6、下几项任务:图像二值化,平滑处理,除去噪声和倾斜矫正等。4.1.信封图像的平滑处理图像中往往包含各种各样的噪声,这些噪声都是大小不规则而又随机分布的,对后续处理产生较大干扰。而图像平滑处理的主要目的就是去除噪声。常用的图像平滑方法有均值滤波和中值滤波法。均值滤波器是线性平滑滤波器,其所有系数都是正数对3×3模板来说,最简单的是取所有系数为1,为了保持图像仍然在原来图像的灰度值范围内,模块与像素领域的乘积都要除以9。中值滤波器是一种常用的非线性平滑滤波器,其原理与均值滤波器原理类似,但计算的不是加权求和,而是把领域中的图像的像素

7、按灰度级进行排序,然后选择组的中间值作为输出像素值。6广东科技学院matlab均值滤波和中值滤波效果4.2.倾斜校正由于人为因素和摄像工具走纸机构的机械误差的影响,信封图像普遍存在一定角度的倾斜,而版面分析算法对信封的倾斜非常敏感,于是,倾斜校正就显得尤为重要。在进行倾斜校正前,需要先对信封图像进行边缘检测,找到信封边缘,本文采用sobel算子进行边缘检测。该算子包含两组3x3的矩阵,分别为横向及纵向,将之与图像作平面卷积,即可分别得出横向及纵向的亮度差分近似值,假设A为信封图像,和表示经纵向和横向边缘检测的图像,其核心公式为

8、:其梯度幅值用如下公式计算:检测出图像中的直线之后,需要对倾斜角度进行计算,这是倾斜矫正的关键步骤,常用的倾斜角计算方法有:Hough变换法、Radon变换法、最小二乘法和两点法四种方法。6广东科技学院5.版面分析与理解版面分析与理解的主要任务是将经过预处理的信封图像进行拆解

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。