自然场景图像中的文字检测.pdf

自然场景图像中的文字检测.pdf

ID:50460720

大小:16.25 MB

页数:113页

时间:2020-03-06

自然场景图像中的文字检测.pdf_第1页
自然场景图像中的文字检测.pdf_第2页
自然场景图像中的文字检测.pdf_第3页
自然场景图像中的文字检测.pdf_第4页
自然场景图像中的文字检测.pdf_第5页
资源描述:

《自然场景图像中的文字检测.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、UniversityofScienceandTechnologyofChina博士学位论令然场景图像中的丈孛拾测论文题目作者姓名电路与糸统学科专业霍强教授偻忠嫌到教授导师姓名二〇一四年十二刀完成时间肀科嗲敉术大嗲博士学位论文自然场景图像中的文字检测作者姓名:孙雷学科专业:电路与系统导师姓名:霍强教授傅忠谦副教授完成时间:二〇一四年十二月UniversityofScienceandTechnologyofChinaADissertationforDoctor'sDegreeRobustTextDetectioninNaturalS

2、ceneImagesAuthor'sName:LeiSunSpeciality:CircuitsandSystemsSupervisor:Prof.QiangHuoProf.ZhongqianFuFinishedtime:Dec,2014中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文是本人在导师指导下进行研宄工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人己经发表或撰写过的研宄成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确的说明。作者签名:孙签字日期:中国科学技术大学学位论文授权

3、使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。公开口保密(年)作者签名:导师签名:签字曰期签字日期摘要摘要随着低成本高性能移动、数码或可穿戴设备的成熟和普及,以及互联网和移动互联网技术的高

4、速发展,越来越多的新型应用场景中需要利用图像中的文字信息从而使得自然场景中的文字提取技术成为了近几年计算机视觉领域的热门研宄课题。而文字检测技术作为文字提取技术中的一个核心前端模块,同样受到越来越多学者的关注。然而文字本身的高变化度(如各种各样的字体、大小等)加上自然场景中的不均匀光照,遮挡,模糊,透视变换等客观因素使得自然场景图像中的全自动文字检测问题变得极为困难。本文针对该问题的各个难点进行了深入的分析,提出了一套基于和浅层神经网络的全自动文字检测系统,并在标准数据集上验证了算法的有效性。此外,在某些特定的应用场景中可以巧妙

5、地利用用户的交互信息来简化文字检测问题的难度,这类问题被称为基于用户意图的文字检测问题。本文对该类问题也进行了深入的研宄,并验证了图像的组件树结构对于解决基于用户意图的文字检测问题的有效性。所以,本文的主要工作可以被划分为自动的文字检测和基于用户意图的文字检测两个部分。自动的文字检测主要包含两个核心子问题,即候选文字连通区域提取和文字非文字分类。计对第一个问题,本文首先从理论上分析了经典的极值区域方法作为候选文字连通区域的局限性。为了抑制这些局限性,本文对极值区域算法提出改进,并提出算法来作为本文的候选文字连通区域提取算法。文字

6、非文字分类是文字检测问题的瓶颈问题,本文从理论上深入阐明了该问题的主要难点及其原因,并指出歧义性问题和不平衡分类问题是导致作为少数类的文字类泛化能力差的重要原因,而这也正是之前的文字检测算法召回率低的一个重要原因。为了解决这个问题,本文算法在特征层面,系统层面以及训练数据准备层面上都提出了相应的有效解决方法。在特征层面,本文没有像之前的方法一样采用人工设计的特征,而是直接利用神经网络从后续文字连通区域所对应的二值图的原始像素中学出有用的特征,该方法一方面可以避免人工特征提取过程中有用信息的损失,另一方面可以降低算法的计算复杂度。

7、在系统层面,为了克服歧义性问题,本文先利用孤立候选文字连通区域的形状或者纹理信息尽可能滤除无歧义非文字连通区域,以此简化后面文本行生成算法的难度,再利用文本行信息消除孤立候选文字连通区域的歧义性问题。其中,为了简化孤立候选文字连通区域的文字非文字分类问题,本文提出“分治”策略将原始问题空间根据文字本身的特有属性切分为五个子空间,摘要每个子空间分别利用无歧义学习策略训练相应的浅层神经网络分类器进行文字非文字分类。在训练数据准备层面,无歧义学习策略可以很好地抑制歧义性问题和不平衡分类问题导致文字类泛化能力差的问题,从而使得在准备分类

8、器训练数据的时候可以尽可能多且安全地使用从字体库合成的样本作为训练正样本。使用合成数据,一方面可以降低数据标注的工作量,另一方面保证训练数据干净且分布均匀,有助于分类器的性能。另外,通过无歧义学习策略可以有效地采样出少量且重要的非文字样本训练集,从而可以解决数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。