基于深度学习的端到端场景文本识别方法研究

ID：37062673

大小：2.14 MB

页数：85页

时间：2019-05-16

资源描述：

《基于深度学习的端到端场景文本识别方法研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、硕士学位论文基于深度学习的端到端场景文本识别方法研究作者姓名刘衍平学科专业信号与信息处理指导教师高学副教授所在学院电子与信息学院论文提交日期2018年4月Researchonend-to-endscenetextrecognitionmethodbasedondeeplearningADissertationSubmittedfortheDegreeofMasterCandidate：LiuYanpingSupervisor：Prof.GaoXueSouthChinaUniversityofTechnologyGuangzhou,China摘要

2、图片能带给人们丰富的信息，而文字作为人类智慧的结晶，其所包含的信息量往往要比色彩纹理等携带的信息量大得多，因此对场景图像中文字的识别和理解显得十分有必要和重要。由于场景文本图像的复杂性，传统OCR文字识别不再适应这种新的挑战。人工智能及计算机科学技术的新突破，使得基于深度学习算法理论的场景文本识别方法较传统OCR技术有了较大的提升，但离实际的运用还有不小的差距。因此，本文进行基于深度学习的场景文本识别方法研究具有重要的理论研究意义及广泛的应用前景。本文旨在研究自然场景下中文文本图像的文本识别方法，提出一种基于卷积神经网络及递归神经网络的端到端场

3、景文本识别模型与方法。与传统文本识别方法相比，该模型与方法具有更好的特征学习和特征分类能力。本文完成的主要工作包括：1、提出了一种基于可变形卷积网络的场景文本图像特征提取模型。该模型利用可变形卷积神经网络实现了文本图像特征的自动提取，与其他模型相比具有更好的特征学习能力，对复杂场景文本图像的识别具有更好的鲁棒性，尤其表现在文本图像中字体存在几何变形变换时，鲁棒性更好。利用本文提出的特征提取模型，能较好地提取场景文本图像中的特征，可以有效改善文本识别的性能。2、提出了一种改进的Encoder-Decoder框架中的注意力机制计算模型。标准注意力机

4、制通常采用全局注意力的方式进行解码，并且当前时刻的输入为全部输入信息的加权和。改进后的注意力机制采用了局部注意力的方式，且当前时刻的输入为局部输入信息的加权卷积平均，即先对局部输入信息求解权重因子，各局部输入信息依据权重因子进行加权后，进行卷积操作产生多个新的输入信息，最后将多个新输入信息的平均值作为当前时刻的输入。实验结果表明，本文注意力机制的改进可以提高0.5%文本识别的准确率。3、提出了一种改进的解码输出后处理操作。现有的后处理操作通常采用纯搜索算法或者融合了简单语言模型的搜索算法，其中有些搜索算法存在因搜索简单而性能较差或因搜索复杂而耗

5、时偏长的现象。改进后的后处理操作在不降低解码性能的前提下减少了搜索空间和时间，并融合了有效的统计语言模型。实验结果表明，本文改进的编码输出后处理可以提高解码效率和解码准确率。4、提出了一种自然场景下复杂文本图像的数据增广方法。该方法通过对少量的真实场景文本图像建模，使合成的图像在字体、颜色、噪声、仿射失真等方面更加贴近真I实文本图像。通过本文所给的数据增广方法，可以快速合满足自己需要的数据集，减少数据采集的人力物力。5、提出了一种基于二维递归网络的编码解码网络模型。该模型可以避免文本图像特征图降维和利用字符结构信息，实现了端到端的文字识别。在传

6、统的Encoder-Decoder框架中，通常采用一维递归神经网络作为其编码解码的核心结构。然而一维递归神经网络仅仅适应于序列识别，因此为了采用Encoder-Decoder框架进行文本识别，通常需要将二维文本图像的特征图进行降维，转为一维序列输入到Encoder-Decoder框架中。这一操作严重破坏了中文汉字的空间结构，丢失了很大一部分的空间结构特征。本文采用二维递归网络作为Encoder-Decoder框架的核心，使其可以直接与深度卷积网络中提取的特征图相连。Encoder-Decoder框架利用了中文汉字的空间结构特征，同时对文本图像中

7、在纵坐标上的形变具有更好的鲁棒性。实验结果表明，较一维递归网络，使用二维递归网络编码解码可以提高2.6%的文本识别准确率，达到最高为78.6%的识别率。较标准二维递归网络，本文的二维递归网络在性能上接近标准二维递归网络，具有计算速度快，网络模型设计简单等特点。关键字：文本识别；深度学习；卷积神经网络；Encoder-Decoder；注意力机制IIAbstractPicturescanbringrichinformationtopeople,andwordsasthecrystallizationofhumanwisdom,theamountof

8、informationtheycontainisoftenmuchlargerthantheamountofinformationcarriedbyt

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 85



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于深度学习的端到端场景文本识别方法研究

基于深度学习的端到端场景文本识别方法研究

相关文章

相关标签