基于深度学习的自然场景文本定位与识别研究

基于深度学习的自然场景文本定位与识别研究

ID:42269054

大小:4.24 MB

页数:83页

时间:2019-09-10

基于深度学习的自然场景文本定位与识别研究_第1页
基于深度学习的自然场景文本定位与识别研究_第2页
基于深度学习的自然场景文本定位与识别研究_第3页
基于深度学习的自然场景文本定位与识别研究_第4页
基于深度学习的自然场景文本定位与识别研究_第5页
资源描述:

《基于深度学习的自然场景文本定位与识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文I肇.圓基于深度学习的自然场景文本定位与识别研究作者姓名指导教师姓名、职称高海昌教授__工学硕士「V申请学位类别_西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研宄成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人己经发表或撰写过的研宄成果;也不包含一为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我同工作的同事对本研宄所做的任何贡献均己在论文中作了明确的说明并表示了谢意。

2、一。学位论文若有不实之处,本人承担切法律责任::曰期本人签名_沐千西安电子科技大学关于论文使用授权的说明:本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即研究生在校攻读学位期间论文工作的知识产权属于西安电子科技大学。学校有权保留送交论文、,的复印件,允许查阅借阅论文;学校可以公布论文的全部或部分内容允许采用影印、缩印或其它复制手段保存论文。同时本人保证,结合学位论文研宂成果完成的论。文、发明专利等成果,署名单位为西安电子科技大学签名:本人签名:导师—'^.11/:)曰期:日期(学校代码10701学号1503

3、121569分类号TP301密级公开西安电子科技大学硕士学位论文基于深度学习的自然场景文本定位与识别研究作者姓名:张平一级学科:计算机科学与技术二级学科:计算机软件与理论学位类别:工学硕士指导教师姓名、职称:高海昌教授学院:计算机学院提交日期:2018年6月ResearchonTextLocationandRecognitioninNaturalImageswithDeepLearningAthesissubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinComput

4、erSoftwareandTheoryByZhangPingSupervisor:GaoHaichangTitle:ProfessorJune2018摘要摘要随着多媒体以及互联网技术的快速发展,人们获取自然场景图片的方式越来越多,怎样从丰富的图片中摘取自己需要的信息就变得越来越重要。而随着人工智能和深度学习技术的发展,高效读取自然场景中文本的应用需求也急剧增加,自然场景文本定位和识别的应用场景也越来越多,如视频或图像自动索引、智能交通系统、盲人导航系统、机器人导航系统、地理位置信息自动服务、工业生产自动化等等。本文研究的内容是自然场景下的文本定位与识别,最终将要实现一个端到端的系统,

5、用以定位并识别自然场景图像中的文本。本文所识别的文本类型为英文和数字,而包括中文在内的其他文本则不在本文的研究范畴中。自然场景下的文本检测与识别包括文本区域定位和文本识别两个主要步骤。本文对以上两个部分进行了深入的研究,并实现一个端到端的识别框架将定位和识别打通。本文的主要内容如下:(1)将一般目标检测和定位的方法应用在自然场景文本定位上,在自然场景复杂的场景下,提取文本区域。自然场景图像的背景异常复杂,有的图像中包含大量的文本外的杂物,有的文字会和背景高度融合,有的图像中文字可能随意分布,这些都会给定位造成很大的影响。本文的一个研究内容就是找到通用的算法,从复杂的场景下提取出文本区

6、域。为了解决这个问题,本文将原本应用在一般目标检测和定位上的FasterRCNN和MaskRCNN方法加以修改重新训练,使用在自然场景文本定位问题上,在定位准确率和定位时间上都取得了不错的效果,这部分也是本文的创新点。(2)对于自然场景下提取出来复杂多样的文本,寻找通用算法,通过尽可能少的预处理操作,进行识别。自然场景文本中的字符有的粘连很严重,有的字体非常复杂,有的由于遮挡曝光等原因噪音特别多,我们无法找到一种通用的方法进行分割、去噪等预处理,所以本文的研究内容之一就是寻找通用的方法,用尽可能少的预处理操作,对自然场景文本进行有效识别。通用性体现在不对图片进行专用的预处理操作。为了

7、达到这一目标,本文研究了几种神经网络以及几种配合神经网络使用的机制和算法,对自然场景文本只进行简单的灰度化、尺寸归一化等处理之后,设计了基于CNN、RNN和CTC的方法以及基于CNN、RNN和Attention机制的方法,对图像中的文本使用基于整体识别(与切分单个字符识别的方法相对)方法,在与目前开源的Jaderberg等人的方法对比之后,发现我们的识别方法在识别率和识别时间上都表现不错。关键词:深度学习,自然场景,文本定位,文本识别,端到端IABSTRA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。