深度学习读书笔记.docx

深度学习读书笔记.docx

ID:58653809

大小:12.74 KB

页数:7页

时间:2020-10-16

深度学习读书笔记.docx_第1页
深度学习读书笔记.docx_第2页
深度学习读书笔记.docx_第3页
深度学习读书笔记.docx_第4页
深度学习读书笔记.docx_第5页
资源描述:

《深度学习读书笔记.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、深度学习读书笔记【篇一:深度学习文字识别论文综述】深度学习文字识别论文综述深度学习文字识别论文综述深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是无监督学习的一种,深度学习采用了神经网络的分层结构,系统包括输入层、隐层(多层)、输出层组成的多层网络,只有相邻的节点之间有连接,同一层以及跨层节点之间相互无连接。深度学习通过建立类似于人脑的分层模型结构,对输入数据逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射关系。近年来,谷歌、微软、百度等拥有大数据的

2、高科技公司相继投入大量资源进行深度学习技术研发,在语音、图像、自然语言、在线广告等领域取得显著进展。从对实际应用的贡献来说,深度学习可能是机器学习领域最近这十年来最成功的研究方向。深度学习模型不仅大幅提高了图像识别的精度,同时也避免了需要消耗大量的时间进行人工特征提取的工作,使得在线运算效率大大提升。深度学习用于文字定位论文thaitextlocalizationinnaturalsceneimagesusingconvolutionalneuralnetwork主要采用cnn的方法进行自然场景中的文本分类,并根据泰字的特点进行分类后的后处理,得到更加精确的定位效果。如

3、图1所示为cnn网络模型,cnn网络由一个输入层,两个卷积层和两个下采样层以及一个全连接层组成,输出为一个二分类向量,即文本和非文本。图1cnn网络模型该文主要思路为将图像切块后进行训练,采用人工标注样本的方法,使得网络具有识别文本和非文本的能力。由于样本数量较少,文中采用了根据已有字体生成训练数据集的方法,包括对字体随机添加背景、调整字体风格以及应用滤波器。如图2为生成的泰字样本,文中在标签的过程中将半个字或者整个字都标记为文本,增加了网络对文字的识别率。图2训练样本集在使用生成好的网络进行文字定位的过程中,论文采用的编组方法结合了泰字的特点,如图3为对图像文字的初步

4、定位,其中被标记的区域被网络识别为文字。图3图像文字的初步定位论文后期对标记的矩形小框区域进行了整合,结合了泰字本身的特点,如图图4所示为原始图像文字,图5为对识别结果进行的后处理,其中a,b,c将文字分为上、中、下三个部分。文中指出泰字一般的最高不超过中心线b的50%,采用这个规律进行了文字编组,得到如图6的编组结果,其中白色区域为编组结果。图4原始文本图像图5后处理结果图6编组结果同时论文也考虑了泰字的其他特点,如中心线与上边界和下边界的夹角不超过45度,根据这个规律又对编组结果进行调整。如图7所示,当超过夹角限制是进行了微调。如图8与图9为论文的最终定位结果。图7

5、泰字编组调整图8定位结果图9定位结果论文readingnumbersinnaturalsceneimageswithconvolutionalneuralnetworks结合隐马尔可夫模型(hiddenmarkovmodel,hmm)和深度学习方法来实现对自然场景中的数字进行定位和识别。首先采用cnn方法对原始的数字图像进行特征提取,将提取的结果输入至hmm模型进而得到数字的识别结果。如图10为论文提出的识别方法模型。图10文字识别模型论文为了实现直接在原始的图像上进行识别,采用了动态窗口滑动的方法,提取一系列的图像块。如图11为论文采用的cnn结构,包括4个卷积层,其

6、中3个卷积层都有相邻的下采样层,每个卷积层都包含一个本地归一化,共2个全连接层。网络的训练首先通过滑动窗口提取图像的骨架,然后采用主成分分析pca方法进行降维,然后将得到的主要特征作为gmm-hmm模型的输入,采用viterbi译码对gmm-hmm的输出进行处理,最后采用cnn对生成的数据进行训练,数据的标签自动生成不需要人工参与。图11cnn网络结构模型论文首先采用cnn对数字进行分类,其中分类数为11即数字0,1,2,3,4,5,6,7,8,9,以及标签10代表非数字,论文采用hmm模型对分类的【篇二:深度学习的9篇标志性论文】afastlearningalgori

7、thmfordeepbeliefnets(2006)-首次提出layerwisegreedypretraining的方法,开创deeplearning方向。layerwisepretraining的restrictedboltzmannmachine(rbm)堆叠起来构成deepbeliefnetwork(dbn),其中训练最高层的rbm时加入了label。之后对整个dbn进行fine-tuning。在mnist数据集上测试没有严重过拟合,得到了比neuralnetwork(nn)更低的testerror。reducingthedimen

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。