YJango的卷积神经网络.doc

YJango的卷积神经网络.doc

ID:55309236

大小:2.64 MB

页数:46页

时间:2020-05-09

YJango的卷积神经网络.doc_第1页
YJango的卷积神经网络.doc_第2页
YJango的卷积神经网络.doc_第3页
YJango的卷积神经网络.doc_第4页
YJango的卷积神经网络.doc_第5页
资源描述:

《YJango的卷积神经网络.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、YJango的卷积神经网络——介绍很久没有更新文章了。这次就更新一个很久之前就答应要写的卷积神经网络的文章。PS:YJango是我的网名,意思是我写的教程,并不是一种网络结构。。关于卷积神经网络的讲解,网上有很多精彩文章,且恐怕难以找到比斯坦福的CS231n还要全面的教程。所以这里对卷积神经网络的讲解主要是以不同的思考侧重展开,通过对卷积神经网络的分析,进一步理解神经网络变体中“因素共享”这一概念。注意:该文会跟其他的现有文章有很大的不同。读该文需要有本书前些章节作为预备知识,不然会有理解障碍。没看过

2、前面内容的朋友建议看公开课视频:深层神经网络设计理念。当中的知识可以更好的帮助理解该文。gitbook首发阅读地址:卷积神经网络——介绍,看前先刷新浏览器如果要提出一个新的神经网络结构,首先就需要引入像循环神经网络中“时间共享”这样的先验知识,降低学习所需要的训练数据需求量。而卷积神经网络同样也引入了这样的先验知识:“空间共享”。下面就让我们以画面识别作为切入点,看看该先验知识是如何被引入到神经网络中的。目录·视觉感知o画面识别是什么o识别结果取决于什么·图像表达o画面识别的输入o画面不变形·前馈神经

3、网络做画面识别的不足·卷积神经网络做画面识别o局部连接o空间共享o输出空间表达oDepth维的处理oZeropaddingo形状、概念抓取o多filterso非线性o输出尺寸控制o矩阵乘法执行卷积oMaxpoolingo全连接层o结构发展·画面不变性的满足o平移不变性o旋转和视角不变性o尺寸不变性oInception的理解o1x1卷积核理解o跳层连接ResNet视觉感知一、画面识别是什么任务?学习知识的第一步就是明确任务,清楚该知识的输入输出。卷积神经网络最初是服务于画面识别的,所以我们先来看看画面识

4、别的实质是什么。先观看几组动物与人类视觉的差异对比图。1.苍蝇的视觉和人的视觉的差异2.蛇的视觉和人的视觉的差异(更多对比图请参考链接)通过上面的两组对比图可以知道,即便是相同的图片经过不同的视觉系统,也会得到不同的感知。这里引出一条知识:生物所看到的景象并非世界的原貌,而是长期进化出来的适合自己生存环境的一种感知方式。蛇的猎物一般是夜间行动,所以它就进化出了一种可以在夜间也能很好观察的感知系统,感热。任何视觉系统都是将图像反光与脑中所看到的概念进行关联。所以画面识别实际上并非识别这个东西客观上是什么

5、,而是寻找人类的视觉关联方式,并再次应用。如果我们不是人类,而是蛇类,那么画面识别所寻找的?就和现在的不一样。画面识别实际上是寻找(学习)人类的视觉关联方式?,并再次应用。二、图片被识别成什么取决于哪些因素?下面用两张图片来体会识别结果取决于哪些因素。1.老妇与少女请观察上面这张图片,你看到的是老妇还是少女?以不同的方式去观察这张图片会得出不同的答案。图片可以观察成有大鼻子、大眼睛的老妇。也可以被观察成少女,但这时老妇的嘴会被识别成少女脖子上的项链,而老妇的眼睛则被识别为少女的耳朵。2.海豚与男女上面

6、这张图片如果是成人观察,多半看到的会是一对亲热的男女。倘若儿童看到这张图片,看到的则会是一群海豚(男女的轮廓是由海豚构造出的)。所以,识别结果受年龄,文化等因素的影响,换句话说:图片被识别成什么不仅仅取决于图片本身,还取决于图片是如何被观察的。图像表达我们知道了“画面识别是从大量的数据中寻找人类的视觉关联方式?,并再次应用。其-是输入,表示所看到的东西-输出,表示该东西是什么。在自然界中,是物体的反光,那么在计算机中,图像又是如何被表达和存储的呢?[from]图像在计算机中是一堆按顺序排列的数字,数值

7、为0到255。0表示最暗,255表示最亮。你可以把这堆数字用一个长长的向量来表示,也就是tensorflow的mnist教程中784维向量的表示方式。然而这样会失去平面结构的信息,为保留该结构信息,通常选择矩阵的表示方式:28x28的矩阵。上图是只有黑白颜色的灰度图,而更普遍的图片表达方式是RGB颜色模型,即红(Red)、绿(Green)、蓝(Blue)三原色的色光以不同的比例相加,以产生多种多样的色光。这样,RGB颜色模型中,单个矩阵就扩展成了有序排列的三个矩阵,也可以用三维张量去理解,其中的每一个

8、矩阵又叫这个图片的一个channel。在电脑中,一张图片是数字构成的“长方体”。可用宽width,高height,深depth来描述,如图。画面识别的输入是shape为(width,height,depth)的三维张量。接下来要考虑的就是该如何处理这样的“数字长方体”。画面不变性在决定如何处理“数字长方体”之前,需要清楚所建立的网络拥有什么样的特点。我们知道一个物体不管在画面左侧还是右侧,都会被识别为同一物体,这一特点就是不变性(invariance),

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。