基于BP神经网络的手写数字识别.pptx

基于BP神经网络的手写数字识别.pptx

ID:52988331

大小:1.55 MB

页数:24页

时间:2020-04-08

基于BP神经网络的手写数字识别.pptx_第1页
基于BP神经网络的手写数字识别.pptx_第2页
基于BP神经网络的手写数字识别.pptx_第3页
基于BP神经网络的手写数字识别.pptx_第4页
基于BP神经网络的手写数字识别.pptx_第5页
资源描述:

《基于BP神经网络的手写数字识别.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于BP神经网络的手写数字识别汇报人:李烽文献来源:Y.LeCun,B.Boser,J.S.Denker,R.E.Howard,W.Habbard,L.D.Jackel,andD.Henderson.Handwrittendigitrecognitionwithaback-propagationnetwork.InAdvancesinneuralinformationprocessingsystems2,1989本文使用BP网络进行手写数字识别,与以往将特征向量作为输入不同,该网络直接将图像作为输入,说明BP网络具有处理

2、大量低级信息(lowlevelinformation)的能力.早前对简单数字图像的工作说明网络结构极大地影响了网络泛化能力。良好的泛化能力可通过在网络设计过程中引入先验知识得到。一个基本设计原则是减少自由参数(freeparameters),而不用过度减少网络的计算能力。另一方面,要在网络结构中涉及合适的约束条件。INTRODUCTIONZIPCODERECOGNITION选择手写数字识别作为研究对象是因为这是一个相对简单的机器视觉任务:1.将黑白像素点作为输入;2.数字能够很好地与背景分离开;3.输出只有10个类别;存

3、在的问题:1.一般要得到较好的训练效果,隐层数目不能太少,当图片大的时候,需要的权值会非常多!2.对平移、尺度变化敏感(比如数字偏左上角,右下角时即识别失败)3.图片在相邻区域是相关的,而这种网络只是一股脑把所有像素扔进去,没有考虑图片相关性。用最简单的神经网络进行识别28*28像素的图片ZIPCODERECOGNITION选用的数据集来自纽约邮局真实的数据,包括各式各样的手写数字。作为补充,还加入了35种字体的打印数字。训练集:7291条手写数字,2549条打印数字测试集:2007条手写数字,700条打印数字训练集与测

4、试集中的打印数字的字体不同训练集与测试集中包含歧义的、未分类、无分类的数据PREPROCESSING在字符识别的过程中,识别算法不需要关心图像的彩色信息。因此,需要将彩色图像转化为灰度图像。经过灰度化处理后的图像中还包含有背景信息。因此,我们还得进一步处理,将背景噪声屏蔽掉,突显出字符轮廓信息。二值化处理就能够将其中的字符显现出来,并将背景去除掉。THENETWORK预处理之后,多层神经网络进行识别。网络中的所有连接都是自适应的。输入:归一化图像输出:10个类,如数字2的结果如下:-1-11-1-1-1-1-1-1-1全

5、连接的网络由于有太多的自由参数而不能进行良好的泛化:全局、局部局部感受野、权值共享、featuremap每种滤波器的参数不一样,表示它提出输入图像的不同特征,例如不同的边缘。这样每种滤波器去卷积图像就得到对图像的不同特征的放映,我们称之为FeatureMap。一个featuremap中的所有神经元使用相同过滤器,不同层的featuremap使用不同的过滤器。卷积神经网络结构一般地,C层为特征提取层,每个神经元的输入与前一层的局部感受野相连,并提取该局部的特征,一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来

6、;S层是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射为一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。卷积神经网络中的每一个特征提取层(C-层)都紧跟着一个用来求局部平均与二次提取的计算层(S-层),这种特有的两次特征提取结构减小了特征分辨率。卷积和子采样过程用一个可训练的滤波器fx去卷积一个输入的图像(第一阶段是输入的图像,后面的阶段就是卷积

7、的featuremap),然后加一个偏置bx,得到卷积层Cx。卷积层的输出=Sigmoid(Sum(卷积)+偏移量)子采样(subsampling)过程包括:每邻域四个像素求和变为一个像素,然后通过标量Wx+1加权,再增加偏置bx+1,然后通过一个sigmoid激活函数,产生一个大概缩小四倍的featuremapSx+1输出=Sigmoid(采样*权重+偏移量)6个5X5模板LeNet-5手写识别系统LeNet-5共有7层,不包含输入,每层都包含可训练参数(连接权重)。输入图像为32*32大小。这要比Mnist数据库(一

8、个公认的手写数据库)中最大的字母还大。这样做的原因是希望潜在的明显特征如笔画断电或角点能够出现在最高层特征监测子感受野的中心输入图像是32x32的大小,局部滑动窗(卷积核)的大小是5x5的,由于不考虑对图像的边界进行拓展,则滑动窗将有28x28个不同的位置,也就是C1层的大小是28x28。这里设定有6个不同的C1层,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。