基于深度学习的图像语义提取与图像检索技术研究

基于深度学习的图像语义提取与图像检索技术研究

ID:35175340

大小:6.15 MB

页数:78页

时间:2019-03-20

上传者:U-56225
基于深度学习的图像语义提取与图像检索技术研究_第1页
基于深度学习的图像语义提取与图像检索技术研究_第2页
基于深度学习的图像语义提取与图像检索技术研究_第3页
基于深度学习的图像语义提取与图像检索技术研究_第4页
基于深度学习的图像语义提取与图像检索技术研究_第5页
资源描述:

《基于深度学习的图像语义提取与图像检索技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

东华大学硕士学位论文基于深度学习的图像语义提取与图像检索技术研究专业名称:控制科学与工程作者姓名:罗世操指导教师:丁永生 学校代码:10255学号:2131148基于深度学习的图像语义提取与图像检索技术研究ImageSemanticsExtractionandRetrievalbasedonDeepLearning学院:信息科学与技术学院专业:控制科学与工程姓名:罗世操导师:丁永生教授2016年1月 东华大妻学位论文原创性巧明本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中己明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。学位论文作者签名’追托;罗曰期《Z:八年月冲日i.II.: 东华大学学位论文版枚使用授权书学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可[^将本学位论文的全部或部分内容编入有关数据库进行检索,可W采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保蠢□?,在年解密后适用本版权书。本学位论文属于不操密曰(学位论文作者签名;若指导教师签曰期:义年么月呼曰曰期:心>'(年心月曰啥 基于深度学习的图像语义提取与图像检索技术研究摘要随着移动互联网技术的飞速发展和智能手机广泛普及,用户每天都会上传分享海量的图像。如何让用户在海量的数据中准确地找到自己真正需要的信息,让企业有效地整合其庞大的图像数据资源,是当前很重要的研究课题。然而,传统的基于内容的图像检索技术是基于图像底层视觉特征的,和人对图像的认知存在着巨大的“语义鸿沟”问题。因此,为了解决“语义鸿沟”问题而提出的基于语义的图像检索成为图像检索领域中急需解决的关键问题之一。深度学习是在借鉴人脑视觉机制的基础上发展起来的,和人脑视觉机制一样,也是逐层迭代、逐层抽象的过程。深度学习最大的优势是可以自主学习图像特征,从最底层的方向边缘特征到物体结构特征直至更抽象的特征。针对语义鸿沟问题,本论文基于深度学习理论,构建一个从图像底层视觉特征到高级语义特征逐层迭代、逐层抽象的深度网络映射模型,旨在减小语义鸿沟,得到图像语义特征提取系统,并深入研究图像语义相似性度量,为大规模图像自动标注提供良好的基础,实现基于语义的图像检索技术,真正有效地利用海量的图像信息资源。本论文的主要工作如下:(1)针对图像检索中语义鸿沟问题,将深度学习应用到图像语义特征提取中,构建图像底层视觉特征到高级语义特征逐层迭代、逐层I 抽象的映射模型。(2)针对标签数据资源有限、无法支撑起深度网络训练的现实情况,提出了一种无监督的深度学习算法。先利用稀疏降噪自动编码器无监督地学习得到卷积核(对应于视觉机制中的感受野),然后利用迁移学习理论,把学习得到的卷积核传递给卷积神经网络。对于卷积核的个数和池化尺度对于图像分类准确率的影响做了深入研究。同时,采取了多级分类器级联的方法来提高分类准确率。若移除最后分类器模块,则可以把其当成一个图像语义特征提取器,根据图像相似性度量方法,可以得到各图像之间的相似度,实现快速图像检索。(3)基于深度学习理论,提出了一种朴素的基于深度学习的图像标注方法。利用训练好的深度卷积神经网络提取待标注图像的语义特征,然后利用相似性度量得到基准库中最相近一些的图像,根据这些图像的自带标签对待标注图像进行语义标注。在综合考虑加大网络深度能够提高网络抽象能力和随之带来的“梯度弥散”问题上,结合现有的数据集,在深度卷积神经网络中引入了多级特征级联的方式,从而提高系统的鲁棒性,提高语义标注的准确率。(4)最后,根据上面的研究设计了一个基于深度学习的图像语义提取和检索的原型系统。关键词:深度学习,图像语义,图像检索,图像标注,多分类器级联II ImageSemanticsExtractionandRetrievalbasedonDeepLearningABSTRACTWiththeprevalenceoftheInternetandthesmartphones,theusersuploadalargenumberofimagesontheweb.It’sdifficultforuserstofindwhattheyreallyneedfromtheseaofimages.It’salsonoteasyfortheInternetcompanyeffectivelyintegrateitsmassiveimagedataresources.However,forthetraditionalcontent-basedimageretrieval,imagesareindexedbytheirlow-levelvisualfeatures,inwhichonekeyproblemisthesemanticgapbetweenlow-levelfeaturesandhigh-levelsemanticconcepts.Therefore,semantic-basedimageretrieval,whichhasbeenproposedtosolvethesemanticgap,becomesthekeytechnicalprobleminthefieldofimageretrieval.Deeplearningisinspiredbytheprimatevisualmechanism.It’saprocessoftheiterationstepbystep.Selflearningfeatureisthebiggestadvantageofdeeplearning.Deeplearningisdatadriven.Thefeatureismoreandmorecomplexandabstractlayerbylayer,fromtheedgefeaturetostructuralfeatureorhigh-levelfeature.Tosolvethesemanticgap,thisthesisdesignsadeeplearningnetworkwhichisusedtoprojectthelow-levelvisualfeaturestohigh-levelfeatures.Italsostudieshowtomeasurethesimilarityoftwohigh-levelfeatures.It’sapreparatoryworkwhichhelpsustoimplementthesemantic-basedimageretrievalsystemandsufficientlyusethelargenumberofimages.Themaincontributionsofthethesisareasfollows:(1)Tosolvethesemanticgapproblemincontent-basedimageretrieval,wepresentadeeplearningnetworktoextractthehigh-levelfeatures.Deeplearning’shierarchicalprocess(low–leveledgefeatures,mid-levelstructuralfeature,high-levelobjectfeatureandsoon)isabstractedasasemanticmodel.(2)Deeplearningmeansbiganddeepneuralnetwork.ItneedsalargenumberofIII dataandlabel.Intherealsituation,thelabelresourceisrare.Thislargenetworkcannotbeconvergencewithrarelabelbysupervisedtraining.Sowepresentanunsupervisedtrainingalgorithmtotrainthenetwork.First,weusesparsedenoiseautoencodertounsupervisedlearningsomeconvolutionkernels(theweightsandbiasbetweeninputandhidden).Second,wecopytheselearntkernelstotheconvolutionnetworkbasedonthetheoryoftransferlearning.However,wefoundthatthenumberoffeatures’contributiontoperformanceisverysmallwhenitismorethanthethreshold.Meanwhile,thesizeofpoolinglayerhasanimportantinfluenceonperformance.Finally,wepresentanunsupervisedmethodtoimprovetheclassificationresultbygoingdeepandcombiningmultistageclassifiersinacommitteewithasmallamountoffeaturesateachlayer.Thenetworkistrainedlayer-wiseviadenoiseautoencoder(dA)withL-BFGStooptimizeconvolutionalkernelsandnobackpropagationisused.Wecantakethenetworkasanimagesemanticfeatureextractor.Accordingtotheimagesimilaritymeasuremethod,wecangetthesimilaritybetweenimagesandachieveimageretrieval.(3)Basedondeeplearning,wepresentanewimagemultiannotationmethod.First,wetrainadeeplearningnetworkasasemanticfeatureextractor.Second,weuseimageretrievaltechnologytogetasetofmostsimilarityimages.Atlast,wepresentamergemethodtoannotatethequeryimage.Inaddition,wecanimprovetheabstractabilityofthenetworkbyincreasingthedepthofit.However,itmayhavegradientdiffusionissue.SowetrysomeCNNnetworksandfinallyintroducethemultistagecascadeintotheneuralnetworktoimprovetherobustnessofthesystemandtheaccuracyinsemanticannotation.(4)Atlast,wedesignanddevelopanimageretrievalsystembasedondeeplearningandsemanticcontents.ShiCaoLuo(ControlTheoryandControlEngineering)SupervisedbyProfessorYong-ShengDingKeywords:deeplearning,imagesemantic,imageretrieval,imageannotation,multistagecommitteesofclassifiersIV 目录摘要.................................................................................................................................IABSTRACT.......................................................................................................................III目录.................................................................................................................................5第一章绪论...............................................................................................................11.1研究目的与意义..............................................................................................11.2国内外研究现状..............................................................................................21.2.1语义模型的研究...................................................................................21.2.2解决语义鸿沟的现有方向...................................................................31.2.3传统的图像特征提取...........................................................................41.2.4图像语义提取方法...............................................................................41.2.5深度学习的研究与应用.......................................................................61.3主要研究内容和创新点..................................................................................71.4论文的章节安排..............................................................................................8第二章基于语义的图像检索系统与深度学习理论研究...........................................102.1引言............................................................................................................102.2基于语义的图像检索系统............................................................................102.3图像语义层次模型和深度模型的类比........................................................112.4相似性度量....................................................................................................132.5检索系统性能评价标准................................................................................152.6深度学习原理................................................................................................152.6.1栈式自动编码算法..............................................................................162.6.2卷积神经网络......................................................................................192.6.3Softmax回归模型...............................................................................202.7如何训练深度网络........................................................................................212.7.1深度网络训练的难点..........................................................................212.7.2逐层贪婪训练方法..............................................................................212.8小结............................................................................................................22第三章多级级联深度前馈卷积稀疏降噪自动编码算法...........................................233.1引言............................................................................................................233.2深度学习网络架构........................................................................................243.3深度学习网络中的算法................................................................................253.3.1稀疏降噪自动编码器自我学习特征..................................................253.3.2卷积......................................................................................................273.3.3池化......................................................................................................273.3.4多级级联分类器..................................................................................273.4多级级联深度前馈卷积稀疏降噪自动编码算法在图像分类上应用........28 3.4.1STL-10图像数据集.............................................................................283.4.2单层网络下无监督特征学习的性能分析..........................................293.4.3在STL-10数据集上的实验结果........................................................353.5小结............................................................................................................37第四章基于深度学习的图像检索系统设计及测试结果与分析...............................384.1引言............................................................................................................384.2运行环境........................................................................................................384.2.1硬件环境..............................................................................................384.2.2软件环境..............................................................................................394.3基于深度学习的图像检索系统设计............................................................394.3.1软件框架图结构..................................................................................394.3.2软件界面..............................................................................................404.4基于深度学习的图像检索系统测试............................................................414.4.1基于深度学习的图像分类模块测试..................................................414.4.2基于深度学习的图像检索模块测试..................................................444.5小结............................................................................................................47第五章基于深度学习和搜索的图像标注算法.........................................................485.1引言............................................................................................................485.2图像数据集构建............................................................................................495.3深度卷积神经网络构建和训练....................................................................495.3.1构建训练集...........................................................................................495.3.2朴素深度卷积神经网络并训练...........................................................505.3.3特征级联深度卷积神经网络并训练...................................................515.4图像数据集语义特征提取............................................................................525.5利用语义特征进行相似图像检索................................................................525.6候选图像语义标注的合并............................................................................535.6.1K-NN思想..............................................................................................535.6.2相似度因子...........................................................................................535.7图像标注实验结果与分析............................................................................535.7.1评价方法...............................................................................................545.7.2在Corel5K数据集上的结果...............................................................545.8小结............................................................................................................57第六章总结与展望.....................................................................................................586.1总结..............................................................................................................586.2展望..............................................................................................................59参考文献.........................................................................................................................60致谢.................................................................................................................................66附录:攻读硕士期间参加的项目及成果.....................................................................68 第一章绪论第一章绪论1.1研究目的与意义随着移动互联网和智能手机的飞速发展和广泛普及,用户每天都会上传分享海量的图像。一方面,越来越多的图像丰富了互联网上的图像资源,吸引更多的用户;另一方面,随着图像资源的爆炸式增长,用户难以有效地在海量的数据中准确地找到自己真正需要的信息,也难以有效地整合其庞大的图像数据资源,令其产生巨大的价值。如何迅速准确地检索到所需要的图像信息,已成为学术界和工业界急需解决的问题。图像检索技术经历了三个阶段的发展,最早的图像检索方式是基于文本的图像检索(Text-basedImageRetrieval,TBIR)。互联网的搜索引擎在使用关键字检索图像时候,是对图像的上下文进行关键字匹配方式来检索图像。这时候,图像标注的质量就决定着检索质量的好坏。因为,TBIR需要对每幅图像手工标注关键字,通过对关键字的检索完成对图像的检索。这种方式需要耗费大量的时间去进行人工标注。同时,图像所具有的丰富的信息,也很难用简单的几个字来表达。另外,不同人对同一幅图像有不同的理解,因此文本标注方式也存在着主观性。基于内容的图像检索(Content-basedImageRetrieval,CBIR)的提出弥补了TBIR的不足。当图像进入数据库时,系统会利用图像的视觉内容提取出图像的特征,并将其存入图像特征库。当用户输入查询图像进行检索时,提取待查询图像的特征向量,将此特征向量与特征库进行匹配,从而得到检索结果。然而,人对图像的理解并不是单纯的利用图像的视觉特征。另一方面,由于特征维数高,运算复杂度高,从提高检索精度或分类正确率的角度而言,都不可能将所有提取的特征都能用于检索或分类[1]。计算机是利用底层特征(颜色,纹理和形状等)来对图像进行理解的,而人类则是通过图像中所表达的抽象信息来理解图像,并倾向于使用文字等高层特征(语义)来描述图像。这种高层概念和图像底层特征没有直接的联系。计算机视觉和人类的语义理解之间的差别称作“语义鸿沟”[2]。为了解决“语义鸿沟”,人们又提出了基于语义的图像检索(Semantic-basedImageRetrieval,SBIR)。基于语义的图像检索主要研究把计算机所能理解的底层特征转换为人所认知的语义特征,以此来解决“语义鸿沟”问题。目前基于语义的图像检索仍存在很多关键问题没有解决,包括如何自动地提取语义,如何建立1 第一章绪论反馈机制修正图像语义等。另外,随着图像数据的爆发式增长,如何设计大数据背景下的图像检索系统也是当前很重要的研究内容。对于提取图像语义特征问题,传统做法是直接对图像的底层特征(颜色、纹理、形状)进行学习分类从而获得语义特征[3]。而目前都是通过人工构造的方法来获取图像的特征,这是一个非常漫长繁琐的工作,同时人很难挑选出非常合适的特征描述子,这样的特征通过分类或者聚类学习算法后得不到本文所期望的语义特征,在实际场景应用中鲁棒性会很差。近些年来,人们对图像特征的研究灵感开始更多地来自生理学上的成果。1981年诺贝尔获奖者DavidHubel所发现的小鼠中的“方向选择性细胞”,以及视觉信号是分层处理的研究成果,促进了具有生物学意义的稀疏编码(SparseCoding)在图像处理中的发展。特征的可学习性引起学术界极大重视,而Hinton在2006年“Science”发表的论文所提出的深度神经网络结构解决了深度网络一直遇到的“梯度弥散”的问题[4]。和浅层网络相比,深层神经网络拥有更加强大的学习能力,可以表示更为复杂的函数关系,而且可以把高维信号转换为低维编码,更加接近于人的语义表达。同时也可以利用大数据来自主学习特征,避免人工构造特征。本论文在研究了深度学习和人脑视觉机制理论的基础上,研究如何把深度学习应用到图像检索领域中。本文的研究意义如下:1)利用深度学习的逐层迭代、逐层抽象的网络特点,建立一个从图像底层视觉特征到高级语义特征逐层迭代、逐层抽象的映射模型,从而减小“语义鸿沟”。2)拓宽了深度学习的应用领域。有助于提升图像检索系统的检索效率和准确率。实现基于语义信息的图像检索的研究,对于充分理解图像所包含的隐含语义内容、如何真正有效地利用图像信息资源有着十分重要的意义。3)利用学习得到的深度学习模型,可以对大规模图像进行标注,避免以往利用人工方法对图像一一进行标注,节省大量人力和物力。1.2国内外研究现状目前,图像检索领域里最主要的问题是语义鸿沟和大规模化问题。其中,语义鸿沟问题是图像检索领域中最困难和最关键的问题。1.2.1语义模型的研究语义鸿沟指的是计算机所能获取的图像底层特征和人所理解的图像高层语义特征有着很大的差别。解决语义鸿沟问题,最关键在于构建图像和语义之间的对应关系及构建语义模型。Eakins提出了三个层次的语义模型:1)最底层是视觉特征层,用于描述图像边缘、颜色、纹理、形状等视觉特征;2)中间层为逻辑特征层,2 第一章绪论根据逻辑关系推导得到;3)最高层为抽象特征层,通过深层推理模型,深层推理图像中出现的对象和场景而得到语义[5]。Colombo等人构建一个综合语义表示框架,依据不同图像特征所包含的语义程度不同,分为感知特征、表达特征和情感特征[6]。感知特征层由图像最底层的视觉特征构成,它将被映射到更接近于人表达的更高的两层;表达特征层会受到客观的文化背景的影响,将来自感知特征层的视觉特征组织成结构化语义特征;最上层的是情感特征层,该层最为主观性,需要根据个人的情感感受对目标和场景的语义进行深层推理。Jaimes等人提出一个五层图像表示模型,包括区域层、感知区域层、对象部件层、对象层和场景层[7]。其中,区域层是最小单元,是通过图像分割得到的连通区域;感知区域层是相邻且感知相似的区域集合;而多个感知区域组成又构成了对象部件层。前三层是依据视觉特征从小到大不断融合的过程,最终得到对象部件层。对象层根据对象所在的空间位置关系推导得对象语义;场景层则是描述一组对象和场景的全局语义。虽然以上提出的几种语义模型不尽相同,但本质上而言,均是以图像语义信息的抽象程度的差异作为分层原则。因此可以得到一个通用的三层结构的图像语义模型,如下图1.1(引[6])所示。图1.1三层结构语义模型1.2.2解决语义鸿沟的现有方向对于基于内容的图像检索系统,两幅具有相似内容特征的图像的语义很可能大不相同。因为计算机只是单纯地统计计算浅层的视觉特征,完全没有形成对象,关系,场景,行为等等概念[2]。可以通过下面三个方向来尝试解决语义鸿沟问题:1)图像视觉特征的提取和抽象;2)图像内容的分析和语义提取;3)用户的反馈。3 第一章绪论1.2.3传统的图像特征提取二十多年来,特征提取一直是图像处理领域里最核心的问题。研究人员一直在费尽心思地人工设计更能表达图像语义的特征。一般这些底层的视觉特征为:颜色特征,包括颜色矩、颜色直方图、颜色协方差矩阵和颜色聚合向量[8-12]等等;纹理特征,包括Gabor滤波[13]、小波变换[14]等等;形状特征,包括轮廓、边缘描述子等。1.2.4图像语义提取方法从图1.1中可以看到,高层的语义不像视觉特征一样可以直接提取,而是要通过一个复杂的语义模型,从底层特征非线性的映射到高层语义特征。在以往的研究中,发现通过人工设计一个很好的特征来缩短语义鸿沟是一件十分困难的事。根据语义信息的来源不同,图像语义提取的方法可以分为四类,基于处理范围的方法、基于机器学习的方法、基于人机交互的方法、基于外部信息的方法[2]。1.2.4.1基于处理范围的方法根据图像特征提取时候是分区域还是全局的,可以分为基于区域的语义提取和基于全局的语义提取。基于区域的语义提取方法首先利用对象、场景分类器对已经分割好的图像进行对象和场景识别,然后通过挖掘对象之间的空间、位置关系并结合场景,最终得到语义信息。Wang等人开发了一个Simplicity系统,先对图像进行区域分割,然后提取图像特征,用统计方法对图像对象分类,得到一些简单的语义类(如纹理—非纹理、室内—室外、图片—照片)[15]。Jeon等人也提出了一种基于区域特征提取的交叉媒体相关模型(CMRM)。首先也是对图像进行分割处理,然后按照邻近区域的颜色、形状特征进行融合,得到少量BLOB;然后通过CMRM模型计算得到模型语义关键词和BLOB共同出现的概率[16]。然而,现实应用中时,并不会精确地去分割某个目标(强分割),然后再去理解;而是根据用户的兴趣点大致分割出一个相对同质的区域(弱分割)并抽取视觉特征。Navon的心理学研究表明,通常在人类视觉感知中,全局特征优先于局部特征,即“先森林后树木”策略[17]。因此,从处理速度和效率角度来看,直接利用全局语义特征或弱分割的方法更好一些。例如,Fan提出一种基于弱分割的语义特征抽取算法[18]。该算法的主要作用是利用弱分割来得到不同语义的图像特征,然后挖掘图像中显著对象之间的上下文关系,最终建立显著对象和它的最大相关语义的统计模型。在全局语义特征提取研究方面,Li等人采用2D隐马尔可夫模型方法[19]。尽管在提取语义信息上,基于区域的方法比基于全局的方法能够构建出更加灵活的模型,但对图像分割和目标识别技术要求比较高。目前为了平衡图像4 第一章绪论语义提取质量和性能消耗,可以采取局部特征和全部特征融合的方法,形成一种基于多尺度的图像语义抽取方法。1.2.4.2基于机器学习的方法机器学习算法是一种相对复杂的算法,通过大量数据驱动,可以自我学习出一种较好的复杂的映射关系,进一步减少语义鸿沟。贝叶斯网络是一种概率网络,常用来解决不定性和不完整性的问题。Luo等人利用贝叶斯网络基于概率推理的特点,把底层图像特征作为输入,输出对应的语义信息;并利用双向控制策略(自底向上提取图像特征和自顶而下提取语义信息)构建图像理解模型[20]。Aksoy等人构建了一个缩短语义鸿沟的贝叶斯架构。在基于区域的特征提取时,利用像素光谱、纹理等信息,在分割的图像区域上反复分裂融合,利用空间关系为图像建模[21]。最后则采用了朴素贝叶斯分类器,用于训练正负样本,最终得到语义特征。支持向量机是近几年来非常常用的分类器,建立在结构风险最小化的原则之上。Han等人提出了一种多分类器融合的策略:基于多示例学习的SVM和基于全局特征训练的SVM,来提取图像特征[22]。基于多示例的SVM是对3*3大小的图像子块进行特征提取;而基于全局的SVM采用合并颜色描述子MPEG-7和边缘直方图算子的方法来解决基于多示例学习的SVM在抗图像形变上的不足。Goh等人采用二分和多分融合的SVM来实现图像语义特征提取[23]。他采用了动态集成算法,将代表着置信度逐层传播到多类SVM分类器中,从而不断地动态调整分类器提高分类准确性。1.2.4.3基于人机交互的方法图像预处理和反馈学习是基于人机交互的图像语义提取方法的两个方面。最早的人工标注就是一种最简单的图像预处理方法。反馈学习则是稍微复杂一些,需要用户与系统反复的交互,不断修正与图像特征内容关联的高层概念,构建符合用户喜好的语义映射网络。Liu等人提出一种半自动的图像语义标注方法[24]。用户输入关键字或图像进行查找时,系统可让用户对其所反馈的图像进行相关性判定,系统可以根据反馈信息重新产生或修正语义标签。He等人构建了一个获取语义特征的学习架构,同时利用短期和长期的用户反馈信息[25]。长期学习利用长时间所积累的图像内容和人反馈的语义,从而得到语义空间;短期学习则是利用SVM训练算法对当前反馈的正反例进行学习。这样通过短期学习和长期学习相互结合的方式,使得系统能够从用户反馈中不断地进行知识积累。Han等人则提出了一种基于记忆学习的图像语义提取方法[26]。通过预先构建一个知识记忆模型来保留来自用户的反馈信息,然后根据已有的知识来预测图像直接的语义关系,以期望克5 第一章绪论服语义鸿沟问题。1.2.4.4基于外部信息的方法基于外部信息的语义提取方法是指从图像外部附加信息中获取与图像内容相关的语义信息。一般指图像本身具有的名称;图像的上下文反映图像主题的关键字或句子。Web图像检索具有大吞吐量,快速响应,准确率要求高等特点,所以基于外部信息的方法是Web图像高层语义提取的一个重要方法。Shen等人通过爬取图像上下文,构建词汇链的方法来作为图像语义的外部信息来源[27]。Yang等人则采用了数据挖掘的技术,从图像上下文中提取语义,通过信息挖掘后能够获得一些隐含的模糊语义信息[28]。随着移动互联网发展,特别是facebook,朋友圈,微博等图文分享应用的蓬勃发展,互联网上拥有了海量的图像资源。而这些图像通常都是配有标题和文字说明。Ames等人就是发现了这种用户对图像自由大标签的现象,这是一种无结构知识,如何从中提取有结构知识的图像语义是当前的难题[29]。Rattenbury等人利用结构化的识别方法试着从图像标注中提取图像中事件的语义[30]。Boutell等人通过分析大量的相机元数据,发现诸如曝光时间、是否利用闪光灯等元数据对于室内、室外场景识别有着很显著的区别[31]。他们利用这个特征区别,将其和视觉特征融合起来用来提取语义特征,能够很好的处理室内、室外图像分类的问题。利用图像的外部信息,能够有效的获取表达图像高层次语义的信息,且易被计算机处理,具有较大的优势。不过,由于图像上下文周围也存在很多与图像语义无关的文本噪声,导致获取有效信息难道大。同时也会存在图像缺失标签或则标签不准确,语义混乱,是垃圾标签等等,在实际中效果不怎么理想。一个可以弥补的方案是按照外部信息的丰富动态的调整视觉特征和标签语义的比例。1.2.5深度学习的研究与应用2006年,Hinton在“Science”上首次提出深度学习概念。首次实现了利用多层神经网络将高维原始输入信号转换为低维信号,通过神经网络反馈学习得到的低维信息更能有效地描述数据,而网络层数增加所带来的“梯度弥散”问题,Hinton通过多年的不懈努力,通过逐层初始化,逐层训练进行调整得以解决[32]。然后,深度学习就如雨后春笋一般蓬勃发展起来,Hinton提出了深度置信网络(DeepBeliefNetwork)[33],Vincent等人则提出了堆栈降噪自动编码器(StackedDenoisingAutoencoders,SDA)[34],Lee等人则是将深度置信网络和卷积神经网络相结合,提出了新的卷积深度置信网络(ConvolutionalDeepBeliefNetworks,CDBN)[35]。深度学习算法在图像识别和音频识别上大大超越了传统算法,取得了令人惊叹的成绩。6 第一章绪论2012年6月,由Andrew和Jeff带头的谷歌大脑项目,利用16000颗CPU搭建了深度学习平台,然后让其观看YouTube视频,进行无监督学习,算法自主学会了从百万张视频截图中识别出猫[36]。同年,在ILSVRC-2012比赛中,Krizheysky等人设计了一种深度卷积网络,将图像分类错误率从26.2%降到15.3%,远远领先与其他算法[37]。同年11月,微软在技术大会上向全世界展示了全自动的同声传译系统,能够以很高的正确率实现英文翻译成中文。近几年,各大互联网巨头纷纷成了深度学习研究院[38]。同时,在人脸识别技术领域中,汤晓鸥团队,Facebook,百度,Google,face++等等均在LFW数据集上获得了99%以上的准确率已经超越了人类的识别水平[39]。1.3主要研究内容和创新点针对图像检索中大规模化和语义鸿沟问题,本论文基于人脑视觉机制和深度学习的理论提出自主学习图像特征的思想,借鉴人脑视觉机制是逐层迭代、逐层抽象的过程,建立一个从图像底层视觉特征到高级语义特征逐层迭代、逐层抽象的深度网络映射模型,旨在减小语义鸿沟,得到图像语义特征提取系统,并深入研究图像语义相似性度量,为大规模图像自动标注提供良好的基础,实现基于语义特征的图像检索,真正有效地利用海量的图像信息资源。本论文具体所做的研究内容总结如下:(1)对人脑视觉机制和深度学习的理论进行了深入分析,研究了最常见的几种深度学习网络模型,为下文设计基于深度学习的图像语义特征提取系统提供理论依据。同时对图像检索系统进行阐述,从图像特征提取,相似性度量,图像语义标注等方面进行分析,为实现大规模图像自动语义标注提供理论基础。(2)基于深度学习是逐层迭代、逐层抽象的过程,各层可抽象为不同抽象程度的语义层(物体边缘、边缘组合、更为抽象的特征等等),将其应用到图像语义特征提取中,建立一个从图像底层视觉特征到高级语义特征的深度网络映射模型。针对现实情况下,标签数据资源有限,无法支撑起深度网络训练的情况下,研究了迁移学习的问题。把无监督学习得到的各层特征提取器迁移到卷积神经网络中,即将从一个环境中学习得到的知识用来帮助识别新环境中的知识。深度学习的这种可迁移性也证明了各层特征是具有不同抽象程度的语义含义,抛去最后的分类器层,则可以独立出一个语义特征提取器,每一幅图像都会有唯一对应的特征ID,然后根据图像相似性度量方法,可以得到各图像之间的相似度,实现快速图像检索,同时也为下文的语义自动标注打下基础。(3)基于深度学习的理论,提出了一种朴素的基于深度学习的图像标注方法。7 第一章绪论对深度卷积网络进一步优化,使得分类器的准确率到达最优。去掉最后分类器层,利用迁移学习的理论,把深度卷积网络的前几层作为语义特征提取器。利用相似性度量,设定阈值,得到和待标注图像最相近的一些图像及语义标签,最后利用投票的方式,得到最优的语义标签,对图像进行自动标注。本论文在理论和技术上的创新点主要包括:(1)针对图像检索中语义鸿沟问题,将深度学习应用到图像语义特征提取中,构建图像底层视觉特征到高级语义特征逐层迭代、逐层抽象的映射模型。(2)针对标签数据资源有限,无法支撑起深度网络训练的现实情况下,提出了一种无监督的深度学习算法。先利用稀疏降噪自动编码器无监督地学习得到卷积核(对应于视觉机制中的感受野),然后利用迁移学习理论,把学习得到的卷积核传递给卷积神经网络。对于卷积核的个数和池化尺度对于图像分类准确率的影响做了深入研究。同时,采取了多级分类器级联的方法来提高分类准确率。若移除最后分类器模块,则可以把其当成一个图像语义特征提取器,根据图像相似性度量方法,可以得到各图像之间的相似度,实现快速图像检索。(3)基于深度学习理论,提出了一种基于深度学习和检索的图像标注方法。利用训练好的深度卷积神经网络提取待标注图像的语义特征,然后利用相似性度量检索得到基准库中最相近一些的图像,然后提出了一个合并算法,根据这些图像的自带标签对待标注图像进行语义标注。1.4论文的章节安排本论文的具体结构安排如下:第一章:绪论,先简要介绍课题背景及意义;然后对目前图像检索现状进行分析总结;其次介绍了本论文的研究内容——基于深度学习的图像语义特征提取与检索技术;最后对本论文的内容结构安排进行说明。第二章:相关理论基础。首先简单介绍了图像检索的相关知识,然后对深度学习的基本原理和常见模型进行简介,然后类比了人脑视觉系统和深度学习网络的相似性,提出基于深度学习的图像语义特征提取系统。第三章:多级级联的深度前馈卷积稀疏降噪自动编码算法。在这一章中,提出一种无监督的深度学习算法用来图像语义特征提取和分类。本文主要尝试解决以下两个问题:1)带有标签的图像资源有限的情况下,如何利用大量无标签数据训练深度网络,提高分类准确率,2)在设计深度网络时候,如何确定网络结构参数,如卷积核个数,池化大小,步长等,使得性能最优。第四章:基于深度学习的图像检索系统设计及测试结果与分析。深度学习是一8 第一章绪论个逐层迭代、逐层抽象的过程,去掉深度网络的最后一层分类器层,可以把深度学习网络看成一个语义特征提取器。使用第三章构建的深度前馈卷积稀疏降噪自动编码网络作为语义特征提取器,选取第三层平均池化后的特征图作为图像的ID特征。然后利用余弦距离来衡量图像语义特征之间的相似度,按照距离远近进行排序,实现图像检索。最后,基于以上方法,在MATLABGUI上开发了一套基于深度学习图像检索系统,包含基于分类的图像语义标注,基于语义特征的图像检索两种功能。第五章:自动图像语义标注的深度卷积网络学习算法。提出了一种朴素的基于深度学习的图像标注方法,可对任意图像进行实时标注。首先,收集大量图像,构建一个较完备的图像资源库。然后把它当做训练集,训练得到一个深度卷积神经网络模型,当作语义特征提取器。对于用户提交的任意图像,利用语义特征提取器提取语义特征,然后利用相似度检索技术得到一组与待标注图像语义特征相似的图像集,进而得到一组候选关键字。最后利用一个合并算法把候选关键字转换为依照置信度有序的语义标注列表。第六章:总结与展望。总结本论文所做的工作,并展望该课题进一步研究的方向。9 第二章基于语义的图像检索系统与深度学习理论研究第二章基于语义的图像检索系统与深度学习理论研究2.1引言随着移动互联网和智能手机的飞速发展和广泛普及,网上图像资源越来越丰富,如何快速有效地检索到用户所满意的图像是当前所面临的难题。传统的基于内容的图像检索方法已发展成熟,但是由于它是基于图像视觉特征(颜色、纹理、边缘等),不能很好的表达人所理解的图像语义,会出现语义鸿沟问题。同时,在处理具有丰富内容的图像数据库时,也会出现较多问题[40]。根本原因在于,机器所理解的图像底层视觉特征和人类所理解的高层图像语义信息是没有直接联系的。人类判断两幅图像之间的相似度是按照图像所表达出来的语义上的近似度,决不是底层视觉向量的简单距离。这样就要求图像检索系统具有一定的智能,能够理解、提取高层图像语义。这也是基于语义的图像检索所要解决的问题。本章针对这些问题,对语义提取技术进行研究。2.2基于语义的图像检索系统图像语义检索系统同常规的图像检索系统一样,可以分为入库子系统和查询子系统。入库子系统主要由图像预处理模块和图像语义特征提取模块组成,如图2.1所示。图2.1基于语义的图像检索系统结构10 第二章基于语义的图像检索系统与深度学习理论研究其中,图像语义特征提取是入库子系统的核心技术,也是语义图像检索的难点。语义特征提取的好坏,直接影响着检索系统的性能。图像查询子系统是面向用户的,主要由用户提交查询请求和返回相应查询结果。它主要由3部分组成:1)查询接口,用户可以自行选择按图像查询或则按关键字查询;2)搜索引擎,通过相似度查询图像,得到和带查询图像最相近的N幅图像,并传递给查询显示模块;3)查询结果显示模块,把符合相似度阈值内的图像在查询显示框内显示出来。2.3图像语义层次模型和深度模型的类比图像的语义特征提取是基于语义的图像检索系统中最核心的环节。语义特征和图像的底层视觉特征不同,它是对图像高层次的理解,是一种层次化的特征,和人对事物的认知领域有较大联系。从图1.1的图像语义层次化模型中,可以看到语义分为三个层次,不同层次代表着不同的人类认知的抽象程度。第一层次为图像视觉特征层,传统的基于内容的图像检索就是基于该层的特征的。主要包括,颜色、纹理、轮廓等底层特征,不含语义信息。从查询角度来说,基于该层特征的图像检索系统只能通过匹配和输入图像具有相似底层特征统计直方图的图片,常常会得到语义完全相反的图像。如图2.2所示。图2.2层次化语义模型第二层次为对象层,代表着图像中对象语义和空间位置关系语义。通过思维抽11 第二章基于语义的图像检索系统与深度学习理论研究象,形成对象概念,激活对象语义特征向量空间中某些特征位置,对图像按照对象进行检索。例如,“找到一幅星空图”。第三层次为概念层,包括场景、行为和人的情感,是更为抽象的语义层。它是在对象层上,根据图像的场景,融入人的主观情感后的理解。例如,用户输入“查找一群开心地跳着广场舞的人”。本文通常所说的基于语义的图像检索就是指第二层次和第三层次。第一层底层视觉和第二、三层之间的距离被称为“语义鸿沟”。语义鸿沟是基于语义的图像检索中首要问题。深度学习是目前机器学习领域最为先进的方法之一,在深度学习提出以前,所有的机器学习都可以看成是浅层学习。深度学习的最大优势在于可以自主学习特征,解决了特征工程问题,而且深层次的网络使得模型具有更加强大的表达能力。具体的原理下面章节会有详细介绍。图2.3(引[41])展示了深度学习强大的特征学习能力。图2.3卷积深度置信网络分层特征可视化深度学习学习到的底层特征是一些边缘特征,若训练数据是彩色图像,则底层特征也会包含颜色特征(对比色)。第二层则是把第一层作为输入,在边缘特征的基础上进一步组合、抽象成部分结构。更高层次的特征则可以看成是抽象的对象或其他语义。Zeiler提出了一种可视化卷积网络特征的方法[42],如图2.4(引[42])12 第二章基于语义的图像检索系统与深度学习理论研究所示。图2.4卷积神经网络第5层特征和对应激活最大的输入图像块特征图具有很强的聚合性,特别是在高层特征中,从右边输入的原始图像块中就可以看到。要激活高层特征图中某一块,其原始输入图像块必定是具有相似语义的。也就是说,深度学习所学习到的高层特征某一段或者某位是具有实际语义意义的,这就能够很好的解决语义图像检索中语义鸿沟的问题。2.4相似性度量上一节中,已经知道深度学习所学习得到的高层特征是具有语义意义的,特别是一般这种高层特征是稀疏的。即高层特征中某一位或则某一段代表着一个实际语义,只有输入图像中含有这个语义代表的对象出现时,该位或该段才会被激活。如图2.5所示。图2.5深度学习高层语义特征深度学习的自我学习、层次化特征和逐层抽象的能力,可以把高维的图像输入13 第二章基于语义的图像检索系统与深度学习理论研究信号转换为低维的更抽象的信号,更能够接近人类的表达。训练好深度网络模型后,本文可以把它当成一个语义特征提取器,最终输出对应图像的高层语义特征。因此,在图像检索中,本文通过比较两幅图像的语义特征向量之间的相似度来衡量它们的相似程度。语义特征向量可以看成是n维高维空间中的一个点。特征向量之间的相似度可以用距离来衡量,可以选择不同的距离度量函数。对于n维空间中的两个特征向量x{xx,...,x},和y{,yy,...,y},可以用dxy(,)来表示它们之1,2n12n间的相似度。常用的距离度量函数有:余弦距离、马氏距离、Minkowski距、Quadratic距离。1)余弦距离余弦距离是用两个向量之间夹角的余弦值来衡量两个向量之间的相似度,公式如下,Txydxy(,)1cos1(2-1)xy2)马氏距离当向量中的各个分量不是互相独立的时候,一般可以选择使用马氏距离。马氏距离公式如下,1T12dxy(,)[(xyC)(xy)](2-2)C是向量之间的协方差矩阵,表示向量分量之间的相关性,若向量分量之间并有没有相关性时,马氏距离可以进一步简化为,n2(xy)iidxy(,)(2-3)i1i3)Minkowski距如果向量之间的分量时互相无关且重要程度是相等的,则可以用Minkowski来计算两个向量之间的距离,M1r1dxy(,)[hi[]hi[]]r(2-4)qti04)Quadratic距离它的公式如下,Tdxy(,)(xy)Ax(y)(2-5)A是向量分量的相似度矩阵,一般用于颜色特征向量之间的相似度衡量。14 第二章基于语义的图像检索系统与深度学习理论研究2.5检索系统性能评价标准评价一个事物的好坏,合理、科学的评价标准是必不可少的。对于图像检索系统,从实际应用角度出发,最关键的性能有两个方面:检索性能开销和准确率。检索性能开销一般指时间开销和存储开销,这就对数据库存储和检索技术提出要求。准确率指系统检索到相似图像的准确率,这就要求系统提取出高效的语义特征。目前图像检索系统的重点放在提升准确率上,常见的评价指标为:查全率、准确率、匹配百分数[43]。1)准确率(Precision)和查全率(Recall)设一次图像检索中返回图像数为N的集合B,返回的和检索图像相关图像数为N,而在图像库中实际和检索图像相关的图像集合为A,数目为N。则准确率RA和查全率的计算公式如下:准确率(Precision):PA(B)NRPrecison(2-6)PB()N查全率(Recall):PA(B)NRRecall(2-7)PA()NA查全率和准确率越高说明该图像检索系统的性能越好。查全率反应着系统在有限返回图像数量内的检索全面性;而准确率则反应着系统的检索准确率。这两个指标是一个矛盾体,很多时候很难同时满足两个指标要求,一般检索系统只要求能够到达一个最优的平衡点即可。2)匹配百分数匹配百分数是一个较为简单易得的指标,因为要得到准确率和查全率需要事先知道查询图像的个数,所以在测试时候很费事费力。匹配百分数的思想很简单,把图像分为两个互不重叠的图像块,一个作为查询输入图像,另一个是期望的目标图像。然后,本文就得到期望的目标图像在检索中的排名[44]。公式如下:NSM*100%(2-8)N1公式中,S即代表返回的图像中目标图像所在的排序位置。2.6深度学习原理深度学习最早由人工神经网络之父Hinton在2006年的《science》提出,文章认为:1)多隐含层的神经网络具有更优异的特征学习能力,学习得到的低维信15 第二章基于语义的图像检索系统与深度学习理论研究号更能刻画高维输入信号的本质,更有利于分类;2)利用逐层初始化的方法解决了多层神经网络训练时候“梯度弥散”的问题。深度学习是机器学习中的一个分水岭,在深度学习以前,所有的机器学习都看以看成是浅层学习,例如,BP、SVM、MLP等等。和浅层网络相比,深度学习网络层次更深,是一种深层非线性网络,摆脱了浅层网络受有限样本和对复杂函数表达能力有限的缺陷,能够用更少的参数实现复杂函数的逼近。如图2.6所示。图2.6深度学习拟合复杂函数深度学习本质上是通过海量数据的训练来构建具有多层隐含层的深层模型,让每层学习得到简单但有用的特征(类似与SVM中的核函数),最终得到低维、稀疏、但更具区分性的高层特征,从而提升深度学习模型的表达能力和分类准确性。2.6.1栈式自动编码算法自动编码器(Autoencoder)是一种无监督学习算法,用来尽可能的复现输入信号。本文假定输入输出信号通过自动编码器后是相同的,通过误差反向传递的方法训练每一层的参数(即特征),促使自动编码器学习获得代表输入信号的主要特征。如图2.7(a)所示,把输入信号放入编码器(隐含层)中,得到输入的一个表达,然后通过解码器,使其还原出和原始输入信号一样的输出。如果输入和输出相近,本文认为这种编码是合理的。这样,通过误差反向传递训练后,本文可以得到encoder以后输入信号的一种表达,只是转化了一个空间,也可视做是特征。得到了第一层的encoder表达后,本文把它当成第二层的输入,同样最小化重构误差,和第一层的训练一模一样。然后,得到第二层的code,即输入信号在第二层的特征。这样依次下去,就可以得到一个栈式自动编码器(StackAutoencoder),把上一层的编码器的输出作为下一层的输入。k,1k,2k,1k,2对于一个n层栈式自动编码器,本文假定用W,W,b,b表示第k层自1212编码器所需学习的W,W,b,b参数。栈式自动编码器前向顺序执行每一层encoder的步骤为,16 第二章基于语义的图像检索系统与深度学习理论研究llafz(2-9)l1l,1ll,1zWab(2-10)同理,训练时候,按照从后向前的方向,栈式自动编码器每一层的decoder过程为,nlnlafz(2-11)nl1nl,2nlnl,2zWab(2-12)f()是隐含层的激活函数,一般选择sigmoid函数,或者非线性激活函数Relu,()na是隐含层单元的激活值,包含着本文感兴趣的特征,这个特征向量是对输入信号更抽象、更高阶的表示,也是n1更高阶层的输入。图2.7堆栈式自动编码器()n若本文将训练得到的第n层特征a送入分类器中,直接就可以利用简单的分类器进行分类。快速有效地训练堆栈式自动编码器的方法是逐层贪婪法。先利用原始信号来训1,11,21,11,2练第一层自动编码器网络,得到W,W,b,b,然后把输入信号通过隐含层(2)转换为特征向量A(由a组成),然后把它作为第二层的输入,接着训练得到第2,12,22,12,2二层的参数W,W,b,b;后面几层也同理,采用逐层初始化,逐层训练17 第二章基于语义的图像检索系统与深度学习理论研究的方式。以上的训练过程可以看成是无监督学习过程,因为没有用到任何人为标注的信息。对于分类应用而言,为了得到更好的效果,可以应用标签信息,利用反向传播算法同时调整各层的隐含层参数,本文把这一过程称为“微调”(fine-tuning)。根据实际应用经验,通过逐层初始化逐层训练的方法把参数调整到一个较优解时,降低学习率使用微调会有很好的效果。而在一开始随机初始化之后立刻使用微调反而得不到很好的结果,因为很容易陷入局部最优解。事实上,如果想通过堆栈自动编码器来实现分类,通俗的做法是如图2.8一样,去掉图2.7中的解码层,直()n接把各层编码后的特征输入下一层,而最后一层的a则输入到softmax分类器进行分类,从而得到Loss,通过反向传播误差实现微调。图2.8堆栈式自动编码器实现分类本章把堆栈自动编码器应用在MINST手写体数字识别上,网络图如2.8所示。按照深度学习自我学习特征的理论,以及特征是逐层抽象的特点,本文期望堆栈自动编码器第一层会学到手写体数字的边缘特征(一阶特征),而第二层能够学到一些更抽象的模式(在构成轮廓时候,什么样的边缘时会共现的)。因此,本章对堆栈自动编码器的各层权值进行可视化。可视化就是把每个隐含层单元的输入线路上的权重,按行或则按列重塑为输入图像的形状。例如,输入图像大小为28*28=784,那么,对于任何一个隐含单元会有784个权重参数W。本文把W重塑为输入图像形状,即变为一个28*28的图像矩阵可视化出来,这就是特征可视化过程。对于更高层的特征也一样,把第一层的输出也当做像素值来处理就可。以MINST手写体数据驱动得到的特征如图2.9,2.10所示。可以看到,和卷积深度网络特征可视化一样(如图2.4),堆栈自动编码器也是学到的逐层抽象的特征。18 第二章基于语义的图像检索系统与深度学习理论研究图2.9堆栈自动编码器第一层特征可视化图2.10堆栈自动编码器第二层特征可视化2.6.2卷积神经网络卷积神经网络是人工神经网络的一种,也是最早训练成功的多层神经网络,它受延迟神经网络(TDNN)的影响,采用权值共享来减少网络参数规模。它由可选的卷积层和池化层构成。卷积层进行卷积操作,将线性滤波器通过滑窗的方式和输入信号每一处局部感受野区域进行内积运算,并通过一个非线性的激活函数,产生一个和输入信号位置对映的激活值,最终得到特征图。本文以Relu作为激活函数为例,特征图可以按照下面公式计算得,Tfmax(wx,0)(2-13)ijk,,kij,这里,(,)ij是像素点在特征图中的索引坐标,x代表着输入图像中以(,)ij为中心ij,的图像块,而k是用来标记特征图的第几个通道。在卷积神经网络中,越高层的滤波器能覆盖越大的原始输入信号。它能产生更为抽象的概念,通过融合来自底层次的概念。卷积神经网络的核心思想是通过权值共享、降采样来获得特征某种程度上的尺度、位移和形变不变性。19 第二章基于语义的图像检索系统与深度学习理论研究1)卷积(Convolution)自然图像具有这样一种固有特质,即把图像分成几块,这几块的统计特征基本是一样的。这表明在某一图像块上学习得到的特征能够应用到其他几块图像块上,进一步本文可以说对于图像上的所有位置,均能使用同一类学习所得的特征。更贴切的解释是,当把从图像一小块样本中学习而得的特征称为滤波器(卷积核)。把该滤波器和原图进行卷积,能够获得一张特征图。图2.11卷积操作对于一幅hw大小的图像,若不补边,卷积核大小为ab卷积操作以后,可以得到k(ha1)(wb1)个特征图。2)池化(Pooling)池化是图像的一种聚合操作。统计一定区域内的图像平均值或最大值,相比之前的特征,它具有更低的维数,能防止过拟合。此外,对图像中连续区域进行池化,就能得到一个平移不变的特征。即使图像有一个较小的平移,依旧能够得到和未平移前相同的池化特征。例如,在识别手写体数字时候,把它不管往哪个方向移动,都会要求分类器仍然能够准确无语地将其分类同一个数字。2.6.3Softmax回归模型Softmax是逻辑回归的扩展,常用来解决多分类问题。因此,对于训练集11mmi{(x,y),,(x,y)},本文有y{1,2,,}k。对于给定的输入x,本文想用函数估算出它被分为类别j的置信概率py(jx|)。因此,该函数应该输出K维概率向量(概率向量元素的和为1),该函数的形式如下,20 第二章基于语义的图像检索系统与深度学习理论研究T()ipy(()i1|x()i;)e1x()i()iTx()ipy(2|x;)1e2()ihx()(2-14)k...Tx()i...ej()i()ij1Tx()ipy(kx|;)ekn11其中,,,R是softmax模型的参数,而这一项是用来对概12kkTx()iejj1率分布进行归一化处理,使得概率向量累加和为1。Softmax的Loss函数包含两部分,一项是误差项,loss来源是分类错误;另一kn2项为权值衰减项,用来惩罚过大的参数值,一般是添加i1j0ij来修改Loss2函数,是权值衰减惩罚项的系数,一般大于0,Loss代价函数如下,T1mkexi()kn()ij2J()1{yj}logkij(2-15)mi1j1Txi()2i1j0ell1有了这个权重衰减项以后(0),代价函数就变成了严格的凸函数,这样就可以保证得到唯一的解了。此时的Hessian矩阵变为可逆矩阵,并且因为J()是凸函数,梯度下降法和L-BFGS等算法可以保证收敛到全局最优解。2.7深度网络的训练2.7.1深度网络训练的难点深度网络由于网络层数多,拥有大量待学习参数。采用传统的类似BP神经网络监督训练方法的话,需要大量的带有标签的样本,而这些数据一般较难获得。同时,由于深度网络层度较深,需要求解高度非凸优化函数,例如最小化训练误差,会较容易陷入局部极值的问题,单纯用监督反馈的方法不能取得很好的效果。此外,采用梯度下降法在随机初始化权值的网络上会遇到梯度弥散的问题。即误差反向传递时候,随着网络层数增加,反向传播的梯度(从误差产生层到网络前几层)的幅度值会急剧减小。这样就会导致网络的Loss函数对于深度网络前几层权值的导数值很小,前几层的权重变化非常微小,以至于它们从样本中学习不到有效的特征。2.7.2逐层贪婪训练方法逐层贪婪方法,顾名思义,即是每次只训练一层网络(该子网络只含一个隐含层),当该层网络训练结束后才开始训练包含该层的含有两个隐含层的双层网络。也就是说,本文把前一层的输出当作下一层的输入,训练下一层的时候,前面几21 第二章基于语义的图像检索系统与深度学习理论研究层的权重都是固定不变的。而每层的训练可以选择无监督的,也可以是有监督的。这样依次类推,本文能够得到整体网络的权重,最后,只需对网络进行“微调”即可。2.8小结本章主要围绕着图像检索领域中遇到的语义鸿沟问题进行了理论上的分析。设计了基于语义的图像检索系统的架构。类比分析了语义层次模型和深度学习模型。发现深度学习的多层次结构化学习对于语义特征提取具有天然的优势。深度学习是逐层迭代、逐层抽象的,从低层次的边缘、色彩信息到高层的结构、事物、乃至场景理解。深度学习得到的特征图具有很强的聚合性,特别是在高层特征中,从右边输入的原始图像块中就可以看到。要激活高层特征图中某一块,其原始输入图像块必定是具有相似语义的。也就是说,深度学习所学习到的高层特征某一段或者某位是具有实际语义意义的,这就能够很好的解决语义图像检索中语义鸿沟的问题。对人脑视觉机制和深度学习的理论进行了深入分析,研究了最常见的几种深度学习网络模型,为下文设计基于深度学习的图像语义特征提取系统提供理论依据。同时对图像检索系统进行阐述,从图像特征提取,相似性度量,检索系统性能评价等方面进行分析,为实现大规模图像自动语义标注提供理论基础。22 第三章多级级联深度前馈卷积稀疏降噪自动编码算法第三章多级级联深度前馈卷积稀疏降噪自动编码算法3.1引言无监督的深度学习系统在一些通用性很强的案例中取得了很大的成就,通常它们会在每一层选择较多的特征图以保证性能。然而,本文发现当卷积神经网络各层特征图的数量超过一定阈值时候,特征图数量的增加对网络的分类准确率贡献越来越小。但是,卷积神经网络中池化层的尺寸大小对网络分类准确率有很大影响。本文提出了一种新的无监督学习方法来提升网络分类准确率,通过增加网络深度,限制各层特征图数量,同时级联各层次的分类器。本文利用L-BFGS梯度下降法来训练降噪自动编码器,并把训练好的特征传递给各层的卷积神经网络,没有使用任何标签信息。另外,在训练降噪自动编码器时候,加入稀疏约束项,让每层的特征都只有部分被激活,防止过拟合。本文在STL-10图像数据集上进行验证,STL-10拥有很少的训练样本,但是有大量的无标签图像。实验结果表明本章的算法在单个网络的条件下比其他方法准确率更高。近期的理论研究表明无监督学习方法能够自动学习构建特征提取器,完全可以替代传统人工构建特征方法。经典的降维方法,例如K-means,PCA大量应用于视觉应用中[45][46]。在图像检索中,当前机器视觉系统的一个关键的问题是无监督学习能否学得鲁棒的、不变的特征。传统的尺寸不变的特征变换(SIFT)算法或加速的鲁棒特征(suft)原理易理解,常用来提取从像素级到图像块级的特征[47]。无论如何,这些传统的方法很难适应新的环境。众所周知,不像上面提到的人工特征学习系统,灵长类生物能够有效的完成这些任务[48]。Hubel和Wiesel[49]在机器视觉领域获得了突破性进展,在Marr[50]研究的基础上,提出了一种类似于灵长类动物的视觉系统的视觉层次结构。为了缩短和生物视觉系统的距离并发挥计算机的优势,很多学者把重点放在训练更深、多层次的网络,例如深度置信网络[51],深度自动编码器[52],深度卷积神经网络[53],分层稀疏编码[54][55],基于SIFT特征的MFs编码[56]。这些方法的优势是它们的高度泛化性,因为深度学习方法直接输入像素级特征,通过多层的特征提取器,自动学习得到特征,不需要任何先验知识。此外,感受野的技巧的应用能够很显著的降低网络训练参数的规模也是当前世界先进视觉系统中成功的关键点所在[57][58]。23 第三章多级级联深度前馈卷积稀疏降噪自动编码算法和浅层网络相比,深度模型已被证明拥有更大的表达能力在处理复杂的任务时候[59]。深度置信网络利用逐层贪婪无监督训练限制性玻尔兹曼机来学习分层的特征。这种预训练的方法有助于跳出局部最优解。然后利用监督信号,对学习得到的网络权值参数进行微调。为了让深度置信网络能够处理大尺寸的全图,提出了一种卷积深度置信网络[60],利用感受野和权值共享的方法。本文提出了一种无监督学习模型用来大尺寸图像分类。在网络训练中,有两个关键点:1)每一层学习稀疏的、过完备的特征抽取器;2)多级级联的分类器的权重因子。网络采用逐层训练方法,没有使用反向传播。本文把它应用在STL-10图像数据集(图像分类数据集,少量有标签图像,大量无标签图像,给研究深度学习,自我学习的算法提供数据支持)上进行验证。3.2深度学习网络架构在本节中,本文会描述下深度学习网络的基本模块和整体网络架构。图3.1是本文设计的一种深度卷积神经网络架构,网络输入为96963的彩色图像,最后分类器为多级级联的L2-SVM多分类器,可以预测10类图像。在图3.1中,嵌在特征图中的小立方体表示该层的卷积核尺寸,而在卷积层中的长方形表示池化操作时候池化区域大小。多级分类器的得分最终融合起来,得到一个最终的得分。深度网络主要由两部分组成:一个多层的特征提取器和分类器。特征提取器是无监督学习得来,没有使用任何图像标签信息。特征提取器的输出均被拉伸成一维的特征向量,代表着输入图像的抽象表达。特征向量被当成输入和它们对应的标签信息一起用来训练分类器。本文使用L2-SVM作为分类器,因为SVM具有最小化结构风险的特点。特征提取器由多个近乎相同的多层堆叠而成。每一层也是由两个小层构成:1(1)稀疏并且过完备的局部特征滤波器,用来对输入进行卷积操作,(2)池化层,计算卷积特征图(卷积操作后通过Relu响应层后的激活值)一小块领域内最大值或平均值。图3.1深度学习网络架构进行10类图像分类24 第三章多级级联深度前馈卷积稀疏降噪自动编码算法3.3深度学习网络中的算法3.3.1稀疏降噪自动编码器自我学习特征降噪自动编码器被广泛地应用在目标识别上,在学习鲁棒特征上拥有很大优势。降噪自动编码器是经典自动编码器的扩展,本文把它引入作为深度网络的一部分。为了迫使隐含层去学得更加鲁棒的特征,防止它简单学习一些浅显特征,本文在训练时候,要求自动编码器能够重构还原经过破坏后的输入信号。然而,假如隐含层的维数大于输入信号的维数时,降噪自动编码器会简单学习到一些不感兴趣的特征,因为隐含层每个单元所能携带的信息熵没有得到限制。换句话说,学到的特征会是琐碎的,不能做到逐层抽象。总所周知,使用稀疏性约束能够限制编码器隐含层单元所能携带的信息量。所以,本文规则化了损失函数,鼓励降噪自动编码器让编码层变得稀疏。引入稀疏性后,本文的目的是让稀疏降噪自动编码器能够学习得到一组稀疏的、完备的编码层(滤波器池),也可称之为卷积核,用来对输入信息做卷积操作,得到卷积特征图。mnl本文定义D{d|dRkkk}为第k层的输入集合。mn,代表着特征图的二维尺iikk寸大小,即高和宽。l表示第k层的特征图个数。i1,,N,N表示训练图像样本k的个数。当输入信号是第一层的原始图像信号时,l3(彩色图像),mn,代表111着图像的高和宽。训练时候,本文把输入集合D随机裁剪成ppl大小的特征图k块,并随机抽取一系列图像块,构成patches集合。每一个特征块都是一个3维立体的。为了方便,特征图块有l个通道,而不是简单的单通道,使得稀疏降噪编码k器训练有一定的困难。一个简单的解决方法是,本文简单直接的把所有的l个通道k按行或按列,然后再按通道顺序重组为一个长向量。降噪自动编码器是自动编码器的随机版本。它是按照一定概率(通常为50%),随机地将原始输入图像中某些位强制变为零,如图3.2所示。而自动编码器被用来训练抑制原始噪声,通过编码过程找到潜在隐含的结构hfxWxb,从中1''2还原出原始输入信号yf'hWhb。Eyx,yx表示着训练过程中的2H整个训练集的重构误差。本文的目标是让重构信号y尽可能的和未遭破坏的原始输入信号x相似。x代表着部分被破坏的输入信号x。对于稀疏约束项,本文在目标优化函数中额外添加了稀疏惩罚项。当ˆ偏离设定的越远,惩罚项的值越大。ˆjj25 第三章多级级联深度前馈卷积稀疏降噪自动编码算法代表着隐含层单元h的平均激活值。是稀疏参数,它通常是很接近零的,例如j0.035。换句话说,隐含层的神经元在大部分时间是处于未激活状态。稀疏惩罚项如下公式所示,lk11log(1)log(3-1)j1ˆ1ˆjj本文中,也对传统的自动编码器做了一些改进:(1)()选择线性单元,不2再是之前的Sigmoid函数。也就是说,()ff,这样就不需要对输入数据进行2归一化处理,因为Sigmoid的输出范围在0~1之间。(2)选择受限的线性单元Relu作为()激活函数。因为ReLU和Sigmoid相比,已经被证明ReLU拥有更好的性1能[61]。稀疏降噪自动编码器的训练过程总结在算法1中。Algorithm1:ThetrainingprocedureofsparsedenoisingautoencodersInput:TrainingsetX:AsetofpatchesextractedfromDwhichistheinputsetoflayerk.Meta-parametersλ,,.λistheweightDecayparameter.isaweightofsparsePenaltyterm.isasparseparameter.Output:Parameters(Wbk,k)forthek-thlayerconvolutionalkernels.'661Initialization.Setbk=0,WW=urandom(,);k,knn1nn1inoutinout2Add50%noise.Getxwhichrepresentsapartiallydestroyedx;3fori=1toTdo'CostEHyx,Esparseλ((WkWk)UseL-BFGStoupdate'(WWb,,)kkkend4Output(Wbk,k)whichiscopiedtoconvolutionalkernels26 第三章多级级联深度前馈卷积稀疏降噪自动编码算法图3.2降噪自动编码器原理图3.3.2卷积在基于图像块上学习特征后,本文把这些学的的特征当成模版或则视觉基础单元。然后,本文把它们和原始图像进行卷积,以此来得到位于不同图像位置处的特征响应值,最终得到特征图。对于图像(高为m,宽为n)中pp大小的图像块x,本文能够得到响应值为fWxb,最终得到k(mp1)(np1)大sss小的卷积特征图。此外,表示绝对值受限线性激活函数。为了方便起见,本文采用了ON-OFFmax(0,)x分离。也就是说,激活函数为,激活值将分层两个通道进入下一级。max(0,x)3.3.3池化池化意味着在一定的空间领域内,把特征图的激活值聚合起来,取其平均值或则最大值。在经过池化操作以后,本文能够获得更低维的特征图,并可以提升性能(减少了过拟合)。此外,引入池化层后能够获得平移不变的特征性质。这就意味着,即使图像有一定的平移,经过池化后还是能够得到相同的特征图。本文在进行池化时候,会选择pp大小的空间区域,步长为s。同时,选择最大池化方法在卷积层后。另外,在最后一层,本文同时使用最大值池化和平均值池化两种方式。3.3.4多级级联分类器本文选择多分类的线性L2-SVM作为分类器,因为SVM最小化结构风险的特性。当识别测试图像属于哪一类时候,L2-SVM分类器会给出S个分数,S为类别数。本文认为,最大分数所在的下标即是预测类别。在增大训练集上,本文只采用左右镜像。这样做在训练时候能够产生额外的训练数据,而标签信息代价不变。通过降噪自动编码器和加入池化层,研究者可以学得鲁棒的和平移不变的特征。无论如何,真实的世界是复杂的,即使是同一个物体,在不同场景下,或者不同拍摄角度、时间都会有尺寸,形变,颜色等等方面的不同。深度学习网络受27 第三章多级级联深度前馈卷积稀疏降噪自动编码算法人类视觉机制的启发,是一个不断迭代、不断抽象的过程。深度学习的关键点在于深度要足够深,网络深度不够是对训练有害的,因为没法学习得到更为抽象的特征。同时,利用不同层级之间的特征也是很重要的,因为代表了局部和全局两个层次的特征表达。例如,第一层学到的特征可能学到的都是边缘特征或则对比色特征(如图3.3所示)。第二层可能会学到物体的部分组合特征。网络更深层次可能学到更为全面、抽象复杂的特征。不管怎么样,处在更深层次的特征会更复杂抽象,但是特征图的维数反而是越低的。因此,把底层的特征和高层的抽象特征拼接或则融合在一起是不明智的做法。因为底层的特征的维数很高,和高层特征融合起来后,底层的特征由于维数高会在新的特征向量中占据主导地位,会降低可分性。一种可行的方案是建立多级分类器,然后融合各级分类器的分数向量S。也就是说,本文把池化层的特征(平均池化和最大值池化)提取出来,用来训练分类器。每个分类器都会得到一个分数向量S,对于每一个分类器,分数最高的下标就是分类器预测的类别。然而,这样的做法会存在两个情况:1)有一个分数远远高于其他;2)有一个最大的分数,但是也存在其他几个和它非常接近。对于情况2而言,分类器输出的预测类别有可能会是不准确的,真实的标签类别很可能隐藏在和它得分差不多高的几个类别中。因此,本文通过融合多级分类器结果的方法能够有效的解决这个问题,从而提高分类的准确率。采用多级级联后,对于任何一幅测试图像,本文能够得到2K个分数向量(K层,每层都会导出两个分类器,输入分别为平均池化层特征、最大值池化特征)。得到多个分类器的结果后,本文并不能简单直接的把它们相加起来,因为高层特征所训练得到的分类器显然会优于底层特征的结果。所以,本文引入了权重因素:,a,k1,,K。处在同一层的特征的抽象程度是相同的,即可认为kKk1特征的线性可分程度处在同一层级,因此响应训练得到的分类器的权重应是相同的。多级分类器级联的公式如下,KPcommitteej1j(_PmaxjPmean_j)(3-2)P是多级分类器融合后的最终得分向量,长度为S,S是图像的类别数。committeeP中分数最高的下标就代表着分类器最终预测类别。committee3.4多级级联深度前馈卷积稀疏降噪自动编码算法在图像分类上应用3.4.1STL-10图像数据集STL-10[62]是由Stanford大学的AdamCoates等人整理的一个公开图像集。用28 第三章多级级联深度前馈卷积稀疏降噪自动编码算法来做图像分类和无监督的特征学习。STL-10数据集受CIFAR-10数据集启发,但是做了一些改变。特别是,和CIFAR-10相比,每一类带标签的训练集样本数更少了,但是额外提供了一个非常庞大的无标签的数据集(里面的图片内容不局限在10类图像内)。STL-10图像数据集简介:1、拥有10类图像:飞机,鸟,汽车,猫,鹿,狗,马,猴子,船,卡车2、图像大小为96*96,彩色(3通道)3、每类有500张训练图片,800张测试图像4、有100000张无标签图像可用来无监督学习。这些样本和有标签样本相似,但是图像内容分布上更宽泛。例如,在图像中,除了标签上有的东西外,它还会包括其他类型的东西,对于动物会有(熊,兔子等),汽车会有(火车,公共汽车)。5、图像是从有标签的ImageNet上获得的。图3.3STL-10图像数据集部分图片从图3.3中可以看到,同一类内的图像直接差异是非常大的。3.4.2单层网络下无监督特征学习的性能分析深度学习网络是由多个几乎相似的单层网络所构成的,目前大多数无监督算法都是通过逐层贪婪的方法来对网络进行预训练。对每一层进行训练的时候,需要自己去设计该层的参数:学习的特征个数、特征所对应的视觉野的大小、池化层滑窗大小、步长等。因此,在设计深度网络29 第三章多级级联深度前馈卷积稀疏降噪自动编码算法时候,设计者应该知道这些参数是如何影响单层网络性能的。Coates发现图像白化处理、较小的感受野大小和卷积时候较小的步长能够提升深度网络分类准确率[63]。本文主要对隐含层特征个数、池化大小、激活函数对无监督的稀疏降噪自动编码单层网络分类性能的影响。为了减少网络训练时间,降低对计算机硬件资源要求,同时又不失一般性。本文从STL-10图像数据集中随机选择4类图像(飞机,鸟,汽车,猫),并把图像大小统一缩小为为64*64*3。3.4.2.1隐含层特征个数和池化大小对性能的影响根据3.3节中本文提出的稀疏降噪自动编码算法学习单层网络特征。如图3.4(1)(1)所示,在这里去掉了最后一层,没有重构层。训练完后,得到模型参数W,b,即该层的滤波器,对于给定的任意输入数据x可以得到一个隐含层的激活值a,一(1)(1)个隐含单元对应着一个特征提取器(W,b)。然后利用知识迁移的思想,把这ii(1)(1)些W,b复制给同样大小的卷积核,即如图3.5嵌入在image之间的小立方体,ii就得到单层卷积神经网络。图3.4稀疏降噪自动编码器单层网络30 第三章多级级联深度前馈卷积稀疏降噪自动编码算法图3.5单层卷积神经网络本文实验了多种单层卷积神经网络,拥有不同的卷积核个数和不同的池化层大小和步长。所有的卷积核都由本文提出的降噪稀疏自动编码器算法预训练赋值得到。以其中设计的四种网络为例,如下所示,1、学习特征为400,对应感受野的大小(滤波器的大小)=8*8,稀疏自动编码器方法,meanPoolsize=19*19,输出为3*3*4002、学习特征为200,对应感受野的大小(滤波器的大小)=9*9,稀疏自动编码器方法。meanPoolsize=14*14,输出为4*4*2003、学习特征为150,对应感受野的大小(滤波器的大小)=8*8,稀疏自动编码器方法。meanPoolsize=19*19,输出为3*3*1504、学习特征为100,对应感受野的大小(滤波器的大小)=9*9,稀疏自动编码器方法。meanPoolsize=2*2,输出为28*28*100可视化降噪稀疏自动编码器学习到的隐含层的特征,如图3.6所示。从图中可以很清晰的看到,隐含层单元个数越多,网络学习到的特征越丰富,但是本文也注意到随着隐含层单元数的增加,会学习到很多相似甚至重复的特征,尤其以对(a)400个特征(b)200个特征31 第三章多级级联深度前馈卷积稀疏降噪自动编码算法(c)150个特征(d)100个特征图3.6不同隐含层单元个数下特征可视化比色特征为重。因此,本文从特征图可视化时候就可以看出,隐含层单元的增加并不会带来分类准确率的一直提升,而是会增加的越来越缓慢。为了更加客观的描述,本文对各种网络进行了性能测试,表3.1展示了其中5种网络的性能,图3.7全面展示了隐含层特征个数和池化大小对性能的影响。表3.15种网络在4类测试图像集(800*4)上分类准确率特征数感受野平均池化大小输出维数分类器准确率全部时间(h)4008*819*193*3*400SoftMax80.04%8h1508*819*193*3*150SoftMax79.10%3.4h2009*914*144*4*200SoftMax79.54%4h2009*92*228*28*100SoftMax74.25%7h1009*914*144*4*100SoftMax79.31%2.5h图3.7隐含层特征个数和池化大小对性能的影响32 第三章多级级联深度前馈卷积稀疏降噪自动编码算法从图3.7中本文发现随着特征数的不断增加,它对于网络分类准确率的贡献是越来越小的,同时网络时间开销确实急剧上升。同时,池化层的池化尺寸大小对于网络分类的准确率有着很大的影响。因此,在第一层的特征数(卷积核)个数选择时候,本文应该选择曲线的拐点处,即64个卷积核最为合适。即对于降噪稀疏自动编码器而言,输入为8*8*3的信号,只需要64个隐含层单元就能够更好的表达原理高维的信号。对于第二层和第三层,设定卷积核大小为3*3*N,卷积核个数本文3*N附近,最终本文方便计算,设第二层和第三层的卷积核个数为256和1024。3.4.2.2激活函数选择对性能的影响传统的BP神经网络一般常选择Sigmoid函数或则tanh函数作为它的激活函数。Sigmoid是一个非线性的激活单元,具有很强的拟合能力,但是也因此会让网络过早陷入局部值中。此外,Sigmoid需要计算指数值,在网络训练时候需要很大的计算量,所以收敛速度会比较慢。而ReLU(RestrictedLinearUnit)是一种很简单的激活函数,它的计算公式为,fx()max(,0)x(3-3)相比于Sigmoid和tanh,ReLU计算非常简单,训练收敛速度非常快。因此,本文设计了两个单层的降噪稀疏自动编码器分别以Sigmoid和ReLU为激活函数。本文选取7*7*3的patch作为训练输入,隐含层个数为64。如图3.8所示,本文把采用不同激活函数时,降噪自动编码器学得的第一层特征可视化出来进行对比。(a)sigmoid,50%noise(b)ReLU,50%noise图3.8不同激活函数学得的第一层特征对比图从图3.8可以看到,右图相比于左右,特征更加丰富、鲁棒和完备。左图的特征有较多重复的混乱的特征。因此,采用ReLU作为激活函数学得的特征要明显优于Sigmoid。所以,本文在训练深度网络时候,应该选择ReLU作为激活函数,这样可以学得更为鲁棒、完备的特征,同时还能大大加快收敛速度和训练速度。33 第三章多级级联深度前馈卷积稀疏降噪自动编码算法3.4.2.3特征图之间的相关性图3.8(b)中本文看到,采用Relu作为激活函数,在第一层学习到了很多边缘和对比色特征。但本文同时也观察到,有很多特征是非常相似的,例如第一行第二列和第六行第二列,只要平移下就可以完全重合。因此,本文对这些相似的卷积核产生的特征进行相似性分析,并和池化操作后的特征图的相似性进行对比,如图3.9所示。(a)池化前的两幅卷积特征图之间的相关性(b)池化后的两幅特征图之间的相关性图3.9不同激活函数学得的第一层特征对比图从图3.9中本文可以看到,两个非常相似的卷积核产生的卷积特征的相似度是比较低的,但是经过池化操作后,两者的特征相似度非常高。也就是说,像这样的卷积核经过池化操作后,会产生很多的冗余特征图。因此,这个现象也提示本文在设计深度网络时候,并不需要太多隐含层单元,否则会造成网络中很多冗余特征,降低网络性能。34 第三章多级级联深度前馈卷积稀疏降噪自动编码算法3.4.3在STL-10数据集上的实验结果STL-10图像数据集拥有大量的无标签图像,5000张带有标签的训练图像和8000张测试图像,每张图片都是96*96的彩色图像。共有10个预先已经准备好的训练文件夹,每个文件夹只包含1000张训练图像。本文采取和之前研究者同样的测试流程[63][64][65][66][67],训练时候,每次只能选择一个文件夹(1000张)中的图片进行训练,然后测试8000张测试图片,获得准确率。然后,挑选第二个文件夹中的1000张图作为训练集,重新训练,并测试8000张测试图像。这样重复10次,最终得到平均准确率和方差。以这两个指标来评价算法的好坏。本文设计了一种多级级联的深度前馈卷积稀疏降噪自动编码器算法,根据STL-10图像数据集的图像尺寸大小,设计的网络如图3.1所示。下面本文将详细描述整个网络的细节和实验结果。第一层训练时候,本文并不是直接输入原始图像,而是要进行白化这一步图像预处理。然后本文从100000张无标签的图片中随机抽取出10万幅7*7*3的彩色图像块用来训练稀疏降噪自动编码器。第一层稀疏降噪自动编码器的隐含层个数设置为64,前面章节已经分析过。学习到的特征如图3.8(b)所示。然后把这64个隐含层单元学到的特征复制给图3.1第一层的卷积核,完成知识传播。对于第一层的池化层,本文设定池化大小为6*6,步长为3,采用max池化。第二层训练时候,本文把上一层的池化层输出当成输入信号。本文先从所有训练图像产生的第一层池化特征层抽取10万个3*3*643Dpatches,把它们作为第二层的输入,去训练第二阶的稀疏降噪自动编码器。3*3表示卷积核的平面尺寸大小,64表示跨越池化层64个特征图层。和之前一样,训练一个隐含层单元为256的稀疏降噪自动编码器。然后把训练完的256个隐含层单元学到的特征传递给卷积神经网络的第二层卷积核。第二层的池化层,设定池化尺寸为3*3,步长为2,采用max池化。第三层训练时候,本文把第二层的池化层输出当成输入信号。利用已经逐层贪婪训练好的前两层网络模型,导出训练图像在第二层最大值池化层的特征图集合。然后,从特征池中随机抽取10万个3*3*2563Dpatches,作为第三层的输入,去训练第三阶的稀疏降噪自动编码器,设定隐含层单元为1024个,同样把训练好的隐含层传递给卷积神经网络第三层。第三层的池化层,分层两路,一路为最大值池化(尺寸为3*3,步长为2),另一路为平均池化(尺寸为6*6,步长为5)。这样可以获得不同意义的高层特征表示。到此为止,本文完成了图3.1卷积神经网络的初始化训练。最后,本文用第二层的池化层特征图集合和第三层的两个特征图集合去训练3T个L2-SVM分类器。对于SVM而言,有两个常用的损失函数max((1ywx),0)和ii35 第三章多级级联深度前馈卷积稀疏降噪自动编码算法T2max((1ywx),0),分别指L1-SVM和L2-SVM。本文在用oneVrest的策略,即ii一对多的方法训练多分类器。最后,本文在不同的条件下测试了本文的深度网络的分类性能。结果图表3.2所示。表3.2逐层贪婪训练的深度网络在STL-10数据集上分类准确率第三层池网络激活函数分类器级联不扩展训练集左右镜像化方式N1Max(0,x)MaxNo59.28%61.68%N2Max(0,x)MeanNo60.26%NottestedN3ON-OFFMaxNo60.4%NottestedN4ON-OFFMeanNo61.62%63.2%Max,N5ON-OFFYes62.21%64.9%Mean在网络参数不变的情况下,本文对如何取特征和利用特征以及通过左右镜像增大训练集等方法上做了尝试,设计了不同的5种网络。从表3.2可以清楚的看到,采用左右镜像的方法,在不增加标签信息的情况下,可以同扩大训练样本来有效提升分类准确率。此外,在最后一层池化层采用平均池化的准确率会高于最大值池化,因为平均池化代表了该区域内的平均激活值,相比最大值而言能够包含更多的信息。本文利用ON-OFF分离技巧也较大提升了分类准确率。ON-OFF指激活函数max(0,)x为,激活值将分层两个通道进入下一级。这样可以在同等参数规模下,max(0,x)把图像的特征维数增加了一倍,加大了高层特征之间的区分度。最后,本文采用了多级分类器级联的方法,利用3.32节中提出的分数向量按权重相加的方法。在这里,本文设0.2,0.4,得到23P0.2Pmax_0.4(_PmaxPmean_)。采用级联后,本文最终得到分committee233类准确率为64.9%1%。表3.3显示本文的算法和其他方法的在STL-10数据集上的结果对比。实验结果表明,在只利用单个深度网络的条件下,本文提出的算法在STL-10上的分类准确率均要高于目前已有的算法。36 第三章多级级联深度前馈卷积稀疏降噪自动编码算法表3.3不同算法在STL-10分类准确率不同的深度网络模型分类准确率Discriminativelearningofsum-productnetworks[63]62.3%±1%UnsupervisedfeaturelearningforRGB-Dbasedobjectrecognition[65]64.5%±1%ConvolutionalKernelnetworks[66]62.32%Meta-parameterfreeunsupervisedsparsefeaturelearning[67]61.0%±0.58%Deepfeedforwardnetworktrainedwithfewdata[64]64.73%Thedeepnetworkproposedinthispaper64.9%±1%3.5小结本章主要提出了一种新的半监督学习方法来实现图像分类,即多级级联的深度前馈卷积稀疏降噪自动编码器算法。在经典的自动编码器算法中加入稀疏项迫使隐含层学得共有的模式,通过腐蚀输入信号并强迫自编码器还原原有信号的机制来学得隐含的鲁棒的特征。同时利用逐层贪婪训练和知识迁移的方法,将降噪稀疏自动编码器学得的特征直接复制给卷积神经网络里对应层的卷积核,实现卷积神经网络的无监督训练。最后利用L2-SVM分类器利用少量带标签的样本进行训练,然后采用多级分类器级联的方法提升分类器分类准确率。实验结果表明本文的算法在单个网络的条件下比其他方法准确率更高。此外,本文对卷积神经网络的参数设置进行了研究。通过对单层卷积神经网络的分析,本文发现随着卷积核个数的增加,即特征维数的增加,网络分类准确率上升的越来越缓慢。所以,综合性能考虑,本文应该再拐点处选择卷积核个数,对于后面更高几层,本文认为可以按照1:4的比例来确定后一层的卷积核个数。同时,本文也发现池化的大小和步长对于网络分类准确率有很大的影响,应该慎重选择相应参数。一般推荐选择3*3大小的尺寸,步长为2。37 第四章基于深度学习的图像检索系统设计及测试结果与分析第四章基于深度学习的图像检索系统设计及测试结果与分析4.1引言基于内容的图像检索系统是目前图像检索领域中较为成熟的系统。如QBIC系统,MIT实验室的Photobook系统,美国哥伦比亚大学的VisualSEEK系统。它们采用的特征都是底层视觉特征,如颜色和基于小波变换的纹理特征等。和人类所理解的图像高层语义存在着语义鸿沟问题。而深度学习的兴起,解决了图像领域中诸多问题。正如在第二章中分析的,深度学习所学习得到的高层特征是具有语义意义的,特别是一般这种高层特征是稀疏的。即高层特征中某一位或则某一段代表着一个实际语义,只有输入图像中含有这个语义代表的对象出现时,该位或该段才会被激活,如图2.5所示。因此,本文可以把深度学习的高层特征定义为语义特征,该语义特征和人类所理解的图像语义之间的距离不再是那么难以跨越。因此,深度学习的出现使得基于语义的图像检索系统成为可能。本章利用第三章中设计的多级级联的深度前馈卷积降噪自动编码器网络作为本文的语义特征提取器,以STL-10图像数据集作为入库图像,涵盖飞机、鸟、桥车、猫、鹿、狗、马、猴子、船、卡车等语义类别。选择一种较好的语义距离度量方法来衡量语义特征之间的相似度。本文设计的图像检索系统包含基于深度学习分类的图像语义标注和基于图像语义的图像检索两个模块。其中,基于深度学习分类的图像语义标注就是利用第三章中本文设计的算法和网络;而基于图像语义的图像检索模块包括语义特征提取,语义特征相似度比较两个关键模块。其图像检索模块流程图如4.1所示。4.2运行环境4.2.1硬件环境基于深度学习的图像检索系统,实验环境主要由以下几部分组成:1)摄像头传感器:CCD38 第四章基于深度学习的图像检索系统设计及测试结果与分析传感器像素值:30万最高分辨率:480*6402)笔记本电脑CPU:IntelCorei5-450M(双核)内存:4G系统:64位win74.2.2软件环境操作系统:64位WIN7开发平台:Matlab2014aGUI平台图4.1基于深度学习的图像检索流程图4.3基于深度学习的图像检索系统设计4.3.1软件框架图结构本系统的所有模块均在MATLABGUI平台上完成,包含基于分类的图像语义标注和图像检索两大功能,系统的软件架构框图如下所示:39 第四章基于深度学习的图像检索系统设计及测试结果与分析基于分类的图像图像检索模块语义标注模块图像预处理CDD摄像头导入深度查询结果拍摄待查询学习网络显示接口图像L2-SVM导出语义相似度分类器特征比较语义标注;返回相似图像存储图像、语义特征、语义图像库、语义特征库、语义标签库MATLABGUI平台WIN764位图4.2基于深度学习的图像检索系统软件架构图4.3.2软件界面图4.3基于深度学习的图像检索系统软件界面40 第四章基于深度学习的图像检索系统设计及测试结果与分析4.4基于深度学习的图像检索系统测试4.4.1基于深度学习的图像分类模块测试在第三章所提出的多级级联的深度前馈稀疏降噪自动编码卷积神经网络的设计思想上,本文按照模块化思想设计了基于图像分类的图像语义标注模块,用来提取和表达图像中语义信息。以下是按照第三章中的方法,对摄像头采集到的图像利用深度学习网络进行分类的测试过程,如图4.4所示。(a)原图(b)深度网络第一阶卷积核(c)第一层卷积层前16幅特征图可视化41 第四章基于深度学习的图像检索系统设计及测试结果与分析(d)第二层卷积层前25幅特征图可视化(e)第三层卷积层前36幅特征图可视化42 第四章基于深度学习的图像检索系统设计及测试结果与分析(f)对具有拟人姿态的猫的图像标注语义(g)对有遮挡的图像标注(h)对有干扰的图像进行语义标注图4.4基于深度学习网络的图像语义标注过程通过图4.4,本文可以看到,深度学习能够从复杂图像中抽取出鲁棒的语义特征,具有很好的线性可分性。而且,对于有遮挡的目标也能很好的识别,进行语43 第四章基于深度学习的图像检索系统设计及测试结果与分析义标注。4.4.2基于深度学习的图像检索模块测试根据前面提到过的利用深度网络作为语义特征提取器,来提取特征,第三层平均池化后的特征长度为4096。根据之前的分析,本文知道特征向量之间的相似度可以用距离来衡量,可以选择不同的距离度量函数。对于n维空间中的两个特征向量x{xx,...,x},和1,2ny{,yy,...,y},可以用dxy(,)来表示它们之间的相似度。常用的距离度量函数12n有:余弦距离、马氏距离、Minkowski距、Quadratic距离。距离度量函数的好坏直接影响到检索系统的性能。检索系统的评价指标有:准确率、查全率、F值。查全率反应着系统在有限返回图像数量内的检索全面性;而准确率则反应着系统的检索准确率。这两个指标是一个矛盾体,很多时候很难同时满足两个指标要求,一般检索系统只要求能够到达一个最优的平衡点即可。F值即是这样一个指标,用于综合评估这两者指标。检索结果中返回的相关图像数准确率(PrecisionRate)=(4-1)检索结果中的总图像数检索结果中返回的相关图像数查全率(RecallRate)=(4-2)图像库中的总相关图像数F值=2准确率查全率/(准确率+查全率)(4-3)一般而言,准确率高的时候,查全率会较低;而当准确率低的时候,查全率一般都很高。在设计检索系统的时候需要协调好两者之间的关系,即需要设定好一个相似度距离的阈值。用户需要提高准确率而不太关心查全率,则可以调低阈值;反之,则应该上调阈值。本节通过测试,发现对于语义特征而言,采用余弦距离的查询系统性能要远优于其他距离度量函数。因此,本文设计的软件系统,均使用余弦距离作为语义特征相似度度量函数。本节以飞机、马、轮船这三类语义为例,通过实验测试得到一个较好的阈值。同时,在软件中,本文还自己设计了返回图像数这一个选项,方便用户按照自己的喜好自由的选择需要返回的图像数目。通过图4.5,本文可以看到语义特征向量之间的余弦相似距离小于0.5时,检索系统的准确率很高,查全率会较低;而余弦距离大于0.6时候,检索系统的查全率很高,准确率会很低。因此,本文可以把距离相似度的阈值设置在[0.5,0.6]之间,保证F值的指标较高,可以作为系统默认的检索返回图像数的一个参考。44 第四章基于深度学习的图像检索系统设计及测试结果与分析(a)airplane的准确率/查全率对应关系(b)horse的准确率/查全率对应关系(c)ship的准确率/查全率对应关系图4.5基于深度学习网络的图像检索系统指标性能测试以下是图像检索模块的测试,支持用户自己输入返回图像数,然后返回语义距离最相近的图像。如图4.6所示。(a)airplane返回6张相似的图像45 第四章基于深度学习的图像检索系统设计及测试结果与分析(b)horse返回4张最相似的图像(d)ship返回最相似的6张图像图4.6基于深度学习网络的图像检索模块测试按照第三章中本文提出的多级级联的深度前馈降噪稀疏自动编码器算法来训练图3.1中的深度网络,去掉最后分类器层,得到一个语义特征提取器。语义特征距离相似度函数选择余弦函数。通过图4.6看到,利用深度网络,采用逐层贪婪的训练方法,即使是采用无监督学习方法,也能够学得很好的语义特征提取器。高层的语义特征已经具有一定的高阶模式(如某一类对象的共同属性特征)。同时,46 第四章基于深度学习的图像检索系统设计及测试结果与分析语义特征也具有很强的鲁棒性,能够很好的过滤掉背景噪声。4.5小结本章主要把第二章的图像语义模型和深度学习理论,与第三章自主提出的无监督深度学习算法和网络模型相结合,在matlabgui平台上开发了一个基于深度学习的图像检索软件应用,并利用STL-10图像数据库进行了测试分析。本章首先对软件的软硬件环境进行了说明,并描述了软件中的基本架构和模块。然后详细展示了深度学习网络在识别一幅待标注图像时候的内部机理,用可视化的方式展示了深度学习逐层迭代、逐层抽象的过程,使得深度学习不再是一个纯粹的黑箱模型。之后,对基于分类的语义标注模块进行测试,结果表明深度网络模型具有很强的鲁棒性,能够抗形变、遮挡。最后对图像检索模块进行测试,研究了语义特征向量的相似度阈值问题,使得准确率和查全率这一对矛盾体均能达到一个较优值。通过软件开发和真实互联网图像测试,证明了本文所设计的基于深度学习的图像检索软件具有很强的语义标注能力和较高的检索精度。与之前的基于内容的图像检索系统相比,得到了更接近人类理解的语义特征向量(某一段具有一定的语义意义),一定程度上缩短了语义鸿沟。查询返回的图像也更加准确,在确保语义相同的前提下,返回的对象具有各自姿态。不再像之前的基于底层视觉特征的图像检索,返回的都是同一颜色背景或者相似姿态的图像。47 第五章基于深度学习和搜索的图像标注算法第五章基于深度学习和搜索的图像标注算法5.1引言图像标注是图像检索不可或缺的一个环节,也是当前重要的研究方向。传统的图像标注方法有:基于对象分割的方法、基于固定大小分块的方法以及基于图像分类的方法。其中基于分类的语义标注是一个很有效的方法。常见的代表模型有,ALIP[68]和CBSA[69]。ALIP对每一类语义图像都训练一个统计模型,对于某幅和某一类语义相似的图像,认为是该语义的一个随机过程。同时引入了图像分为该类语义的置信概率来衡量该图像和某一类语义概念之间的关联度,置信概率越大表示关联度越大。CBSA则是从先定义好的N类语义概念中选择一个和该图最匹配的关键词。它是先要利用svm和BPM(BayesPointMachine)训练N个分类器。N个分类器都对该图进行分类,并给予一个置信概率,最终完成对图像库的初始标注。在第三和第四章中,本文利用逐层贪婪无监督训练的深度学习网络实现了一个基于分类的图像语义标注功能,并在STL-10图像数据集上得到了验证,取得了一定的成果。但是,现实生活中的图像往往会包好多个物体,单纯基于分类的图像语义标注是会存在一定问题的。例如,存在多类对象的图像分类器没法把它具体归到哪一类;分类只能为若干类别之一,会遗漏掉图像很多信息。因此,本章主要解决多标记问题,即一幅图像中包含多个重要语义对象,可以被同时标注为多个类别。例如,图5.1。深度学习通过强大的自我学习能力和逐层抽象的表示能力,能够利用较少维数来表达高维的原始输入信息。本文可以去掉最后的分类器层,把深度学习作为一个语义特征提取器。因为深度学习是数据驱动的,天然需要大数据的支持。而基于搜索的图像标注(search-basedimageannotation,简称为SBIA)通过快速检索技术和大规模图像数据集的应用,也是利用数据驱动的方法来解决图像标注问题。和传统图像标注方法相比,SBIA有两步组成:1)首先找到一组和待标志图像相似的图像集,2)利用这一组图像集中自身已有的语义标签来挖掘出待标注图像的语义信息。以前的SBIA受限于语义鸿沟问题,不能很好的找到一组和待标志图像语义相似的图像集,会引入很多噪声,所以在应用上发挥不出优势。本章利用深度学习48 第五章基于深度学习和搜索的图像标注算法技术,通过设计深度卷积网络,采用监督学习方法训练,得到一个较好的语义特征提取器,从而解决SBIA之前遇到的问题。图5.1包含多个语义对象的图像5.2图像数据集构建本章采用Corel5k来作为本文的数据集,它是一个专门用来做图像标注实验的标准图像数据集。Corel5k拥有50个类别的图像,每类图像有一个共同的语义主题,如飞机,非洲,巴黎等,共5000张图像,每张图像大小为192*128。Corel5k中的每张图片都拥有1~5个语义标签,训练集中总共有374个语义标签,而测试集总共用了263个语义标签(是训练集374个的子集)。图5.2Corel5k图像数据集部分图像5.3深度卷积神经网络构建和训练5.3.1构建训练集深度卷积神经网络的训练需要大量标签数据,同时受限于输入图像的尺寸,不同大小的输入图像不能共用一个卷积神经网络,所以深度卷积神经网络的输入图像只能是固定大小。一般本文是采用softmax作为深度卷积神经网络的分类器,49 第五章基于深度学习和搜索的图像标注算法一般不能把同一类的人为错分为两类,这样会导致训练误差很大;而且同一类内最好不要出现和该类语义不相关的图像。Corel5K含有50类图像,每类图像都含有一个语义,但是这是语义都是很抽象的语义,同一类内的图像差异很大,比如“巴黎”这一类,里面既有建筑,也有人物,河流,夕阳等常见的事物,需要图像识别额外的知识才能推理出“巴黎”的语义概念。因此,一种选择是本文从中挑选出20类图像(20*90=1800张)作为本文的训练集,这20类图像的语义标签都单一:例如海滩、夕阳、山脉、飞机等。该训练集每类图像之间的语义概念不存在关联,符合softmax的要求。剩下的(20*10=200)张图像作为测试集。而另一种选择是,引入全连接层,因为对于卷积神经网络而言,如果只有卷积层和池化层,采用Relu激活函数,则还没法满足足够的抽象程度来形成具有文化概念例如“巴黎”这一级别的语义特征。因此,本文引入全连接层,让该层在更为抽象的语义层级上具有良好的线性可分性。本章将会针对这两种思路,设计不同的卷积神经网络,并进行实验对比。从图5.3中本文可以看到有的图像尺寸为(128*192),有的为(192*128),深度卷积神经网络要求输入图像的尺寸是一致的,所以本文把所有图像都resize为128*192。5.3.2朴素深度卷积神经网络并训练按照上一节中提到的第一种思路,本文选取其中20类图像构成本文的训练集。这样本文只有1800张训练图片,所以不能构建很深的深度卷积网络,同时网络参数规模也不易太大。根据第三章中本文对单层卷积神经网络分析得到的结论,结合Corel5k图像数据库的特点,设计了一个朴素的深度卷积神经网络,和图3.1的网络类似,网络中没有引入全连接层和Dropout(遗忘层),因为训练图像规模太小,太大参数规模的网络很容易引起过拟合。网络的整体架构如图5.3所示。图5.3深度卷积神经网络结构示意图卷积神经网络的输入大小为128*192*3的彩色图像,由于输入图像尺寸很大,如果采用图3.1中卷积核滑窗步长仍为1的方法,势必会让第二层卷积层体积很大,50 第五章基于深度学习和搜索的图像标注算法网络卷积和误差反向传播计算时间会呈几何倍数上升,不利于网络训练。所以,本文设置第一层的卷积核大小为8*8*3、滑窗步长为4,这样彩色图像经过第一层池化后的卷积特征图大小为31*47,即(128-8)/4+1=31,(192-8)/4+1=47。第二层卷积核设置为5*5*96,滑窗步长为1,较小的卷积核有利于提高网络性能和分类准确率。池化层都设置为了3*3,滑窗步长为2,增加相邻特征之间的连续性,也符合神经元细胞激活信号向四周衰减扩散的原理。第三层采用平均池化方式,更具鲁棒性。卷积神经网络各层的具体参数配置如下表所示。表5.1深度卷积神经网络的各层参数配置类型感受野大小/步长输出尺寸补边大小Convolution8*8/431*47*960Maxpool3*3/215*23*960Convolution5*5/115*23*2562Maxpool3*3/27*11*2560Convolution3*3/17*11*3841Meanpool3*3/23*5*3840网络最后输出3*5*384=5760维的特征向量,输入到Softmax层中进行训练,输出20维的概率向量。最后,本文对该卷积神经网络模型在caffe深度学习架构上进行训练,采用批随机梯度下降法迭代30万次后,保存训练模型。用测试集进行测试,测试集分类准确率为84.9%。5.3.3特征级联深度卷积神经网络并训练按照上一节中提到的第二种思路,本文选取其中50类图像构成本文的训练集。这样本文有9000张(左右镜像)训练图片,可以构建更深层次的网络,但是网络参数规模也不易太大。根据第三章中本文对单层卷积神经网络分析得到的结论,结合Corel5k图像数据库的特点,设计了一个特征级联的深度卷积神经网络,即把第三层的池化特征和第四层的卷积层特征作为全连接的输入。这样就相当于利用了网络不同抽象层次及全局和局部的特征。网络的整体架构如图5.4所示。图5.4特征级联深度卷积神经网络结构示意图51 第五章基于深度学习和搜索的图像标注算法卷积神经网络的输入大小为128*192*3的彩色图像,和图5.3相比,其他都没改变,该卷积神经网络只是减小了各种的卷积核的个数从原来的96,256,384降为24,36,64,同时增加了第4层的卷积层,卷积核个数设为80,引入了全连接层和遗忘机制(训练时候随机置全连接层上的激活值为0,增强了网络的抗鲁棒性,防止训练过拟合),并同时利用了第3层池化层和第4层卷积层的特征,即全局和局部的特征,网络具有更强的抽象表达能力。5.4图像数据集语义特征提取利用5.3节中已经训练好的8层卷积神经网络,去掉最后一层softmax分类器层,就可以得到一个语义特征提取器。然后本文把corel5k中4500张训练图像作为种子图像,利用深度学习学得的语义特征提取器提取出它们对应的语义特征。5.5利用语义特征进行相似图像检索本文已经拥有了4500张的图像种子库,每张图像都对应着一个语义特征和它的多个标签。由于所有种子图像只使用了374个语义关键词,所以每幅图像的语义可以表示成一个374维的0/1向量A。如图5.5所示。每一维代表着一个语义概念,如果该位是1,表示图像中出现了该语义概念,为0则表示图像中没有这个语义概念。A=[111100000….0]citymountainskysunwatercloudstreelakeseabeach….图5.5语义的向量化表示从5.5可以看到,图中有4个语义标签,city、mountain、sky、sun,对应的位都置为1。对于一张待标注的图像I,本文利用第三、四章提到的基于语义的图像检索技术从4500张种子图像中找到和图像I最相似的一个图像子集S。本文用它们之间的语义特征之间的距离来衡量图像之间的相似度。即对于图像子集S中的图像I与i待标注图像I的语义距离记为Disti(),在本章中,本文继续沿用第四章中的余弦距离来度量Disti()。对于最相似的图像子集S,本文应该设定一个语义距离的阈值。根据第四章的深度学习图像检索模块的实验,本文观察图4.5可知,当余弦距离小于0.2的时候,检索的准确率几乎是100%的,即选择语义距离为0.2可以保证候选图像子集S中52 第五章基于深度学习和搜索的图像标注算法的图像均是和待标注图像属于一个语义范畴之内的,可以大大减少噪声的引入。若按照这个阈值进行图像检索后,发现相似图像子集S为空,说明种子图像中没有和待标注图像相似的图像,所以系统会拒绝对该图像进行标注。5.6候选图像语义标注的合并5.6.1K-NN思想K近邻思想是为了避免样本类别的偶然性,对待识别图像X的K个最近邻样本进行投票,看属于哪一类的票数最多,就把X判为该类别。K-NN的避免样本类别的偶然性这种思想可以借鉴应用来候选图像语义标注的合并中。每个候选图像都有一个对应的语义标注向量A。所以,本文可以把候选图像的语义标注向量进行融合,或则直接简单相加得到一个全新的语义标注向量。5.6.2相似度因子因为候选图像集S中的图像和待标注图像的相似度距离不同,而一般与待标注图像语义特征距离更相近的图像应该对标注结果影响更大。所以本文用下式对语义概念K进行打分。i2ScoreK(i)fDisti(())AK(i)(5-1)IiS其中,f(*)就是把语义特征的相似距离转换为相似度因子的函数,定义如下。21dfd()exp(5-2)2222得到每个关键字和待标注图像的分数后,本文把Score做一个归一化处理,转换为概率向量Prob,即Sum(Prob)=1。为消除不相关的语义标签,本文只保留置信概率值大于0.1的语义概念作为待标注图像的语义。5.7图像标注实验结果与分析图像标注指利用模式识别或则机器学习等方法,从已有的带标注的图像中学习到一种语义概念和图像特征之间的映射模式,再把这种模式应用到新的待标注的图像中,实现图像标注。本章提出了一种基于深度学习和搜索的图像标注算法。并在朴素的卷积神经网络上引入了全连接层,同时采用了全局特征和局部特征级联的方法。本节对两种网络进行了性能分析,实验结果表明更深的网络拥有更好的抽象表达能力,学得的特征具有更好的线性可分性。即使卷积神经网络各层的卷积核个数减少,导致特征维数下降,但是全局特征和局部特征级联的方法有效53 第五章基于深度学习和搜索的图像标注算法增大了全连接层的输入维数,提高了网络的鲁棒性。用于标注实验的数据库还是之前的Corel5k图像库,种子图像为4500张,测试图像500张。表5.2展示了部分图像的语义标注结果。5.7.1评价方法图像语义标注的性能评价是通过把不同算法得到的语义标注结果和人工标注的语义标签进行比较得到的。和先前的学者一样[70][71][72][73][74],对于每一幅测试图像,本文把top-5的图像语义标注都作为最终标注结果赋给它。这样,每幅图像都会强制打上5个语义标签。测试集中用到的所有语义关键字都会分别测量它们的查全率和准确率。语义关键字w的查全率定义为正确标注有w的图像个数除以测ii试集中实际标有w的图像个数。语义关键字w的准确率定义为正确标注有w的图iii像个数除以算法所标注有w的总的图像个数。两个平均指标都是取测试集中出现i的260个关键字语义的平均性能。进一步,本文还评估了召回率大于0的语义关键字的个数,这个指标暗示了标注系统有效地学习到了多少个语义单词。5.7.2在Corel5K数据集上的结果表5.2罗列了本章方法和其他自动语义标注算法在Corel5k上的比较结果。这些都是目前先进的算法,包括machinetrainslationmodel(MT)[71],cross-mediarelevancemodel(CMRM)[73],continuoursrelevancemodel(CRM)[74],multiplebernoullirelevancemodel(MBRM)[72]和supervisedmulticlasslabelingmodel(SML)[70]。由于Corel5k在训练集中出现了374个语义单词,测试集中为263个语义单词,共同出现的语义单词为260个。所以,本文的结果是分析该260个语义单词在测试集上的性能。和之前的研究者一样[71][71][73][74],本文也给出了性能排在前top-49的语义单词的性能。从表5.2,本文能够得到如下结论。1.本文提出的基于深度学习和搜索的方法取得了最好的性能。2.借鉴了K近邻的思想,说明了深度学习学到了很好的特征表示。3.使用特征级联和全连接的深度学习网络具有更高的性能,说明全连接层能够获得更为精简和抽象的语义特征表达。表5.3说明了,选择全连接层和特征级联的卷积神经网络以及第三层选择平均池化的性能要优于其他深度网络模型。和8层网络相比,更深的网络能够学习得更为抽象得特征。图5.6是各类算法的准确率和召回率的对比曲线,图上的数值点表示当每幅图的语义标注为n(2~10)个时候的准确率和召回率。从图5.6中本文可以看到,加入了全连接层和特征级联的卷积神经网络的性能一直都优于先前的深度卷积神经网络。同时它也远优于其他的算法。和同样采用KNN的算法比较,说明深度学习54 第五章基于深度学习和搜索的图像标注算法能够学得更优的特征。表5.2和其他算法在Corel5k语义标注结果对比CRCo-CMSSTSMMSTagPr10-laMTM-RMBRJECAlgorithmocc.RMMLCopRKyer[71]ectM[72][78][75][73][77][70][76][79]CNN[72]#wordswithrecall>0194966-119122137136139143146Rresultsonall260words0.3MeanPer-wordRecall0.020.040.090.170.230.250.290.320.340.3320.2MeanPer-wordPrecision0.030.060.100.190.220.240.230.250.260.297Resultson49bestwords,asin[71][72][73][74]MeanPer-wordRecall-0.340.480.740.750.78-0.82--0.94MeanPer-wordPrecision-0.200.400.670.720.74-0.76--0.83表5.3深度学习网络在Corel5k语义标注结果对比3-layer#wordswithRecallPrecisionNetworkDepthMirroringPoolingrecall>0N18MaxYes1240.28270.2020N210MaxYes1390.32370.2585N310MeanYes1460.330.29280.32SMLKNN0.3MSC-noMSC0.28CNN-8CNN-10-max0.26CNN-10-mean0.24Precision0.220.20.180.160.10.150.20.250.30.350.40.450.5Recall图5.6各类算法的准确率和召回率的对比曲线表5.4部分图像语义标注结果55 第五章基于深度学习和搜索的图像标注算法图像语义标注置信概率GroundTruthSky0.3127skySun0.3127sunTree0.2507cloudsHills0.0619treeSea0.0619Plane0.3094skySky0.222jetJet0.2072planeProp0.1022Smoke0.0645Ocean0.1555peoplePeople0.1555fishCoral0.1463oceanplants0.1463Tree0.1463Tulip0.333skyFlowers0.333treePetals0.333flowersHawaii0tulipmaui0表5.4中,语义标注一列,蓝色的表示通过语义标注算法得到,但是真实标签中并没有的语义标注。GroundTruth一列中的红色表示,语义标注算法漏标的语义概念。由于每幅图是强制打上5个标签,分析这些出错的多标志的语义概念,本文发现它们的置信概率并不是很高,在显示的语义标注里是处于最低的。而且对于第4幅有郁金香的图像,最后多出来的两个语义概念存粹是为了补齐5个语义标签而强制附上去的,它们的置信概率为0的。而对于那些漏标的语义概念,本文发现它们在整幅图像中所占的面积不是很56 第五章基于深度学习和搜索的图像标注算法大,例如第3幅中的fish和第4幅中的sky和tree。从中可以看出,本文提出的图像标注算法的准确率较高的,结果可靠性高。5.8小结本章主要针对第三章和第四章基于分类的图像检索算法进行了改进,指出了基于分类的图像检索语义单一不能很好描述图像的缺点。因此,本章主要解决多标记问题,即一幅图像中包含多个重要语义对象,可以被同时标注为多个类别。针对当前的基于搜索的图像语义标注算法的相似度图像检索还是利用基于内容的图像检索方法,只是利用了底层视觉特征,存在语义鸿沟问题。观察到基于搜索和基于深度学习的语义特征提取都具有数据驱动这一个共性,因此把深度学习作为一个语义特征提取器引入到基于搜索的图像语义标注中,缩短语义鸿沟,提高标注准确率和可靠性。最后,在Corel5k图像数据集上进行了仿真实验。设计了一个卷积神经网络,并在caffe深度学习架构上进行了训练,得到模型用来提取高层语义特征。最后对实际图像进行了测试,发现语义标注准确率较高,可靠性强。57 第六章总结和展望第六章总结与展望6.1总结本论文研究了国内外图像检索系统的研究进展,以层次化的语义模型、深度学习理论为基础,为减小语义鸿沟问题而设计了基于深度学习的图像检索系统。图像检索系统包含图像语义标注和图像检索排序等多个功能模块。论文的主要工作总结如下:(1)围绕着图像检索中的语义鸿沟问题进行了深入分析,类别了语义层次模型和深度学习网络,指出深度学习的高层特征具有对象级的语义概念,启发笔者可以用深度学习来缩短图像检索中语义鸿沟。研究了最常见的几种深度学习网络模型,为下文设计基于深度学习的图像语义特征提取系统提供理论依据。同时对图像检索系统进行阐述,从图像特征提取,相似性度量,检索系统性能评价等方面进行分析,为实现大规模图像自动语义标注提供理论基础。(2)提出一种无监督的深度学习算法用来图像语义特征提取和分类。在带有标签的图像资源有限的情况下,先用稀疏降噪自动编码器算法在大量无标签数据驱动下自主学习特征,然后利用知识传播赋给卷积神经网络,当成语义特征提取器提取出特征,并用L2-SVM进行训练,最后采用多级级联方式把多个L2-SVM分类器融合起来,提高分类准确率。同时分析了单层卷积神经网络下,影响网络分类准确率的因素,发现随着卷积核个数增加对分类准确率贡献越来越小,池化的大小对分类准确率有很大影响。在STL-10数据集上进行了算法验证,在单个网络的情况下,本文的算法获得了最高的准确率。(3)利用第三章提出的算法,在MATLABGUI上开发了一套基于深度学习图像检索系统,介绍了软件功能和模块,包含基于分类的图像语义标注,基于语义特征的图像检索两种功能。以实际图像为例,对基于深度学习的图像分类模块和图像检索模块进行了仿真验证。(4)针对基于分类的图像语义标注的问题,设计了基于深度学习和搜索的图像语义标注优化算法,根据第四章的F值曲线确定搜索相似图像语义特征距离阈值为0.2,然后设计了合并算法对语义概念向量进行打分,并归一化为一个置信概率向量,待标注的图像只标注大于0.1的语义概念。并通过实例图像对语义标注过程进行了仿真验证,实验结果表明基于深度学习和搜索的图像语义标注优化算法58 第六章总结和展望能够很好的标注图像,具有较强的可靠性。通过本项目的研究,实现了基于深度学习的图像语义检索初步架构,为解决语义鸿沟问题提供了新思路,并针对标签数量稀少不足以支撑起深度学习训练的问题,采用稀疏降噪自动编码器逐层贪婪训练的方法训练得各层卷积核特征,实现了无监督学习的深度语义特征提取器。此外,用深度学习改进了基于搜索的图像语义标注算法,为图像语义标注提供了新思路。6.2展望进一步提高图像检索的准确率解决语义鸿沟问题是目前图像检索领域中的主要问题。随着移动互联网飞速发展和用户上传到web上的图像资源的爆炸式增长,有效整合利用这么庞大的数据资源和满足用户快速检索到自己想要的图像成为当前图像检索的迫切需求。本文利用深度学习技术在图像分类、图像标注及以图搜图上作了一些工作,还有以下几个方面值得进一步的深入研究:(1)目前的深度学习网络均要求输入图像的尺寸是一致的,对于不同尺寸的另一个数据集只有两种选择:1)Resize为深度网络一致的尺寸,2)重新设计一个深度学习网络,重新训练。这样就导致前一个网络学得的特征不能传递给下一个网络,知识没法迁移。如何解决多尺寸输入,多尺寸训练问题,是当前深度学习领域一个非常值得研究的课题。(2)目前有学者把深度学习应用在基于图像分割的对象检测上,以此来对图像进行精准标注,取得了很大成绩,例如RCNN,依赖于候选框提取算法(selectivesearch),同时也存在时间开销很大问题。如何改进候选框提取算法,降低时间开销也是进一步值得研究的方向。(3)在图像标注中,引入反馈机制,建立用户对图像标注的满意度的评价的交互机制,提高图像标注的准确率。59 参考文献参考文献[1]张好.图像语义特征的提取与分析[D].上海:上海交通大学,2006.[2]LiuY.,ZhangD.S.,LuG.J.,etal.ASurveyofContent-basedImageRetrievalwithHigh-levelSemantics[J].PatternReorganization,2007,40(1):262-282[3]杜骞.深度学习在图像语义分类中的应用[D].湖北:华中师范大学,2014[4]HintonGE,SalakhutdinovRR.Reducingthedimensionalityofdatawithneuralnetworks[J].Science,2006,313(5786):504-507.[5]EakinsJP.AutomaticImageContentRetrieval-AreWeGettingAnywhere?[J].DeMontfortUniversityMiltonKeynes,1996(1):123-135.[6]ColomboC,BimboAD,PalaP.SemanticsinVisualInformationRetrieval[J].IEEEMultimedia,1999,6(3):38-53.[7]AlejandroJaimes,ChangSF.Model-BasedClassificationOfVisualInformationForContent-BasedRetrieval[J].Storage&RetrievalforImage&VideoDatabasesVIIIs&T/spie,1999,3656:402-414.[8]FengJing,MingjingLi,LeiZhang,etal.LearninginRegion-BasedImageRetrieval[M].ImageandVideoRetrieval.SpringerBerlinHeidelberg,2003:206-215.[9]C.P.TownandD.Sinclair.Contentbasedimageretrievalusingsemanticvisualcategories.Technicalreport,AT&TLaboratoriesCambridge,2000.[10]JamesZWang,JiaLi,DesmondChan,andGioWiederhold.Semantics-sensitiveretrievalfordigitalpicuturelibraries.Technicalreport,1999.[11]Tong,Simon,Chang,Edward.Supportvectormachineactivelearningforimageretrieval[C].ProceedingsoftheninthACMinternationalconferenceonMultimedia.ACM,2001:107-118.[12]ZhengXin,LinXueyin.LocalityPreservingClusteringforImageDatabase[J].JournalofComputerResearchandDevelopment,2006,43(3):885-891.[13]MaWY,ManjunathBS.NeTra:atoolboxfornavigatinglargeimagedatabases[C].ImageProcessing,1997.Proceedings.,InternationalConferenceon.IEEE,1997,1:568-571.[14]ZoranN,BurdickJW.Spikedetectionusingthecontinuouswavelettransform[J].IEEEtransactionsonbio-medicalengineering,2005,52(1):74-87.[15]WangJZ,LiJ,WiederholdyG.SIMPLIcity:Semantics-sensitiveIntegratedMatchingforPictureLIbraries[J].IEEETransactionsonPatternAnalysis&60 参考文献MachineIntelligence,1999,23(9):171-193.[16]Jeon,J,Lavrenko,V,Manmatha,R.AutomaticImageAnnotationandRetrievalusingCross-MediaRelevanceModels[C].Proceedingsofthe26thInternationalACMSIGIRConferenceSIGIR2003,ACM2003.2003:119-126.[17]NAVOND.Forestbeforetrees:theprecedenceofglobalfeaturesinvisualperception[J].CognitivePsychology,1977,9(3):353-383.[18]FANJian-ping,GAOYu-l,iLUOHang-zaietal.Statisticalmodelingandconceptualizationofnaturalimages[J].PatternRecognition.2005,38(6):865-885.[19]LIJia,WANGJ.Automaticlinguisticindexingofpicturesbyastatisticalmodelingapproach[J].IEEETransonPatternAnalysisandMachineIntelligence,2003,25(9):1075-1088.[20]LUOJie-bo,SAVAKISAE,SINGHALA.ABayesiannetwork-basedframeworkforsemanticimageunderstanding[J].PatternRe-cognition,2005,38(6):919-934[21]AKSOYS,KOPERSKIK,TUSKC,etal.LearningBayesianclassifiersforsceneclassificationwithavisualgrammar[J].IEEETransonGeoscienceandRemoteSensing,2005,43(3):581-589.[22]HANYu-tao,QIXiao-jun.AcomplementarySVMs-basedimageannotationsystem[C].ProcofInternationalConferenceonImageProcessing.2005:1185-1188.[23]GOHKS,CHANGEY,LIBei-tao.Usingone-classandtwo-classSVMsformulticlassimageannotation[J].IEEETransonKnowledgeandDataEngineering,2005,17(10):1333-1346.[24]LiuW,SunY,ZhangH.MiAlbum-asystemforhomephotomanagemetusingthesemi-automaticimageannotationapproach[C].AcmMultimediaConference.MULTIMEDIA'00ProceedingsoftheeighthACMinternationalconferenceonMultimedia,2000:479-480.[25]HeX,KingO,MaWY,etal.Learningasemanticspacefromuser'srelevancefeedbackforimageretrieval[J].Circuits&SystemsforVideoTechnologyIEEETransactionson,2003,13(1):39-48.[26]JunweiH,NganKN,MingjingL,etal.Amemorylearningframeworkforeffectiveimageretrieval.[J].IEEETransactionsonImageProcessingAPublicationoftheIEEESignalProcessingSociety,2005,14(4):511-524.[27]SHENHeng-tao,OOIBC,TANKL.GivingmeaningstoWWWim-ages[C].Procofthe8thACMInternationalConferenceonMultime-dia.NewYork:ACMPress,2000:39-47.61 参考文献[28]YANGHC,LEECH.ImagesemanticsdiscoveryfromWebpagesforsemantic-basedimageretrievalusingself-organizingmaps[J].ExpertSystemswithApplications,2008,34(1):266-279.[29]Ames,Morgan,Naaman,Mor.Whywetag:motivationsforannotationinmobileandonlinemedia[C].ProceedingsoftheSIGCHIConferenceonHumanFactorsinComputingSystems.ACM,2007:971-980.[30]RattenburyT,GoodN,NaamanM.Towardsautomaticextractionofeventandplacesemanticsfromflickrtags[C].Proceedingsofthe30thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.ACM,2007:103-110.[31]朱蓉.基于语义信息的图像理解关键问题研究[J].计算机应用研究,2009,26(4):1234:1240.[32]HintonGE,SalakhutdinovRR.Reducingthedimensionalityofdatawithneuralnetworks[J].Science,2006,313(5786):504-507.[33]HintonGE,OsinderoS,TehYW.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006,18(7):1527-1554.[34]VincentP,LarochelleH,LajoieI,etal.Stackeddenoisingautoencoders:Learningusefulrepresentationsinadeepnetworkwithalocaldenoisingcriterion[J],TheJournalofMachineLearningResearch,2010,9999:3371-3408.[35]LeeH,GrosseR,RanganathR,etal.Convolutionaldeepbeliefnetworksforscalableunsupervisedlearningofhierarchicalrepresentations[C].The26thAnnualInternationalConferenceonMachineLearning(ICML2009).Montreal:ACM,2009:609-616.[36]MarkoffJ.Howmanycomputerstoidentifyacat?[N].TheNewYorkTimes,2012.[37]KrizhevskyA,SutskeverI,HintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[C].2012AdvancesinNeuralInformationProcessingSystems(NIPS2012).LakeTahoe:NIPSfoundation,2012,1(2):4.[38]李彦宏.2012百度年会主题报告:相信技术的力量[R].北京:百度,2013.[39]FanH,CaoZ,JiangY,etal.LearningDeepFaceRepresentation[J].EprintArxiv,2014.[40]DattaR,JoshiD,LiJ,etal.Imageretrieval:Ideas,influences,andtrendsofthenewage[J].AcmComputingSurveys,2008,40(2):2007.[41]Lee,Honglak,Grosse,Roger,Ranganath,Rajesh,etal.Convolutionaldeepbeliefnetworksforscalableunsupervisedlearningofhierarchicalrepresentations[C].InInternationalConferenceonMachineLearning.2009:609-616.62 参考文献[42]ZeilerMD,FergusR.VisualizingandUnderstandingConvolutionalNetworks[M].ComputerVision–ECCV2014SpringerInternationalPublishing,2014:818-833.[43]马冬梅.基于深度学习的图像检索研究[D].内蒙古大学,2014.5:9-10.[44]夏定元.基于内容的图像检索通用技术研究及应用[D].华中科技大学,2004:46-47.[44]MoghaddamB,PentlandA.Probabilisticvisuallearningforobjectdetection[C].ComputerVision,1995.Proceedings.,FifthInternationalConferenceon.IEEE,1995:786-793.[45]MurphyK,TorralbaA,EatonD,etal.ObjectDetectionandLocalizationUsingLocalandGlobalFeatures.[J].LectureNotesinComputerScience,2006,12(1):20-26.[47]D.Fox,L.Bo,X.Ren.KernelDescriptorsforVisualRecognition[J].AdvancesinNeuralInformationProcessingSystems,2010.[48]Norbert,Krüger,Peter,Janssen,Sinan,Kalkan,etal.Deephierarchiesintheprimatevisualcortex:whatcanwelearnforcomputervision?[J].IEEETransactionsonSoftwareEngineering,2013,35(8):1847-1871.[49]HubelDH,WieselTN.Receptivefields,binocularinteractionandfunctionalarchitectureinthecat'svisualcortex.[J].JournalofPhysiology,1962,160(1):106-154.[50]D.Marr,Vision.AComputationalInvestigationintotheHumanRepresentationandProcessingofVisualinformation[M].Freeman,1982.[51]HintonGE,OsinderoS,TehYW.Afastlearningalgorithmfordeepbeliefnets.[J].NeuralComputation,2006,18(7):1527-54.[52]Le,Q.V.Buildinghigh-levelfeaturesusinglargescaleunsupervisedlearning[C].Acoustics,SpeechandSignalProcessing(ICASSP),2013IEEEInternationalConferenceon.IEEE,2011:8595-8598.[53]KrizhevskyA,SutskeverI,HintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[J].AdvancesinNeuralInformationProcessingSystems,2012,25:2012.[54]BoL,RenX,FoxD.HierarchicalMatchingPursuitforImageClassification:ArchitectureandFastAlgorithms[J].Nips,2011:2115-2123.[55]YuK,LinY,LaffertyJ.Learningimagerepresentationsfromthepixellevelviahierarchicalsparsecoding[C]//Proceedings/CVPR,IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.2011:1713-1720.63 参考文献[56]GohH,ThomeN,CordM,etal.LearningDeepHierarchicalVisualFeatureCoding[J].IEEETransactionsonNeuralNetworks&LearningSystems,2014,25(12):2212-25.[57]A.CoatesandA.Y.Ng.Theimportanceofencodingversustrainingwithsparsecodingandvectorquantization[J].Proceedingsofthe28thInternationalConferenceonMachineLearning,2011.[58]SchererD,MüllerA,BehnkeS.EvaluationofPoolingOperationsinConvolutionalArchitecturesforObjectRecognition.[M].ArtificialNeuralNetworks–ICANN2010.SpringerBerlinHeidelberg,2010:92-101.[59]BengioY.LearningDeepArchitecturesforAI[J].Foundations&Trends®inMachineLearning,2009,2(1):1-127.[60]Lee,Honglak,Grosse,Roger,Ranganath,Rajesh,etal.Convolutionaldeepbeliefnetworksforscalableunsupervisedlearningofhierarchicalrepresentations[C].InInternationalConferenceonMachineLearning.2009:609-616.[61]KrizhevskyA,SutskeverI,HintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[J].AdvancesinNeuralInformationProcessingSystems,2012,25:2012.[62]http://www-cs-faculty.stanford.edu/~acoates/stl10/[63]GensR,DomingosP.DiscriminativeLearningofSum-ProductNetworks[J].Nips,2012:3239-3247.[64]MiclutB.Committeesofdeepfeedforwardnetworkstrainedwithfewdata[J].LectureNotesinComputerScience,2014,8753:736-742.[65]BoL,RenX,FoxD.UnsupervisedFeatureLearningforRGB-DBasedObjectRecognition[J].SpringerTractsinAdvancedRobotics,2013,88:387-402.[66]MairalJ,KoniuszP,HarchaouiZ,etal.ConvolutionalKernelNetworks[J].AdvancesinNeuralInformationProcessingSystems,2014:2627-2635.[67]RomeroA,RadevaP,GattaC.Meta-ParameterFreeUnsupervisedSparseFeatureLearning[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2015,37(8):1716-1722.[68]LiJ,WangJZ.AutomaticLinguisticIndexingofPicturesbyastatisticalmodelingapproach[J].PatternAnalysis&MachineIntelligenceIEEETransactionson,2003,25(9):1075-1088.[69]ChangE,GohK,SychayG,etal.CBSA:content-basedsoftannotationformultimodalimageretrievalusingbayespointmachines[J].IEEETransactionsonCircuits&SystemsforVideoTechnology,2003,13(1):26-38.64 参考文献[70]Gustavo,Carneiro,AntoniB,Chan,PedroJ,Moreno,etal.Supervisedlearningofsemanticclassesforimageannotationandretrieval.[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2007,29(3):394-410.[71]DuyguluP,BarnardK,FreitasJFGD,etal.ObjectRecognitionasMachineTranslation:LearningaLexiconforaFixedImageVocabulary[C].Proceedingsofthe7thEuropeanConferenceonComputerVision-PartIV.Springer-Verlag,2002:97-112.[72]FengSL,ManmathaR,LavrenkoV.MultipleBernoullirelevancemodelsforimageandvideoannotation[C].ComputerVisionandPatternRecognition,2004.CVPR2004.Proceedingsofthe2004IEEEComputerSocietyConferenceon.IEEE,2004:II-1002-II-1009Vol.2.[73]Jeon,J,Lavrenko,V,Manmatha,R.AutomaticImageAnnotationandRetrievalusingCross-MediaRelevanceModels[C].Proceedingsofthe26thInternationalACMSIGIRConferenceSIGIR2003,ACM2003.2003:119-126.[74]LavrenkoV,ManmathaR,JeonJ.AModelforLearningtheSemanticsofPictures[J].Nips,2003:553-560.[75]Y.Mori,H.Takahashi,andR.Oka.Image-to-wordtransformationbasedondividingandvectorquantizingimageswithwords[C].MISRM,1999:405-409.[76]ChanghuWang,ShuichengYan,LeiZhang,etal.Multi-labelsparsecodingforautomaticimageannotation[M].Multi.IEEE,2009:1643-1650.[77]LiuY,YangF.Automaticimageannotationbasedonscenesemantictrees[J].JournalofImage&Graphics,2013.[78]MakadiaA,PavlovicV,KumarS.ANewBaselineforImageAnnotation[M].ComputerVision–ECCV2008.SpringerBerlinHeidelberg,2008:316-329.[79]GuillauminM,MensinkT,VerbeekJ,etal.TagProp:Discriminativemetriclearninginnearestneighbormodelsforimageauto-annotation[C].ComputerVision,2009IEEE12thInternationalConferenceon.IEEE,2009:309-316.65 致谢致谢时光飞逝,回顾近三年的研究生生涯,心中感慨万千。我从一个懵懵懂懂的本科生慢慢成长为对科研有一点认识的研究生,其中的各种成长与积累,绝大部分都源自我们实验室的良好的交流制度与导师的孜孜教诲。实验内的交流和每周的汇报以及问题探讨,让我获益匪浅。而今,值此论文完成之际,也特此向恩师以及在我硕士生涯中帮助过我的各位老师与师兄师姐们表达真挚的感谢。首先,必须要深深地感谢我的恩师——丁永生教授。自从2013年底本科毕业设计开始,丁教授便是我的指导教师。我也选择了图像处理作为我的研究方向。丁老师经常教导我们做研究要静得下心,遇到问题不要怕,要自己学会去钻研,这是一个痛苦的自我提升过程,若能咬牙坚持下去就能体会到学术的快乐。丁老师学识非常渊博,实验室那么多的研究方向,当学生遇到问题,总是能很快找到问题所在,给我们指明方向。丁老师即使很忙碌,也会挤出时间来参加交流会,了解同学的研究情况,对于问题有着自己很深刻的认识,短短几句话都能给我很深的感触,不但是学术上,更是人生上的。另外,丁老师最让人动容的,是他在百忙之余,对同学的文章,一词一句认真揣摩,大到文章结构,小到标点符号,提出十分宝贵的意见,经过反复几轮修改后才满意。从恩师身上,我总能学到很多在别处永远也学不到的东西,恩师严谨的治学态度、刻苦钻研精神和诲人不倦的育人精神是我终身学习的榜样。另外,还要感谢信息学院智能系统与网络智能研究所的郝矿荣教授。郝教授在我的研究生期间协助指导我的课题研究与论文研究,给了我许多宝贵的意见和鼓励。在此向郝老师表示深深的感谢!另外,还要感谢智能系统与网络智能研究所的所有博士、硕士师兄师姐们,感谢在学术上和生活上的帮助。同时,也感谢和我共同研究的师弟师妹们,给了我相互交流问题,互相学习的机会,在交流中不断提高自己,发现自己的问题。在此,再次感谢实验室全体!感谢我的室友郭浩和罗蒙在日常生活中对我的帮助和鼓励。感谢辅导员张雪琴老师对我的鼓励和帮助。张老师认真负责的工作态度,和对学生尽心尽力的教导让我们深深的感激。最后,我要感谢我的家人。这么多年来,他们对我的关心和爱护,是我得以不断向前的不竭动力。也让我少了后顾之忧,可以安心的在学校里学习知识。我只能以更为优秀的成绩作为对他们的回报。在此,谨向这三年研究生生活中给予我帮助的老师、同学、亲人、朋友等等66 致谢致以最真挚的谢意和最美好的祝福!祝身体健康,事业有成。罗世操2016年1月9日67 附录附录:攻读硕士期间参加的项目及成果1、攻读硕士期间发表的论文和申请的专利一、会议论文与杂志论文[1]罗世操,丁永生,郝矿荣.基于共生进化的柔性分拣作业单机调度优化[J],计算机工程,录用.(中文核心期刊)[2]ShicaoLuo,YongshengDing,KuangrongHao.MultistageCommitteesofDeepFeedforwardConvolutionalSparseDenoiseAutoencoderforObjectRecognition[C].CAC2015.录用.(EI检索)[3]YuanqianCao,ShicaoLuo,YongshengDing,KuangrongHao.TheTwo-DimensionalCodeImageTiltCorrectionMethodBasedonLeastSquaresSupportVectorMachines[C].ICALIP2014,pp:926-930.二、发明专利与实用新型专利[1]丁永生,罗世操,郝矿荣,一种服装的快速响应矩阵二维码识别方法,国家发明专利(申请号:201410097740.1)68

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭