基于视觉描述子的图像检索与分类方法研究

基于视觉描述子的图像检索与分类方法研究

ID:35070202

大小:6.05 MB

页数:74页

时间:2019-03-17

上传者:U-56225
基于视觉描述子的图像检索与分类方法研究_第1页
基于视觉描述子的图像检索与分类方法研究_第2页
基于视觉描述子的图像检索与分类方法研究_第3页
基于视觉描述子的图像检索与分类方法研究_第4页
基于视觉描述子的图像检索与分类方法研究_第5页
资源描述:

《基于视觉描述子的图像检索与分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

单位代码10476学号1308化0558I_分类号TP'18II?硕±学位论文基于视觉描述子的围像检索与分类方法硏究學科、专业:计算机软件与理论研究方向:图像处摆、粒计算申请学位类别:理学硕±申请人:李玉惠指导教师:徐久成教授二〇-六年四月〇 独创性声明本人郑軍卢明:所里交的学位论义洁我个人化甘帅巧导T进行的硏%工作及椒得别加林化和致谢的地方外,论文小不包含其他的研究成果。尽我所知,除了义中特人已经发表或撰写的研究成果,也不包含为获巧河南帅范大学或巧他教巧机构的学位一或证书所使用H的材料。4我同工作的问忠对本研究所做的化何巧献均已巧论义中作了明确的说明并表示了谢盧。签名:知司处:畫玉惠■M24年关于论文使用授权的说明本人克余了解河南帅范火学符关保巧、使用学位论义的规定,即:荷枚保留并向。本人授权河闺家有关部口或机构送交论文的复巧件和撼盘,允许论文被查阅和借阅n南帅范大学将学位论文的全部或部分内容编入相关数据库进行检崇,f勒采用縣印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)签么:宅f棄哥师签知幸抑\}雜, RESEARCHONIMAGERETRIEVALANDCLASSIFICATIONMETHODWITHVISUALDESCRIPTORSADissertationSubmittedtotheGraduateSchoolofHenanNormalUniversityinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofScienceByLiYuhuiSupervisor:Prof.XuJiuchengApril,2016 摘要随着个人媒体设备的快速普及和互联网技术的出现,现实生活中图像的数量急剧增长,因此如何快速有效地组织和管理这些图像成为一个研究热点。与此同时,各种新兴技术的迅速发展导致了用户对图像检索与分类需求的不断变化,尤其是在图像含义理解方面的需求,但内容越来越丰富的图像加剧了底层视觉描述信息与高层语义视觉描述信息之间的“语义鸿沟”,这给图像的分类与检索技术带来很大的挑战。图像有着丰富的视觉描述信息,包括颜色、形状、纹理、局部、空间信息以及高层的文本描述信息等,这些用来解释图像的视觉描述信息统称为视觉描述子,视觉描述子对图像检索与分类有着重要的研究意义。本文重点围绕图像中视觉描述子的表示、提取和使用,对图像检索与分类进行研究,主要工作体现在以下两个方面:(1)提出了基于粗糙集推理规则和颜色互信息描述子的图像检索方法。为了减小不确定信息给图像检索结果带来的限制,在底层描述子到高层语义的映射已经完成并形成图像对象文本表示的基础上,根据粗糙集规则提取的相关理论,本文提出了基于粗糙集推理规则的图像检索模型。在此模型中,由于底层视觉描述子到语义层描述子的映射存在信息丢失,这造成了“语义鸿沟”的问题。为了克服该问题带来的检索不精确性,在基于粗糙集推理规则的图像检索模型的基础上,进一步引入颜色相关视觉描述子,提出了基于粗糙集推理规则和颜色互信息描述子的图像检索模型,该模型利用了颜色互信息描述子充分考虑底层视觉描述信息变化的优势,从而实现了精确检索。本文提出的这两种检索模型实现了多模态的图像检索,通过仿真实验证明了该方法可以有效改善图像检索的精度。(2)提出了基于空间差异描述子的图像分类方法。在图像分类中,比较著名的一种方法是空间金字塔匹配模型,该模型是词袋(BoW)模型在特征编码方面的一个拓展,它首先将一幅图像分割为逐渐增加的子区域,然后将每个子区域的直方图级联起来。然而,空间金字塔匹配模型并没有考虑子区域间的空间差异信息,为了利用这一空间差异信息,本文提出一种新的描述子--空间差异描述子,在此基础上提出了基于空间差异描述子的图像分类方法。该方法主要包括五部分:底层描述子的提取,稀疏编码,描述子集成,空间差异描述子的计算和线性分类。计算出的空间差异描述子主要用于连I 接空间金字塔匹配模型的词袋直方图。为了验证所提方法的有效性,本文在Scene15、Caltech101和Caltech256图像库上进行了实验,实验结果表明本文所提出的方法可有效地提高图像的分类精度。关键词:图像检索,图像分类,视觉描述子,词袋模型,粗糙集II ABSTRACTWiththerapidpopularizationofpersonalmediadevicesandtheemergenceoftheinternettechnology,thenumberofimagesinreallifegrowsrapidly,sohowtoorganizeandmanagetheseimagesquicklyandeffectivelybecomesahotspotofresearch.Inaddition,therapiddevelopmentonallkindsofemergingtechnologieshasleadedtotheunceasingchangeofusers’requirementforimageretrievalandclassification,especiallyinthedemandtounderstandsemanticsoftheimage,thefactthatthecontentofimagesbecomesincreasinglyrichintensifiesthe“semanticgap”betweenunderlyingvisualdescriptioninformationandhigh-levelsemanticvisualdescriptioninformation,whichhasbroughtagreatchallengetotheimageretrievalandclassificationtechnology.Imagesownwealthyvisualdescriptioninformationincludingcolor,shape,texture,thelocal,spatialinformation,andthehigh-leveltextinformationdescriptors,etc.Thesefeaturesusedtoexplaintheimagevisualdescriptioninformationarecollectivelyknownasvisualdescriptors.Visualdescriptorshaveveryimportantsignificanceforimageretrievalandclassification.Aroundtheimagevisualdescriptorrepresentation,extractionandtheuse,thispapermainlyfocusesontheimageretrievalandclassificationtostudy,whosemainworksofthispaperareembodiedinthefollowingtwoaspects:(1)Putforwardanimageretrievalmethodbasedonroughsetinferencerulesandcolormutualinformationdescriptor.Inordertodecreasetherestrictionwhichisbroughtbytheuncertaininformationtotheresultsofimageretrieval,basedonthemappingfromunderlyingdescriptortohigh-levelsemantichavingbeencompletedandthetextrepresentationhavingbeenformedforimages,accordingtothetheoryofrulesextractioninroughset,animageretrievalmodelbasedonroughsetinferencerulesisproposed.However,inthismodel,themappingfromlow-levelvisualdescriptorstohigh-levelsemanticdescriptorsexistsinformationloss,whichcausesthe“semanticgap”problem.Inordertoreleasetheretrievingimprecisionbroughtby“semanticgap”problem,aftertheimageretrievalmodelbasedonroughsetinferenceruleshavingbeencompleted,foronemoresteptherelatedvisualdescriptorofcolorisintroduced,andthentheimageretrievalmethodbasedonroughsetinferencerulesandcolormutualinformationdescriptorisproposed,whichtakesfullconsiderationoftheadvantagesinunderlyingvisualdescriptionvariationandrealizesthepreciseretrievalofinformation.ThroughtheintegrationoftheproposedtwoIII imageretrievalmodels,amulti-modelimageretrievalschemeisrealized.Theexperimentalresultsshowthattheproposedmethodcanimprovetheprecisionofimageretrievaleffectively.(2)Putforwardanimageclassificationmethodbasedonspatialdifferencedescriptor.Intheimageclassificationfield,afamousmodelisspatialpyramidmatchingmodel.Intheaspectoffeatureencoding,thespatialpyramidmatchingmodelisanextensionoftheBag-of-Words.Firstly,itdividesanimageintograduallygrowingsubareas,andthencascadesallsubareahistograms.However,thespatialpyramidmatchingmodeldoesnotconsiderspatialdifferenceinformationbetweensubareas.Inordertomakefulluseoftheignoredinformation,anewdescriptorisputforward,calledspatialdifferencedescriptor,andthentheimageclassificationmethodbasedonthespatialdifferencedescriptorisproposedinthispaper.Thismethodmainlycontainsfivesteps:lowleveldescriptorsextraction,sparsecoding,descriptorspooling,spatialdifferencedescriptorscomputationandlinearclassification,amongwhichthespatialdifferencedescriptorcomputedoutisusedtoconnecthistogramsofBag-of-Wordsmodelinspatialpyramidmatchingmodel.Inordertoverifytheeffectivenessoftheproposedmethod,experimentsonScene15,Caltech101andCaltech256databaseareconductedinthispaper,andtheexperimentalresultsshowthatthisproposedmethodimprovestheaccuracyofimageclassificationeffectively.KEYWORDS:imageretrieval,imageclassification,visualdescriptor,Bag-of-Wordsmodel,roughsetIV 目录摘要..............................................................................................................................IABSTRACT..................................................................................................................III目录.............................................................................................................................V第一章绪论................................................................................................................11.1研究背景及意义................................................................................................11.1.1图像检索的研究背景及意义.....................................................................11.1.2图像分类的研究背景及意义.....................................................................21.2研究现状..........................................................................................................31.2.1图像检索的研究现状................................................................................31.2.2图像分类的研究现状................................................................................41.3论文研究内容与结构安排..................................................................................51.3.1主要研究内容...........................................................................................51.3.2结构安排..................................................................................................61.4本章小结...........................................................................................................7第二章基于视觉描述子的图像检索与分类的基础知识.................................................92.1视觉描述子的概念来源......................................................................................92.2视觉描述子........................................................................................................92.2.1底层描述子..............................................................................................92.2.2中层描述子.............................................................................................122.2.3高层描述子.............................................................................................142.3视觉描述子相似度计算函数.............................................................................162.4图像检索与分类的性能评估标准......................................................................182.5图像分类中常用的分类器.................................................................................192.6本章小结..........................................................................................................21V 第三章基于粗糙集推理规则和颜色互信息描述子的图像检索方法.............................233.1引言.................................................................................................................233.2粗糙集及其推理规则的相关概念.....................................................................243.2.1粗糙集的基本概念..................................................................................253.2.2知识的概率分布......................................................................................253.2.3基于粗糙集理论的规则提取方法.............................................................253.3基于朴素贝叶斯理论的图像标注方法...............................................................263.4基于粗糙集推理规则和颜色互信息描述子的图像检索模型..............................263.4.1基于粗糙集推理规则的图像检索模型.....................................................263.4.2基于颜色互信息描述子的图像检索模型..................................................293.5实验分析..........................................................................................................313.6本章小结..........................................................................................................35第四章基于空间差异描述子的图像分类方法..............................................................374.1引言..................................................................................................................374.2基于空间差异描述子的图像分类模型...............................................................384.2.1底层描述子提取......................................................................................394.2.2稀疏编码.................................................................................................394.2.3描述子集成方法......................................................................................404.2.4空间差异描述子的计算...........................................................................414.2.5线性分类.................................................................................................434.3实验分析..........................................................................................................434.4本章小结..........................................................................................................50第五章结论.................................................................................................................515.1工作总结..........................................................................................................515.2今后研究构想...................................................................................................52参考文献......................................................................................................................53致谢............................................................................................................................61VI 攻读硕士学位期间发表论文及参与科研情况................................................................63独创性声明...............................................................................................................65关于论文使用授权的说明.............................................................................................65VII 第一章绪论第一章绪论1.1研究背景及意义随着个人高科技数码产品的普及和飞速发展,互联网上以及个人存储的图像数量急剧增多,因此对图像的理解、索引、检索和分类成为必然需要。图像底层视觉描述子的提取、物体所处场景的表示、图像识别以及图像中所含物体之间的关系都隶属于对图像视觉内容理解与表达的范畴。图像检索是研究图像视觉描述子的使用、相似度计算和查寻排序的问题,而作为计算机视觉基本问题的图像分类主要用于评测图像视觉描述子是否能显著地表达整幅图像。图像检索与分类问题皆依赖于图像视觉描述子的提取、表示和使用,基于此背景,本文对基于视觉描述子的图像检索和分类方法进行了相应的研究。下面分别对图像检索与分类的研究背景及意义、国内外研究现状进行简单的介绍。1.1.1图像检索的研究背景及意义随着各种高科技数码拍照和摄像设备的普及,以及大容量存储技术的快速发展,人们拍摄和存储了越来越多的图像。与此同时,由于互联网技术的发展,论坛、各类网站的个人博客、社交网络、微博等人与人互动性非常强的应用也为人们所经常使用,人们可以方便地通过这些应用平台与朋友或陌生人分享自己或他人生活中获取到的图片,其中Flickr、Picasa、Twitter、Facebook等是这些应用中规模比较大的应用平台。虽然这些应用平台中大部分图像都是由分散在各地的用户自主上传的,但由于使用者数量的急剧增加,这些图像的规模也都呈现出几何级数级别的增长。Flickr上图像数量在2010年9月就已超过50亿,Facebook上图片的增长速度也异常快,几乎平均每周就有2.2亿,即平均每天3亿幅图像被上传。因此能够有效地管理、存储、索引和检索数量如此庞大的图像数据库,实现当用户查找图像时能够快速有效地查询到自己所需[1]要的图像信息,这已是工业界和学术界共同关注与研究的热点问题之一。图像检索是近几十年发展起的新兴研究方向,根据图像视觉描述子提取方式的不同、图像表示方式的多样性以及检索方法的迥异,图像检索目前主要分为四大类:基于文本的图像检[2-7]索,基于元数据的图像检索,基于内容的图像检索和基于语义的图像检索。1 基于视觉描述子的图像检索与分类方法研究从图像检索的角度考虑,由于对图像文本的检索、图像元数据的检索、图像内容的检索以及图像语义的检索都离不开对视觉内容信息的描述,因此,视觉描述子的研究对各类图像检索方法都具有重要的意义。与此类似的还有图像分类问题,视觉描述子的提取与表示在很大程度上会影响图像分类的性能,作为计算机视觉领域的一个基本问题,对其进行研究同样具有非常重要的意义。1.1.2图像分类的研究背景及意义作为人工智能与计算机视觉领域的基本问题,图像分类通过使用机器学习方法对指定的一幅图像给出一个类别判断,如物体分类等。物体分类是区分目标物属于哪一类的过程,物体识别除了判断目标物属于哪一类还要给出它具体的描述信息,也就是说物体识别是其分类问题的延伸。人工智能逻辑推理的前提是对图像中的目标物进行辨别,因此图像分类是人工智能领域内的基础。纵观历史发展状况,数字图像处理呈现于20世纪中期,随后很快成长为一门独立学科。近几年,随着硬件和软件技术的迅速发展,数字图像处理逐渐引入了各类不同学科,从而形成了诸多的学科分支,其中图像分类就是它与智能信息处理相结合进而延伸出的一个分支。20世纪末,为了给计算机视觉相关领域内的学科提供出优秀的平台,一些顶级期刊开始被创办,如IJCV、TPAMI等。此外,与图像分类相关的应用也走进了人们的日常生活,民用的优秀软件就有很多,如谷歌相册、百度识图等,而企业级别的优秀软件则相对比较专业,如使用了图像分类和智能分析系统的三星安保产品技术就处于全球领先地位,可见图像分类己经走进我们日常生活的很多角落。为了给世界范围内研究图像分类的学者们一个可以进行公平比较的平台,MarkEveringham[8]等建立了基于计算学习网络、统计建模和PASCAL模式识别的视觉对象分类挑战项目,该项目面向全球公开标准图像库的数据集,并通过举办每年一次的公开图像分类挑战赛,对各种不同的分类算法进行比较和评价。经过50多年的发展,现在已经有很[9-14]多种方法和渠道可以对数字图像进行分类,但主要还是从视觉描述子和分类器的构建对图像分类方法进行改进。视觉描述子的改进和分类器算法性能的提升对图像分类精度都非常重要,对分类器的研究主要是对机器学习算法的研究,而对视觉描述子的研究主要是对图像描述子的提取和表示进行研究。因此构建新的、有效的视觉描述子对提升图像分类精度具有一定的理论价值和实际意义。2 第一章绪论1.2研究现状1.2.1图像检索的研究现状图像检索一般分为基于文本的图像检索、基于元数据的图像检索、基于内容的图像检索和基于语义的图像检索。在基于内容的图像检索中,主要研究的是基于图像底层视觉描述子的检索方法;而在基于文本、元数据和语义的图像检索中,主要研究的是基于图像中、高层视觉描述子的检索方法。基于文本的图像检索(Text-basedImageRetrieval,TBIR)最早可以追溯到20世纪70[15,16]年代。TBIR的主要特点是:首先需要对图像库中的图像进行人工标注,然后索引化这些标注,最后采用基于文本间相关性的匹配算法进行检索。早期的图像库规模较小,因此人工标注的代价不高。近年来,由于图像数量的急剧增加,基于文本的图像检索技术变得费时费力,因此该检索方法一般情况下已不被单独使用,而是作为基于元数据和基于语义图像检索的一部分来使用。基于元数据的图像检索系统仍会使用基于文本图像检索系统的相关技术,但其文本信息的获取方式从人工标注转换成了自动获取。目前著名的三大搜索引擎(Google、Yahoo和百度)最常用的元数据有图像所在网页的全地址、网页文本信息、超链接信息、替代文本信息以及用户的反馈信息等。图像文本信息虽然重要,但图像本身含有的视觉内容信息更重要。因此,从20世纪90年代起,很多研究者开始关注从图像内容中提取视觉描述信息的检索方法,即基[2]于内容的图像检索(Content-basedImageRetrieval,CBIR)。CBIR主要有四个问题需要研究:图像底层描述子的提取,图像描述子的索引方式,图像检索的输入方式和图像匹配算法。这四个问题并不是相互独立的,描述子不同时它们本身的索引结构也不同,用户输入图像种类的不同也会影响描述子的正常提取,匹配算法与索引方式更是息息[17,18][5]相关。相对有影响力的CBIR搜索引擎有QBIC、Virage、VisualSEEK、[6]Retrievalware、Photobook、Mars和Netra。以上搜索引擎都使用了基于内容的图像检索方法,它们虽然取得了长足的发展,但基于内容的图像检索方法仅仅考虑了图像底层视觉描述子的相似性度量,而没有考虑图像所涵盖的概念性语义,这不符合人们更倾向于用概念描述图像的习惯,因此研究者们提出了基于语义的图像检索方法。对于能否提升检索系统的性能,关键在于如何将人类能够感知的图像语义融合到3 基于视觉描述子的图像检索与分类方法研究检索中,该问题已得到研究者们广泛的关注,研究者们也都逐渐致力于基于语义的图像检索研究中。图像的语义检索已被应用到的领域有:遥感图像和地理信息系统的管[19][20,21][22,23]理与共享,Web图像检索以及电子商务,医学分析和远程医疗系统,系统[24-27][28,29]设计上的应用,专利检索和商标注册管理。需要提出的是,现有的语义图像检索技术仍存在缺陷:一方面,基于语义的图像检索没有考虑到图像语义间的不确定信息以及不同用户对图像检索结果需求不同的现象,因此提出有效的方法解决此类问题是有必要的;另一方面是基于语义的图像检索模型单调,不具有基于内容的图像检索的一些特性,因此将基于语义的图像检索方法和基于内容的图像检索方法结合起来对图像检索有重要的研究意义。1.2.2图像分类的研究现状图像分类一般可分为两部分:建立图像的视觉描述子,即视觉描述子的提取与表示;基于已知图像的类别模型,使用机器学习算法获取分类模型,然后使用获取到的分类模型对未知类别的图像进行分类。图像分类的第一个核心内容是视觉描述子的提取。所选取的描述子越能充分表达图像的语义内容,分类效果越好。与此同时,描述子也应该具有一定的鲁棒性。图像分类的另一个核心内容是机器学习方法。机器学习方法一般分为基于概率生成模型的方法和基于判别模型的方法,基于概率生成模型的方法主要是基于每类描述子的分布进行建模,而基于判别模型的方法则更侧重于针对[1]不同类别间的差异信息进行建模。[30]高斯混合模型(GMM)是常用的基于概率生成模型的图像分类方法。Vailaya在对图像描述子建模时使用了GMM,而对图像场景进行层次分类时则用到了贝叶斯分类器。高斯混合模型根据不同描述子来选择使用不同的分类方法。与基于词袋模型(BoW)的图[31-48]像表示方法相关的各种概率生成模型已被广泛应用于图像分类。BoW的最大优点是它能够把底层的视觉描述子转换成类似于文本的描述子,由于这种转换方法的出现,可将一些经典的文本处理算法用于图像分类。基于判别模型的方法中最常用的是支持向量机(SVM),而图像分类的关键是如何计算两幅图像间的距离,经典的方法是把这类计算距离的方法封装为SVM核函数,然后使用SVM完成最终分类。计算图像距离的方法可分为两类:第一类方法不使用空间描述子定义距离函数,而是把图像看作一个整体进行处理,该类图像描述子被称为全4 第一章绪论[49-51][52-58]局描述子;第二类方法使用了空间描述子定义距离函数,其中比较著名的一[52]种方法就是空间金字塔匹配模型(SpatialPyramidMatching,SPM),该方法借鉴了金字[50]塔匹配核(PyramidMatchKernel,PMK)的思想,在空间上将图像按照金字塔模式进行切分,根据切分的层次定义金字塔模型的块数,然后对每一层的每一块都提取其描述子直方图。当计算两幅图像的距离时,根据一定权重将两幅图像所对应的直方图距离进行求和。针对图像分类的两个核心问题,研究者们一方面对图像视觉描述子进行创新,另一方面对分类器进行改进,这两方面的研究成果都在一定程度上提升了分类精度,但面对人们对分类精度需求的不断提高,构建新的视觉描述子和研究更高效的分类器仍具有一定的理论价值和实际意义。1.3论文研究内容与结构安排1.3.1主要研究内容以视觉描述子的提取和使用为突破口,本文的主要工作体现在两个方面:第一,针对基于语义的图像检索方法中语义描述子的表示与匹配不精确的现象,根据现有图像检索的相关理论,对图像检索方法进行改进与创新;第二,针对现有的经典图像分类方法中存在的缺陷,构建新的视觉描述子,并将其应用于经典的图像分类方法。这两方面的工作概括如下:(1)传统的基于语义的图像检索方法没有考虑对象间存在的不确定性问题,通过引入粗糙集的相关概念在一定程度上缓解了该问题。在计算相似性度量的过程中,利用粗糙集推理规则中的置信度、覆盖度和支持度作用的不同,定义了新的相似性度量函数,提出了基于粗糙集推理规则的语义图像检索模型,实现了根据用户对检索结果需求的不同而调节检索参数的功能,从而达到检索出目标图像的目的。虽然基于粗糙集推理规则的语义图像检索模型已取得较好的效果,但这种方法并没有完全考虑底层视觉信息的影响,因此忽略了底层视觉信息向高层语义信息映射时出现的信息丢失问题。针对该问题,本文在基于粗糙集推理规则的语义图像检索模型的基础上,加入基于颜色互信息描述子的图像检索算法,提出了基于粗糙集推理规则和颜色互信息描述子的多模态图像检索模型,实验结果证明了该方法的有效性。(2)在图像分类中,比较著名的一种方法是空间金字塔匹配模型,该模型在稀疏编5 基于视觉描述子的图像检索与分类方法研究码方面对词袋模型进行了拓展,它首先将一幅图像分割为逐渐增加的子区域,然后将每个子区域的直方图级联起来。然而,空间金字塔匹配模型并没有考虑子区域之间的空间差异信息,为了利用这一信息,我们提出了一种新的描述子--空间差异描述子,基于此,提出了基于空间差异描述子的图像分类方法。在提升图像分类精度的过程中,所提出的描述子主要用于连接空间金字塔匹配模型的词袋直方图。本文在Scene15、Caltech101和Caltech256图像库上进行了仿真实验,实验结果验证了所提方法的有效性。1.3.2结构安排论文包含五个章节,详细结构如下:第一章绪论。首先介绍了图像检索与分类方法的研究背景及其意义。其次,简单阐述了与图像检索与分类方法相关的国内外研究现状。最后,简要概括了本文的主要工作,以及文章的结构安排。第二章基于视觉描述子的图像检索与分类的基础知识。首先介绍了视觉描述子的概念来源。其次,引入了视觉描述子,并对图像底层描述子、中层描述子和高层描述子的相关内容进行介绍。然后列出了常用的描述子相似度计算函数,紧接着介绍了图像检索与分类中常用的性能评价标准。最后,简单介绍了机器学习中几个经典的分类器。第三章基于粗糙集推理规则和颜色互信息描述子的图像检索方法。通过引入粗糙集规则提取方法和颜色相关视觉描述子,提出一种基于粗糙集推理规则和颜色互信息描述子的多模态图像检索方法,该方法既包括基于语义图像检索方法的特点,也包括基于视觉内容图像检索方法的特点,两种方法的结合达到了优势互补的效果,从而提高了最终的检索效果。文中使用Corel5K和Caltech101图像库作为实验数据集进行试验,并取得了较好的检索效果。第四章基于空间差异描述子的图像分类方法。对现有使用稀疏编码的空间金字塔匹配模型进行了改进,提出一种新的视觉描述子--空间差异描述子,并提出基于空间差异描述子的图像分类方法,该方法充分考虑了空间金字塔匹配模型所忽略的子区域间存在的信息差异问题。在分类方法中,空间差异描述子起到与词袋模型直方图共同表示图像的作用。本文在标准图像库Scene15、Caltech101和Caltech256上分别进行分类实验,实验结果验证了所提方法优于其他相关的图像分类方法。6 第一章绪论第五章结论。对全文的研究工作进行总结,并阐述了研究工作的局限和不足,以及对进一步的研究工作提出一些构想。1.4本章小结本章首先阐述了论文课题研究的背景及意义,然后对图像检索与分类方法的国内外研究现状进行概述与分析,最后介绍了论文的主要研究内容和结构安排。7 基于视觉描述子的图像检索与分类方法研究8 第二章基于视觉描述子的图像检索与分类的基础知识第二章基于视觉描述子的图像检索与分类的基础知识2.1视觉描述子的概念来源[59]为解决多媒体信息描述的标准问题,国际标准化组织制定了国际标准MPEG-7。MPEG-7的全称是“多媒体内容描述接口”,它定义了“标准描述子集合”,为各类多媒体信息提供了一种标准化描述,并将该描述与所描述的内容相关联,极大地促进了对各种多媒体信息的快速查询和访问。MPEG-7中的视觉描述子主要包括:结构描述子、颜色描述子、纹理描述子、形状描述子、运动描述子、位置描述子和人脸识别描述子。最近十几年,有不少学者对其中的描述子进行补充与创新,并得到了长足的发展。本文与国际标准定义的术语保持一致,在图像检索与分类方法研究中使用了视觉描述子的概念。2.2视觉描述子从图像视觉描述子的发展及其在图像分类与检索领域中的应用可知,视觉描述子分为三类:底层描述子、中层描述子和高层描述子。底层描述子是使用了不同类型的可以表示图像的一些特征的总称,而一般情况下中层描述子和高层描述子则是由底层视觉描述子组合或者学习而映射成的图像特征的总称。本节针对这三类描述子进行简单的介绍。2.2.1底层描述子底层描述子根据它自身表述范围的不同分为全局描述子和局部描述子。全局描述子通常用来记录整幅图像的统计信息,常用的全局描述子有颜色描述子、纹理描述子、空间关系描述子和形状描述子等。局部描述子则通常是基于图像中某一小块来计算该块内或块内某一点周围像素的部分信息。局部描述子试图定位图像中的某些关键点,并将其详细地描述出来,图像中的物体是由这些点的组合表示的。常用的局部描述子有SIFT、DenseSIFT、ColorSIFT、SURF和HOG等。全局描述子适用于一幅图像中只包含一个物体的情况,而局部描述子更适用于一幅图像中至少包含一个物体的情况。由于图像的内容越来越复杂,因此后来学者们更加青睐于局部描述子,以及提出了一9 基于视觉描述子的图像检索与分类方法研究些把这些离散的局部描述子和图像中物体或内容映射起来的算法。(1)颜色描述子常用颜色空间模型有:RGB、Munsell、Lab、HSV等。常见的颜色描述子有颜色[3,5,60]直方图、颜色矩和颜色熵等,这些描述子忽略了图像的空间分布信息。针对该问题,学者们提出了改进的颜色描述子,如颜色聚合向量、颜色相关图、颜色集和颜色直方图等。接下来简单介绍一下后面章节用到两个颜色描述子。[61]颜色相关图描述子是图像中颜色分布的一种表示方式,由距离k和一对颜色值作为索引表目,它的含义可简单描述为:当颜色值是i的像素与颜色值为j的像素距离为k时的概率。相比于颜色聚合向量和颜色直方图,基于颜色相关图的图像检[61]索方法更高效,尤其是在空间关系相互一致的图像中。随着数字存储设备的不断改进,出现了较多的海量数据库与大规模数据仓库,为支持在大型图像库中快速查找的功能,与颜色直方图表达方式近似的颜色集(Color[62]Sets)描述子被提出。颜色集的提取过程分为五步:第一步,将图像的颜色空间统一为HSV;第二步,把颜色空间量化为若干个bin;第三步,用颜色自动分割的相关技术将图像分成若干个子区域;第四步,用颜色分量来索引每个子区域;第五步,用二进制的索引值集合把整幅图像表示出来。(2)形状描述子形状描述子可以分为两大类:第一类是基于区域的形状描述子;第二类是基于轮廓的形状描述子。常用的基于区域的形状描述子有形状上下文、Zenike矩、几何不变矩、复数矩和Lengendre矩等,基于轮廓的形状描述子有基于空间域和基于变换域两种。其中,曲率尺度空间描述子是常用的基于空间域的方法,傅里叶描述子是最常用的基于变换域的方法。(3)纹理描述子获取纹理描述子的方式一般分为四类:第一类是基于几何的方法,该方法把图像看作纹理基元,并按照几何规律分布,使用结构法提取出图像基元,并将其记为图像的剖分描述子;第二类是基于统计的方法,现有的基于统计的方法有Tamura和灰度共生矩阵;第三类是基于模型的方法,在诸多基于模型的方法中,比较经典的有隐马尔科夫随机场、同步自回归模型和Wold模型;最后一类是基于信号的处理方法,基于信号的方法是使用小波变换与Gabor滤波等方法提取纹理描述子的过程。10 第二章基于视觉描述子的图像检索与分类的基础知识(4)空间关系描述子空间关系是指图像内部物体间所具有的空间描述信息,主要分为度量、方向、拓扑三类,直角坐标系是其最直接的表达方法。空间描述子主要包括的三种关系:空间[63]关系、方向关系和结构关系。基于空间和方向关系,Chang提出了二维符号串方法,在直角坐标系内,该描述子将图像投影到两个垂直的方向上,然后进行图像间二维子串的匹配。基于结构关系的方法有四叉树结构法,四叉树结构中每个分支都用直方图来描述颜色信息。(5)局部描述子1)SIFT描述子[9]DavidLowe提出尺度不变转换(Scale-InvariantFeatureTransform,SIFT)的局部描述子,该描述子具有旋转、尺度以及平移不变性,并且对光照的变化、3D投影中的各种变换以及仿射变换都具有较好的鲁棒性。SIFT描述子的提取分为两步:特征点的获取和描述子的生成。首先,把图像缩小成多尺度,在每个提取的尺度中使用高斯差分(DoG)函数来获取可能具有尺度与方向不变性的特征点,利用对比度过滤掉其值较小的点,并过滤掉曲率值较小的点。其次,利用选定的特征点与其周围像素间的梯度分布情况,选取梯度最大的方向记作该特征点的方向,以该特征点的方向作为基准,使得局部描述子具有旋转不变性。随后,将特征点周围数量为16*16窗口中的每个窗口再划分成4*4个子的小窗口,统计出每个子窗口在8个方向上的梯度直方图,从而每个子窗口得到4*4*8=128维的向量,计算过程如图2-1所示。图2-1SIFT描述子计算示例2)DenseSIFT和ColorSIFT[37]DenseSIFT(致密SIFT)和ColorSIFT是SIFT描述子的两个变种。DenseSIFT按照先从上到下然后从左到右的顺序扫描整幅图像,每次移动都要计算当前特征点位置11 基于视觉描述子的图像检索与分类方法研究左上角的16*16图像块的SIFT描述子,以此获取整幅图像的SIFT描述子。Bosch和[33]Zisserman提出的HSV-SIFT在HSV颜色空间的三个通道上分别计算SIFT,得到3*128维的ColorSIFT描述子,类似的还有RGB-SIFT,C-color-SIFT。在文献[64]和文献[65]中,对基于颜色的SIFT局部描述子进行了仿真实验,得到了不错的结果。在TRECVID和PASCALVOC数据集上,文献[65]做了仿真实验,实验结果证实了将C-color-SIFT描述子与词袋模型结合在一起获得的分类准确度比SIFT高10个百分点。4)HOG描述子[66]HOG(HistogramofOrientedGradients,梯度方向直方图)是由Navneet提出的一种局部描述子。HOG的提取方法与前面SIFT描述子的提取方法有一定相同点,即每一个子图在提取HOG描述子时都使用了统计子图梯度直方图的方法。另外HOG描述子是在网格密集并且大小一致的细胞单元上计算的,这一点和DenseSIFT相同。具体[66]的计算过程依次为:颜色空间归一化,梯度的计算,梯度方向直方图的构建。统计单元中心点和周围点间的梯度,从而得到梯度直方图,把单元结合成比较大的图像块,然后进行归一化。研究中的图像块有矩形的(R-HOG)和环形的(C-HOG),最后都需要对所有blocks进行归一化。2.2.2中层描述子(1)Bag-of-Word(BoW)模型[67]Bag-of-Word(BoW)也叫做Bag-of-Features或Bag-of-Visterms,中文通常叫做词袋模型。它的基本思想是将图像转化成熟悉的文本表示,可以将词袋模型文档看成是一个装满词的袋子,然后应用文本处理方法进行图像检索或分类。由于这些词没有句法和顺序,它们都是相互独立的,这种现象简化了文本的处理,因此词袋模型已经被广泛地应用于文本检索领域。图像转化成BoW直方图表示的步骤如下:[9,68]1)提取图像特征点。常用的方法有兴趣点检测、规则网格法,以及随机采样法[69]。2)构建描述子。在得到特征点后,可在其周围的小块(patch)内使用前文已介绍的[9,10,65,70]描述子,如SIFT、DenseSIFT和ColorSIFT等。3)建立视觉词典(向量化)。使用K-Means等聚类方法将描述子转化成可比较的12 第二章基于视觉描述子的图像检索与分类的基础知识形式。4)生成视觉单词直方图。每一个描述子用其所属簇的可视词表示,一般能使用直方图的模式来获取可视词的统计特性。以上词袋(BoW)模型的生成流程如图2-2所示。图2-2词袋(BoW)模型的生成流程词袋模型在图像检索与分类中获得了显著的成功,但也存在固有缺陷:1)在聚类过程中会出现信息丢失或分类不精确的问题,因此文献[71,72]提出了一些改进的算法;2)忽略了视觉单词间的空间分布信息,因此研究者给出改进的方案,提出了空间金字塔匹配模型。(2)空间金字塔匹配模型(SpatialPyramidMatching,SPM)[50]借鉴Grauman等人提出的金字塔匹配核模型(PMK)思想,Lazebnik等提出了空[52]间金字塔匹配模型(SPM)。实际上,PMK和SPM这两个描述子是不同的,金字塔匹配核模型在描述子空间的不同层次下获取描述子并加权求和,而空间金字塔匹配模型则是按照不同分辨率将图像切分成逐渐增加的子区域,然后在每幅图像子区域上计算BoW描述子并加权求和。SPM算法按金字塔式切分的过程与BoW中的图像聚类方法类似,如图2-3和图2-4所示,空间金字塔匹配模型以L+1种不同的层次来均匀地分割图像。在第0层时图像没被切分,其描述子等价于BoW;在第1层时图像被切分成4块,并在每一子块上计L算描述子;在第L层上时,把图像切分成4块。分割完后,根据描述子所在的层对其[52]加上不同的权重,然后进行加权求和并加入SVM核函数中。13 基于视觉描述子的图像检索与分类方法研究图2-3空间金字塔匹配模型示例图2-4两种模型的对比2.2.3高层描述子高层描述子对应的是高层语义描述子,而高层语义描述子对应的是基于语义的图像检索与分类,在图像检索与分类的过程中它是以文本的形式表示出来的。高层语义描述子的获取方式主要包括三种:1)人工标注得到;2)通过网络爬虫等其他一些互联网技术自动获得与其相关的文本信息进行描述;3)通过建立底层描述子到高层描述子的非线性映射得到。高层语义描述子具有层次性,每个层次分别代表不同的含义,在图像检索与分类中起到的作用也不相同。图像语义的获取和表示是基于语义的图像检索研究中的基本问题,是将视觉描述信息有效地转换成图像语义表示的关键。图像语义描述子具有层次性,也就是说图像语义描述子具有粒度性,然而不同层次中的语义粒度是不同的,因此可以用多层结构对图像语义描述子进行分析和表示。14 第二章基于视觉描述子的图像检索与分类的基础知识[73]首先,图像视觉内容可被分成三个级别。第一级是底层描述子的语义,用来表示图像视觉特性,如颜色、纹理和形状等,表示的含义是早前图像检索等相关技术所关注的内容。第二级是由视觉描述子推导而得到的视觉描述信息,对应着对象语义与空间关系语义。第三级为对对象或场景进行更高层的推理而得到的语义,该层语义主要包括情感语义、行为语义和场景语义等。然后,根据图像视觉内容划分的三个级别,研[74]究者们给出了图像语义的三层结构、六层结构和五层结构。Hong等把图像的内容从传统的仅由视觉描述子集组合延伸至三层结构,分别是描述子层、对象层和场景层,如图2-5(a)所示。文献[75]给出一个六层结构的语义层次模型,如图2-5(b)所示,认为语义应该有六个层次。文献[76,77]将图像的内容概括为五层,如图2-5(c)。图2-5语义层次模型及其分层结构有效利用图像语义信息的一个关键问题是图像语义的获取。虽然计算机技术的发展十分迅速,但能让计算机准确地理解图像语义信息仍是一个难题,目前已经有很多研究人员对图像语义的获取进行研究。图像语义的获取方法分为三类:基于学习的方[78-83][84-88][89-91]法、人工交互的方法和利用外部信息源的方法。获取到图像语义后,如何正确地表示语义信息也是个重要问题。最简便的方法是[92]采用文本表示法,也即用文本解释图像和图像区域。同时,利用WordNet关联起文15 基于视觉描述子的图像检索与分类方法研究[84]本表达的相关语义概念,进而达到模糊匹配的目的。朱兴全等使用了语义系统网络结构表述图像语义信息,如图2-6所示;文献[93]则使用了语言变量(LinguisticVariable)描述图像语义特性。图2-6系统语义网络结构2.3视觉描述子相似度计算函数相似度计算函数的选取对描述子匹配很重要。选择合适的方法并提取出图像视觉描述子,然后使用相似度函数计算描述子间的距离。描述子的相似度和计算出的距离一般成反比,即距离越大,相似度越小。设D为距离度量函数,X1,X2,X3为三个描述子向量,则距离度量函数的定义需要[94]满足以下性质:自相似:D(X1,X1)=D(X2,X2)=D(X3,X3)=0;对称性:D(X1,X2)=D(X2,X1);三角不等性:D(X1,X2)+D(X2,X3)D(X1,X3)。相似度计算函数常用距离函数表示,下面列出了常见的几种:(1)明可夫斯基距离(MinkowskiDistance)明可夫斯基距离是多个距离公式概括的表述。公式如下:n1ppdistXY(,)(|xiiy|)(2-1)i1其中,X=(x1,x2,...,xn),Y=(y1,y2,…,yn),符号对下列各式有同样的定义,p=1时得到的距离度量公式为曼哈顿距离;p=2时就得到了欧式距离,欧式距离需要保证各维度相同。(2)欧式距离(EuclideanDistance)二维平面上两点a(x1,y1)与b(x2,y2)间的欧式距离:22dx()xy()y(2-2)ab121216 第二章基于视觉描述子的图像检索与分类的基础知识三维空间上两点a(x1,y1,z1)与b(x2,y2,z2)间的欧式距离:222dx()xy()yz()z(2-3)ab121212两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧式距离:n2dxab()12kxk(2-4)k1也可以表示成向量运算的形式:Tda()b()ab(2-5)ab(3)切比雪夫距离(ChebychevDistance)n1ppdistXY(,)lim(|xiiy|)(2-6)pi1(4)马氏距离(MahalanobisDistance)马氏距离计算的是向量间协方差距离,公式如下:T1distXY(,)(xiiy)(xiiy)(2-7)是X、Y的协方差矩阵。2(5)距离(Chi-squareDistance)2()xy2jj(,)XY(2-8)jxyjj(6)余弦度量(CosineMeasurement)余弦相似度体现的是两个向量X和Y在方向上的差异,公式如下:XYsin(,)XYcos(2-9)||XY||||||(7)汉明距离(HammingDistance)汉明距离定义为两个字符串S1与S2对应位置中所统计的不同字符的个数。例如,字符串“1111”与“1001”之间的汉明距离为2。(8)杰卡德相似系数(JaccardSimilarityCoefficient)集合X和Y的交集与并集之比称为X和Y的杰卡德相似系数,公式如下:||XYJXY(,)(2-10)||XY杰卡德距离(JaccardDistance)描述的是与杰卡德相似系数相反的概念,具体表示如17 基于视觉描述子的图像检索与分类方法研究下:||XYXY||JXY(,)1(,)JXY(2-11)||XY2.4图像检索与分类的性能评估标准在研究图像检索与分类技术问题的过程中,如何衡量图像检索与分类技术的优劣程度是一个重要问题。因此,一些评测标准是必须的,当数据集相同时可以使用这些标准来判断所提方法的优劣。目前,在图像检索与分类领域中经常用到的评测标准有[95]很多,它们都有各自的特点。下面列出了常见的几种评估标准:(1)召回率(Recall)和准确率(Precision)这两个标准是信息检索领域中常用到的对单个查询结果进行评测的标准,也可以用于图像分类,在分类中其含义会稍有不同,而且在分类中更关心的是准确度,但其[95]计算方法一样。检索出的相关图像数召回率RR,也称为查全率,[0,1]相关图像数(2-12)检索出的相关图像数准确率PP,也称为查准率,[0,1]检索出的图像数若要准确地查看每一个查询的所有相关图像,在大规模图像数据集中几乎不现实,即使召回率也不可能精确地计算得到。准确率和召回率是两个很重要的指标,它们的含义不同,实际应用中要考虑到不同应用需求与不同用户需求对这两个指标考察的重点不同。在某些情况下也使用二者的结合,比如F-measure就是P与R的调和平均值。计算公式如下:2PRF(1)(2-13)2PR其中,是调节系数,常用的取值有1、2和0.5,它们分别表示对召回率和准确率同样看重、更看重召回率以及更看重准确率。在图像检索中有时需要关注图像检索结果的排序问题,这可以通过Precision@k进行评价,意思是只考评前k个查询结果的Precision,另一个相对比较稳定的指标是C-Precision,即检索结果中前C个位置中图[95]像的准确率,C指与当前查询相关的图像总数。Precision/Recall也可以用曲线来衡量,它考察了检索结果的排序情况,也考察了检索结果的覆盖率情况。有时也把Precision/Recall曲线图转换成接受者的操作特性曲线18 第二章基于视觉描述子的图像检索与分类的基础知识(ReceiverOperatingCharacteristicCurve,ROC),通过计算曲线下方面积占总面积(即单位面积1)的比例,求出曲线下面积(AreaUnderCurve,AUC)值,AUC值越大则全部样[95]本数据的错误接受率越低,算法性能越好。(2)平均准确率(AveragePrecision,AP)这个指标主要用于图像检索领域,对不同召回率点上的准确率进行平均。计算公式如下:1NRAP()qPqi()R(2-14)NRi1其中,表示查询图像,是检索到第个相关图像时的召回率,qRiNq是对应查询图像所有iR[95]相关图像的数量,()是指在召回率为时的准确度。PRRqii(3)MAP(MeanAveragePrecision)以上所介绍的评测指标基本是在单一查询或者分类条件下的结果,若要衡量整个查询或分类集合下的平均性能,需要用到整体的评价指标,MAP是检索与分类领域中常用的综合性能指标,它对所有查询的AP值求和然后取其平均值。计算公式如下:1MAPAP()q(2-15)||QqQ其中,Q是查询集,AP(q)是平均准确率。AP是对每幅相关图像检索出后的准确率求平均,而MAP是对所有查询的平均准确率求均值。此外,还有一些MAP的拓展,如GMAP(GeometricMAP),它计算了MAP的几何平均值。概括地说,召回率R、准确率P和平均准确度MAP是图像检索与分类领域中基本的评估标准,它们可用来区分不同算法和评测系统性能的优劣,本文在图像检索与分类中都用MAP作为评估标准。2.5图像分类中常用的分类器在计算机视觉相关领域中,对样本进行分类的方法统称为分类器。分类器输出图[96]像的分类结果,不同分类器有不同的分类规则,常用的分类方法有以下几种:(1)决策树决策树方法是以实例为基础的归纳性学习方法,根据实例构造决策树,决策树包[97]括根节点、内部节点以及叶节点。内部节点表示决策过程中所需的测试属性,采用自顶向下的模式,使用该属性对新事例进行分类。在决策树内部节点中主要进行两方面的工作,一是属性比较,二是判断从当前节点向下的分支去向。每个叶节点代表一19 基于视觉描述子的图像检索与分类方法研究个类别,在决策树叶节点中得到结论。常见的决策树算法有CART、ID3、Assistant、[96]C4.5(C5.0)、SPRINT和SLIQ算法等。(2)贝叶斯[96]贝叶斯分类器是在错误分类时平均失效率达到最低的基础上进行分类的方法,它主要是基于以下假设:各种概率密度函数的解析式以及从每一类样本中估计所需的必要参数。当这种假定越接近实际情况,贝叶斯分类器在分类时越接近最低平均失效[98]率。(3)神经网络[96]人工神经网络是能够进行信息处理的数学模型。在这种模型中,大量节点间的相互联接构成了神经网络,该网络主要用于信息处理。神经网络以使用样本模式估计每个模式类的统计参数为基础,使用这些网络为模型工具,通过模式训练不断自适应[98]地导出合适的判别函数,获取了判别函数也就能判断未知模式的类别。目前,神经网络中常见的模型有:BP网络、竞争神经网络、Hopfield网络、随机神经网络和径向基RBF网络等。(4)K-近邻K-近邻是非参数分类方法,该方法首先找出和未知样本x距离最近的K个训练样本,判断这K个样本中大多数属于哪一类,就把x归为哪一类。K-近邻方法不需要学习过程,它存储足够的训练样本直到需要分类时再开始分类。当K=1时,得到的是最近邻分类器。如果相似度计算函数为欧氏距离函数,则该方法为基于最小距离的分类[96]器。(5)支持向量机支持向量机是基于统计学习理论的一种学习方法,该方法已较好地解决了局部极小点、高维度和非线性等问题。支持向量机依据结构风险最小化准则,通过最大化分类间隔进而构造最优分类超平面来提高学习的泛化能力。对于分类问题,支持向量机按照区域中的样本模式计算出该区域的决策曲面,由此来判定该区域中未知样本的类[96]别。在图像分类中,面对不同的数据库,可以先根据图像种类的不同而选取合适的和便于区分的视觉描述子,然后选择合适的分类器,最终获得图像分类结果。20 第二章基于视觉描述子的图像检索与分类的基础知识2.6本章小结本章介绍了基于视觉描述子的图像检索与分类方法的基本理论。首先介绍了视觉描述子概念的来源。其次,引入了视觉描述子,它包括底层描述子和基于底层描述子而构建的适用于可变背景的中、高层描述子。然后简单介绍了图像检索与分类中常用的一些相似度计算函数和性能评估标准。最后阐述了在图像分类中常用的几种经典分类器。21 基于视觉描述子的图像检索与分类方法研究22 第三章基于粗糙集推理规则和颜色互信息描述子的图像检索方法第三章基于粗糙集推理规则和颜色互信息描述子的图像检索方法3.1引言随着互联网技术的快速发展和多媒体数据库规模的迅速膨胀,数字图像已成为信息的一种重要来源,如何在大规模图像库中查询到自己所需的图像,已成为信息检索[99]的一个热点问题。为了满足人们更习惯于对图像概念语义进行检索的需求,许多学者致力于基于语义的图像检索研究,并取得了相应的成果。文献[100]提出了一个新的基于本体高层语义注释的、用于比较图像相似性的语义框架。文献[101]同样也提出了一个新颖的框架,用于学习查询特定的语义空间,该方法显著地提高了在线图像重排[102][103]序的效率。周全名等提出的图像检索方法使用了无监督语义标注。徐久成等提出的图像检索方法中使用了基于朴素贝叶斯理论的图像标注方法。文献[104]使用了Tamura纹理模型,提出一种基于语言变量的图像纹理语义检索方法。但是该方法提取[7]的语义属于底层描述子语义,而非真正意义上的高层语义。Wang等提出了一个SIMPLICity(Semantic-sensitiveIntegratedMatchingforPictureLibraries)图像语义检索系统,该系统提出的方法把图像分成纹理和非纹理语义类,以及照片和非照片语义类,并采用了一种语义敏感(Semantic-sensitive)的图像检索方法,与此同时,还提出一种基于图像分割的整合区域匹配方法(IntegratedRegionMatching,IRM)。文献[105]提出的基于语义概念表示的图像检索方法中,使用了向量空间模型表示语义信息,并通过分析元数据的出现概率建立相关矩阵,该方法是基于内容的图像检索方法和基于元数据的图像检索方法的一种结合。文献[106]在图像检索中将WordNet提供的语义信息与底层描述子相结合,提出了一个统计自然语言的处理模型。以上所阐述的方法从不同角度提出了基于语义的图像检索方法及其相关技术,使得基于语义的图像检索技术得到了一定的发展。但他们都没有考虑到图像语义信息中存在的不确定性问题,也没有考虑到不同用户对图像语义需求不尽相同的情况。针对此问题,本章提出了基于粗糙集推理规则和颜色互信息描述子的图像检索方法(IRRS/CMI),其框架结构如图3-1所示。从综合图像检索模型的角度考虑,首先使用基于粗糙集推理规则的图像检索模型做初次检索,在此基础上通过基于颜色互信息描23 基于视觉描述子的图像检索与分类方法研究述子的图像检索模型进行再次检索,并且检索算法中的相关反馈技术可精化检索结果。IRRS?CMI图3-1基于IRRS/CMI的图像检索方法流程图3.2粗糙集及其推理规则的相关概念粗糙集理论是一种能定量分析和处理不精确信息的数学工具,该理论因其思想新[107,108]颖和方法独特,已成为一种重要的智能信息处理技术。粗糙集理论的一个重要应24 第三章基于粗糙集推理规则和颜色互信息描述子的图像检索方法用是规则提取,决策表的每一行都描述了一条规则。由于决策规则是从决策表中得到[109]的,因此决策表中包含的不确定性必然会引起决策规则的不确定性。3.2.1粗糙集的基本概念[108]定义3.1给定知识库K=(U,R),对于每个子集XU和U上的等价关系R,U/R表示R的所有等价类构成的集合,[x]R表示xU的等价类。集合X的R下近似和R上近似集合分别为:RX(){xUx|[]X}(3-1)RRX(){xUx|[]X}(3-2)R集合BNDX()()()RXRX称为集合X的R边界域。3.2.2知识的概率分布[109]定义3.2设U是论域,P是U上的一个等价关系,P在U上导出的划分为A={X1,X2,…,Xn},则P在U的子集组成的代数上定义的概率分布为:XX12...Xn[;]Ap(3-3)pXpX()()...pX()12n||Xi其中,pX()i,i=1,2,…,n,符号|Xi|表示集合Xi的基数。||U3.2.3基于粗糙集理论的规则提取方法[109]定义3.3设决策表DT=(U,CD,V,f),xU,给定规则[x]Di,则对象x对应的规则[x]Di的支持度定义为:|[]xD|isup([]xD)(3-4)xi||U规则的支持度反映了决策表中匹配这条规则的对象在论域中所占的比例。决策规[109]则的支持度越高表示这条规则的随机性越小。[109]定义3.4设决策表DT=(U,CD,V,f),xU,给定规则[x]Di,则对象x对应的规则[x]Di的置信度定义为:|[]xD|iconf([]xD)(3-5)xi|[]|x规则的置信度反映了决策表中符合这条规则的对象数与符合规则前件的对象数之25 基于视觉描述子的图像检索与分类方法研究[109]比,体现了匹配这条规则前件的对象与此规则后件相匹配的比例。[109]定义3.5设决策表DT=(U,CD,V,f),xU,给定规则[x]Di,则对象x对应的规则[x]Di的覆盖度定义为:|[]xD|icov([]xD)(3-6)xi|[D]|i规则的覆盖度反映了决策表中匹配这条规则的对象数与所有匹配这条规则的前件[109]的对象数之比。3.3基于朴素贝叶斯理论的图像标注方法图像语义标注的方法就是给定一幅图像g,从语义词汇表L={k1,k2,…,kn|kikj=}(ki、kj是在L中任取的元素,其中ij)中抽取标注词(概念)集KL来描述图像[103]g。首先对每一幅图像g进行区域分割,可以分割为m个区域,用R{,,...,}rrr表示,12m[103]根据贝叶斯理论可以推出每一个标注词(概念)ki的后验概率:frrrkpk(,,...,/)()Rm12iipkR(/)pkrr(/,,...,r)(3-7)iim12frrr(,,...,)Rm12[103]其中,p(·)为条件概率函数,fR(·)为区域R的边缘概率密度函数。由于fR(r1,r2,…,rm)对于所有标注词(概念)为常数,因此,需要保证fR(r1,r2,…,rm/ki)p(ki)最大。假定这些标注词等概率,即p()kp()k...p()k,并据此最大化12nf(,,...,rrrk/)。为了估计边缘概率密度函数f(,,...,/)rrrk,我们假设聚类区域间Rm12iRm12i[103]相互独立,标注词(概念)的条件密度函数公式可等价于:mfrrrk(,,...,/)frkfrkfrk(/)(/)(/)...frk(/)(3-8)Rm12iRjiR1iR2iRmij1根据公式(3-2)可以计算出后验概率p(/)kR的值,然后根据后验概率值选择其值较大的i[103]语义概念进行标注。3.4基于粗糙集推理规则和颜色互信息描述子的图像检索模型3.4.1基于粗糙集推理规则的图像检索模型设G={g1,g2,…,gc}为c张图像的集合,L={k1,k2,…,kn}为n个标注词的集合,则根据粒计算的不确定性分析,可有以下定义。26 第三章基于粗糙集推理规则和颜色互信息描述子的图像检索方法定义3.6给定知识库K=(L,R),L={k1,k2,…,kn},由等价关系RIND(R)得到等价类g1,g2,…,gc,即L/R={g1,g2,…,gc},其中等价类g1,g2,…,gc在关系R下满足下式:Rg(){kLk|[]g}(3-9)iiiiRg(){kLk|[]g}(3-10)iiii定义3.7给定知识库K=(L,R),L={k1,k2,…,kn},由等价关系RIND(R),得到等价类g1,g2,…,gc,即L/R={g1,g2,…,gc},则R在L上的子集组成的-代数上定义的概率分布为:g1...ggic...[;]Kp(3-11)pg()...pg()()...pg1ic||gi其中,pg()i,i=1,2,…,c,符号|gi|表示集合gi的基数。||L定义3.8对于每个标注词ki,给定规则[ki]→gj,则标注词ki对应的规则[ki]→gj的支持度、置信度和覆盖度分别定义为:|[]kg|ijsup([]kg)(3-12)kiij||L|[]kg|ijconf([]kg)(3-13)kiij|[]|ki|[]kg|ijcov([]kg)(3-14)kiij||gj定义3.9对于图像中的任一图像gj与所要查询的图像Q,它们的语义相似度的定义如下:1mSIMQg(,j)i1sup([]kiikgj)conf([]kiikgj)cov([]kiikgj)(3-15)m其中,01。一般地,在信息检索中,根据覆盖度贡献最大、置信度次之和支持度最小的情况,取0.1,=0.3,=1--。性质3.1对于任意gi,gjG(i,j=1,2,…,c),则有:(1)SIM(gi,gi)=1;(2)SIM(gi,gj)=SIM(gj,gi);(3)0SIM(gi,gj)1。证明:根据公式(3-15)显然成立。27 基于视觉描述子的图像检索与分类方法研究由性质3.1可知,对于任意两幅图像gi和gj,它们的相似度随着SIM(gi,gj)值的增加而变大,随着SIM(gi,gj)值的减小而减小。当SIM(gi,gj)=0时,这两幅图像完全不同;当SIM(gi,gj)=1时,这两幅图像完全相同,即它们为同一幅图像。在检索过程中,还可以通过调整权值、和值的大小,对不同图像进行检索,达到平衡检索的效果。由于所查询图像的标注词集与图像库中能够被检索的图像词集间的关系不确定,通过引入粗糙集中的上下近似集可以明确两者之间的关系。因为用户对图像检索结果的需求不同,有的只需检索出的结果图像中包含某个或某些标注词即可,有的则需要检索结果中的某个标注词在图像库中所占比例最大,还有的则需要某个或某些标注词在被检索的图像标注词集中所占的比例最大。所以本章通过使用粗糙集推理规则得出的相似性度量方法来调整参数大小,从而权衡检索结果。综合以上分析,提出基于粗糙集推理规则的图像检索算法,具体步骤如下:算法3-1基于粗糙集推理规则的图像检索算法(IRRS)输入:所查询图像Img及其语义标注词集Q={q1,q2,...,qi};//i=1,2,3,.......输出:与所查询图像Img相匹配的图像G1={g’1,g’2,...,g’m1+m2}。Step1根据定义3.6,求出所查询图像在已被标注的相关图像中的下近似集R()Q和上近似集R()Q;Step2根据定义3.7知识的概率分布,求出每幅图像在下近似中所占的概率||Q|()()|RQRQ,计算出边缘分布在上近似中所占的概率,形成两个概率集合l”1|()|RQ|()|RQ和l”2;Step3前者l”1按降序排列得l’1={p1,p2,…,pm1},后者l”2按升序排列得l’2={p1,p2,…,pm2};Step4参照l’1={p1,p2,…,pm1}和l’2={p1,p2,…,pm2}中每个概率值所对应的图像,得到图像集l1={g’1,g’2,…,g’m1}和图像集l2={g’1,g’2,…,g’m2};Step5根据公式(3-15),计算在序列l1、l2中的图像与查询图像Q的相似度,所得结果依据相似度大小按照降序顺序排序;Step6按照语义相似度值从大到小的顺序合并两序列,并得到相对应的图像集G1;Step7若检索出的图像不满足用户的需求,则将所查询图像分割为n个区域,用R={r1,r2,…,rn}表示,进行图像标注,并加入标注词空间,转Step1;否则,转Step8;28 第三章基于粗糙集推理规则和颜色互信息描述子的图像检索方法Step8输出G1;Step9算法结束。IRRS算法中m1和m2的取值与图像的复杂程度相关,当图像比较简单时,m1m2,反之m1m2,一般情况下m1和m2的取值相等。文中使用基于朴素贝叶斯理论的图像标注方法进行语义标注,基于朴素贝叶斯理论的图像标注方法主要应用于语义图像检索模型的用户反馈,该方法在一定程度上提高了图像检索的效率。IRRS算法对应图3-1基于IRRS/CMI的图像检索方法流程图的上半部分基于IRRS的图像检索,该部分完成了整个系统的首次检索。3.4.2基于颜色互信息描述子的图像检索模型[110]互信息表示一个事件yi的发生为另一个事件xi的发生所提供的信息量,定义如下:pxy(|)iiIxy(;)lb(3-16)iipx()i其中I(;)xy称为xi和yi间的互信息。ii[111-114][115]在颜色相关图的基础上,使用颜色互信息(ColorMutualInformation,CMI)的概念,计算了不同颜色间的空间信息以及每个距离下的描述子矢量。每个距离下的描述子矢量维数是n*1。颜色互信息是指定颜色ci的出现为其他颜色cj的出现所提供的信息量:()kpcc(|)jicc,Icc(;)lblbij(3-17)jipc()pc()jj()k[61]其中,为颜色相关图矩阵中的对应元素。假设图像中的颜色被量化为m种,分ccij,别为c1,c2,...,cm,则以m=64为例,在给定像素间的距离d=k时,获得的颜色相关图矩()kkk()()cc11,,,cc1jcc164()kkk()()()k阵为ccii,,,16ccjcci4。其中,第i行的数据ccij,(i,j=1,2,...,64),表示图()kk()k()cc64,,1cc64,jcc6464像中颜色ci与其周围距离为k的像素中,各种颜色cj分别出现的概率。通过统计指定颜色C=ci的出现为其周围所有颜色的出现所提供信息的平均值,则29 基于视觉描述子的图像检索与分类方法研究可以得到C=ci与其周围其他所有颜色的平均互信息:mICc(;)ijIccpcc(,)(|)ijij1()kmccij,()k=(lb)cc,pc()ijj1jm()kkk()()=[ccij,,,lbccijccijlbpc()i](3-18)j1其中,p(ci)表示的是在经过彩色量化并归一化后的颜色直方图中颜色ci出现的概率。在64*64维的颜色相关图矩阵中,通过上述计算,在每一个像素距离下都可提取出一个64*1维的颜色互信息描述子向量。对于两幅图像Img和Img’,本文采用相对距离进行描述子矢量的相似性度量。令f表示描述子矢量,该矢量由颜色互信息描述子组成。则当确定像素距离k时,Img和Img’间的矢量距离表示为:()kk()|()()fImgfImg'|DI|mgImg'|d()kk()(3-19)kd[]Imgf()()ImgfImg'数字图像由像素组成,而像素是图像的基本元素,由于同一幅图像中像素的紧密性及其与周围像素之间的数值差异可以敏感地表示图像的局部变化,通过比较这种局部变化又可判断图像的相似度,因此本章在IRRS算法的基础上提出了基于颜色互信息描述子的图像检索算法(CMI),此方法弥补了IRRS算法中图像之间缺乏局部描述信息相比较的缺陷,算法的具体步骤如下:算法3-2基于颜色互信息描述子的图像检索算法(CMI)输入:图像Img和IRRS算法检索出的图像集合G1={g’1,g’2,…,g’m1+m2};//m1+m2为IRRS算法检索出的图像个数输出:检索出的相似图像集G={g1,g2,…,gq}。//q为查询出的图像数量Step1计算图像Img和G1中图像的颜色相关图矩阵M和Mi。//i=1,2,…,m1+m2;()kStep2提取颜色相关图矩阵M和Mi中的对应元素;ccij,Step3根据公式(3-18),求得C=ci与所有颜色的平均互信息I(;)Cci;Step4根据公式(3-19),在像素距离k下计算Img与G1中各个图像矢量距离得到d’={d’1,d’2,…,d’m1+m2};Step5根据矢量距离大小判定图像相似度,并对d’中的元素按从小到大排序得30 第三章基于粗糙集推理规则和颜色互信息描述子的图像检索方法d={d1,d2,…,dm1+m2};Step6根据排序结果d输出相对应的图像G={g1,g2,…,gq};Step7若检索出的图像不能满足用户需求,则以w为幅度按照上下浮动的方式自动调整参数(像素距离k),以达到精化检索结果的目的,转Step1;否则,转Step8;//w的取值范围为[0,m],m是被量化后的颜色种类数,w可使用默认值1,也可根据用户需要在其取值范围内自动调节。Step8输出结果G;Step9算法结束。CMI算法对应图3-1基于IRRS/CMI的图像检索方法流程图的下半部分基于CMI的图像检索,该部分完成了整个系统的再次检索。3.5实验分析本章实验的硬件环境是一台计算机,配置为:Intel(R)Core(M)2Quad处理器,2.33GHz主频,8GB内存,Windows7旗舰版操作系统。整个检索实验使用C++语言在MicrosoftVisualStudio2010开发环境中设计。数据测试集使用Caltech101和Corel5K。首先,使用Caltech101包含的102类图像,共9144幅,图3-2展示了Caltech101图像库中部分类别的样例图像,为了证明使用基于粗糙集推理规则和颜色互信息描述子的图像检索方法(IRRS/CMI)比使用基于粗糙集推理规则的图像检索方法(IRRS)和基于颜色互信息描述子的图像检索方法(CMI)单个模块效果好,本章随机挑选11类图像进行测试。其次是Corel5K图像库,该图像库包含了5000幅图像,这些图像的噪音远比Caltech101中的大,图3-3列出了Corel5K图像库中部分类别的样例图像,该图像库主要用来验证所提的基于粗糙集推理规则和颜色互信息描述子的图像检索方法(IRRS/CMI)对噪音影响的鲁棒性。在实验中使用图像所在的文件夹序列号作为该图像的类别,由于不同图像涵盖了不同的语义信息,每幅图像由几个可视字或相应数据标注形成的图像标注集表示。本章使用的测试度量标准是所有查询的平均准确度MAP,MAP值越高表示性能越好,对每一幅查询图像进行三次查询,返回4、8、12幅图像各一次,然后对这三次的准确度求均值。在Caltech101图像库中,分别使用基于粗糙集推理规则的图像检索方法(IRRS)和基于颜色互信息描述子的图像检索方法(CMI)两个单独的图像检索模块进行测试,以此为基准,然后对基于粗糙集推理规则和颜色互信息描述子的多模块图像检索方法31 基于视觉描述子的图像检索与分类方法研究(IRRS/SMI)进行实验,并与前面的基准作对比。图3-4展示了使用IRRS、CMI和IRRS/CMI三个模块分别对Caltech101图像库中的11类图像进行检索的结果,其中横坐标表示在Caltech101中随机挑选的11类图像,列出的图像类别有airplane、ant、anchor、barrel、bass、beaver、binocular、bonsai、brain、butterfly和camera,纵坐标是图像检索的评测指标MAP的刻度值,图中MAP值的取值范围在0.2到1之间,该范围的选择由三种方法IRRS、CMI和IRRS/CMI实验结果中的最大值和最小值综合决定。由图3-4可知,虽然使用了基于IRRS的图像检索方法已取得较高的MAP值,但是当我们加入基于底层视觉描述子CMI的图像检索算法时,整体的检索效果提升了1到3个百分点。图3-5展示了基于IRRS的图像检索算法的检索结果,图中最左侧是查询图像,右侧是返回的检索结果,每幅查询图像返回了与其最相似的4幅图像。图3-6列出了基于IRSS/CMI的图像检索算法的检索结果,与图3-5类似,最左侧是查询图像,右侧是返回的检索结果,每幅查询图像返回了与其最相似的4幅图像。由图3-5和3-6可知IRRS/CMI比IRRS检索出的结果图像更精确一些。为了验证所提的基于粗糙集推理规则和颜色互信息描述子的图像检索方法(IRRS/CMI)的有效性,本章将IRRS/CMI方法与基于多语义特征融合图像检索方法[116][103](VSFF)和基于概率粗糙集图像语义检索方法(PRSM)进行实验对比。因原文中VSFF和PRSM没有使用MAP作为评测标准,实验中使用了复现的VSFF和PRSM方法的实验结果。图3-7展示了IRRS/CMI、PRSM和VSFF三种方法对在Corel图像库中随机挑选的5类图像进行查询时的检索结果,如图中横坐标所示,随机挑选的5类图像分别是people、scenery、bus、animal和flower,纵坐标是MAP刻度值,该值的取值范围在0.7到0.95之间,该范围的选择由三种方法IRRS、PRSM和IRRS/CMI实验结果中的最大值和最小值综合决定。从图中的曲线走势和其对应的值可知,相比于VSFF和PRSM两种方法,IRRS/CMI方法有着更高的稳定性和MAP值,因此本文提出的IRRS/CMI方法性能最好。PRSM相比于VSFF实验结果中的MAP较高,主要是因为这种方法使用了概率粗糙集的理论并实现了模糊匹配的功能,但它仍没有IRRS/CMI更高效。IRRS/CMI能取得可观的效果,分析原因如下:传统的基于语义的图像检索方法一方面没有考虑标注词集的模糊表达与匹配问题,另一方面是没有考虑到完整的底层视觉信息对图像检索的影响,因而得不到理想的检索结果。本章在基于语义的图像检索模型IRRS的基础上,加入了底层视觉描述子,实现了基于粗糙集推理32 第三章基于粗糙集推理规则和颜色互信息描述子的图像检索方法规则和颜色互信息描述子的多模态图像检索方法(IRRS/CMI),该方法使得以上两个问题在一定程度上均得以缓解,从而提升了最终的检索效果。图3-2样例图像(Caltech101)图3-3样例图像(Corel5k)33 基于视觉描述子的图像检索与分类方法研究10.90.80.7IRRS0.6CMIMAPIRRS/CMI0.50.40.30.2airplanesantanchorbarrelbassbeaverbinocularbonsaibrainbutterflycameraImageclass图3-4实验结果对比图图3-5基于IRRS图像检索方法的检索结果图3-6基于IRRS/CMI图像检索方法的检索结果34 第三章基于粗糙集推理规则和颜色互信息描述子的图像检索方法0.950.90.85MAP0.8PRSMVSFFIRRS/CMI0.750.7peoplescenerybusanimalflowerImageclass图3-7实验结果对比图3.6本章小结本章将粗糙集推理规则和颜色互信息描述子用于图像信息检索中,实现了一种基于粗糙集推理规则和颜色互信息描述子的多模态图像检索技术,并利用Caltech101和Corel5K图像库中的图像进行仿真实验,取得了较好的检索效果。本章提出的基于粗糙集推理规则和颜色互信息描述子的图像检索算法在一定程度上降低了因非线性映射导致的信息丢失,减少了“语义鸿沟”带来的检索不精确问题,提高了检索的精确度,从而提升了整个图像检索系统的性能。可以相信对这种缩小“语义鸿沟”的图像检索方法的研究仍将是个重要研究方向。35 基于视觉描述子的图像检索与分类方法研究36 第四章基于空间差异描述子的图像分类方法第四章基于空间差异描述子的图像分类方法4.1引言近几年,词袋模型(Bag-of-Word,BoW)已被广泛应用于图像处理领域,尤其是在图像分类上面。词典的生成和直方图表达的结合是词袋模型的两个重要部分,这种结合[67]已被证明在经过训练后预测图像时可获得较好的效果。传统的词袋模型以视觉单词为中心,使用了K-均值聚类算法,局部描述子被量化到最近的视觉单词,但由于K-均值聚类算法本身的局限导致了图像局部信息丢失的问题,从而降低了描述子的显著性表达能力。传统的词袋模型中一幅图像的可视词间缺少空间信息,受启发于Grauman[50][52]和Darrel的工作,Lazebnik提出了空间金字塔匹配模型(SPM),这种算法被许多研究者使用,随后许多结合空间信息的局部描述子被提出。在编码过程中,为了减小局[53,54,117-119]部特征的信息丢失问题,许多新方法和模型被提出,空间金字塔匹配模型按照金字塔模式通过把图像逐渐分割成不同精细度的子区域,并按照每个子区域的权重适当地把它们级联起来,便可以解决词袋模型所忽略的空间信息丢失问题。作为一个图像分类的基本模型,在广泛的图像分类标准范围内,扩展性实验结果已经证明了空间金字塔匹配模型可以取得显著性的成功。文献[53]将一种稀疏编码策略与空间金字塔匹配模型相结合生成词典,通过训练线性分类器以节省计算开销,这种方法比使用非线性分类器方法的效率更高。文献[54]将拉普拉斯变换应用到稀疏编码的过程中,从而显著地提升了对纹理类图像的分类精度。文献[117]提出了弱对称空间描述子(WeaklySpatialSymmetry,WSS),并将其与词袋模型的直方图结合,从而提高了对场景图像的分类准确度。文献[119]提出一种局部线性约束编码的算法(Locality-constrainedLinearCoding,LLC),把局部约束映射到局部坐标下,该方法在复杂多变的图像中显著地提高了图像分类的准确度。文献[120]提出一种结合边缘信息的层级匹配方法,该方法主要[121]用于图像分类。Yao提出一种将随机性和可区分性相结合的框架,该框架将加权策略用于区别视觉单词,在更精细的图像分类中效果较好。文献[122]提出一种集成核来识别子类中的鸟等,文献[123]提出通过组件来表示图像以及把双线性模型用于物体识别的一种方法。在线性空间金字塔匹配模型和尺度不变特征变换描述子上,文献[124]37 基于视觉描述子的图像检索与分类方法研究提出了一种改进的稀疏编码模型。文献[125,126]通过结合光学和空间信息来直接提升最终的分类准确度,文献[127]结合局部空间信息提出一种鲁棒的半监督核--FCM算法来解决图像分类的原始问题,文献[128]使用语义子空间表示图像,从而提出一种新的躯体识别方法。以上所提方法中,最为经典是基于稀疏编码的空间金字塔匹配模型,但该模型也有它自己的弱点:图像分的越精细,对视觉内容的位置和方向越敏感。针对此问题,文献[117]提出了一种弱空间对称描述子,这种方法结合了弱空间对称信息和词袋模型直方图信息来提高词袋模型的图像分类准确度。尽管这种方法在场景分类领域取得了成功,但是仍然有它自身的局限。例如,在把图像分割成许多小区域并且生成词袋模型的直方图后,弱空间对称模型仅仅计算了子区域内的空间对称信息,并没有考虑子区域间的空间差异信息。然而,当把图像按照金字塔式层级分成逐渐增加的子区域时,在子区域间的空间差异信息比子区域内的空间对称信息更重要。因此,基于稀疏编码的空间金字塔匹配模型,本章提出一种新方法来解决空间差异信息丢失问题。首先,计算四个方向上的空间差异信息,即提取空间差异描述子。其次,将空间差异描述子与词袋模型直方图相结合,提出基于空间差异描述子的图像分类方法。最后,在图像数据库上进行实验,以证明所提方法的有效性。4.2基于空间差异描述子的图像分类模型稀疏编码的空间金字塔匹配模型(LinearSpatialPyramidMatchingUsingSparse[53]CodingforImageClassification,ScSPM)主要包括四部分内容:底层描述子提取,稀疏编码,描述子集成和线性分类。虽然该模型在图像分类领域内取得了显著性的成功,但它并没有考虑到所分割的图像子区域间的空间差异信息。因此,基于ScSPM,本章1提出了一种新的图像分类模型--基于空间差异描述子的图像分类模型(SpatialDifference1+ScSPM,SD+ScSPM),其框架如图4-1所示,该模型主要包括五部分:底层描述子提取,稀疏编码,描述子集成,空间差异描述子的计算和线性分类。首先,在描述子提取时获取原始图像的初始表达向量。其次,稀疏编码和描述子集成分别被用来学习词典和局部描述子编码。然后,计算出空间差异描述子,达到获取图像显著性表达向量的目的。最后,正如其他常用的分类方法,在通过训练和测试获得显著性表达描述子后,使用线性SVM分类器进行图像分类的工作。38 第四章基于空间差异描述子的图像分类方法图4-1基于空间差异描述子的图像分类模型4.2.1底层描述子提取在图像表示的过程中,局部描述子扮演着非常重要的角色。为了显著提高图像的分类性能,选择合适的局部描述子对提高图像分类性能大有裨益,为了获得更有识别力的表示,使用了高维的“健壮描述子”,即致密SIFT。致密SIFT是通过每间隔8个像素的空间从而获取16*16像素的小模块而计算出来的描述子。在提取描述子之前,每一幅图像将被转换成灰度图像,然后使用L2范数对这些被提取出的描述子进行归一化。4.2.2稀疏编码在词袋模型中,稀疏编码已被广泛应用于图像描述子的表示中。设X=[x1,x2,…,D1xN](xR)是D维空间中的N个局部视觉描述子。假如需要学习有K个词目的词典,iD1则V=[v1,v2,…,vK](vR),每个描述子都可被转换成一个K维的编码,以便获取最i终的图像表示。设U=[u1,u2,…,uN]是X编码的集合,稀疏编码模型可以解决以下的优化问题:N2min||xuVnn||||un||1(4-1)UV,n12stv..||||1,kk39 基于视觉描述子的图像检索与分类方法研究其中是正则化参数。考虑到局部描述子的数量比较庞大,只需取这些描述子的子集作为样本来学习一个词典。当词典训练好之后,对每一幅图像的局部描述子进行编码。基于空间金字塔匹配模型,文献[53]在稀疏编码时生成了量化向量,其中线性空间金字塔匹配核是基于SIFT稀疏编码(SC)所提出的,这种方法被记作ScSPM,该方法很自然地缓解了向量量化(VQ)方法基数的严格限制,如图4-2所示。(a)VQ(b)SC图4-2两种编码方法的比较4.2.3描述子集成方法在稀疏编码过程中,从“XU”的变换可以看作是从图像局部描述子空间映射到一个更高维的稀疏编码描述子空间的过程。描述子集成的目的是进一步对U进行处理,KK11将其所包含的描述子融合到该空间中的一个向量上,即实现URZR,从而[129]形成图像的全局表示形式。UU111nZ1为表示方便,矩阵U记为:U,并记向量Z,其中,ZiR。UUZkk1nk描述子集成常用的方法有:(1)最大值集成(Maxpooling)。定义集成函数(PoolingFunction)为:Zumax{,u,...,u}(4-2)ii12iin(2)求和集成(SumPooling)或平均集成(AveragePooling)。这两种集成方法在本质上是一致的,定义其集成函数分别为:nZuiij1j(4-3)1nZuiij1j(4-4)n40 第四章基于空间差异描述子的图像分类方法ll在空间金字塔匹配层,将图像分成了2*2个子空间区域,其中l=0、1、2代表不同的尺度,将这些描述子的编码放在一起并得到相应的集成描述子向量。每一幅图像的这些描述子被级联起来,然后将其归一化,形成图像描述子的最终表示。在基于稀疏编码模型的图像表示方法中,本章使用了最大值集成方法来融合各描述子的稀疏编码,从而得到图像全局的稀疏表示。在本章所提出的模型中,最大集成方法和L2范数归一化被结合在一起使用。正如文献[53]所述,该方法可以产生比其他集成方法更好的性能(比如Sqrt和Abs),这种方法之所以有好的性能,是因为它对局部空间变换有很好的鲁棒性。经过最大集成方法,图像描述子最终以词袋直方图的形式被表示出来,该直方图主要用于与下面空间差异描述子的结合表示中。4.2.4空间差异描述子的计算在图像用稀疏编码和最大集成方法层级地表示出来之后,本章对空间差异描述子进行了四个方向的计算。例如,图4-3的子图(a)描述了从左到右的空间差异信息,子图(b)描述了从上到下的空间差异信息,至于对角方向的空间差异信息,如图4-3的子图(c)和(d)、以及图4-4所示,对比了两种不同的策略。在第一种策略中,提取对角空间差异信息的两个子区域不是全部都邻接。在第二种策略中,提取对角空间差异信息的两个子区域全部都是邻接的。这两种方案都计算了子区域间的空间差异信息,而不是子区域内的空间差异信息。由于计算对角空间差异信息的两个子区域可能是不邻接的,所以将它们的关系用虚线表示,如图4-3的子图(c)和(d)所示。图4-4在整幅图像的层面上描述了计算空间差异描述子的整个流程。为了区分这两种计算,我们定义第一种方案为空间差异描112述子1(SpatialDifference,SD),第二种方案为空间差异描述子2(SpatialDifference,2SD)。需要指出的是,在图4-3和图4-4中,箭头的头和尾所在的区域是用来计算空间差异描述子的子区域对。(a)(b)(c)(d)图4-3四类空间差异描述子信息41 基于视觉描述子的图像检索与分类方法研究图4-4空间差异描述子计算流程图在已经被分割好的图像中,对于即将计算的两个子区域,两个向量h1和h2的大小是与词典大小有关的:h1=[h11,h12,…,h1K]h2=[h21,h22,…,h2K]其中K是词典的大小。如果这两个子区域严格一致,那么它们之间的距离为零。本章使用了不同的距离测量方法对距离的计算进行测试,测试结果表明使用不同距离测量方法将得到不同的结果。根据测试结果,采取欧式距离作为最合适的一种方法计算两个向量间的空间差异信息。现在可以使用一个向量来描述整幅图像的空间差异信息:DSD=[d1,d2,…,dp]其中p是根据图4-3和图4-4所统计的将要用来计算的子区域对个数。参考文献[117]中的结合方法,在此将词袋模型的直方图和空间差异描述信息相结合,最终得到图像的显著性表达描述子:WScSPM+SD=[H,DSD]=[h1,h2,…,hm,d1,d2,…,dp](4-5)42 第四章基于空间差异描述子的图像分类方法其中m是直方图的大小。4.2.5线性分类本章使用了线性支持向量机作为分类器,作为基于空间差异描述子图像分类模型的最后一部分,该分类器的功能是根据提取的显著性表达描述子对图像进行分类,它的基本概念如下:n给定训练数据{(,)}zy,yYL{1,2,...,},一个线性支持向量机主要是用线性iii1iT核函数{|}wzcY将这些训练数据分成L类,对于测试集合z,它的类别将被计算为:cTywmaxz(4-6)ccY“一对余”的策略可以用来训练L个二分类线性支持向量机,每个分类器可以解决以下无约束凸优化问题:n2cmin{(Jwcc)||w||Clwyz(c;i,)}i(4-7)wci1ccc其中,当yc时y1,否则y1。lwyz(;,)是边缘损失函数,标准的边缘损失iiicii函数在任何地方不都是可区分的,这种现象阻碍着梯度优化方法的使用。因此,文中使用了可区分的二次方程式的损失函数:cTc2lwyz(;,)[max(0,wzy1)](4-8)ciici这样训练集就可很方便地使用简单的基于梯度的优化算法,如有限记忆拟牛顿法(Limited-memoryBFGS,LBFGS)和共轭梯度法(ConjugateGradient,CG),本章使用的是有限记忆拟牛顿法。根据以上理论,首先线性扫描训练样本,其中线性复杂度为O(n);然后使用基于梯度的优化算法LBFGS计算J(wc)和梯度Jww()。按照文献[53]的参数配置在线性支持向量机内进行迭代运算,将该过程随机地进行5次,并将其结果求均值,从而得到最终的分类结果。4.3实验分析1为了评估SD+ScSPM的有效性,在公开的图像数据集上进行了图像分类实验,所使用的数据集包括Scene15、Caltech101和Caltech256图像库。实验中使用了最常用的致密SIFT描述子,如其他常见标准一样,随机地选择一些图像进行训练,然后使用剩余的图像进行测试。为了得到可靠的结果,我们将这个过43 基于视觉描述子的图像检索与分类方法研究程重复10次,并求其均值。在性能度量中,使用了每个图像类的所有测试图像的平均分类准确度(MAP)作为分类的评测标准,下文中提到的分类准确度、分类精度以及图和表中的Performance都是指MAP,并且在最终的实验结果中列出了分类准确度的均1值和方差。在拥有三个层级的空间金字塔匹配模型中,将提取出的空间差异信息SD2(或者SD)和词袋模型直方图相结合,所有图像库中的每一幅图像将由一个21*K(词典大小)+40维的向量来表示。实验主要包括三部分:第一,固定词典大小为1024,对于Scene15图像库和Caltech101图像库,测试了不同距离测量方法的性能。距离测量方法主要包括六种,分别是Chebychev、Hamming、Jaccard、Cosine、Cityblock和Euclidean。第二,固定距1离测量方法,通过改变词典的大小来评估SD+ScSPM对图像分类的影响。第三,选择1了与SD+ScSPM相关的方法,通过展示它们已经公布的信息而不是重新实验的数据,1达到与SD+ScSPM的实验结果作出公平比较的目的。(1)在Scene15图像库上的结果分析Scene15包含15类图像(床,海滩,森林,高速公路,工厂,城市,厨房,起居室,山,办公室,乡村,郊区和楼房等),每类包括200到400幅图像不等,总共有4485幅图像。按照文献[53]中的实验设置,在每个图像类中随机选择100幅图像进行训练。为了公平比较,按照文献[117]的方法提取弱空间对称信息(WSS),并且将它们用2于相同的图像分类框架ScSPM下。图4-5展示了在不同距离度量方法下WSS、SD和1SD三个描述子在相同模型ScSPM下的分类结果,图的横坐标表示距离度量方法,纵1坐标表示分类效果度量值MAP。由图4-5可以看出,SD可以获得更好更稳定的分类效果,并且在以上三个方法的测试中欧式距离效果最好,因此在与其他相关方法进行对比时选择了在欧式距离下的实验结果。图4-6展示了在Scene15图像库中不同大小的词典对图像分类性能的影响,其中横坐标是词典的大小,取值从小到大分别是256、512、1024和2048,纵坐标是图像平均分类准确度。从图4-6可以看出,在所学习的几个词典中随着其维数的增大,分类效果也越来越好。1表4-1展示了实验中将SD+ScSPM的测试结果与相关文献中方法的分类结果作对比的情况,表的第一栏是方法名称,第二栏是图像分类准确度及其方差,正负号左边是分类准确度,正负号右边是方差。如表4-1中的数据所显示,LScSPM在场景分类中44 第四章基于空间差异描述子的图像分类方法可以取得准确度最高的结果,可能的原因是在每个小模块中的场景图像包含了丰富的纹理,这些纹理将导致稀疏编码过程的不稳定,通过加入拉普拉斯变换,相似模块可[54]以被编码到相似码段,这样图像便可以被精确地表示出来。除了LScSPM,本章所11提出的方法SD+ScSPM将空间差异描述子SD用在稀疏编码的空间金字塔匹配模型下时可以获得较好的结果。图4-7展示了Scene15图像库中每类的样本图像,样本图像底部括号内的数据是分类准确度MAP的值,前者是在稀疏编码的空间金字塔匹配模型的11框架下加入空间差异信息SD(SD+ScSPM)的实验结果,后者是文献[53]的方法(ScSPM)的实验结果。0.90.80.70.62SD+ScSPMPerformanceSD1+ScSPM0.5WSS+ScSPM0.4chebychevhammingjaccardcosineeuclideancityblcokMethodofmeasuringdistance图4-5不同距离测量方法的分类结果对比图0.870.860.850.840.830.82Performance0.81Scene150.80.7925651210242048Codebooksize图4-6不同字典大小的分类结果对比图45 基于视觉描述子的图像检索与分类方法研究表4-1分类结果对比表MethodsPerformance[52]KSPM81.40±0.50[117]WSS+SPM81.51±0.00[118]KCSPM76.70±0.40[53]LSPM65.32±1.02[53]ScSPM80.28±0.93[54]LScSPM89.75±0.50[124]NNScSPM81.92±0.423[128]SR83.72±0.78WSS+ScSPM81.46±0.002SD+ScSPM82.80±0.001SD+ScSPM84.52±0.01图4-7每类图像分类精度对比样例图(2)在Caltech101图像库上的实验分析Caltech101图像库包含8144幅图像,总共分为101类,这些图像包括动物、交通工具、鲜花等,可以说图像的形状比Scene15更加丰富多彩,每类中图像数目从31到800不等,分辨率大小约是300*300。我们按照文献[53]中的实验设置,从每个类中随机地选择15幅和30幅图像用来训练,并且利用剩余的图像来测试。一方面,为了公平比较,与在Scene15图像库中所做的实验一样,在空间金字塔21匹配模型的框架下,通过变换距离度量方式,对比了WSS、SD和SD的性能。另一方面,测试了不同词典大小对分类性能的影响。图4-8展示在不同距离度量方法下46 第四章基于空间差异描述子的图像分类方法21WSS、SD和SD三个描述子在相同框架ScSPM下的分类效果,图的横坐标表示距离1度量方法,纵坐标代表分类效果MAP。由图4-8可以看出,SD可以获得更好更稳定的分类效果,并且在以上三个方法的测试中欧式距离效果最好,因此在与其他相关方法进行对比时选择了在欧式距离下的实验结果。图4-9展示了在Scene15图像库中不同大小的词典对图像分类性能的影响,其中横坐标是词典的大小,取值从小到大分别是256、512、1024和2048,纵坐标是图像分类准确度MAP。从图4-9可以看出,在所学习的几个词典中随着其维数的增大,分类效果也越来越好。1表4-2展示了实验中将SD+ScSPM的测试结果与其他相关文献中方法的分类结果对比的情况,表的第一栏是方法名称,第二栏是每类图像训练15幅图像时的分类准确度及其方差,第三栏是每类图像训练30幅图像时的分类准确度及其方差,正负号左边是分类准确度,正负号右边是方差。如表4-2所示,相比于其他分类方法,无论是训练15幅图像还是30幅图像,基于空间差异描述子的图像分类方法都能够取得较好的分类效果。图4-10展示了在Caltech101图像库中进行测试时拥有最高分类精度的18类图像,图像下面小括号中是平均分类准确度MAP,前者是使用空间差异描述子方法1SD+ScSPM的MAP值,而后者是文献[53]中所提ScSPM方法的MAP值。从表4-2和图4-10可以看出,本章所提出的方法比其他方法的分类精度高1到9个百分点,这主要归功于空间差异描述子的加入。0.80.70.60.52SD+ScSPMPerformanceSD1+ScSPM0.4WSS+ScSPMchebychevhammingjaccardcosineeuclideancityblcokMethodofmeasuringdistance图4-8不同距离测量方法的分类结果对比图47 基于视觉描述子的图像检索与分类方法研究0.760.750.740.73Performance0.72Caltech1010.710.725651210242048Codebooksize图4-9不同字典大小的分类结果对比图表4-2分类结果对比表Methods15training30training[52]KSPM56.40±0.0064.60±0.80[117]WSS+SPM-67.57±0.00[118]KCSPM-64.14±0.18[53]LSPM67.00±0.4558.81±1.51[53]ScSPM67.00±0.4573.20±0.54WSS+ScSPM66.94±0.0173.39±0.142SD+ScSPM67.60±0.0073.15±0.011SD+ScSPM70.01±0.0074.26±0.01图4-10分类精度最高的18类图像的分类精度值对比及其样例图48 第四章基于空间差异描述子的图像分类方法(3)在Caltech256图像库上的实验分析Caltech256图像库有256类图像,包含29780幅图像,每一类至少包含80幅图像。与Caltech101图像库相比,Caltech256中图像本身的内容更加丰富,实验中使用了15、130、45和60幅随机挑选的图像分别进行训练。表4-3展示了实验中将SD+ScSPM的测试结果与其相关文献中方法的分类结果作对比的情况,表的第一栏是方法名称,第二栏是每类图像训练15幅图像时的分类准确度及其方差,第三栏是每类图像训练30幅图像时的分类准确度及其方差,第四栏是每类图像训练45幅图像时的分类准确度及其方差,第五栏是每类图像训练60幅图像时的分类准确度及其方差,正负号左边是分类准确度,正负号右边是方差。如表4-3所示,在训练图像数目为15、30、45和60时,3SR的性能最好,因为这种方法结合了训练图像的视觉相似性和弱语义相似性,但该方法不仅耗时而且还需要多个分类器,此外,它需要更多的空间存放子语义特征。除了31SR,我们的方法SD+ScSPM在所有选择的训练图像数量下都优于其他方法,这主要归功于在稀疏编码的空间金字塔匹配模型下加入了空间差异描述子。图4-11展示了在Caltech256图像库中进行测试时拥有最高分类精度的18类图像,图像下面小括号中是1平均分类准确度MAP,前者是使用基于空间差异描述子的图像分类方法(SD+ScSPM)得出的MAP值,而后者是文献[53]中所提方法(ScSPM)得出的MAP值。表4-3分类结果对比表Methods15training30training45training60training[118]KCSPM-27.17±0.46--[53]LSPM13.20±0.6215.45±0.3716.37±0.4716.57±1.01[53]ScSPM27.73±0.5134.02±0.3537.46±0.5540.14±0.91[54]LScSPM30.00±0.1435.74±0.1038.54±0.3640.43±0.383[128]SR37.85±0.4843.52±0.4446.86±0.63-[130]KSPM-34.10±0.00--WSS+ScSPM30.98±0.0036.90±0.0039.79±0.0041.63±0.002SD+ScSPM31.25±0.0036.84±0.0039.67±0.0041.63±0.001SD+ScSPM31.60±0.0037.04±0.0040.25±0.0042.66±0.0049 基于视觉描述子的图像检索与分类方法研究图4-11分类精度最高的18类图像的分类精度值对比及其样例图4.4本章小结描述子的提取是图像分类的基础,所选取的描述子能否充分表达图像的语义内容,直接影响着图像分类的效果。针对该问题,本章提出了空间差异描述子,该描述子充分利用空间差异描述信息,结合使用了稀疏编码的空间金字塔匹配模型,从而实现了基于空间差异描述子的图像分类方法,提升了图像分类的准确度。在Scene15、Caltech101和Caltech256图像库中进行的仿真实验结果验证了基于空间差异描述子的图像分类方法的有效性。50 第五章结论第五章结论图像中包含丰富的视觉描述信息,无论是基于语义的图像检索与分类,还是基于内容的图像检索与分类方法,都离不开视觉描述子的表示,而不同的描述子具有不同的表达能力,能够恰到好处地使用以及研究新的视觉描述子是图像检索与分类的重要任务之一。在多媒体数据呈爆炸式增长的今天,在图像分类与检索领域中能否有效地利用图像的视觉描述子信息已成为一个迫切需要解决的问题。本文围绕图像中视觉描述子的提取和利用这一主题,在分类中提出了新的视觉描述子,并探讨了视觉描述子在图像检索方法中的应用。本章列出了对全文工作的总结,并给出了今后研究方向的简单构想。5.1工作总结本文的主要工作如下:(1)提出了一种基于粗糙集推理规则和颜色互信息描述子的图像检索方法。对于模糊信息,传统的基于语义的图像检索方法无法给出清晰明了的解释,本文通过加入描述不确定信息的粗糙集相关理论,提出了基于粗糙集推理规则的图像检索方法。该方法根据粗糙集推理规则相关概念定义了一种新的图像语义相似性度量方法,根据用户的需要来调节相似性比较中的参数,解决模糊表达与匹配的问题,从而满足不同用户的需求,完成整个图像检索系统的初始检索。在基于语义的图像检索方法中,当从底层视觉描述子向高层语义映射时存在“语义鸿沟”问题,由于该问题的存在使得图像的部分底层视觉描述信息丢失,为了充分利用这部分丢失的信息,本文在基于粗糙集推理规则的图像检索基础上通过引入颜色互信息描述子,弥补了基于语义的图像检索方法中检索结果不精确的缺陷,实现了基于粗糙集推理规则和颜色互信息描述子的多模态图像检索方法,在Corel5K和Caltech101上进行的仿真实验证明了该方法的有效性。(2)基于稀疏编码的空间金字塔匹配模型,提出了基于空间差异描述子的图像分类方法。在图像分类中,使用稀疏编码的空间金字塔匹配模型是词袋模型在特征编码方面的一个拓展,它首先将一幅图像按照金字塔式层级分割成逐渐增加的子区域,然后51 基于视觉描述子的图像检索与分类方法研究将每个子区域的直方图级联起来。虽然稀疏编码的空间金字塔匹配模型在图像分类上取得了显著性的成功,但空间金字塔模型并没有考虑子区域间的空间差异信息,为了充分利用这一信息,本文提出了一种新的描述子‐‐空间差异描述子,并将其应用在图像分类中,从而提出了基于空间差异描述子的图像分类方法。在提升图像分类精度的过程中,该描述子用于连接空间金字塔匹配模型中的词袋直方图。最后,在Scene15、Caltech101和Caltech256图像库上进行仿真实验,实验结果表明本文所提出的方法可有效提高图像的分类精度。5.2今后研究构想虽然本文对基于视觉描述子的图像检索与分类技术进行了研究,但由于国内外对该领域研究本身的局限性,加上时间和本人的学识水平有限,论文在很多地方只是做了一些简单介绍和解释性的工作,不够深入和全面。因此,在今后的学习和工作中还有许多值得深入研究的地方:(1)在各种数字技术的推动下,数字图像数量正以惊人的速度增长,而相应的基于视觉描述子的图像检索系统的性能却并未达到人们理想的状况,离普及应用于人们的日常生活还有相当长的路要走。因此,今后的工作可以倾向于检索系统的实际应用研究。(2)为了更好地将其他领域的知识融入到图像检索与分类中来,使得基于视觉描述子的图像检索与分类技术更加成熟与完善,同时也使得图像技术能够更好更广泛地应用于图像识别等领域,我们将继续关注计算机视觉描述子的前沿热点应用研究,深入分析研究不断出现的新技术,比如图像深度描述子,来解决图像分类与检索领域中的一些实际问题。52 参考文献参考文献[1]杨同峰.基于空间关系的图像检索与分类研究[D].山东:山东大学,2013.[2]A.W.M.Smeulders,M.Worring,S.Santini,etal.Content-basedimageretrievalattheendoftheearlyyears[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2000,22(12):1349-1380.[3]C.W.Niblack,R.Barber,W.Equitz,etal.QBICproject:queryingimagesbycontent,usingcolor,texture,andshape,storageandretrievalforimageandvideodatabases[C].ProceedingsofSPIE,1996,18(3):173-187.[4]A.Pentland,R.W.Picard,S.Sclaroff.Photobook:content-basedmanipulationofimagedatabases[J].InternationalJournalofComputerVision,1993,1(1):173-187.[5]J.R.Smith,S.F.Chang.VisualSEEK:afullyautomatedcontent-basedimagequerysystem[C].ThefourthACMInternationalConferenceonMultimedia,1996:87-98.[6]T.S.Huang,M.R.N.O.Electrical,C.Engineering.Multimediaanalysisandretrievalrdsystem(MARS)project[C].The33AnnualCliniconLibraryApplicationofDataProcessing,1996:22-30.[7]J.Z.Wang,J.Li,G.Widerhold.SIMPLIcity:semantic-sensitiveintegratedmatchingforpicturelibraries[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2001,23(9):947-963.[8]M.Everingham,S.M.A.Eslami,L.V.Gool,etal.Thepascalvisualobjectclasseschallenges:Aretrospective[J].Internationaljournalofcomputervision,2015,111(1):98-136.[9]D.G.Lowe.Distinctiveimagefeaturesfromscale-invariantkeypoints[J].InternationalJournalofComputerVision,2004,60(2):91-110.[10]H.Bay,T.Tuytelaars,L.V.Gool.SURF:speededuprobustfeatures[C].ProceedingsofEuropeanConferenceonComputerVision,2006:404-417.[11]S.Winder,G.Hua,M.Brown.Pickingthebestdaisy[C].ProceedingsofComputerVisionandPatternRecognition,2009:178-185.[12]K.Mikolajczyk,C.Schmid.Anaffineinvariantinterestpointdetector[C].ProceedingsofEuropeanConferenceonComputerVision,2002:128-142.[13]B.Fan,F.Wu,Z.Hu.Aggregatinggradientdistributionintointensityorders:anovellocalimagedescriptor[C].ProceedingsofComputerVisionandPatternRecognition,2011:2377-2384.[14]M.Calonder,V.Lepetit,C.Strecha,etal.Brief:binaryrobustindependentelementaryfeatures[C].ProceedingsofEuropeanConferenceonComputerVision,2010:778-792.[15]S.K.Chang,T.L.Kunii.Pictorialdata-basesystems[J].Computer,1981,14(11):13-21.[16]S.K.Chang,E.Jungert,G.Tortora.Intelligenceimagedatabasesystems[M].Singapore,RiverEdge,NJ:WorldScienticfic,1996.53 基于视觉描述子的图像检索与分类方法研究[17]B.Holt,W.Niblack,M.Flicker,etal.TheQBICprojectinthedepartmentofartandhistoryatUCthDavis[C].Proceedingsofthe60AnnualMeetingoftheAmericanSocietyforInformationScience,1997:189-195.[18]C.W.Niblack,X.Zhu,J.L.Hafner,etal.UpdatestotheQBICsystem[C].ProceedingsofSPIE,1997:150-161.[19]H.Sun,S.Li,W.Li,etal.Semantic-basedretrievalofremotesensingimagesinagridenvironment[J].IEEEGeoscienceandRemoteSensingLetters,2005,2(4):440-444.[20]吴翌,庄越挺.结合语义的Web图像检索系统[J].模式识别与人工智能,2001,14(2):156-161.[21]O.Alonso,J.Kamps,J.Karlgren.Seventhworkshoponexploitingsemanticannotationsininformationretrieval[J].ACMSigirForum,2015,45(1):33-41.[22]Y.J.Zhang,Z.W.Liu.Content-basedimagequeryandtele-medicineservices[C].ProceedingsoftheFirstEuro-ChineseConferenceonInformationSociety,1997:609-619.[23]邵红,崔文成.低级特征和语义特征相结合的医学图像检索方法[J].中国图像图形学报,2004,9(2):220-224.[24]王伟凝,余英林.图像的情感语义研究进展[J].电路与系统学报,2003,8(5):101-109.[25]日本色彩与设计研究所.ImageanalystLE系统[EB/OL].http://www.aurora.dti.ne.jp/%7Ee-sys/software/iawle/.html.[26]苑寅秋.面向机电产品的色彩设计专家系统(MCSES)研究[D].南京:南京航空航天大学,2001.[27]陈斌.基于分形与小波的图像和谐情感特性研究[D].北京:北京航空航天大学,2002.[28]A.K.Jain,A.Vailaya.Shape-basedretrieval:acasestudywithtrademarkimagedatabase[J].PatternRecognition,1998,31(9):1369-1390.[29]J.R.Eakins.Trademarkimageretrieval[J].PrinciplesofVisualInformationRetrieval,Springer,2001:319-350.[30]A.Vailaya,M.A.T.Figueiredo,A.K.Jainet,etal.Imageclassificationforcontent-basedindexing[J].TransactionsonImageProcessing,2001,10(1):117-130.[31]P.Quelhas,F.Monay,J.Odobez,etal.Athousandwordsinascene[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2007,29(9):1575-1589.[32]P.Quelhas,F.Monay,J.M.Odobez,etal.Modelingscenewithlocaldescriptorsandlatentaspects[C].ProceedingsofTenthIEEEInternationalConferenceonComputerVision,2005:883-890.[33]A.Bosch,A.Zisserman,X.Mun෤oz.SceneclassificationviaPLSA[C].ProceedingsofEuropeanConferenceonComputerVision,2006:517-530.[34]J.Sivic,B.C.Russel,A.A.Efros,etal.Discoveringobjectsandtheirlocationinimages[C].ProceedingsofTenthIEEEInternationalConferenceonComputerVision,2005:370-377.[35]F.Teimoori,H.Esmaili,A.A.B.Shirazi.Unsupervisedestimationofconceptualclassesforthsemanticimageannotation[C].Proceedingsof19IranianConferenceonSource,2011:1-6.[36]D.M.Blei,A.Y.Ng,M.I.Jordan.Latentdirichletallocation[J].JournalofMachineLearning54 参考文献Research,2003,3(1):993-1022.[37]R.Fergus,L.Fei-Fei,P.Peroma,etal.Learningobjectcategoriesfromgoogleimagesearch[C].ProceedingsofIEEEInternationalConferenceonComputerVision,2005:1816-1823.th[38]Y.Li,W.Wang,W.Gao.Arobustapproachforobjectrecognition[C].Proceedingsofthe7PacificRimConferenceonAdvancesinMultimediaInformation,2006:262-269.[39]D.Liu,T.Chen.Unsupervisedimagecategorizationandobjectlocalizationusingtopicmodelsandcorrespondencesbetweenimages[C].ProceedingsofIEEEInternationalConferenceonComputerVision,2007:1-7.[40]Z.Zhang,S.Chan,L.T.Chia.Imageclassificationusingtensorrepresentation[C].ProceedingsofMultimedia,2007:281-284.[41]X.Wang,E.Grimson.Spatiallatentdirichletallocation[J].AdvancesinNeuralInformationProcessingSystems,2013:1577-1584.[42]L.Wu,M.Li,Z.Li,etal.Visuallanguagemodelingforimageclassification[C].ProceedingsoftheInternationalWorkshoponMultimediaInformationRetrieval,2007:115-124.[43]P.Tirilly,V.Claveau,P.Gros.Languagemodelingforbag-of-visualwordsimagecategorization[C].ProceedingsofInternationalConferenceonImageandVideoRetrieval,2008:249-258.[44]G.Wang,Y.Zhang,L.Fei-Fei.Usingdependentregionsforobjectcategorizationinagenerativeframework[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2006:1597-1294.[45]韩东峰,郭武.基于潜在局部区域空间关系学习的物体分类算法[J].计算机学报,2007,30(8):1286-1294.[46]R.Fergus,P.Perona,Z.Zisserman.Weaklysupervisedscale-invariantlearningofmodelsforvisualrecognition[J].InternationalJournalofComputerVision,2007,71(3):273-303.[47]Wahyono,K.H.Jo.Carriedbaggagedetectionandclassificationusingpart-basedmodel[M].AdvancedIntelligentComputingTheoriesandApplications,SpringerInternationalPublishing,2015.[48]T.Alekhya,S.R.Mishra.Objectrecognitionwithdiscriminatelytrainedpart-basedmodelonHOG(HistogramofOrientedGradients)[C].ProceedingsoftheSecondInternationalConferenceonComputerandCommunicationTechnologies,SpringerIndia,2016:645-653.[49]G.Csurka,C.R.Dance,L.Fan,etal.Visualcategorizationwithbagsofkeypoints[C].ProceedingsofEuropeanConferenceonComputerVision,2004:1-22.[50]K.Grauman,T.Darrell.Thepyramidmatchkernel:discriminativeclassificationwithsetsofimagefeatures[C].ProceedingsofIEEEInternationalConferenceonComputerVision,2005:1458-1465.[51]X.Li,Y.Guo.Adaptiveactivelearningforimageclassification[C].ProceedingsofComputerVisionandPatternRecognition,2013:859-866.[52]S.Lazebnik,C.Schmid,J.Ponce.Beyondbagsoffeatures:spatialpyramidmatchingforrecognitionnaturalscenecategories[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2006:2169-2178.55 基于视觉描述子的图像检索与分类方法研究[53]J.Yang,K.Yu,Y.Gong,etal.Linearspatialpyramidmatchingusingsparsecodingforimageclassification[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2009:1-8.[54]S.Gao,I.W.H.Tsang,L.T.Chia,etal.Localfeaturesarenotlonely-laplaciansparsecodingforimageclassification[C].IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition,2010:3555-3561.[55]K.Yu,Y.Lin,J.Lafferty.Learningimagerepresentationsfromthepixellevelviahierarchicalsparsecoding[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2011:1713-1720.[56]Z.Jiang,Z.Lin,L.S.Davis.LearningadiscriminativedictionaryforsparsecodingvialabelconsistentK-SVD[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2011:1697-1704.[57]T.Yang,J.Ma,S.Gao,etal.Spatialtowermatchingforimageclassification[J].JournalofComputationalInformationSystems,2012,8(16):6757-6764.[58]H.Liu,S.Li.Targetdetectionusingsparserepresentationwithelementandconstructioncombinationfeature[J].IEEETransactionsonInstrumentationandMeasurement,2015,64(2):290-298.[59]ISO/IECN9769,MPEG-7Visual[S].http://mpeg.chiariglione.org/standards/mpeg-7/visual,2008.[60]M.J.Swain,D.H.Ballard.Colorindexing[J].InternationalJournalofComputerVision,1991,7(1):11-32.[61]J.Huang,R.Kumar,M.Mitra,etal.Combiningsupervisedlearningwithcolorcorrelogramsforcontent-basedimageretrieval[C].ProceedingsofACMMultimedia,1997:325-334.[62]J.R.Smith,S.F.Chang.Toolsandtechniquesforcolorimageretrieval[C].ProceedingsofSPIE:StorageandRetrievalforImageandVideoDatabase,1995.[63]S.K.Chang.Iconicindexingby2Dstring[J].IEEETransactionPatternAnalysisandMachineIntelligence,1984,6(4):413-428.[64]K.E.A.Sande,T.Gevers,C.G.M.Snoek.Evaluatingcolordescriptorsforobjectandscenerecognition[J].PatternAnalysisandMachineIntelligence,2010,32(9):1582-1596.[65]G.J.Burghouts,J.M.Geusebroek.Performanceevaluationoflocalcolorinvariants[J].ComputerVisionandImageUnderstanding,2009,113(1):48-62.[66]N.Dalal,B.Triggs.Histogramsoforientedgradientsforhumandetection[C].ProceedingsofIEEEInternationalConferenceonComputerVision,2007:886-893.[67]J.Sivic,A.Zisserman.Videogoogle:atextretrievalapproachtoobjectmatchinginvideos[C].ProceedingsofIEEEInternationalConferenceonComputerVision,2003:1470-1478.[68]C.Harris,M.Stephens.Acombinedcornerandedgedetector[C].ProceedingsofFourthAlveyVisionConference,1988:147-151.[69]D.Nister,H.Stewenius.Scalablerecognitionwithavocabularytree[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2006:2161-2168.56 参考文献[70]Y.Ke,R.Sukthankar.PCA-SIFT:amoredistinctiverepresentationforlocalimagedescriptors[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2004:506-513.[71]L.Wu,S.C.H.Hoi,N.Yu.Semantics-preservingbag-of-wordsmodelsforefficientimageannotation[C].ProceedingsoftheFirstACMWorkshoponLarge-scaleMultimediaRetrievalandMining,2009:19-26.[72]J.C.Gemert,J.M.Geusebroek,C.J.Veenman,etal.Kernelcodebooksforscenecategorization[C].ProceedingsofEuropeanConferenceonComputerVision,2008:696-709.[73]J.P.Eakins,M.E.Graham.Contentbasedimageretrieval[N].AReporttotheJISCTechnologyApplicationProgram,1999.[74]D.Hong,J.K.Wu,S.S.Singh.Refiningimageretrievalbasedoncontextdrivenmethods[C].thIS&SPIE11SymposiumonElectronicImaging,SanJose,CA,USA,1999:581-592.[75]王惠锋,孙正兴等.语义图像检索研究进展[J].计算机研究与发展,2002,39(5):513-523.[76]A.Jaimes,S.F.Chang.Model-basedclassificationofvisualinformationforcontent-basedretrieval[C].ProceedingsofSPIEConferenceonStorageandRetrievalforImageandVideoDatabasesVII,SanJose,CA,1999,3656:402-414.[77]高永英,章毓晋.基于多级描述模型的渐进式图像内容理解[J].电子学报,2001,29(10):1376-1380.[78]J.Luo,A.E.Savakis,A.Singhal.ABayesiannetwork-basedframeworkforsemanticimageunderstanding[J].PatternRecognition,2005,38(11):919-934.[79]S.Aksoy,K.Koperski,C.Tusk,etal.LearningBayesianclassificationforsceneclassificationwithavisualgrammar[J].IEEETransactiononGeoscienceandRemoteSensing,2005,43(3):581-589.[80]Y.Han,X.Qi.AcomplementarySVMs-basedimageannotationsystem[C].InternationalConferenceonImageProcessing,Genova,Italy,2005,1:1185-1188.[81]K.S.Goh,E.Y.Chang,B.Li.Usingone-classandtwo-classSVMsformulticlassimageannotation[J].IEEETransactiononKnowledgeandDataEngineering,2005,17(10):1333-1346.[82]王上飞,陈恩红.基于支持向量机的图像情感语义注释和检索算法的研究[J].模式识别与人工智能,2004,17(1):27-33.[83]万华林,M.U.Chowdhury.基于支持向量机的图像语义分类[J].软件学报,2003,14(11):1891-1899.[84]朱兴全,张宏江.iFind:一个结合语义和视觉特征的图像相关反馈检索系统[J].计算机学报,2002,25(7):681-688.[85]X.Yin,M.Li,L.Zhang,etal.Semanticimageclusteringusingrelevancefeedback[J].IEEEInternationalSymposiumonCircuitsandSystems,2003,3:904-907.[86]X.He,O.King,M.Li,etal.Learningasemanticspacefromuser’srelevancefeedbackforimageretrieval[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2003,13(1):39-48.[87]W.Y.Liu,Y.Sun,H.Zhang.MiAlbum--asystemforhomephotomanagementusingthesemi-automaticimageannotationapproach[C].ProceedingsofACMMultimedia,LosAngeles:ACM57 基于视觉描述子的图像检索与分类方法研究Press,2000:479-480.[88]X.Q.Zhu,H.J.Zhang,W.Liu,etal.Newqueryrefinementandsemanticsintegratedimageretrievalsystemwithsemi-automaticannotationscheme[J].JournalofElectronicImaging,2001,10(4):850-860.th[89]H.T.Shen,B.C.Ooi,K.L.Tan.Givingmeaningstowwwimages[C].Proceedingsofthe8ACMInternationalConferenceonMultimedia,LosAngeles,California,2000:39-47.[90]R.K.Srihari,Z.Zhang,A.Rao.Intelligentindexingandsemanticretrievalofmultimodaldocuments[J].InformationRetrieval,2000,2(2):245-275.[91]张华,张淼等.基于外部信息源的www图像语义提取研究[J].计算机科学,2006,33(4):211-214.[92]C.Fellbaum.WorldNet:anelectroniclexicaldatabase[M].Cambridge:MA:MITPress,1998.[93]Q.Li,H.Hu,Z.Shi.Semanticfeatureextractionusinggeneticprogramminginimageretrieval[C].thProceedingofthe17InternationalConferenceonPatternRecognition,Beijing,China,2004,1:648-651.[94]贾宁.基于粗糙集的图像分类和检索研究[D].湖南:南华大学,2010.[95]吴伟.基于语义距离及特征融合的图像分类与检索研究[D].内蒙古:内蒙古大学,2014.[96]刘静静.基于融合特征及边界特征的图像分类与检索[D].河南:河南大学,2012.[97]S.RasoulSafavian,D.Landgrebe.Asurveyofdecisiontreeclassifiermethodology[J].IEEETransactionsonSystems,ManandCybernetics,1991,21(3):660-674.[98]冈萨雷斯等著.数字图像处理(第二版)[M].阮秋琦等,译,北京:电子工业出版社,2007:567-579.[99]吴楠,宋方敏.一种基于图像高层语义信息的图像检索方法[J].中国图像图形学报,2006,11(2):1774-1780.[100]C.Kurtz,C.F.Beauliu,S.Napel,etal.Ahierarchicalknowledge-basedapproachforretrievingsimilarmedicalimagesdescribedwithsemanticannotations[J].JournalofBiomedicalInformatics,2014,49:227-244.[101]X.Wang,S.Qiu,K.Liu,etal.Webimagere-rankingusingquery-specificsemanticsignatures[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2014,36(4):810-823.[102]周全名,耿国华,韦娜.基于内容的图像检索技术[M].北京:清华大学出版社,2007.[103]徐久成,李晓艳,孙林.一种概率粗糙集模型的图像语义检索方法[J].南京大学学报(自然科学),2011,47(4):438-445.[104]李清勇,胡宏.基于纹理语义特征的图像检索研究[J].计算机学报,2006,29(1):116-123.[105]D.Brahmi,D.Ziou.ImprovingCBIRsystemsbyintegratingsemanticfeatures[C].Proceedingsofstthe1CanadianConferenceonComputerandRobotVision,London,Ontario,Canada,2004:233-240.[106]C.Yang,M.Dong,F.Fotouhi.Learningthesemanticsinimageretrieval--anaturallanguageprocessingapproach[C].Proceedingsofthe2004IEEEComputerSocietyConferenceonComputerVisionandPatternRecognitionWorkshops,2004:137-143.58 参考文献[107]王国胤,张清华,马希骜等.知识不确定性问题的粒计算模型[J].软件学报,2011,22(4):676-694.[108]Z.Pawlak.Roughsets[J].InternationalJournalofComputerandInformationScience,1982,11(5):341-356.[109]苗夺谦,李德毅,姚一豫等.不确定性与粒计算[M].科学出版社,2011.[110]T.M.Cover,J.A.Thomas.信息论基础[M].阮吉寿,张华,译,北京:机械工业出版社,2008.[111]史婷婷,吴明珠,陈勇.基于二进制颜色相关矩阵的图像检索方法[J].计算机工程,2011,37(1):207-209.[112]J.Huang,S.R.Kumar,M.Mitra,etal.Spatialcolorindexingandapplication[C].Proceedingsoftheth6InternationalConferenceonComputerVision,Bombay,India:IEEEPress,1998.[113]T.Yi,G.I.William.Content-basedimageretrievalusingjointcorrelograms[J].MultimediaToolsandApplication,2007,34(2):239-248.[114]A.Tungkasthan,S.Intarasema,W.Premchaiswadi.SpatialcolorindexingusingACCalgorithm[C].thProceedingsofthe7InternationalConferenceonICTandKnowledgeEngineering.Bangkok,Thailand:IEEEPress,2009:113-117.[115]沈新宁,王小龙,杜建洪.基于颜色自相关和互信息的图像检索算法[J].计算机工程,2014,40(2):259-262.[116]曹建芳,陈俊杰,赵青彬.基于多语义特征融合的图像检索[J].计算机技术与发展,2014,24(5):134-137.[117]K.Teng,J.Wang,Q.Tian,etal.Improvingsceneclassificationwithweaklyspatialinformation[C].ProceedingsofInternationalConferenceonImageProcessing,2013:3259-3263.[118]A.Smeulders,J.Gemert,C.Veenman,etal.Visualwordambiguity[J].IEEETransactionsPatternAnalysisandMachineIntelligence,2010,32(7):1271-1283.[119]J.Wang,J.Yang,F.Lv,etal.Locality-constrainedlinearcodingforimageclassification[C].ProceedingsofComputerVisionandPatternRecognition,2010:3360-3367.[120]Q.Chen,Z.Song,Y.Hua,etal.Hierarchicalmatchingwithsideinformationforimageclassification[C].ProceedingsofComputerVisionandPatternRecognition,2012:3426-3423.[121]B.Yao,A.Khosla,F.Li.Combiningrandomizationanddiscriminativeforfine-grainedimagecategorization[C].ProceedingsofComputerVisionandPatternRecognition,2011:1577-1584.[122]N.Zhang,R.Farrel,T.Darrel.Posepoolingkernelsforsub-categoryrecognition[C].ProceedingsofComputerVisionandPatternRecognition,2012:3665-3672.[123]C.Zhang,J.Liu,Q.Tian,etal.Aboosting,sparsity-constrainedbilinearmodelforobjectrecognition[J].IEEEMultimedia,2012,19(2):58-68.[124]C.Bao,L.He.Linearspatialpyramidmatchingusingnon-convexandnon-negativesparsecodingforimageclassification[N].2015.arXiv:1504.06897v1[cs.CV].[125]E.Pasolli,F.Melgoni,D.Tuia,etal.SVMactivelearningapproachforimageclassificationusingspatialinformation[J].IEEETransactionsGeoscienceandRemoteSensing.2014,52(4):2217-2233.[126]S.Jia,Y.Xie,Z.Zhu.Integrationofspatialandspectralinformationbymeansofsparse59 基于视觉描述子的图像检索与分类方法研究threpresentation-basedclassificationforhyperspectralimagery[C].Proceedingsofthe18AsiaPacificSymposiumofIntelligentandEvolutionarySystems,ProceedingsinAdaption,LearningandOptimization,2015:117-126.[127]C.Zhu,S.Yang,Q.Zhao,etal.Robustsemi-supervisedkernel-FCMalgorithmincorporatinglocalinformationforremotesensingimageclassification[J].JournaloftheIndianSocietyofRemoteSensing,2014,42(1):35-49.[128]C.Zhang,J.Chen,J.Liu.Objectcategorizationinsub-semanticspace[J].Neurocomputing,2014,142(142):248-255.[129]徐望明.面向对象检索和分类任务的稀疏特征学习[D].武汉:武汉科技大学,2013.[130]G.Griffin,A.Holub,P.Perona.Caltech-256objectcategorydataset[N].Catech-256TechnicalReportUCB/CSD-04-1366,2007.60 致谢致谢在这毕业论文即将完成之际,我要真诚地感谢我的导师-河南师范大学计算机与信息工程学院院长徐久成教授,抛开他深厚的理论造诣、严谨的治学态度、丰富的实践经验、一丝不苟的工作作风和敏锐的学术洞察力等一系列绚丽的光环,原因有以下几条:第一,感谢徐老师让我懂得做人的一些道理,与人交往的一些要点;第二,感谢徐老师让我去中国科学院自动化研究所实习一年,虽然自身科研成果不多,但确实在相关领域内开阔了眼界并打下了坚实的基础;第三,在毕业论文选题、提纲拟定、论文修改以及最终定稿各个环节中,感谢徐老师对我更多的关心与指导。徐老师的教导对我都留下了深刻的印象,在此谨向徐老师致以诚挚的谢意和崇高的敬意!三载教诲,师恩难忘,感谢薛占熬教授、闫林教授和郑延斌教授等诸位任课老师对我在基础学科方面的指导,感谢孙林老师在科研上给予我了最初的引导,感谢李晓艳老师将自己的科研情况与我分享,感谢李双群老师在图像处理领域给予的一些切实的指导。在此向所有帮助过和指导过我的老师表示诚挚的谢意!感谢张一帆副研究员、唐志强博士、曹聪琦博士、吴稼祥博士、王培松博士、葛国敬工程师、张腊工程师等,与你们的学术讨论极大地活跃了我的思维,拓展了我的研究方法和实验视野。尤其是张一帆老师的悉心指导,让我从一个图像处理方面的小白慢慢走向认识它、懂它,以至后来在处理问题时能够得心应手。感谢业已毕业的师兄师姐,你们对我提高理论水平和撰写论文方面有很大帮助。感谢实验室的师弟师妹们对我的支持。特别感谢我的亲密好友刘团宁、徐璐、施玉杰和王子英等,是你们在我压抑、失意、生病和烦恼时给予我真诚的安慰、分担、关心与陪伴,和你们一起经历的点点滴滴都将会成为我宝贵的记忆。最后,我还要感谢我的家人,你们的关心、支持和鼓励使我得以顺利完成本论文。李玉惠2016年4月61 基于视觉描述子的图像检索与分类方法研究62 攻读硕士学位期间发表论文及参与科研情况攻读硕士学位期间发表论文及参与科研情况1、发表论文[1]YuhuiLi,JiuchengXu,YifanZhang,etal.Imageclassificationusingspatialdifferencedescriptorunderspatialpyramidmatchingframework[C].MultimediaModeling,PartI.LNCS9516,2016:527-539.(EI)[2]YuhuiLi,TaoLi,WanDong.Multi-modelimageretrievalmethodbasedonroughsetinferenceandcolormutualinformation[J].InternationalJournalofCollaborativeIntelligence,2016.(已录用)[3]LinSun,JiuchengXu,YuhuiLi.Afeatureselectionapproachofinconsistentdecisionsystemsinroughset[J].JournalofComputer,2014,9(6):1333-1340.(EI)[4]李涛,徐久成,孙林,李玉惠.基于信噪比邻域粗糙集的特征基因选择方法[J].数据采集与处理,2015,30(5):973-981.(中文核心)2、科研项目[1]参与国家自然科学基金项目(No.61370169,60873104)[2]参与河南省科技攻关重点项目(No.142102210056)[3]参与新乡市重点科技攻关计划项目(No.ZG13004)3、发明专利孙林,董婉,刘洋洋,李玉惠,李涛.一种便携式计算机键盘.专利类别:实用新型专利,授权公告号:CN203759650,授权公告日:2014.08.06.63 --?..,.'一—-二■.、‘.-.—f、.,,■、f''..■,-■?■-,**—尸./.?'*■■?!、-‘一一*:.S-.,‘—-一-.合..'".占■V’.;':--■---片','?????'..',-Vv-;■4>/''一^..._.■烏.:矣f胸■—-、?4,?‘巧^....—I‘■.-;.>一'‘‘-.‘—二.?、--.,....'■■一?.-、方;?..*■'一-.,■-T-.rI八辦,石.’■‘、'V..、.V.,畔■-.、-"-.、一、■一,气-,吃.1*^-…气-二….一?夕.--一-、亨.一:V—'.::?汽-二?■?e.--广iS..*,J.’、'?■?.-VV.^也沪.毛.■‘??,:J.',>■.、7vI?-,.。、..?.-八一.---‘-和..V\:I..'‘VV'單C;;,,辞訂—..‘;?..'.点;一非V...;,如-.=^矜-??/.-:■?'一-.占'‘.V呀;.话;.'片’v‘化‘;."■.就摩■。—:.'八i!i,,-.-'、'‘■'i-N'.、,'1皆'、.*^:V.‘、二..

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭