基于视觉感知的图像检索

基于视觉感知的图像检索

ID:8321710

大小:4.63 MB

页数:50页

时间:2018-03-19

上传者:U-5649
基于视觉感知的图像检索_第1页
基于视觉感知的图像检索_第2页
基于视觉感知的图像检索_第3页
基于视觉感知的图像检索_第4页
基于视觉感知的图像检索_第5页
资源描述:

《基于视觉感知的图像检索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

摘要摘要多媒体技术的快速发展与互联网技术的日益普及,使我们拥有越来越多的数字图像数据。为了能够准确、快速和人性化地从浩瀚的图像数据库中找到用户所需内容,基于内容的图像检索(ContentBasedImageRetrieval,CBIR)技术应运而生,并已成为国际学术界研究的一个热点。随着基于内容的图像检索技术的渐渐研究深入,一种基于视觉感知的图像检索技术逐渐活跃起来,它是根据人眼的视觉注意机制特点进行检索的,因而可以提高图像检索的精准率。本论文重点围绕基于视觉感知的图像检索进行研究,并提出了一种基于视觉感知的图像检索方法。该方法使用Itti的视觉注意模型计算得到一个关注度图,在关注度图基础上,使用种子区域增长技术实现对图像中感兴趣物体的自动提取。与一般的图像分割技术不同,种子点的选取和区域增长过程都融合了个体视觉注意程度的信息。最后,本论文通过MATLAB的图形用户界面,构架了一个GUI检索界面,实现了基于视觉感知的图像检索平台。关键词:基于内容图像检索高斯金字塔种子区域增长算法感兴趣区 摘要ABSTRACTWiththedevelopmentofmultimediatechnology,theapplicationofInternetandtherapidincrementofmultimediadatabase,wehavemoreandmoredigitalimages.Inordertomanageandretrievethoseinformation,theCBIR(Content-BasedImageRetrieval)hascameintobeingandemergedtobeoneofthehotresearchareasindigitalimagedomain.AstheCBIRtechnologyimproved,visualperception-basedimageretrievaltechnologygraduallybecameactivity.Itisretrievedbasedonhumanvisualattentionmechanismcharacteristics.Soitcanenhancetheaccuracyofimageretrieval.Thispaperfocusonimageretrievalbasedonvisualperception.Andproposesamethodtomakeitcometrue.ThesepaperuseItti’svisualattentionmodeltogettheattention-degreeofthewholeimagewhichshowsthelevelofindividualattentiontoeverypartsoftheimage.Onthebaseoftheconcerndegreemap,Iextracttheinterestedobjectsintheimageautomaticallywithseedregiongrowingtechnique.Anddifferentwiththegeneralimagesegmentationtechnologies,theprocessofseedpointsselectionandregionalgrowthcombinestheinformationofindividualvisualattentiondegree.Attheendofthepaper,ImakeaGUIsearchinterfacewiththeMATLABgraphicaluserinterface.Andmakethesearchplatformbasedonthevisualperceptionoftheimagecometrue.Keywords:content-basedimageretrievalGaussianpyramidseedregiongrowingalgorithmregionsofinterest 目录i目录摘要1第一章绪论11.1图像检索的应用和技术背景11.2国内外研究和发展现状21.3本文的研究内容及章节安排3第二章基于内容图像检索的预备知识及关键技术52.1图像检索中常用的低层特征描述方法52.2图像检索中的相似性度量方法62.3图像检索算法的评价准则8第三章视觉感知技术和Itti视觉注意模型113.1视觉注意机制113.2视觉注意计算模型和关注度图123.2.1初级视觉特征的提取143.2.2多特征图的计算与合并17第四章基于视觉感知的图像检索技术234.1算法主要流程234.2感兴趣物体的自动提取算法244.2.1关注度图的生成244.2.2种子区域增长和图像分割254.3基于感兴趣物体的特征提取与表达294.3.1HSV颜色空间的直方图特征提取294.3.2Tamura纹理特征提取304.4相似性度量334.5实验结果与分析34第五章图形用户界面GUI的生成37第六章总结与展望416.1已完成工作的总结41 目录i6.2对图像检索技术未来的展望41致谢43参考文献45 第一章绪论3第一章绪论近年来,由于图像、视频和音频采集设备的广泛应用,计算、存储设备的性能的飞速提升,以及互联网络的兴起和迅速普及,人们正在快速地进入信息化的社会。各种多媒体信息层出不穷、数据量急剧增加,成为了人们获取信息的重要来源,其形式包括:图像、图形、动画、视频、文本以及音频等。在很多应用领域中都出现了大容量的图像/视频数据库:然而,相对于多媒体数据的爆炸性增长,相应的管理手段却相对滞后,海量图像数据库的有效地存储、管理和检索成为一种亟需的应用技术,因而也成为了多媒体领域近十几年来的研究热点。本文对图像检索系统的结构、功能以及该领域相关技术进行了较为深入的研究,重点讨论:如何利用、反映视觉感知特性,提高基于内容的图像检索(Content-BasedImageRetrieval,CBIR)系统【1】【2】的性能。主要工作集中在视觉注意模型的建立、感兴趣目标的自动提取、颜色空间的量化、底层特征提取、相似度量设计五个方面。本章内容安排如下:1.1节,简述图像检索的应用和技术背景:1.2节,国内外研究和发展现状;1.3节,本文的研究内容及章节安排;1.1图像检索的应用和技术背景随着多媒体技术、计算机技术、通信技术以及互联网技术的高速发展,信息数量和信息媒体种类在不断增加,各种各样的信息被人们更多的接触。每天,无论是军用还是民用领域都会产生十亿比特的图像/视频数据。这些图像/视频数据中包含大量的信息。在如此之多的信息中,人们很容易就迷失方向,所以如何从中发现有用的信息是一个严峻的问题,对多媒体数据进行高效的管理、存取、检索已经成为一种比较迫切的需求。所以面对大量的各式各样的图像数据库,对图像数据库的管理工作成了一个迫在眉睫的研究课题,图像检索技术就是其中的核心技术之一。所谓的图像检索技术,就是从图像库中查找用户所需要的图像的这样一门技术。传统的基于文本的图像检索技术(Text-BasedImageRetrieval) 第一章绪论3是将图像作为数据库中存储的一个对象,然后利用人工对其进行人工标注,在系统检索时,使用标注以后得到的关键字进行匹配,这种做法本身存在着许多缺陷:首先,每一幅图像都需要人工进行注释,因此标注较大的图像数据库就需要大量的人力。其次,图像内容非常丰富,人工注释所采用的少量文字很难充分表达图像的内涵。更为重要的是,人们对于一幅图像的理解有着强烈的主观性,所以在其注释的过程中完全可能出现理解上的偏差,这就直接导致了在检索的过程中不可避免的出现错误。随着大规模数据库的出现,上述问题变得越来越尖锐,为了克服基于文本的图像检索技术带来的困难,上世纪90年代早期提出基于内容图像检索技术(ContentBasedImageRetrieval,简称CBIR),所谓的基于内容图像检索技术,是指直接根据描述媒体对象内容的各种特征,从数据库中查找出具有指定特征或含有特定内容的图像。基于内容图像检索技术是建立在计算机视觉和图像理解理论基础之上,其综合了人工智能、面向对象技术、认知心理学、数据库等多学科的知识。它突破了传统的基于文本检索的局限,从媒体内容中提取信息线索,实现了自动化、智能化图像检索和管理方式,便于快速、准确的查找。CBIR与传统的基于文本的检索方法相比,克服了人工描述的各种缺点,减少了工作量,适用于现在大规模的图像数据的检索。这项新技术具有客观、节省人力、可建立复杂描述、通用性好和应用前景广阔等许多优点,正受到了越来越广泛的重视,并得到了迅速的发展,CBIR已经代替了基于文本的图像检索成了图像检索技术的重心。1.2国内外研究和发展现状基于内容的图像检索技术始于90年代初期,目前己有十年的发展历史,由于此技术涉及的领域很多,因此迅速成为研究的热点,各大研究机构和公司如:IBM、MIT、Columbia、Stanford、UIUC、UCSB、Berkeley、Microsoft等都推出了它们的系统,各大著名杂志IEEETrans.OnPAMI、IEEETrans.OnImageProcessing、IEEETrans.OnMultimedia、IEEETrans.OnCSVT、ComputerVisionandImageUnderstanding、InternationalJouralofComputerVision、PatternRecognition、SignalProcessing:ImageCommunication、JouralofElectronicImaging、MultimediaSystems等纷纷设专刊介绍该领域研究的成果,著名的国际会议如:IEEEConferenceonCVPR、IEEEConferenceonICME、IEEEConferenceonICIP、ACM 第一章绪论3ConferenceonMultimedia、SPIEConferenceonElectronicImaging等纷纷设专题交流最新的研究成果【2】。基于区域(Region-based)的检索方法是目前基于内容的图像检索研究的热点之一。它的目的是为了克服使用全局图像特征无法满足用户在物体层(Objectlevel)完成检索的愿望。相对于全局图像特征,使用基于区域或者物体的特征可以对图像进行更进一步的理解和分析,而且也更容易获取图像的语义信息。此外,基于区域的图像检索方法的另一个突出优点是:它更贴近于用户进行检索时的思路,用户在寻找图像时,往往是想查询与例子图像中包含的物体相似的图像。目前,己经出现了一些基于区域的图像检索方法,这类方法大致的思路是:利用经典的图像分割技术,首先将图像分成不同的区域,然后对于每一个区域提取一些特征,如:颜色、纹理、形状等,并且结合基于区域的视觉特征与区域的位置等约束条件生成特征矢量,最后进行基于区域的特征匹配,输出最为相似的图像集合。然而,现有的这些基于区域的图像检索方法仍然具有以下几个没有解决的问题:(1)由于图像分割仍然是图像处理和计算机视觉领域一个相当困难的课题,目前的技术还无法保证准确地提取到图像中的物体:(2)用户对多数提取出的区域不感兴趣,因此使用用户不感兴趣的区域进行检索不但无法体现用户的检索目的,而且,这些无关的区域往往难以正确的匹配,导致检索准确率的降低。尽管有些方法让用户来手工选择感兴趣的区域,但这又增加了用户的工作量,这种查询方式,用户并不习惯。其实,我们可以分析用户在使用举例查询时的具体过程来得到一些有用的信息,或许通过这些有用的信息能够总结出有效的方案。一般地,用户在检索之前应当有自己希望检索的物体,如:一只老虎、一条鱼等,然后他寻找一幅或多幅图像包含他感兴趣的物体或者能够代表其检索目的,然后将这些图像作为例子提供给图像检索系统,系统按照一定的特征描述和相似度度量方法给出与之相似的图像集合。从用户的查询过程不难看出,用户一般只对例子图像中的某些物体感兴趣,因此,从用户的角度出发,使用全局的图像特征很难满足用户的希望,而基于区域的方法提取的区域大多用户根本不感兴趣,也不是最佳的方案。1.3本文的研究内容及章节安排 第一章绪论3充分地考虑到用户检索时的实际过程,结合目前的技术发展,本文提出一个基于用户感兴趣物体的图像检索方法中。此方法的关键技术有两个:其一,结合用户感兴趣模型(Attentionmodel)和种子区域增长技术(Seededregiongrowing)来自动提取图像中用户感兴趣的物体:其二,对提取出的用户感兴趣物体进行特征描述,并用它们的特征来代表图像,完成图像匹配。本文的方法具有以下两个较大的特点:(1)提出了一种图像检索的新思路,即:并不是图像中的所有区域都对检索有贡献,真正起作用的应该是能够引起用户兴趣的物体。所以,本文的算法首先提取图像中用户感兴趣的物体,用它们来代表图像特征,进而检索图像。这种思路与用户检索的要求相吻合;(2)提出了一个感兴趣物体自动提取算法,此方法有效地结合了感兴趣模型和图像分割技术,实现过程相当简单,但效果很好;本文的结构安排如下:第二章,介绍基于内容图像检索的预备知识及关键技术;第三章,介绍视觉感知技术和Itti视觉注意模型【9】【10】【11】;第四章,基于视觉感知的图像检索技术,详细介绍本文算法的技术细节、模拟实验和最后的检索平台的展示;第五章,最后给出本文的总结和对图像检索未来的展望。 第二章基于内容图像检索的预备知识及关键技术9第二章基于内容图像检索的预备知识及关键技术为了后续各章内容的展开,本章将系统地介绍基于内容图像检索领域研究的一些预备知识和若干关键技术。本章的结构安排如下:第一节介绍基本的图像低层特征描述方法;第二节介绍在图像匹配中一些常用的相似性度量准则;第三节介绍图像检索算法的评价方法。2.1图像检索中常用的低层特征描述方法目前,用于图像检索的低层视觉特征主要有三种:颜色、形状和纹理【3】【4】【5】。本节将简要地一一介绍,较为详细地介绍分布于本文后续的相关章节。一、颜色特征描述颜色是彩色图像最显著的、最直观的物理特征,因此颜色特征的描述方法很多。Ø颜色直方图(Colorhistogram):颜色直方图具有与生俱来的旋转不变性(Rotation-invariance)、尺度不变性(Seale-invariance)和平移不变性(Translation-invariance),因此它被被广泛的应用到图像检索中。其核心思想是在颜色空间中采用一定的量化方法对颜色进行量化,然后统计每一各量化通道在整幅图像颜色中所占的比重。常用的颜色空间有RGB和HSI空间,量化的方法有均匀量化方法、基于主观感知的量化、参考颜色表法、颜色聚类量化;Ø颜色矩(Colormoment):类似于描述形状的区域矩不变量,颜色矩的主要思想是在颜色直方图的基础上计算出一些统计量如:一阶中心矩、二阶矩等,用这些统计量来表示颜色特征;Ø包含空间信息的颜色描述方法(Spatialcolor):颜色直方图的缺点是失去了象素点的位置信息,为了克服此缺点,许多方法在描述颜色的同时考虑了空间信息。Huang提出了一种Colorcorrelogram的描述子,它的本质是用颜色对相对于距离的分布来描述颜色信息;Ø颜色不变量(Colorconstant):由十颜色通常随着光照的变化发生变化,一些学者试图提取出一些颜色不变量来进行图像检索,利用每一象素点周围小邻域中颜色的分布信息,通过差分或相比来获得颜色不变量。 第二章基于内容图像检索的预备知识及关键技术9二、形状特征描述形状是刻画物体的最本质的特征,也是最难描述的图像特征之一,目前用于图像检索的形状描述方法大致分为两类:基于边缘和基于区域的形状方法.Ø基于边缘的形状描述方法:利用图像的边缘信息,如边缘曲线、边缘方向直方图、角点、兴趣点等来描述物体的形状;Ø基于区域的形状描述方法:利用区域内的灰度分布信息,包括不变矩法、小波重要系数法等。三、纹理特征描述纹理是图像的重要特征之一,其本质是刻画象素的邻域灰度空间分布规律。纹理特征描述方法主要有四类:基于统计的方法、几何的方法、基于模型和基于信号处理的方法。Ø基于统计的方法:其主要思想是通过统计图像中灰度的分布来描述纹理特有文献提出了一种以灰度级空间相关矩阵即共生矩阵为基础描述纹理信息的方法,也有文献提出了一种利用象素灰度间的自相关函数来提取纹理特征;Ø几何方法:将纹理看作是纹理基元按照一定的几何规则排列的组合。这种方法的代表工作有利用V氏图剖分提取纹理特征和利用结构法提取纹理基元;Ø基于模型的方法:利用一些成熟的图像模型来描述纹理,如基于随机场(Randomfield)的方法、分形(Fractals)的方法和多尺度子回归的方法(Multi-resolutionsimultaneousautoregressive,MRSA)等。Ø基于信号处理的方法:利用信号处理的频率分析理论来提取纹理特征,包括基于傅立叶变换域(Fourierdomain)的方法、基于加博滤波器(Gaborfilter)的方法、基于小波域(Wavelet)的方法。2.2图像检索中的相似性度量方法相似性度量方法【1】用来计算两幅图像之间的相似程度,其模型是多种多样的,但没有一个适用于任何情况,主要原因是相似性具有特征依赖的特点,不同的特征应该应用不同的度量方法。以下是目前图像检索中用到的若干相似性度量方法。 第二章基于内容图像检索的预备知识及关键技术91.距离度量方法:图像特征抽取后,最直观的方法是直接利用特征向量的距离来衡量两幅图像的相似性,下面列举了一些CBIR系统中常用的距离公式,其中用x,y代表两幅图像对应的特征矢量,,代表特征分量。ØMinkkowsky距离:(2.1)ØManhattan距离:(2.2)ØEuclidean距离:(2.3)Euclidean距离没有考虑到向量各维之间的关系,各维分量同等重要。Ø加权Euclidean距离:(2.4)加权Euclidean距离考虑不同维分量的重要性,而一般的系统抽取的特征的重要性是不同的,因此此距离应用范围很广。ØMahalanobis距离:(2.5)A矩阵是相应的协方差矩阵,此距离考虑了样品的统计一性和样品之间的相关性。 第二章基于内容图像检索的预备知识及关键技术9Ø直方图交(2.6)该距离只能用于以直方图为特征矢量的相似性度量。2.人类视觉相似性模型:距离度量模型的公式应受以下四条计量公理的限制:D(A,A)=D(B,B)=0自相似常数公理D(A,B)D(A,A)最小公理D(A,B)=D(B,A)对称性公理D(A,B)+D(B,C)D(A,C)三角不等公理然而,这四条公理对于图像检索来说并不完全成立,实验证明,这四条公理都有反例。如在认知试验中,人们容易把某种特征不太显著的物体认为象特征显著的物体,却不认为显著的物体象不显著的物体,这就违反了对称性公理。所以,有文献提出了模糊特征对照FFC(Fuzzyfeaturecontrast)模型,其相似性计算公式如下:(2.7)在FFC中,图像的特征向量的各维分量的取值是模糊的,只要各个特征取值范围有限,FFC度量比传统的距离度量更为接近人类对相似性衡量的心理上的特点。2.3图像检索算法的评价准则 第二章基于内容图像检索的预备知识及关键技术9由于图像检索具有很强的主观性,因此,评价一个图像检索算法性能的优劣并不容易。下面列举的是几个公认的图像检索算法的评价准则。Ø准确率(Precisionrate)和回想率(Recallrate):对于一幅查询图像Q,其准确率和回想率分别定义为:PR=n/TRR=n/N其中:N:人眼主观从图像库中找出域图像Q相似的图像数目;n:图像检索系统自动检索输出的包含在N中的图像数目;T:图像检索系统自动检索输出的总的图像数目。回想率相当于在一定范围内的查全率,而准确率相当于在一定范围内的查准率。这两个指标都是越大越好。可以统计多幅查询图像的平均检索准确率和回想率,直接分别用它们来衡量图像检索算法的性能,也可以使用准确率对回想率的曲线来评价算法的性能,另外,还可以根据准确率和回想率计算出检索效率来评价检索算法,检索效率定义为:(2.8)Ø命中准确率:准确率和回想率需要用户在图像库中人工找出与查询图像相似的图像集,这将耗费大量的人工劳动,因此这种度量准则仅适用于小型的图像数据库。如果图像库测试集已经提前进行了分类,如CorelImageGallery等,就可以简单的将每一个图像类作为其中每一幅图像的Groundtruth,由此来度量算法的检索准确率。设图像Q所在的Groundtruth图像集为G,图像检索算法自动输出了T个相似图像,其中命中G的有n图像,此次检索的准确率定义为:(2.9)由此,平均多个查询的检索准确率就可以度量算法的检索性能。排序值评测法设Q为一幅查询图像,,,……,为图像检索算法输出与Q相关的一且从主观上认为相似的图像(等同于上公式中的),(),i=1,2,……,n是它们在检索结果中对应的排序值,则有两个指标可以衡量检索算法的性能: 第二章基于内容图像检索的预备知识及关键技术9(2.10)(2.11)其中,第一个指标定义了所有相关图像在检索结果中的平均排序,显然,此指标越小,检索算法的准确率越高。第二个指标定义了所有相关图像在靠前排列的紧密程度,此值越大越好,如果所有的相关图像都排在最前面,则此指标取值为1。应当指出,除了主观因素,图像检索的准确率与图像数据库有很大的关系,即使同一算法根据相同的评价方法在不同的数据库中计算出的检索准确率都可能会存在较大的差异。目前流行的评价策略是:根据具体的实验环境,采用上述三种评价方法之一,在图像数据库中任意挑选若干个图像进行检索,用平均检索准确率来衡量算法的效率。本章简单介绍了基于内容图像检索研究中的一些预备知识和关键技术,主要包括三个方面的内容:描述图像的低层视觉特征、图像的相似度度量方法和图像检索算法的评价准则。通过这些预备知识的介绍,让我能够从整体上了解该领域研究的主要问题和己有的工作基础,同时也为后续章节的展开作了铺垫。但是,每一部分介绍的都比较概括,详细的应用将在下一章节进行展开介绍。 第三章视觉感知技术和Itti视觉注意模型21第三章视觉感知技术和Itti视觉注意模型3.1视觉注意机制视觉注意(Visualattention)是人类视觉(Humanvision)研究领域的重要课题,通俗地讲,视觉注意就是研究人在观看图像时,到底对什么更加注意。从本质上讲,视觉注意是属于神经生物学范畴的概念,它意味着人具有精神或者观察能量能够集中的技能。从事视觉注意机制研究的学者大多是心理学家或生物神经学家,因此,图像处理和计算机视觉领域并没有对此产生很大的研究兴趣,但是近几年来,己经有一些学者将注意机制的一些方法应用到图像处理应用中。研究视觉注意机制的一个重要实验被称为眼动实验(Eyemovement),即:通过大量实验样本(人)在观察图像时眼睛的转动频率和视点位置的移动归纳出若干能够影响视觉注意的低层因素和高层因素。目前,总结出来的低层视觉特征有:※对比度(Contrast):人往往会更加关注图像中颜色或亮度反差较大的地方;※尺寸(Size):尺寸一大的物体更能吸引人的注意;※形状(Shape):细长条的物体更能引起人的注意;※颜色(Color):人类视觉对某些颜色较为敏感,如红色;※运动(Motion):运动的区域能够强烈地吸引人的注意。影响视觉注意的高层因素包括:※位置(Location):人往往对位于图像中心的区域更加关注;※前景和背景(Foreground&background):人们往往更关心图像中的前景区域;※人(People):图像中的人或者人脸、手等都更加吸引观察者的注意;※观察者自身的素质(Context):观察者自身的职业、受教育情况、性别等都会影响它们注意机制。根据眼动实验总结的影响视觉注意的诸多因素,近年来,一些学者提出了视觉注意的计算模型。Itti等回顾了与视觉注意机制相关的一些工作,并且提出了一个自下而上(Bottom-up)、基于显著度(Saliency-based 第三章视觉感知技术和Itti视觉注意模型21)的注意计算模型。首先,融合图像的一些低层视觉特征生成关注度图(Saliencymap)【23】,然后使用一个动态的神经网络(Dynamicneuralnetwork)按照显著度递减的顺序依次发现图像中的注意点。在此工作中,显著度图是一个相当重要的贡献,它用具体的定量描述给出了图像中每一点受关注程度的情况。Privitera等通过对大量的人做眼动实验,然后将人工实验的结果与常见的图像处理算法的结果作对比,从而归纳出哪些图像处理算法对兴趣区域的发现更加有效。有相关文献提出一种极大似然(Maximum-likelihood)方法来定义视觉注意的计算模型。有相关文献将视觉注意模型应用到目标识别中,结合一些先验知识利用此模型滤除掉图像中与待识别目标无关的部分,这样既可以减小计算量节省识别时间,还可以使系统专注于图像中的一部分区域,提高了识别的精度。此方法在手写字识别和人脸检测方面都取得了不错的结果。最近,一些工作又将注意机制引入到视频分析中,通过线性组合用户对三个信息通道:视觉(visual)、听觉(Audio)和语言文字(Linguistic)的感兴趣程度,对每一帧图像都计算出总的受关注程度,并基于此动态提取关键帧。通过分析与视觉注意机制相关的工作,我有以下几个观点:※视觉注意的计算模型是通过大量对人的生理实验建立的,因此结果应当符合人的主观感觉。这就为视觉注意计算模型的应用提供了科学的依据;※目前己有的工作,包括视觉注意的计算模型建立和在目标识别、视频分析等方面的应用多数都是近几年才开展起来的,这说明此领域的研究开始升温;※已有的工作中还没有根据视觉注意模型提取图像中用户感兴趣物体的研究,更没有将其应用到基于内容的图像检索中,而这些正是本文研究的创新点。3.2视觉注意计算模型和关注度图Itti提出的基于显著度的空间视觉注意模型,是当前视觉注意机制领域中具有主导地位的自底向上的视觉注意模型,为实现本文相关功能提供了必要的理论基础和指导。 第三章视觉感知技术和Itti视觉注意模型21在数字图像处理领域内,在缺乏先验信息的情况下对图像进行理解,由于没有明确的目标和目的,大多数的传统方法都会采取对图像进行全面分析的方式。这意味着,在图像中,兴趣区域和非兴趣区域享有相同的计算资源,分配到同样的计算时间。一般情况下,最能反映图像内容的信息或者数据,仅仅占据完整图像的很小一部分。因此对全图进行全面、相同的处理不但增加了分析过程的复杂性和数据冗余度,而且浪费了宝贵的计算资源。自底向上的基于显著度的空间视觉注意模型能够很好地解决这一问题。尽管没有事先给定任何先验信息,模型仍然能够根据来源于图像的底层数据,分析视觉刺激、分配计算资源,按照不同位置显著度高低顺序有选择地对各个场景区域进行局部分析处理,所以自底向上的视觉注意模型通常也被称作数据驱动(Data-driven)的视觉注意模型。尽管更为普遍的观点是:自顶向下和自底向上的信息综合处理结果影响人类的行为。但是,目前将这种自底向上的数据驱动的视觉注意机制引入到图像信息处理过程是非常有意义的。通过计算机建模,场景中的突出目标因其特殊的视觉特征分布模式而具有较高的显著性,根据显著性的优先级计算程序就能够快速准确地认知场景内容,进行逻辑推理和决策。同时,自底向上的视觉注意模型的研究能够推动自顶向下视觉注意模型的研究进一步深入,并且和神经生物学方面的视觉注意机制研究工作相互促进、相辅相成。图3.1描述了基于显著度的空间视觉注意模型框架。通过对图像进行多尺度处理、初级视觉特征提取、注意焦点确定与转移三个部分的协同工作,能够从输入图像中提取出感兴趣的待注意目标。输入一幅彩色图像,首先使用线性滤波器将图像分解为多个特征通道,提取颜色、亮度和方向等多个维度的特征;然后使用高斯金字塔对不同维度特征进行多尺度采样,经过中央周边差操作提取初级特征图;接着,采取有效的特征合并策略,将不同维度的多幅特征图合并得到突出图和显著图;最后,根据得到的显著图定位待注意目标,完成对目标的关注。模型中使用胜者为王WIA竞争网络寻找显著图中存在的最显著的点同时返回其坐标。同时,使用禁止返回IOR机制使注意力不返回已经关注过的区域。进一步的迭代保证注意力能够以显著性降序为标志关注其它目标。 第三章视觉感知技术和Itti视觉注意模型21图3.1基于显著度的视觉注意模型框架3.2.1初级视觉特征的提取输入一幅彩色图像,首先使用现行滤波器将输入信号分解为孤立的通道,包括亮度、颜色和局部方向等。将不同通道的信号之和与高斯低通滤波器进行卷积,获得滤波结果并以2为步长进行横行和纵向的减抽样操作,建立高斯金字塔。显著性模型中设置金字塔尺度级别分别为σ=1,2,… 第三章视觉感知技术和Itti视觉注意模型21,9.尺度级别1,代表当前图像和原始图像的比例为1:1,尺度级别9,代表经过8次高斯平滑和8次抽样操作,当前图像和原始图像的比例是1:256,如图4.2所示。图3.2高斯金字塔图例使用r,g和b表示彩色图像的红、绿和蓝三色通道值。使用以下公式计算亮度:(3.1)使用,来计算亮度高斯金字塔.为了突出不同颜色通道产生的反差效果,模型计算对应红绿(RG)对比通道以及蓝黄(BY)对比通道的颜色图:(3.2) 第三章视觉感知技术和Itti视觉注意模型21(3.3)使用和构建颜色高斯金字塔和。然后,使用Garbor滤波器对亮度金字塔进行滤波,滤波器设定四个主要的方向:∈{0°,45°,90°,135°},得到局部方向高斯金字塔图。局部方向高斯金字塔图是对图像中方向(朝向)信息的直观反映,该图给定区域内的能量反映了该区域内的灰度对比程度,进而反映了Gabor滤波后区域内的纹线清晰程度。如果输入图像该区域内的纹线方向接近滤波器方向,则Gabor滤波后该区域内的纹线结构相对清晰,亮度高,和周围环境对比反常大。例如,对同一区域进行0°,45°,90°,135°四个方向的Gabor滤波,该区域45°方向滤波结果灰度亮度最高,表示该区域在45°方向具有明显的朝向特征,该特征可能是45°方向的一条直线或者规则纹理引起的。Gabor滤波器与人类初级视皮层的简单细胞的生物作用相仿。J.Daugman在1985年提出了二维Gabor滤波器理论,并指出二维Gabor滤波器可以同时在空域、频域和方向上获得最佳的分辨率,可以在频域不同尺度、不同方向上提取相关的特征。利用Gabor小波的尺度函数和对应的小波函数构成一对奇偶滤波器,它具有很好的时空域局部化特点,可较好地模拟人类视皮层简单细胞的信号处理特点。在模型中,可设置任意方向数目,但是太多的方向数对系统运行表现并无明显改进,因此,模型设置四个方向进行Gabor滤波。图3.3显示了一个多尺度和多方向Gabor滤波器和测试图片的滤波结果。 第三章视觉感知技术和Itti视觉注意模型21图3.3多方向多尺度Gabor滤波器和测试图片滤波结果3.2.2多特征图的计算与合并对颜色、亮度和方向多维特征,在其图像金字塔上,应用中央周边差操作(CenterSurroundDifference)。中央周边差操作根据人眼的生理结构设计。人眼感受野对于反差大的视觉信息输入反应强烈,例如中央暗周边亮的情况,中央是红色周边是绿色的情况,这都属于反差较大的视觉信息。对每维特征进行中央周边差操作,以探测场景或图像中的空间不连续性,很好地模仿了视网膜上探测突出目标的机制。对于每维特征,中央尺度。为金字塔的3,4,5尺度级别,周边尺度,其中∈{3,4},从而产生六对尺度,(3-6,3-7,4-7,4-8,5-8,5-9)。通过将周边尺度s的图像进行线性插值,使之和中央尺度c的图像具有相同大小,然后进行点对点的减操作,获得中央周边差图,这样的跨尺度的减操作用符号Θ表示。 第三章视觉感知技术和Itti视觉注意模型21对亮度特征而言,为了捕捉在较暗背景中的明亮对比信息以及在较亮背景中的灰暗对比信息,对中央周边差操作后的结果取绝对值,获得亮度特征图:(3.4)这里,c=3,4,5,表示中央尺度;,s表示周边尺度,∈{3,4},I表示亮度。同理可计算得到红绿对比颜色通道和黄蓝对比颜色通道的特征图:(3.5)(3.6)这里,RG表示红绿颜色对比通道,BY表示蓝黄颜色对比通道。类似地,局部方向通道的特征图定义为:(3.7)这里,{0°,45°,90°,135°},后产生的四个方向特征通道。模型共计算亮度特征图42张特征图。表示使用Gabor滤波器对亮度金字塔进行四个方向滤波6张,颜色特征图2×6张,局部方向图4×6张,总共42张特征图。基于显著度的视觉注意模型认为视觉注意力在一张二维显著图的指导下转移,而显著图反映了场景不同位置的显著性,所以必须合并以上计算所得的多张特征图。模型使用不同机制提取不同通道的特征,如何衡量颜色、亮度或者方向特征图中的显著点的重要性,进而合并形成一张图,其合并策略非常重要。同时,显著目标可能在某一通道对应的特征图中引起强烈的响应,但是这种响应往往会被其它特征通道中的噪声所湮没。使用合适的合并策略,能凸现真正显著的目标,有效地抑制噪声。显著性视觉注意模型,使用一个非线性的标准化算子N(•)对图像进行迭代操作,抑制噪声,突出显著目标,为特征图的合并打下良好基础,使合并后的结果更加直观地反映图像不同位置的显著性。算子N(•)的操作步骤如下:为了避免由特征提取方法不同造成的特征强度差异,首先将每张特征图的特征值归一化到固定的O至1的数值区间内得到M;然后将M与二维高斯差分函数进行卷积,将结果和输入进行叠加,迭代中产生的负值设置为零(见图3.4),公式定义如下:(3.8) 第三章视觉感知技术和Itti视觉注意模型21(3.9)这里,是二维高斯差分函数;表示抛弃负值;和是兴奋和抑制带宽(文中取经验值,和分别为输入图像宽度的2%和25%);和为兴和抑制常量(文中取经验值,=0.5和=1.5);为了避免将具有均匀纹理的区域当成显著的目标,公式中引入了一个偏置常量,抑制相应的区域(文中取经验值0.2)。图3.4使用标准化算子进行局部迭代的流程图迭代的次数可以是任意的,对于输入的二维非空特征图,过多的迭代次数最终导致在特征图中形成一个单峰。过少的迭代次数,会造成激励和抑制不足,目标突出和噪声抑制不明显。利用标准化算子对特征图进行局部迭代的这种中央自激励、领域范围内抑制的方法,促成相邻显著点之间的局部竞争。虽然迭代的次数需要人为设定,但是计算过程中一般到特征图中大多数位置的特征值收敛接近于O时就停止迭代,图3.5是对两幅不同特征图使用标准化算子进行不同次数迭代产生的中间数据结果。模型使用高斯差分函数进行局部迭代,模拟了人脑视皮层的中央自激励、领域范围内抑制的长程连接(long-rangeConnections 第三章视觉感知技术和Itti视觉注意模型21)组织方式,从而避免了只能检测到一个突出的显著目标的情况,从生物角度考虑具有合理性。使用标准化算子进行局部迭代后产生的特征图更接近稀疏分布,显著目标周边的区域能够得到很好的抑制。使用标准化算子进行局部迭代的方法,具有对非显著目标强烈抑制的特点,同样适用于自然场景图像中的目标检测,表现出对噪声的鲁棒性。图3.5对两幅图像使用标准化算子进行不同次数迭代产生的中间数据结果 第三章视觉感知技术和Itti视觉注意模型21经过迭代标准化操作后,将不同尺度上的亮度、颜色和方向特征图叠加起来,形成各个维度对应的突出图CM(ConspicuityMaps)。这里使用到跨尺度加⊕操作,将特征图约减到尺度级别σ=4金字塔图的大小,然后将特征图做点对点加操作。亮度突出图为:(3.10)颜色突出图为:(3.11)方向突出图为:(3.12)最后,将不同特征下的突出图做加权叠加得到显著图SM(SaliencyMap),前模型中设置每个特征的权值都是一样的。(3.13)上文方案是一个有效的视觉注意计算模型。此模型在九个尺度上分别计算三个特征通道的注意程度定量值,然后线性组合它们,通过迭代过程形成最终的关注度图,此关注图记录了图像中每一个点受关注的程度,亮度越大的点意味着受关注的程度也越大。模型使用的三个特征通道是亮度对比度、颜色对比度和方位朝向对比度。本文算法仅仅使用此模型中的关注度图。但是,需要指出的是,此模型的目的是计算出每一个点受关注程度的定量值,而本文的目的是提取受关注的物体,物体具有整体的特征,因此,考虑到物体局部的整体信息,我们使用一个高斯滤波器来滤除掉关注图中的“噪声”点,其目的是为了降低后面选取种子点出错的可能性。※ 第四章基于视觉感知的图像检索技术35第四章基于视觉感知的图像检索技术4.1算法主要流程相似度计算颜色纹理特征提取示例图像图像数据特征库检索结果感兴趣区颜色量化视觉注意模型感兴趣区自动提取用户在检索图像中,往往只想利用例子图像中的他们感兴趣的物体来检索,因此,本章算法的核心思想与用户检索过程相吻合。图4.1给出了算法的基本流程图。图4.1本文算法流程图首先使用Itti提出的视觉注意计算模型对待查询图像进行处理,得到图像中每一点受关注程度的定量描述值,有理由认为受关注程度越高则观察者对其的兴趣也就越大。然后结合视觉注意计算模型和用来图像分割的种子区域增长算法来提取图像中感兴趣的物体,此过程包括了种子区域的选择,区域的增长和相似且相邻区域的合并等技术环节。当提取到预定数目的感兴趣物体后,使用颜色和纹理特征来描述每一个感兴趣物体。在度量图像间的相似性时,依据图像中感兴趣物体受关注程度对应地进行匹配。最后,按照相似度进行排序,输出相似图像集合。整个算法的核心技术是图像中感兴趣物体的自动提取。我们利用了视觉注意计算模型,假设某个物体引起视觉注意越强烈,就越可能成为用户感兴趣的物体。在感兴趣物体的提取过程中,使用了种子区域增长技术,与一般的图像分割技术 第四章基于视觉感知的图像检索技术35不同,种子点的选取和区域增长过程都融合了视觉注意程度的信息。4.2感兴趣物体的自动提取算法4.2.1关注度图的生成本小节将结合关注度图和种子区域增长算法来自动提取图像中感兴趣的物体。种子区域增长(Seededregiongrowing)是一项相当有效的图像分割技术【19】,很多的文献介绍了相关的工作。一般地,种子区域增长开始于一个种子区域,然后不断地将相邻的点赋予此区域,而增长的过程被一些相似度准则所控制,只有通过相似度测试的点才能属于此区域。该方法有两个优点:其一,它简单、快速、鲁棒性好;另一个优点是种子点的选取过程很容易融合一些高层的语义信息,通过控制种子点的选择,可以生长出符合需要的物体,这一优点对于提取感兴趣物体是相当有吸引力的。在利用了第三章的Itti的模型的基础上,我得到了一幅图像的关注度图如图4.2和图4.3所示,(a)原始图像(b)对应的关注度图图4.2图像与对应的关注度图示例I 第四章基于视觉感知的图像检索技术35(a)原始图像(b)对应的关注度图图4.3图像与对应的关注度图示例II感兴趣物体自动提取算法大致分为五步来实现:※颜色量化(Colorquantization):图像中的颜色被量化成若干能够区分不同区域的代表颜色类,量化后,每一个象素点的颜色值都用其对应的代表颜色类来代替,形成一个颜色类图像(Colorclassmap);※相对位置指示图(Relativepositiondenotemap):在颜色类图像的基础上生成一个相对位置指示图,它能够估测出每一个象素点的相对位置,是处于某一区域的内部还是更靠近边缘;※感兴趣物体种子区域的选取(Attentionseedareadetermination):结合相对位置指示图和注意度图选择用于开始感兴趣物体生长的种子区域:※感兴趣物体生长(Attentionobjectsgrowing):从种子区域开始依次增长感兴趣物体,增长过程由注意度图和相对位置指示图来共同引导和控制;※后期处理(Post-Processing):使用两个后处理技术,填充区域内部孔洞和合并相邻且相似区域,以期获得最佳的结果。4.2.2种子区域增长和图像分割当种子点确定后,区域就从种子点开始增长,反复地将与区域内的点相邻的且满足一定的相似性要求的点归入区域【12】【13】【14】。可以说,相似性条件控制和引导着增长。在一般的图像分割应用中,相似性条件大多为颜色一致性,而对于感兴趣物体提取来说,既要满足颜色一致性同时也要满足一定的注意度条件。这也是我们的方法与一般的区域增长技术的不同之处。假设一个感兴趣物体O从种子区域R开始生长。图像中已经被认定属于感兴趣物体的点称之为己标注点,不属于任何一个物体的点称为未标注点。于是,物体O的生长就可以描述为:不断地将未标注的、与属于口的点相邻且通过相似度测试的点归入物体O。与物体O相邻的点集合可以定义为:(4.1) 第四章基于视觉感知的图像检索技术35其中,表示以点为中心的33的小区域。假定象素,它对应的注意度为S,对应的相对位置指示为PSD。因此,决定象素P是否归入O的相似度测试定义为:(4.2)通过测试,P就可以归入O;否则,不能归入。其中,和为阈值。相似度测试的本质是认为注意度较大且不是边缘的相邻点属于感兴趣物体。于是,下一步需要解决的问题就是如何确定阈值和,由于不同的图像的内容不相同,因此固定的取值是相当不合适的。最佳的阈值应当能够自动地随着图像的具体内容而自适应地变化。我们使用一个基于信息熵的自适应阈值确定方法,此方法己经被证明能够在两类问题分类的应用中取的良好的效果。但是在本文中为了简化算法,阈值我采取了一个固定的值。应当指出,不同图像中感兴趣物体的数目也应该不同,客观地讲,如何自适应地确定图像中感兴趣物体的数目相当困难,目前尚未找到好的解决方案。因此,我们简单地假定每幅图像中的感兴趣物体数目为两个。应该说,这个假定在特定条件下是有道理的,我们的应用领域是图像检索,首先一般的用户不会对一幅图像中许多物体都感兴趣,另外,通过观察大量的Corel数据库中的图像,我们发现图像中经常出现的受关注目标不止一个。下面以图像库中的一幅恐龙图像和公交车图像作为示例(见表4.1),再以花朵为示例展示单个目标和多个目标的图像分割结果(见表4.2),通过简单的对比可以大致体现通过本文算法得到的分割图像的特点: 第四章基于视觉感知的图像检索技术35表4.1单个目标的分割示例(Dinosaur和Bus)原始图像亮度显著图颜色显著图方向显著图分割后图像 第四章基于视觉感知的图像检索技术35表4.2单个目标和多个目标的分割示例(Flower)原始图像亮度显著图颜色显著图方向显著图分割后图像 第四章基于视觉感知的图像检索技术35从上面两个表格的情况来看,本算法可以很好地做到充分体现人的视觉感知的图像分割,并可以讲同一幅图像中的多个受关注目标提取出来。4.3基于感兴趣物体的特征提取与表达图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)两类。其中基于文本的图像特征提取在数据库系统和信息检索等领域中已有深入的研究,本节中我主要利用的是图像视觉特征的提取和表达。视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状;后者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。而在本文中我只考虑通用的视觉特征。对于某个特定的图像特征,通常又有多种不同的表达方法。由于人们主观认识上的千差万别,对于某个特征并不存在一个所谓的最佳的表达方式。事实上,图像特征的不同表达方式从各个不同的角度刻画了该特征的某些性质。在本文算法中,图像用感兴趣物体的特征来代表。由于物体的形状信息相当难刻画,所以我采用了颜色和纹理描述方法。4.3.1HSV颜色空间的直方图特征提取颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外,与其他的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性【20】【22】【24】。首先我将前文自动提取出来的感兴趣物体每点的像素值从RGB颜色空间转化到HSV颜色空间计算,因为HSV颜色空间更接近于人们对颜色的主观认识,它的三个分量分别代表色彩(Hue)、饱和度(Saturation)和值(Value),每点的像素值在0~255之间,从RGB空间到HSV空间的转化公式如下所示: 第四章基于视觉感知的图像检索技术35v=max(r,g,b)s=[v-min(r,g,b)]/v(4.3)r’=[v-r]/[v-min(r,g,b)]g’=[v-g]/[v-min(r,g,b)]b’=[v-b]/[v-min(r,g,b)]其中r,g,b∈[0…1],h∈[0…6],ands,v∈[0…1]。通过以上的算法,将自动提取感兴趣物体后的图像的每一点的像素值转换到HSV空间,得到图像在HSV颜色空间的直方图,然后将每一幅图像得到的256个特征值存在一个256维的行向量数组里。4.3.2Tamura纹理特征提取纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征。它是所有物体表面共有的内在特性,例如云彩、树木、砖、织物等都有各自的纹理特征。纹理特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系。正因为如此,纹理特征在基于内容的图像检索中得到了广泛的应用,用户可以通过提交包含有某种纹理的图像来查找含有相似纹理的其他图像。基于人类对纹理的视觉感知的心理学的研究,Tamura等人提出了纹理特征的表达。Tamura纹理特征的六个分量对应于心理学角度上纹理特征的六种属性,分别是粗糙度(coarseness)、对比度(contrast)、方向度(directionality)、线像度(linelikeness)、规整度(regularity)和粗略度(roughness)。其中,前三个分量对于图像检索尤其重要。本文中我就着重利用粗糙度、对比度和方向度这三种特征来描述图像的纹理特征。Ø粗糙度粗糙度的计算可以分为以下几个步骤进行。首先,计算图像中大小为2k×2k个像素的活动窗口中像素的平均强度值,即有 第四章基于视觉感知的图像检索技术35(4.4)其中k=0,1,…,5而g(i,j)是位于(i,j)的像素强度值。然后,对于每个像素,分别计算它在水平和垂直方向上互不重叠的窗口之间的平均强度差。(4.5)(4.6)其中对于每个像素,能使E值达到最大(无论方向)的k值用来设置最佳尺寸。最后,粗糙度可以通过计算整幅图像中平均值来得到,表达为(4.7)粗糙度特征的另一种该进形式是采用直方图来描述的分布,而不是像上述方法一样简单地计算的平均值。这种改进后的粗糙度特征能够表达具有多种不同纹理特征的图像或区域,因此对图像检索更为有利。Ø对比度对比度是通过对像素强度分布情况的统计得到的。确切地说,它是通过α4=μ4/σ4来定义的,其中μ4是四次矩而σ2是方差。对比度是通过如下公式衡量的:(4.8)该值给出了整个图像或区域中对比度的全局度量。Ø方向度方向度的计算需要首先计算每个像素处的梯度向量。该向量的模和方向分别定义为(4.9) 第四章基于视觉感知的图像检索技术35(4.10)其中ΔH和ΔV分别是通过图像卷积下列两个3x3操作符所得的水平和垂直方向上的变化量。(4.11)当所有像素的梯度向量都被计算出来后,一个直方图HD被构造用来表达θ值。该直方图首先对θ的值域范围进行离散化,然后统计了每个bin中相应的|ΔG|大于给定阈值的像素数量。这个直方图对于具有明显方向性的图像会表现出峰值,对于无明显方向的图像则表现得比较平坦。最后,图像总体的方向性可以通过计算直方图中峰值的尖锐程度获得,表示如下:(4.12)上式中的p代表直方图中的峰值,为直方图中所有的峰值。对于某个峰值p,Wp代表该峰值所包含的所有的bin,而φp是具有最高值的bin。然后将粗糙度、对比度和方向度三个特征值归一化并存在一个三维行向量数组内。对于图像的颜色直方图特征,由于颜色量化后的颜色空间为256维,我们对分割后的图像进行直方图提取,如图所示,对应的横坐标为量化后的像素值,范围在0-256之间,纵坐标对应的是归一化后的值(即该像素值的数量总量/图像总像素点数量),这样256维的特征向量就都属于(0,1)范围内了,且总和相加为1。对于图像的纹理特征,由于提取的粗糙度、对比度和方向度三个特征各有各自的范围,所以我对每个评价方面进行归一化操作,具体的方法是P=(P1-Pmin)/(Pmax-Pmin)就粗糙度这个方面举例来说,其中P1代表某一幅图像的粗糙度特征值,Pmax和Pmin 第四章基于视觉感知的图像检索技术35分别指的是1000幅图像的粗糙度特征值中最大和最小的值,这样得到的P当前图像的粗糙度特征值即在(0,1)之间。图4.6颜色直方图示例4.4相似性度量为了在线检索节省了提取全部数据库图片特征的时间,我在此采取了一个离线提取特征数据的操作,将数据库中1000幅图像进行特征提取后得到了两个特征数组,即一个256*1000的颜色特征数组和一个3*1000的纹理特征数组,将此作为数据库的特征数据库保存在MATLAB的mat文件中,当开始执行在线检索功能时,只需直接使用load命令将两个特征数组加载到当前检索过程,与程序提取的当前待检索图像的特征值进行相似性对比即可。对于颜色特征,我利用直方交计算其距离(4.13)其中i为(1,1000)中的整数,为待检索图像的特征矩阵,为特征库中第i幅图像的特征矩阵。显然,最后得到的越小说明第i幅图像与待检索图像相似性越高。对于纹理特征,我计算其距离公式为 第四章基于视觉感知的图像检索技术35(4.15)同理,其中i为(1,1000)中的整数,为待检索图像的特征矩阵,为特征库中第i幅图像的特征矩阵,最后得到的越小说明第i幅图像与待检索图像相似性越高。4.5实验结果与分析为了验证本文算法的工作性能,我从图像数据库中的10类图像(包括古建筑、BUS、恐龙、大象等10类,见表4.3,每一类100幅图像)的每一类分别抽取20张作为待检索图像分别用本文示例的方法进行检索。表4.3实验图像库包涵的图像语义类ClassNO.12345678910SemanticPeopleBeachBuildingBusDinosaurElephantFlowerHorseSceneryDish本文还统计了下每一类图像检索的查准率和查全率,并与传统的基于全局的颜色直方的检索方法的检索进行了对比。图4.7(a)和图4.8(b)给出了本文算法和传统的基于全局的颜色直方图的检索方法的平均查全率和平均查准率的对比结果,其中查全率是在输出100幅图像中包含的相关图像数目的比例,查准率是输出三十幅图像时这三十幅图像里面的相关图像占的比例,而平均查全率和平均查准率即为每一类图像取10幅分别作为待检索图像得到各自的查全率和查准率的平均值。 第四章基于视觉感知的图像检索技术35图4.7(a)平均查全率对比(输出100幅)图4.8(b)平均查准率对比(输出30幅)由上面两个表格可以很明显的看出,虽然对于某些例如风景和建筑的语义类图像检索准确率不是十分理想,但是通过对比发现,本文的算法在这10类图像中的实验中都具有相对于传统的检索方法更高的查全率和查准率。 第四章基于视觉感知的图像检索技术35 第五章图像用户界面GUI的生成39第五章图形用户界面GUI的生成图形用户界面(GraphicalUserInterfaces,GUI)则是由窗口、光标、按键、菜单、文字说明等对象(Objects)构成的一个用户界面。用户通过一定的方法(如鼠标或键盘)选择、激活这些图形对象,使计算机产生某种动作或变化,比如实现计算、绘图等。在验证本文算法的实验最后,我利用MATLAB的可视化的界面环境GUI功能,生成了一个离线检索的实验平台如图4.9(a)和(b)所示,图(a)所示的为matlab里新建的自定义的GUI初始界面,左边有可供用户使用的功能模块,包括PushButton,Slider,EditText,Axes等,本实验平台用到其中的PushButton,EditText,Axes三个模块,其中有一个用户输入模块EditText--文本输入框(“输入待检索图像名称”),一个按钮PushButton--功能按钮(“开始检索”),和“1+30”共31个axes轴线区域,其中axes1到axes30是显示输出结果的图像,按相似性由高到低排列,axes31显示的是待检索图像。文本输入框内可以输入待检索图像的名称,本实验中的输入范围为0到999共1000幅数据库图像,点击“开始检索”按钮后,axes31显示待检索图像,开始检索与带检索图像相关的图像并输出在axes1到axes30中,最后的完整界面如图(b)所示。 第五章图像用户界面GUI的生成39图5.1(a)新建的图形用户界面GUI图5.1(b)放入功能模块的GUI界面经过实验,点击“开始检索”按钮后1到2秒后一次显示30幅检索结果。操作简便,效果良好,便于观察和分析,图5.2所示四幅图(分别来自恐龙类、花朵类、马类和食物类)的检索效果图示意。 第五章图像用户界面GUI的生成39图5.2(a)第422幅恐龙类图像图5.2(b)第644幅花朵类图像 第五章图像用户界面GUI的生成39图5.2(c)第704幅马类图像图5.2(d)第946幅食物类图像 第六章总结与展望41第六章总结与展望6.1已完成工作的总结本文对基于内容的图像检索技术进行了大致的介绍,尤其是对基于视觉感知的图像检索技术的原理和总体思路进行了演示,并最后实现了体现视觉感知的图像检索功能,在这之中,我做的工作主要有:(1)阅读很多有关基于内容的图像检索技术的国内外文献,对基于内容的图像检索的现有技术以及实现方法做了比较系统的论述,并总结了其中存在的一些主要问题,并主要了解了基于视觉感知的图像检索技术,对其发展历史和一些相关模型进行了相关介绍,并发现其存在的不足之处。(2)在深入了解了基于视觉感知的图像检索技术之后,实现了一个基于Itti视觉注意模型的检索过程,这过程主要通过Itti的模型提取了图像的关注度图,并有理由认为每点的关注度越高该点的受关注程度越高,然后结合关注度图和种子区域增长算法实现感兴趣目标物体的自动提取,对分割后的图像量化到HSV颜色空间后进行颜色和纹理特征的提取,最后进行相似性对比从而实现图像检索。(3)在了解并实现本文主要方法和功能的同时,由于图像数据库的局限性和客观性,我发现此方法并不能很好地适用所有类的图像,比如对于有多个受关注目标或者受关注区域比较分散和比较复杂的图像类。而且对于不用的人群,每个人的视觉注意机制有所区别,在对某些图像的受关注物体的选择上也是有区别的。对于图像的反馈学习也是一个很重要的提高检索准确率的方法,如果在本文的基础上再加上反馈学习机制,一定会得到更好的检索效果。我想这也是我在即将到来的三年研究生生涯需要多学习和理解的方向,将生理和心理因素都考虑进来,加强计算机的自主学习能力,致力于提高现在图像检索技术的效率和准确率。6.2对图像检索技术未来的展望目前,图像检索技术在检索准确性方面还是难以做到令人满意,存在不少挑战,并面临一些发展机遇。这些挑战主要有如下几个方面: 第六章总结与展望41(1)在目前的研究中,大部分还是基于底层的颜色、纹理以及形状特征,虽然相关的专家和研究人员已在高层特征做了一些尝试,但是效果均不太理想,所以如果完成从底层到高层特征的过渡,一定会得到很好的效果。(2)图像相关反馈是一种重要的向系统提供用户语义信息的手段,根据适当的算法设计更好的图像检索和反馈系统,必定会对检索精度和效率的提高有很大的帮助。(3)将高级语义特征与基于内容图像检索结合起来是未来的一个发展方向,如果能将高级语义与颜色、纹理和形状等底层特征有效的结合起来,必定极大的方便用户的检索和使用,也会使基于内容的图像检索得到极大的发展。 致谢43致谢在撰写本科毕业论文期间,我深刻地明白了一句话,Wherethereisawill,thereisaway(世上无难事只怕有心人)。历时四个月的阅读文献、查找资料、研读算法到动手编程和实现功能,我懂得了一件事情,只要认真用心亲历而为,就一定会有收获,大学本科的毕业设计更是如此。这其中最要感谢的是我的毕设导师XX老师,从大一学习她的信号与系统这门课程的时候,她的认真负责和平和耐心的教学态度就得到了广泛的认可和喜爱,也给了我很深的印象,幸运的是毕业之前我还有机会接触这么有责任感的老师。毕设期间,X老师在繁忙的教学工作之余不仅还要往返新老校区给我们做每周的工作检查和答疑,还很关心我们的考研动态和工作实习情况,每次我都能从中学到一些东西直至毕设顺利完成,给我的大学生活画上完美的句号。最后,也希望借此机会,感谢大学四年一直支持我关心我的朋友们,正是有你们的陪伴让我度过了快乐、充实和幸福的大学生活,让我在人格性格和品行各个方面都得到了改善和提高,你们的欢声笑语将成为我大学最美好的财富,你们的支持和信任也将成为我即将到来的研究生生涯不竭的动力。再次对所有帮助过我的老师、朋友和亲人致以最诚挚的感谢。 致谢43 参考文献45参考文献[1].韩军伟,基于内容的图像检索技术研究[D].西北工业大学,2003.1-87[2].王文惠,周良柱,万建伟.基于内容的图像检索技术的研究和发展[J].计算机工程与应用,2001,(5)[3].吴俊峰,基于视觉感知的彩色图像检索方法研究[D].辽宁师范大学,2009.5-8.[4].张菁,基于视觉感知的个性化图像检索的初步研究[D].北京工业大学,2008.7-38.[5].黄传波,基于视觉感知和相关反馈机制的图像检索算法研究[D].南京理工大学,2011.5-34.[6].沈云涛,基于视觉感知特性的图像检索研究[D].西北工业大学,2005.8-74.[7].R.C.GonzalezandR.E.Woods.Digitalimageprocessing.3rded.Addison-Wesley,1992.[8].J.Huang,S.R.Kumar,M.Mitra,W.J.Zhu,R.Zabih.Imageindexingusingcolorcorrelograms.Proc.IEEEInt.Conf.onComputerVisionandPattenRecognition,pp.762一768,1997.[9].L.Itti,C.Koch.Computationalmodelingofvisualattention.NatureReviewsNeuroscience,2001,2(3):100-112.[10]L.Itti,C.Koch,E.Niebur.Amodelofsaliency-basedvisualattentionforrapidsceneanalysis.IEEETrans.OnPAMI,1998,20(11):1254-1259.[11].L.Itti,C.Koch.Acomparisonoffeaturecombinationstrategiesforsaliency-basedvisualattentionsystems.Proc.ofSPIE,1999.[12].J.P.Fan,D.K.Y.Yau,A.K.Elmagarmid,andW.G.Aref.Automaticimagesegmentationbyintegratingcolor-edgeextractionandseededregiongrowing.IEEETrans.ImageProcessing,2001,10:1454-1466.[13].R.AdamsandL.Bischof.Seededregiongrowing.IEEETrans.OnPattenAnalysisandMachineIntelligence,1994,16:641-647.[14].S.A.HojjatoleslamiandJ.Kittler.Regiongrowing:anewapproach.IEEETrans.OnImageProcessing,1998,7(7):1079-1084. 参考文献45[15].Y.N.Deng,C.Kenney,M.S.Moore,andB.S.Manjunath.Peergroupfilteringandperceptualcolorimagequantization.Proe.IEEEIntl.SymposiumonCireuitsandSystems,1999,4:21-24.[16].B.S.ManjunathandW.Y.Ma.Texturefeaturesforbrowsingandretrievalofimagedata.IEEETrans.OnPAMI,1996,18(8):837-841.[17].B.S.Manjunath,J.R.Ohm,V.V.Vasudenvan,A.Yamada.Colorandtexturedescriptors.IEEETrans.OnCSVT,2001,11(6):703-715.[18].M.Bober.MPEG-7visualshapedescriptors.IEEETrans.OnCircuitsandSystemsforVideoTechnology,2001,11(6);716-719.[19].范静辉,吴建华,刘晔.基于矢量量化和区域生长的彩色图像分割新算法[J].中国图像图形学报,2005,10(9):1079-1082.[20].庞子龙,李佩琛.基于视觉感知的非均匀颜色模糊量化算法研究[J].电脑知识与技术,2009,5(22):6275-6277.[21].章毓晋.基于内容的视觉信息检索[M].北京:清华大学出版社,2003:13-17.[22].赵志诚,蔡安妮.图像颜色矢量量化算法[J].北京邮电大学学报,2007,5(30):131-135.[23].肖洁.视觉注意模型及其在目标感知中的应用研究[D].华中科技大学,2010,27-50.[24].金韬,任秀丽.图像检索中颜色特征的提取与匹配[J].计算机辅助设计与图形学学报,2000,12(6):459-462.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭