欢迎来到天天文库
浏览记录
ID:33486946
大小:283.79 KB
页数:4页
时间:2019-02-26
《基于多媒体融合的图像检索系统的实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、视频技术应用与工程文章编号!!""#$%&’#"#""!#"#$""%%$"&基于多媒体融合的图像检索系统的实现!#实用设计#刘菁华!夏定元"桂林电子工业学院通信与信息工程系!广西桂林!"#$$"#$摘要%提出一种融合了文本!语音!图像等信息特征的图像检索方案"并以’()*(+为平台构建了一种基于语音识别技术的新型图像检索系统#与基于文本或基于内容的图像检索系统相比"该系统既提高了检索性能"又使得人机交互更加便利$$关键词%语音识别%图像检索%多媒体%信息融合$中图分类号%),-./012$文献标识码%+"#$%&’()(*+’+,)’"#)-&.&(/*&0
2、)%123()3&5+’67%(*#&5*)873*+’*3456789:;<=>3(?678$@;<7A!"#$%&’(&))*+,-.$,&+/0+’&1).$,&+2+3,+""1,+345*,6,+7+,89&’26"-$1&+,-:"-;+&6&3<45*,6,+=>?@@>AB;,+.B$9:3(/);(%(76C<8DEDFE6DG3、(+NH4、67KLEC5、合方式有超级隐马尔可媒体分解为音频&视频和文字等媒质’对各种媒质分别操夫链*I;NDE[’’#和卷积理论两种算法)其局限性在于作’将分别处理的结果合成形成索引表)其具有代表性的音频和视频的采样频率不一致使得其时序的同步性无法系统是卡耐基梅隆*S’4#大学研究的37KLECDO6<项目)保证’改进的方法可让视频多采样’而音频低采样V1Y)该项目第一阶段将语音转换为文本信息’通过实现关键这-种方法对于不同的应用各有优缺点’也可将其字的搜寻来定位视频片断’并利用代表性的视频流去表混合在一起使用)由微软研究院开发的667O系统V]’!Y’就示整个时间长度内的视频信息’达6、到快速浏览的目的)但是一个典型的结合文本和视觉特征的图像检索系统)由于只是应用了自然语言处理技术而没有利用视觉和听觉特征’并且只能实现线性浏览’故有其一定的局限性)&系统实现在第二阶段中利用视频拼接技术对不足进行了改进)在本文所设计的基于多媒体融合的图像检索系统多媒质结果融合)选择两种以上的媒质分别对多中’采用第一类多媒体融合检索’以’()*(+为平台’利媒体场景进行判断解释’然后将这些判断结合起来考虑’用语音识别对图像库中手工标注的图像实时检索V^Y)形成最后的判断’即融合决策)目前融合决策模型可分为>?@基本原理贝叶斯理论+?9Z理论和混合融合理论)当观察7、数据提供对于图像可在其文本注解中利用人工标注法嵌入图信息不完全或提供不同级别信息时’贝叶斯理论将不能像的内容信息’或是利用_DQSE8、目A桂科基
3、(+NH4、67KLEC5、合方式有超级隐马尔可媒体分解为音频&视频和文字等媒质’对各种媒质分别操夫链*I;NDE[’’#和卷积理论两种算法)其局限性在于作’将分别处理的结果合成形成索引表)其具有代表性的音频和视频的采样频率不一致使得其时序的同步性无法系统是卡耐基梅隆*S’4#大学研究的37KLECDO6<项目)保证’改进的方法可让视频多采样’而音频低采样V1Y)该项目第一阶段将语音转换为文本信息’通过实现关键这-种方法对于不同的应用各有优缺点’也可将其字的搜寻来定位视频片断’并利用代表性的视频流去表混合在一起使用)由微软研究院开发的667O系统V]’!Y’就示整个时间长度内的视频信息’达6、到快速浏览的目的)但是一个典型的结合文本和视觉特征的图像检索系统)由于只是应用了自然语言处理技术而没有利用视觉和听觉特征’并且只能实现线性浏览’故有其一定的局限性)&系统实现在第二阶段中利用视频拼接技术对不足进行了改进)在本文所设计的基于多媒体融合的图像检索系统多媒质结果融合)选择两种以上的媒质分别对多中’采用第一类多媒体融合检索’以’()*(+为平台’利媒体场景进行判断解释’然后将这些判断结合起来考虑’用语音识别对图像库中手工标注的图像实时检索V^Y)形成最后的判断’即融合决策)目前融合决策模型可分为>?@基本原理贝叶斯理论+?9Z理论和混合融合理论)当观察7、数据提供对于图像可在其文本注解中利用人工标注法嵌入图信息不完全或提供不同级别信息时’贝叶斯理论将不能像的内容信息’或是利用_DQSE8、目A桂科基
4、67KLEC5、合方式有超级隐马尔可媒体分解为音频&视频和文字等媒质’对各种媒质分别操夫链*I;NDE[’’#和卷积理论两种算法)其局限性在于作’将分别处理的结果合成形成索引表)其具有代表性的音频和视频的采样频率不一致使得其时序的同步性无法系统是卡耐基梅隆*S’4#大学研究的37KLECDO6<项目)保证’改进的方法可让视频多采样’而音频低采样V1Y)该项目第一阶段将语音转换为文本信息’通过实现关键这-种方法对于不同的应用各有优缺点’也可将其字的搜寻来定位视频片断’并利用代表性的视频流去表混合在一起使用)由微软研究院开发的667O系统V]’!Y’就示整个时间长度内的视频信息’达6、到快速浏览的目的)但是一个典型的结合文本和视觉特征的图像检索系统)由于只是应用了自然语言处理技术而没有利用视觉和听觉特征’并且只能实现线性浏览’故有其一定的局限性)&系统实现在第二阶段中利用视频拼接技术对不足进行了改进)在本文所设计的基于多媒体融合的图像检索系统多媒质结果融合)选择两种以上的媒质分别对多中’采用第一类多媒体融合检索’以’()*(+为平台’利媒体场景进行判断解释’然后将这些判断结合起来考虑’用语音识别对图像库中手工标注的图像实时检索V^Y)形成最后的判断’即融合决策)目前融合决策模型可分为>?@基本原理贝叶斯理论+?9Z理论和混合融合理论)当观察7、数据提供对于图像可在其文本注解中利用人工标注法嵌入图信息不完全或提供不同级别信息时’贝叶斯理论将不能像的内容信息’或是利用_DQSE8、目A桂科基
5、合方式有超级隐马尔可媒体分解为音频&视频和文字等媒质’对各种媒质分别操夫链*I;NDE[’’#和卷积理论两种算法)其局限性在于作’将分别处理的结果合成形成索引表)其具有代表性的音频和视频的采样频率不一致使得其时序的同步性无法系统是卡耐基梅隆*S’4#大学研究的37KLECDO6<项目)保证’改进的方法可让视频多采样’而音频低采样V1Y)该项目第一阶段将语音转换为文本信息’通过实现关键这-种方法对于不同的应用各有优缺点’也可将其字的搜寻来定位视频片断’并利用代表性的视频流去表混合在一起使用)由微软研究院开发的667O系统V]’!Y’就示整个时间长度内的视频信息’达
6、到快速浏览的目的)但是一个典型的结合文本和视觉特征的图像检索系统)由于只是应用了自然语言处理技术而没有利用视觉和听觉特征’并且只能实现线性浏览’故有其一定的局限性)&系统实现在第二阶段中利用视频拼接技术对不足进行了改进)在本文所设计的基于多媒体融合的图像检索系统多媒质结果融合)选择两种以上的媒质分别对多中’采用第一类多媒体融合检索’以’()*(+为平台’利媒体场景进行判断解释’然后将这些判断结合起来考虑’用语音识别对图像库中手工标注的图像实时检索V^Y)形成最后的判断’即融合决策)目前融合决策模型可分为>?@基本原理贝叶斯理论+?9Z理论和混合融合理论)当观察
7、数据提供对于图像可在其文本注解中利用人工标注法嵌入图信息不完全或提供不同级别信息时’贝叶斯理论将不能像的内容信息’或是利用_DQSE8、目A桂科基
8、目A桂科基
此文档下载收益归作者所有