多模态信息处理.pdf

多模态信息处理.pdf

ID:57021881

大小:820.76 KB

页数:14页

时间:2020-07-31

多模态信息处理.pdf_第1页
多模态信息处理.pdf_第2页
多模态信息处理.pdf_第3页
多模态信息处理.pdf_第4页
多模态信息处理.pdf_第5页
资源描述:

《多模态信息处理.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、多模态信息处理研究进展、现状及趋势1.任务定义、目标和研究意义多模态(multimodality)的概念起源于计算机人机交互领域信息表示方式的研究,其中术语“模态”一词被定义为在特定物理媒介上信息的表示及交换方式。在研究中人们发现,用语言、视频、音频等媒体指称来描述信息表示方式过于宽泛、粒度太大,不足以区分实际采用的表示方式,为此引入了比媒体(或媒介)更细粒度的“模态”概念。而多媒体媒介可以分解为多个单模态,如视频作为一种多媒体媒介,可以分解为动态图像、动态语音、动态文本等多个单模态。为了模态概念定义的科学性和实用性,单模态的分类必须满足完整性、正交性、关联性和直观性的要求。在同一事物

2、上多类单模态信息共生或共现的现象是十分普遍的。人与人交谈时有声语音与文字文本是共生的;互联网网页中图片与其对应的解说文字是共现的,凡此等等。共生或共现的多种单模态信息的统称即所谓的多模态信息。融合多种单模态的信息处理即所谓的多模态信息处理,其中涉及对多模态信息的获取、组织、分析、检索、理解、创建等。多模态信息处理技术主要应用于对象识别、信息检索、人机对话等与智能系统及人工智能相关的领域。大量研究成果显示,基于多模态理念的信息处理算法和方法,往往会得到比传统方法更好的性能和效果。例如,语义计算相关领域基于指称语义的研究发现,采用语言表达式的视觉指称(即一组图片)来定义指称相似性度量,在某

3、些语义推导任务中,效果好于基于纯文本的分布式语义表示;情感计算领域相关研究发现,不同模态的数据在情感表达中具有互补性,在愉悦度表达方面文本模态优于音频模态,而在激活度表达方面音频模态则优于文本模态。在基于内容的多媒体信息检索领域,针对基于内容的视音频检索中的语义鸿沟问题,利用与视音频数据共生或共现的文本信息,进行多模态的语义分析和相似性度量,是克服语义鸿沟问题的一种十分有效的方法。以媒体为单位的跨媒体信息处理任务,普遍存在语义鸿沟问题,所处理信息对象的语义,无论是基于外延语义(指称语义)还是内涵语义(关联语义)概念,在单一媒体信息范围内得不到完整或最终表达,而多模态信息处理方法为该问题

4、的解决提供了新的思路和方法。2.研究内容和关键科学问题多模态信息处理是在文本、图像、音频等现有单媒体信息处理的基础上发展起来的,现有单媒体数据的处理方法是多模态数据处理的基础。例如在特征提取层面,针对文本、图像、音频等单模态数据,往往直接利用成熟的文本、图像、音频特征提取方法来实现。多模态信息处理特有的研究内容主要关注于多模态信息的建模、获取、融合、语义度量、分析、检索等方面。2.1多模态信息建模如何科学、严谨的定义单模态信息,是多模态信息建模要解决的问题。由于用媒体方式界定人机交互方式粒度太大,从而引入了模态的概念。所谓多模态信息建模,就是要构建一个单模态的分类体系,在该分类体系中,

5、各单模态类别之间满足完整性、正交性、关联性和直观性的要求。NielsOleBernsen2008年基于前人的工作,在“多模态理论(MultimodalityTheory)”一文中给出了一个满足这些要求的单模态的分类体系,如表1所示。表1一个输入/输出模态的分类顶层通用层原子层亚原子层1静态拟真图形元素2静-动态拟真声音元素3静-动态拟真触觉元素4动态拟真图形4a.静动手势话语4b.静动手势关键字4c.静动手势符号5静态非拟真图形5a.书面文本5a1.打印文本5a2.手写文本5b.书面关键字5b1.打印关键字5b2.手写关键字语言模态5c.书面符号5c1.打印符号5c2.手写符号6静-动

6、态非拟真声音6a.口语话语6b.口语关键字6c.口语符号7静-动态非拟真触觉7a.触觉文本7b.触觉关键字7c.触觉符号8动态非拟真图形8a.动态书面文本8b.动态书面关键字8c.动态书面符号8d.静动口语话语8e.静动口语关键字8f.静动口语符号9.静态图形9a.图像9b.地图9c.组合图表9d.图形9e.概念图表10.静-动态声音10a.图像10b.地图10c.组合图表10d.图形10e.概念图表拟真模态11.静-动态触觉11a.图像11b.地图11c.组合图表11d.图形11e.概念图表12.动态图形12a.图像12a1.脸部表情12b.地图12a2.手势12c.组合图表12a3

7、.肢体动作12d.图形12e.概念图表13.静态图形14.静-动态声音主观模态15.静-动态触觉16.动态图形17.静态图形显式结构模态18.静-动态声音19.静-动态触觉20.动态图形随着人机交互设备的发展和丰富,新的传感器可以采集到更多新的、可与人交互的信息,如定位信息、重力加速度信息、脑电信息、热量消耗信息、步行运动信息等,表1给出模态分类体系已不能完全覆盖新模态信息的种类,因此需要持续研究新的模态分类体系。2.2多模态信息获取尽管人与人

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。