多模态深度学习.docx

ID：59172309

大小：261.25 KB

页数：8页

时间：2020-10-30

资源描述：

《多模态深度学习.docx》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、MultimodalDeepLearning（多模态深度学习）未完待续原创 2016年06月22日08:53:40摘要：本文提出一种在深度网络上的新应用，用深度网络学习多模态。特别的是，我们证明了跨模态特征学习——如果在特征学习过程中多模态出现了，对于一个模态而言，更好的特征可以被学习（多模态上学习，单模态上测试）。此外，我们展示了如何在多模态间学习一个共享的特征，并在一个特别的任务上评估它——分类器用只有音频的数据训练但是在只有视频的数据上测试（反之亦然）。我们的模型在CUAVE和AVLe

2、tters数据集上进行视-听语音分类，证明了它在视觉语音分类（在AVLetters数据集上）和有效的共享特征学习上是已发表中论文中最佳的。1.介绍在语音识别中，人类通过合并语音-视觉信息来理解语音。视觉模态提供了发音地方和肌肉运动的信息，这些可以帮助消除相似语音（如不发音的辅音）的歧义。多模态学习包括来自多源的相关信息。语音和视觉数据在语音识别时在某个“中间层”是相关的，例如音位和视位；未加工的像素是很难与语音波形或声谱图产生相关性的。在本文中，我们对“中间层”的关系感兴趣，

3、因此我们选择使用语音-视觉分类来验证我们的模型。特别的是，我们关注用于语音识别的学习特征，这个学习特征是和视觉中的唇形联系在一起的。全部任务可分为三部分-特征学习、有监督训练和测试。用一个简单的线性分类器进行有监督训练和测试，以检查使用多模态数据的不同的特征学习模型（eg：多模态融合、跨模态学习和共享特征学习...）的有效性。我们考虑三个学习布置——多模态融合、跨模态学习和共享特征学习。（如图1所示）多模态融合：数据来自所有模态，用于所有模态。跨模态学习：数据来自所有模态，但只在某

4、模态可用。共享特征学习：训练和测试用的不同模态的数据。如果特征可以在跨不同模态下捕获相关性，这会允许我们进行评价。特别的是，学习这些布置可以使我们评估学到的特征是否具有模态不变性。接下来，我们描述模型的构造块。然后，我们实现了不同的使用深度学习的多模态学习模型，这些模型可以实现不同的多模态任务。最后，我们展示实验结果和总结。2.背景深度学习的当前工作已经测试了deepsigmoidalnetworks是如何被训练的，以产生有用的用于手写数字识别和文本的特征。当前工作的关键在于使用R

5、BMs（RestrictedBoltzmannMachines）微调的进行贪心的逐层训练。我们使用一个扩展的稀疏RBMs，它学习到的特征对于数字和自然的图像来说是有意义的特征。2.1稀疏RBMs 为了正则化模型使其稀疏，我们让每个隐藏层单元有一个使用了正则化惩罚的预先期望的激活函数，这个正则化惩罚的形式是，其中是训练集，决定了隐藏层单元激活函数的稀疏性（就是隐藏层单元激活函数是否被激活）。3.学习结构这部分描述我们的模型，用它来完成语音-视频二模态的特征学习任务。输入到模型里的语音和

6、视频是连续的音频和视频图像。为了推出我们的深度自编码模型，我们先描述一些简单的模型以及他们的缺点。（下面的都是预训练模型） I.RBM模型。用其分别训练语音和视频，学习RBM之后，在v固定时得到的隐藏层值可以作为数据的一个新特征。我们将这个模型作为基准来比较我们的多模态模型的结果，也可以将其用来预训练我们的深度网络。 II.为了训练多模态模型，一个直接的方法是训练一个把语音和视频数据连接在一起的RBM。虽然这个模型联合了语音和视频数据的分布，但它仍是一个浅层模型。语音和视频数据之间的关

7、联是高度非线性的，RBM很难学习这些相关性形成多模态特征。事实上，我们发现在隐藏层单元学习到的浅层的二模态RBM结果与单模态下的值有很强的关联，但与跨模态下的值就没有。 III.因此，我们考虑在每个模态的预训练层贪婪的训练一个RBM，前面（）的第一层的隐藏值作为新层的训练数据。通过学习到的第一层特征来表示数据可以更容易的让模型来学习跨模态的高阶相关性。通俗的来说，第一层特征相当于音位和视位，第二层模型化了他们之间的关系。然而，上述的多模态模型还有两个问题。第一，没有明确的目标提供给模型去

8、发现跨模态间的相关性；一些隐藏层单元只针对语音调整参数，另一些只针对视频调整参数，这样模型才有可能找到想要的特征。第二，在跨模态学习布置中只有一个模态用于监督训练和测试，这样的模型显得很笨拙。只有一个模态呈现，就要整合没有观察到的可见变量来推理。因此，我们提出解决以上问题的深度自编码模型。我们首先考虑跨模态学习布置：特征学习过程中两个模态都呈现了，但只有一个模态用于有监督训练和测试。当只给视频数据时，深度自编码模型用于训练重建语音和视频模态（图3a）。我们用二模态的DBN（D

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 8



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

多模态深度学习.docx

多模态深度学习.docx

相关文章

相关标签