基于深度学习和迁移学习的环境声音识别

基于深度学习和迁移学习的环境声音识别

ID:35067135

大小:2.49 MB

页数:68页

时间:2019-03-17

基于深度学习和迁移学习的环境声音识别_第1页
基于深度学习和迁移学习的环境声音识别_第2页
基于深度学习和迁移学习的环境声音识别_第3页
基于深度学习和迁移学习的环境声音识别_第4页
基于深度学习和迁移学习的环境声音识别_第5页
资源描述:

《基于深度学习和迁移学习的环境声音识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于深度学习和迁移学习的环境声音识别DEEPLEARNING-BASEDANDTRANSFERLEARNING-BASEDENVIORMENTSOUNDRECOGNITION史秋莹哈尔滨工业大学2016年6月国内图书分类号:TP391.42学校代码:10213国际图书分类号:681.3密级:公开工学硕士学位论文基于深度学习和迁移学习的环境声音识别硕士研究生:史秋莹导师:郑铁然副教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.42U.D

2、.C:681.3DissertationfortheMasterDegreeinEngineeringDEEPLEARNING-BASEDANDTRANSFERLEARNING-BASEDENVIORMENTSOUNDRECOGNITIONCandidate:SHIQiu-yingSupervisor:AssociateProf.ZHENGTie-ranAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofCompu

3、terScienceandTechnologyDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要作为一种感知周围环境十分有效的方法,环境声音识别(EnviormentSoundRecognition,ESR)被广泛的应用在机器人导航、移动机器人、音频检索、音频取证以及其它基于情景感知、可穿戴的应用中。目前,多种经典的分类器被广泛的应用在ESR问题中,但其性能还远未达到理想的水平,为了进一步提升ESR性能,本文首先引入了深度学

4、习技术,深度神经网络作为一种高性能、多层级的神经网络,已经被广泛证明在提取数据特征和建立识别模型方面具有一定优势。声音因采集时无方向要求、且始终蕴含环境信息等优势,在环境识别时扮演主要角色,但考虑到一般情况下采集音频时容易获取若干辅助的视频信息,而且显然多模态信息更有助于提升环境识别的准确率,所以本文在构建基于深度神经网的环境识别方法时,同时利用音频特征和辅助视频特征。此外,针对在实际应用中环境类别非常多,新的识别需求不断涌现,针对新类别的数据标注和训练开销过大的问题,提出基于迁移学习的环境声音识别方法,基于已建模的相似环境类,和新类别的少量标注数据,学习得到新环境

5、类别模型。本文将深度神经网络应用在环境声音识别问题中,为了充分利用声音特征和辅助视频特征,本文对如何融合两种模态信息进行探讨,提出两种特征融合方法,分别为基于特征的融合以及基于模型的融合。基于特征融合的环境声音识别方法,将音频特征和视频特征直接拼接作为深度信念网络(DeepBeliefNetwork,DBN)的输入,并通过训练DBN进行环境场景的识别;基于模型融合的环境声音识别方法分别对音频信息和辅助视频信息建立DBN模型,并调至最优性能,然后用一个新的DBN用来代替原有两个DBN的输出层以实现模型融合,最终通过训练新的DBN进行环境声音识别。实验结果表明,基于模型

6、融合的方法取得了最好的效果,识别性能相较于其它方法和基线系统有明显的提升本文提出基于迁移学习的环境声音建模方法,堆叠去噪自编码网络(StackedDenoisedAutoEncoder,SDA)的无监督训练较为简单,并能良好的学习数据集的特征,为其和迁移学习的融合提供了良好的基础。本文在迁移学习的框架下,结合SDA网络,通过衡量新环境类别的语料与现有环境语料之间的关系实现识别模型的迁移,实验表明此方法能有效地区分新场景,准确I哈尔滨工业大学工学硕士学位论文率有明显提升。在迁移学习理论框架下,反观DBN的预训练与微调过程,提出基于通用预训练的方法。该方法采用扩大DBN

7、预训练数据集规模的策略,达到待识别数据只需在此通用预训练基础上进行快速的微调过程即可实现分类的目的。实验结果表明,此方法可以显著的提升待识别数据的性能,且用以扩大训练集的数据可以包括非场景数据,初步实验表明,部分说话人数据的加入有利于提升系统的稳定性和鲁棒性。关键词:环境声音识别;特征融合;深度学习;迁移学习II哈尔滨工业大学工学硕士学位论文AbstractEnvironmentSoundRecognition(ESR)isanefficientwaytoperceivesurroundingscenes,whichiswidelyusedinmanyappli

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。