基于长短时特征融合的语音情感识别方法

ID：5334562

大小：654.49 KB

页数：7页

时间：2017-12-08

资源描述：

《基于长短时特征融合的语音情感识别方法》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、ISSN1000-0054清华大学学报(自然科学版)2008年第48卷第S1期18/27CN11-2223/NJTsinghuaUniv(Sci&Tech),2008,Vol.48,No.S1708-714基于长短时特征融合的语音情感识别方法韩文静,李海峰,韩纪庆(哈尔滨工业大学计算机科学与技术学院,哈尔滨150001)摘要:情感识别领域中广泛使用的情感特征有基于语句的全局统计特征和基于语音帧的时序特征。针对这2类基于不同时长的情感特征均不能够最有效地表达情感信息的问题,该文提出使用“语段特征”用于识别,并给出了

2、各类情感状态对应的“最佳识别段长”。为进一步提高系统识别性能,该文还构建了全局控制Elman神经网络用于将全局统计特征与基于语段的时序特征相融合。实验表明:融合长短时特征后的平均系统识别率可达66.0%,与单独使用各类特征或语段特征相比分别提高了5.9%和1.7%,同时有效降低了各情感之间的混淆度。关键词:模式识别;语音情感识别;情感特征;Elman神经网络中图分类号:TP391.4文献标识码:A文章编号:1000-0054(2008)S1-0708-07Speechemotionrecognitionwithc

3、ombinedshortandlongtermfeaturesHANWenjing,LIHaifeng,HANJiqing(SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China)Abstract:Utterance-basedglobalstatisticsandframe-basedtemporalfeatureshavebeenwidelyusedinspeechemotionrecognitio

4、nsystems,butthesefeaturescannoteffectivelydescribealloftheemotionalinformation.Inthisresearch,segment-basedfeaturesareextractedandappliedwithabestsegmentlengthforemotionrecognitionforeachemotionalstate.Furthermore,anovelneuralnetworkmodelnamedGlobalcontrolElm

5、anisproposedtocombinetheutterance-basedfeaturesandsegment-basedfeaturestogether.Experimentsshowthattheperformanceofcombinedfeaturesmayreacharecognitionrateof66.0%,muchhigherthanobtainedbyutterance-basedfeaturesorsegment-basedfeatures.Therecognitionratemaybeim

6、provedby5.9%and1.7%respectively,andtheconfusionbetweenemotionalstateisalsoeffectivelyreduced.Keywords:patternrecognition;speechemotionrecognition;emotionfeature;Elmanneuralnetwork情感计算作为一个新兴的研究领域,日益受到组、国内的模式识别国家重点实验室、清华大学人机各国研究机构的重视。情感计算的目的在于赋予计语音交互实验室和中国科学院语言

7、研究所等都已先算机拟人的观察、理解和产生各种情感特征的能力,后展开该方面研究。研究成果不仅可以用于互动式[4][5]使计算机具有类人的情感智能,最终实现自然、友好电影、远程电话客户服务中心和情感语音网络[1][6]和生动的人机交互。在人类交流过程中,对他人情通信系统,还可以用于辅助语音识别,提高语音识感状态的识别是情感智能的核心[2],因此对人类情[7]别的鲁棒性等。感状态的识别也应该是具有情感智能的计算机所必大量研究表明,语音的情感信息包含在多种声备的基本功能。语音作为最为人类广泛使用的交流[3]媒介,不仅包含

8、了丰富的语言和语义信息,同时还收稿日期:2007-09-10携带着大量的情感信息。因此,研究让计算机具有从基金项目:教育部留学回国人员科研启动基金资助项目语音信号中自动识别话者情感状态的能力,是情感(20050213032)识别的一个重要组成部分。目前众多的国内外研究作者简介:韩文静(1983—),女(汉),河南,博士研究生。机构,例如:MIT的AffectiveComp

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于长短时特征融合的语音情感识别方法

基于长短时特征融合的语音情感识别方法

相关文章

相关标签