基于隐马尔可夫模型的语音激活检测算法

基于隐马尔可夫模型的语音激活检测算法

ID:31360517

大小:111.50 KB

页数:8页

时间:2019-01-09

基于隐马尔可夫模型的语音激活检测算法_第1页
基于隐马尔可夫模型的语音激活检测算法_第2页
基于隐马尔可夫模型的语音激活检测算法_第3页
基于隐马尔可夫模型的语音激活检测算法_第4页
基于隐马尔可夫模型的语音激活检测算法_第5页
资源描述:

《基于隐马尔可夫模型的语音激活检测算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于隐马尔可夫模型的语音激活检测算法  摘要:针对现有基于隐马尔可夫模型(HMM)的语音激活检测(VAD)算法对噪声的跟踪性能不佳的问题,提出采用Baum-Welch算法对具有不同特性的噪声进行训练,并生成相应噪声模型,建立噪声库的方法。在语音激活检测时,根据待测语音背景噪声的不同,动态地匹配噪声库中的噪声模型;同时,为了适应语音信号的实时处理,降低了语音参数提取的复杂度,并对判决阈值提出改进,以保证语音信号帧间的相关性。在不同噪声环境下对改进算法进行性能测试并与自适应多速率编码(AMR)标准、国际电信联盟电信标准分局(ITU

2、-T)的G.729B标准比较,测试结果表明,改进算法在实时语音信号处理中能够有效提高检测的准确率及噪声跟踪能力。  关键词:隐马尔可夫模型;语音激活检测;Baum-Welch算法;噪声库;阈值  中图分类号:TN912.3  文献标志码:A  文章编号:1001-9081(2016)11-3212-05  0引言  语音激活检测(VoiceActivityDetection,8VAD)[1]算法可以区分出语音信号中的语音段和背景噪声段,在语音增强[2]、语音编码[3]和语音侦听[4]等领域有着广泛的应用。在语音增强方面,利用V

3、AD检测出背景噪声信号,计算输入信号信噪比并对其进行降噪处理,达到提高语音质量的目的。在语音侦听过程中,为减少设备节点耗能,采用VAD算法可实时检测出当前语音的语音段。在语音编码中,目前多种语音编码国际标准采用了VAD技术,如国际电信联盟电信标准分局(InternationalTelecommunicationUnion,ITU-T)的G.729B、第三代合作伙伴计划(TheThirdGenerationPartnerProject,3GPP)的自适应多速率编码(AdaptiveMulti-Rate,AMR)等。AMR和G.7

4、29B标准中的VAD算法首先提取语音帧的特征参数值,然后将其与某一阈值进行比较,判断出该帧是语音帧还是噪声帧。这种判决方法具有算法简单、实时性好等优点,但在复杂噪声环境下的检测效果不太理想。由于基于统计模型的VAD算法,如基于隐马尔可夫模型(HiddenMarkovModel,HMM)的VAD算法能够很好地描述语音信号的短时平稳性及其状态转移过程,在低信噪比环境下判决结果较为理想,成为当下研究的热点。在目前基于HMM的VAD算法中,也存在如下几个问题:1)现有算法通过对语音信号和背景噪声信号进行训练,分别生成对应的隐马尔可夫模

5、型,然后利用Viterbi算法进行语音激活检测,使其在低信噪比下具有较好的判决效果;但在训练噪声模型时,由于采用单一噪声信号进行训练,算法的噪声跟踪能力不佳,如果实际应用环境存在多种噪声源时,算法判决准确率不高。2)现有算法提取语音特征参数维度高,致使算法复杂度增加,难以满足VAD实时判决。3)除此之外算法判决结果易受概率密度函数影响,也导致噪声跟踪能力不强。文献[6]对基于HMM的VAD算法进行了改进,采用了一种能很好逼近最大似然比的似然比检验(LikelihoodRatioTest,8LRT)值的阈值计算方法,在一定程度上

6、克服了HMM噪声跟踪能力不佳的缺点,但在复杂噪声环境下检测的准确率还有待提高。  为解决基于HMM的VAD算法噪声跟踪能力不佳的问题,本文提出了一种基于HMM的语音激活改进算法,首先采用Baum-Welch算法对具有不同特性的噪声进行训练,生成相应的噪声模型,建立噪声库。对语音信号进行VAD检测时,根据待测语音背景噪声的不同,动态地匹配噪声库中的噪声模型,提高改进算法的噪声跟踪能力。同时,为了保证语音信号的实时处理,降低了算法提取语音特征参数的复杂度,但也降低了语音信号帧间的相关性,因此对判决阈值动态提取方法进行改进,改进之后

7、除了增加语音帧间的相关性之外,还提高了VAD检测的准确率。  图3为一段女声语音的LRT曲线图、采用文献[6]和改进算法计算出的阈值曲线,语音内容为“他去无锡市,我到黑龙江”(汉语普通话),语音持续时间为3.8s,总帧数为190。由图3可以看出,文献[6]算法计算所得阈值能够较好地逼近LRT值,但在两个音节之间停顿部分(图3中68帧~73帧左右的位置)的语音帧的阈值却高于LRT值,使其容易被误判为背景噪声帧。而改进的阈值计算方法降低了语音帧的门限阈值,在一定程度上弥补了文献[6]的不足。  6)VAD标志输出。  若当前帧的L

8、RT值小于阈值,则判定为背景噪声帧,即VAD_flag=0;反之则VAD_flag=1。  3实验和结果分析  对基于HMM的VAD改进算法在VisualStudio82010开发环境中,用浮点C语言编程实现。为了验证改进后VAD算法的性能,本章在不同噪声环境下测试VAD算法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。