话者识别中失配信息补偿理论和方法的研究

话者识别中失配信息补偿理论和方法的研究

ID:32536556

大小:2.88 MB

页数:107页

时间:2019-02-11

话者识别中失配信息补偿理论和方法的研究_第1页
话者识别中失配信息补偿理论和方法的研究_第2页
话者识别中失配信息补偿理论和方法的研究_第3页
话者识别中失配信息补偿理论和方法的研究_第4页
话者识别中失配信息补偿理论和方法的研究_第5页
资源描述:

《话者识别中失配信息补偿理论和方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学博士学位论文话者识别中失配信息补偿理论和方法研究姓名:刘青松申请学位级别:博士专业:电路与系统指导教师:戴蓓蒨2011-05摘要摘要在文本无关的话者识别中,尤其以NIST话者测评为代表的复杂环境下电话手机语音的话者识别,训练语音与测试语音的失配是导致识别系统性能下降的重要因素。这种失配包含语音类失配和外部干扰失配两种:包括训练和测试文本内容不同的影响,周围环境噪声的影响,语音信号采集设备(话筒)的影响,传输调制信道的影响等。除此之外,还有说话人自身因素的影响,情绪变化等。如何对这些失配信息进行准确而

2、有效的补偿是当前话者识别研究领域的热点问题。论文针对复杂环境下电话手机语音识别系统的失配问题,围绕如何解决当前失配方法的不足,更加有效的对上述两种失配进行补偿,如何提高训练和测试失配补偿的速度,如何将失配补偿与区分性系统结合起来等方面进行了深入的研究。论文首先深入分析了现有的一些失配补偿方法的思路和算法实现细节。针对语音类失配问题,从训练和测试两个角度详细分析了在GMM-UBM框架下UBM模型在话者模型训练和评分测试中所起到的重要的基准作用,以及通过测验语音与目标话者模型和UBM模型的评分相减来解决语音类失配的问题

3、。针对外部影响失配问题,详细介绍了现有的一些基于特征域、模型域、评分域的失配补偿方法,并分析了这些失配补偿方法的不足之处,主要体现在需要信道分类器对语音进行信道判决,只能针对孤立的信道类别进行补偿,以及信道分类器判决可能出现误判,训练信道分类器也需要相应的信道标记的语音。这都限制了当前已有的一些失配补偿方法的效果。论文针对语音类和外部干扰两类失配问题和现有失配补偿方法存在的不足之处,将因子分析方法用于估计说话人确认中训练和测试受到的失配影响,详细分析了在基于因子分析的失配补偿方法中,如何构建失配信息空间和话者信息空

4、间,并通过这两个信息空间估计语音所受到的失配影响大小(对应为失配因子),其失配补偿是按照实际的失配影响大小而不是通道类别进行补偿,无需I摘要利用信道模型判决语音的信道种类,避免信道种类判决错误的影响。故其连续相对的补偿效果要优于传统的失配补偿方法。在NISTSRE2008测评中我们将本方法应用于长语音任务中,在50多家国际参赛机构中排名第一。论文还利用话者信息空间解决短语音利用MAP方法据估计话者模型的不足问题,实验结果效果明显,相对提高17%左右。为了提高语音在失配补偿时的速度,论文提出了一种基于CUBM选择模型

5、和因子分析的快速失配补偿方法。CUBM由UBM高斯分量通过KL距离准则和自底向上的分层聚类得到的高斯混合模型。在失配补偿时,利用CUBM选择模型为每帧语音特征矢量选择一组相应的UBM高斯分量,只用这些高斯分量计算相应的EM统计量,可以显著降低失配补偿的计算量。论文还提出了一种基于Top-N的选择策略,以提高UBM高斯分量的选择精度,平衡系统性能和失配补偿计算量之间的矛盾。在NISTSRE2006主任务上的实验表明,基于CUBM选择模型的快速失配补偿方法在取得和原始失配补偿方法相近的系统性能的同时,计算量降为原来的八

6、分之一左右,解决了失配补偿方法应用中的计算量问题。论文提出将失配补偿和SVM区分性话者识别系统结合起来的一种方法。当SVM输入是GMM均值超矢量时,SVM的训练样本(目标和冒认话者的GMM均值超矢量)在模型域进行补偿,测试时,测试语音也同样提取相应的GMM均值超矢量,在模型域补偿后与SVM话者模型测试。在NISTSRE2008核心任务的实验表明,失配补偿后的SVM系统性能比补偿后的GMM系统性能有7%左右的提高,比补偿前的SVM系统性能相对提高24%。实验结果充分说明了失配补偿方法对区分性话者识别系统性能提升的重要

7、意义。论文的研究工作得到了国家留学基金委2009年度国家公派高水平研究生项目(No.2009634072)和中国科学技术大学研究生创新基金(No.KD2008056)的资助。关键词:说话人识别,语音失配,因子分析,快速失配补偿IIABSTRACTABSTRACTTheissueofmismatchbetweentrainandtestspeechisthekeychallengeinthecurrenttext-independentspeakerrecognition(especiallyfortelephone

8、/mobilespeechunderthevaryingenvironmentinNISTSRE).Thismismatchcanbegroupedintotwocatalogs:contentandchannelvariability,suchasthedifferenttrainandtestspeechcontent,handsettype,channe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。