基于发音动作参数的说话人确认技术研究

基于发音动作参数的说话人确认技术研究

ID:20836742

大小:1.57 MB

页数:49页

时间:2018-10-16

基于发音动作参数的说话人确认技术研究_第1页
基于发音动作参数的说话人确认技术研究_第2页
基于发音动作参数的说话人确认技术研究_第3页
基于发音动作参数的说话人确认技术研究_第4页
基于发音动作参数的说话人确认技术研究_第5页
资源描述:

《基于发音动作参数的说话人确认技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海师范大学硕士学位论文摘要摘要声纹识别是通过语音信号所蕴含的生理特性和个性行为特性对目标说话人身份进行识别的过程。与其他安全认证方式相比,声纹识别技术具有远程身份认证、认证方便、认证成本低廉的特质。由于这些特质声纹识别技术被广泛应用于商业领域。本文主要研究了发音动作参数的基于短时文本相关的说话人确认技术。发音动作特征是从语音合成领域借签而来的,因为发音动作参数与其他特征参数相比,发音动作参数具有的不受信道影响和环境影响的强鲁棒性。本文首先介绍了发音动作特征的提取过程、规整过程,同时也介绍了如梅尔倒谱系数、线

2、性预测分析等传统的语音信号特征提取技术。并对发音动作特征和梅尔倒谱系数进行了同一个说话人的信号特征的差异的研究,对信号特征进行比较,从而得出发音动作参数优于梅尔倒谱系数的结论。在文本相关的声纹识别研究中,语音信号,语音特征提取和算法是影响声纹识别的关键因素。本文新建了一个数据库,基于该数据库,选取了不同维度的梅尔倒谱系数,使用传统的建模方法如高斯混合模型-通用背景模型、动态时间规整,对这些特征参数进行研究。发现在解决短时文本相关问题时,动态时间规整算法明显优于高斯混合模型-通用背景模型算法。发音动作参数由于其

3、不受信道影响、环境影响、身体状况和情绪影响的特质,因而能够反映说话人身份信息。为了选择最有识别效果的发音动作参数,分别选取不同参考点下不同发音器官的发音动作参数,采用动态时间规整模型对话者身份进行验证。发现以上唇为参考点的发音动作参数识别效果最优。进而分别使用特征融合、系统融合技术,进一步降低声纹识别的等错误率。最后,本文对话者确认模型的训练部分进行改动,采用高斯混合模型-支持向量机话者确认技术,设计了发音动作参数基于高斯混合模型-支持向量机系统说话人确认框架。实验结果与发音动作参数基于动态时间规整算法的话者

4、确认系统结果一致,而且高斯混合模型-支持向量机系统的识别结果优于动态时间规整系统。关键词:声纹识别;发音动作参数;梅尔倒谱系数;文本相关;高斯混合模型-通用背景模型;动态时间规整;高斯混合模型-支持向量机IAbstractShanghaiNormalUniversityMasterofScienceAbstractVoiceprintrecognitionisarecognitionprocessfortargetspeakerbasedonphysiologicalandbehavioralcharacte

5、risticsandfeaturesofspeechsignal.Comparedwithothersecurityauthenticationmethods,voiceprintrecognitiontechnologyhastheadvantagesofsuitableforremotespeakeridentity,convenientandlowcost,becauseofthatvoiceprintrecognitioniswidelyusedincommercialapplications.Int

6、hispaper,wemainlystudyarticulatorymovementfeatures(AMFs)forshort-durationtext-dependentspeakerverificationtechnology.AMFsareborrowedfromspeechrecognitionarea,whencomparedotheracousticfeaturecoefficientswithAMFs,AMFsarenotinfluencedbychannelandenvironmentalb

7、ackgroundnoises.Therefore,theAMFscanbemorenoise-robust.Firstly,weintroducetheextractionprocessandregularizationprocessofAMFs,andalsointroducetraditionalacousticfeatureextractiontechnology,suchasMel-FrequencyCepstralCoefficients(MFCC),LinearPredictiveCodingC

8、epstralCoefficients(LPCC).westudythedifferenceofacousticsignalbetweenAMFsandMFCC,undertheconditionsofsamedimensionandsamespeaker.Whencomparingtheamplitudevalues,wefindthatAMFsaresuperiortoMFCC.Speechsi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。