说话人识别研究现状

说话人识别研究现状

ID:28168980

大小:18.31 KB

页数:5页

时间:2018-12-08

说话人识别研究现状_第1页
说话人识别研究现状_第2页
说话人识别研究现状_第3页
说话人识别研究现状_第4页
说话人识别研究现状_第5页
资源描述:

《说话人识别研究现状》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。说话人识别研究现状  摘要:说话人识别技术在我们日常生活中已经得到了广泛的应用,说话人识别作为当前最热门的生物特征识别技术之一,在远程认证等领域有着独特的优势,受到了越来越多的关注。本文从说话人识别的特征提取和说话人建模两部分展开,对说话人识别的研究现状和技术进展进行了阐述。  关键词:说话人识别;特征提取;说话人建模  中图分类号:文献标识码:A文章编号:1007--0059

2、-03  1概述  说话人识别技术是一种探索人类身份的一种生物识别技术,每个人说话时使用的发音器官例如口腔、舌头、牙齿、声带、喉咙和鼻腔等不管在形态还是在尺寸上或多或少都会有所差异,因而导致了每个说话人的发音也各不相同[1]。  按照不同的分类角度分类,说话人识别大致分为以下几类。  从实际应用的范围角度分,可以分为说话人辨认和说话人确认。前者是指判定待测试语音属于目标说话人模型集合中的哪一个人,是一个多元判别的问题;而说话人确认是确定待测试语音是否来自其所声称的说话人,是一个二元判决的问题。对于说话人辨认来说,由测试来自不同说话人的范围,说话人的辨认

3、又可以开集识别和闭集识别[2]。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  从待识别语音对应的文本角度分类,说话人识别可以分为文本无关、文本相关和文本提示三类。文本无关是指说话人识别系统对说话对应的文本是开放的,即不做内容要求,在训练

4、和识别时说话人可以随意录制语音内容只需达到一定的长度即可;文本相关是指说话人识别系统会要求说话人必须按照指定的文本进行发音录制;而对于文本提示型说话人识别系统,是结合之前两者的优点,系统需要从说话人训练文本库随机提取一些字或词汇组合后提示说话人按照该文本进行发音录制,由于其实现简单、安全性高,成为目前说话人识别技术的一大热点。  2说话人识别的研究现状  从说话人识别的发展来看,二十世纪七十年代DTW和VQ技术的出现对当时识别性能有了较大提升,而八十年代应用到说话人识别中去的人工神经网络、隐马尔可夫模型和MFCC一直沿用至今并且一直被优化改进。到九十年

5、代GMM以及GMM-UBM以其简单灵活、鲁棒性强的特点,在说话人识别中被广为使用,到现在也是这个领域最重要的建模技术之一,与此同时,SVM的建模技术也被引入说话人识别中。进入二十一世纪后,联合因子分析技术和扰动属性干扰算法的提出使得说话人识别在复杂背景条件下也能取得较好的效果。另外,得分规整技术ZNORM、TNORM等的运用也使得说话人识别系统性能有了较大程度的提高。由JFA建模思想得到启示,Najim为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反

6、邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。Dehak等人提出了基于总体变化因子向量的说话人建模方法,这是该研究领域的前沿主流技术。  说话人识别是一个模式识别问题,其框架主要包括两个阶段,训练阶段和识别阶段。训练阶段是系统对说话人收集足够的语音数据,基于数据对不同说话人的语音特征进行提取,再根据这些提取的特征训练得到对应的说话人模型,最后将所有的模型整合成系统所需的模型库。识别阶段是系

7、统对说话人传入的语音数据进行识别时,系统对传入数据进行与训练阶段相同的特征提取,并对提取到的特征与模型库中的特征进行对比,进行相似性计算得出模型相似性分数,最终根据得分来判断说话人属于哪个模型得出说话人是谁的结论。  关于说话人识别的技术的现状主要可以从以下两部分进行讨论:特征提取和说话人建模。  特征提取  特征提取是减小语音数据量和排除冗余信息的一个过程,常用的说话人特征有线性预测倒谱系数和梅尔倒谱系数。  线性预测倒谱系数  LPCC是模拟声道的效应,把声道冲击和声门激励分离开来,并利用线性预测原理,将一个语音信号用过去若干个采样的线性组合来表示

8、。LPCC一般与其他特征参数进行组合研究,很少单独出现。  梅尔倒谱系数为了充分发挥“教学点数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。