说话人识别ppt课件.ppt

说话人识别ppt课件.ppt

ID:59430692

大小:576.00 KB

页数:41页

时间:2020-09-18

说话人识别ppt课件.ppt_第1页
说话人识别ppt课件.ppt_第2页
说话人识别ppt课件.ppt_第3页
说话人识别ppt课件.ppt_第4页
说话人识别ppt课件.ppt_第5页
资源描述:

《说话人识别ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Ⅴ说话人识别Ⅴ说话人识别(1)说话人识别(SpeakerRecognition):又称为话者识别,是指通过对说话人语音信号的分析处理,自动确认说话人是否在所记录的话者集合中,以及进一步确认说话人是谁。为什么能识别说话人?人与人间在发音器官上存在着差异,例如在声带和声管形状上的差异;讲话时发音习惯的差异,包括方言、土语、抑扬顿挫、常用词汇及讲话上的怪僻语等;说话人特点以复杂的形式反映在其语音波形中。使得每个人的语音都带有强烈的个人色彩。Ⅴ说话人识别(2)说话人识别的分类按其识别任务分:说话人辨认(SpeakerIdentification)判断某段语音是若干人中的哪一个人所说,

2、是“多选一”问题。又可分为开集和闭集两种。说话人确认(SpeakerVerification)确定某段语音是否是指定的某个人所说,是“一对一”的判别问题。说话人分割和标注(SpeakerSegmentationandLabeling)将多个说话人的数据分割标定为独立的部分。Ⅴ说话人识别(3)Ⅴ说话人识别(4)Ⅴ说话人识别(5)根据识别对象的不同,还可将说话人识别分为三类:与文本有关(Text-Dependent)与文本无关(Text-Independent)文本提示型(Text-Prompted)Ⅴ说话人识别(6)说话人识别技术有着广阔的应用前景电话信道罪犯缉拿、法庭中电话录

3、音信息的身份确认、电话语音跟踪,为用户提供防盗门开启功能等等。通信领域,说话人识别技术可以应用于诸如电话银行、电话购物、数据库访问、信息服务、安全控制、计算机远程登陆等领域。呼叫中心应用上,说话人识别技术同样可以提供更加个性化的人机交互界面。Ⅴ说话人识别(7)说话人识别的基本原理Ⅴ说话人识别(8)几个问题1)语音信号的预处理和特征提取。即提取能够有效表征说话人特征的参数。2)说话人模型的建立和模型参数的训练。3)测试语音与说话人模型的匹配计算。4)识别与判决策略。即根据匹配计算的结果,采用某种判决准则判定说话人是否是所声称的说话人(说话人确认)或说话人到底是谁(说话人辨认)。

4、Ⅴ说话人识别(9)性能的评价评价说话人识别系统性能的指标有很多,例如系统的识别率,训练时间的长短和训练语料的数量、识别响应时间、话者集规模、说话方式要求以及价格等。比如说,声控门锁识别响应时间要求很严格,但可获得充足的训练语料。司法鉴定,对识别响应时间的要求可以相对放松,但训练数据的充足性无法保证。说话人辨认系统常用的是识别率,以及错误率(误识率)。Ⅴ说话人识别(10)说话人确认系统,则常用两个错误率来表示:错误拒识率(Falserejection,简称FR),错误接受率(Falseacceptance,简称FA)。性能评价—DET曲线0.10.20.512510204040

5、20105210.50.20.1错误接受的概率(%)错误拒绝的概率(%)等错误率(ERR)=1%平衡点减少错误接受的可能,提高系统的安全。但是由于错误拒绝率高,会给用户使用带来不便。高安全性高方便性对于安全性要求不高的应用场景,可以适当提高错误接受率,使得用户容易进入系统。DET(DetectionErrorTradeoff)曲线Ⅴ说话人识别(11)说话人识别的特征提取在理想情况下,这些特征应该具有如下特点:具有很高的区别说话人的能力,能充分体现说话人个体间的差异,而在说话人本身语音发生变化时保持相对稳定;在输入语音受到传输通道和噪声的影响时,能够具有较好的顽健性(robus

6、tness);易于提取和计算,且在特征的各维参数之间应有良好的独立性,在保持识别率的情况下,有尽可能少的特征维数;不易被模仿。Ⅴ说话人识别(12)特征参数的评价方法评价特征对识别的贡献有两种方法:通过定义F比和D比,来分别表征单个参数和多维特征矢量在特征空间中的区分能力,以衡量特征参数的有效性;在识别过程中通过增减分量的方法,考察每个特征分量的贡献。Ⅴ说话人识别(13)F比和D比如果对同一人的不同次发音,其分布比较集中;而不同说话人的发音分布相距较远,则所选择的这组特征参数就能够有效地描述说话人的个性特征。对单个参数而言,可以取两种分布的方差之比(称为F比)来作为有效性的度量

7、准则。它反映了不同说话人的分散程度与各说话人自身的分散程度之间的对比关系。Ⅴ说话人识别(14)F比设:为第i个说话人第t次发音得到的特征参数;为对不同说话人求平均;为对说话人的不同次语音求平均;为对第i个说话人的特征均值的估值;为对所有说话人均值总均值的估值。采用F比较大的特征一般会得到较好的性能。Ⅴ说话人识别(15)D比F比没有考虑到特征矢量中各维参数之间的相关性。把F比的概念推广到多维,人们定义了D比,用以衡量多维特征矢量在说话人识别系统中的有效性。定义两个协方差矩阵,即说话人间的协方差矩阵和说话人

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。