本文意在处理说话人识别中的一个分支说话人确认.doc

ID：28546657

大小：153.50 KB

页数：9页

时间：2018-12-11

资源描述：

《本文意在处理说话人识别中的一个分支说话人确认.doc》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、芝麻开门本文意在处理“说话人识别”中的一个分支“说话人确认”的问题。解决问题的想法是从语音中提取出足以区别于其他人的声音的个人特征，将这些特征参量化。以某一个特定人的声音的特征参量为标准模板，定义其他人与该特定人的声音之间的距离测度，规定一个阈值，这样，标准模板、距离和域值就组成了一个说话人确认系统。对一个待测的声音，系统将它与标准模板匹配，计算距离并根据此距离是否在规定阈值之内来判断待测的说话人就是特定的说话者。解决问题的关键是声音的个人特征的提取。本文采用的方法是对声音信号作短时傅里叶变换，从它的功率谱图中找出具有代表性的一些波峰所对应的频率，用这些特征频率值作成一个特征向量。

2、用某个特定人声音的特征向量为标准向量F，定义待测声音的特征向量G与F之间的距离函数D，给定一个阈值P。由F，D和P构成说话人确认系统。方法比较粗略，但“说话人确认”在许多方面仍有待于完善，笔者仅仅是做一些初步的摸索。语音中包含的第一意义的信息是与语言意义内容相关的音韵性信息；第二意义主要是讲话人的个人信息。提取个人信息并判断出是谁的声音称为“说话人识别”。“说话人识别”包括“说话人鉴别”和“说话人确认”。前者是把待测说话人的语音判定为多个参考说话人之中的某一个；后者则是根据待测说话人的语音，确定为是否与其所声称的参考说话人相符。“说话人识别”的基本原理主要包括两阶段，即训练和识别。

3、在训练阶段，系统的每个使用者说出若干个训练语句，系统据此建立每个使用者的模板和模板参数。在识别阶段，待识人的语音特征提取后与系统训练时产生的模板或模板参数进行比较。在说话人确认中，通过判断测试音与所生成的说活人的模型的匹配距离是否小于一定阈值做出判断。其原理图如下：模型参数模型训练判决策略匹配距离特征提取输入语音识别结果说话人识别可以分为两种：一种是预先确定识别用语的方法（发音内容依存型）；另一种是无论讲什么话都可进行识别的方法（发音内容独立型）。从声音中准确地提取和分离个人信息是相当困难的。至今还没有建立起准确分离和提取个人特征的技术。当前的状况是说话人识别多采用固定声音内容的方

4、法来提高识别率。9芝麻开门多年来，人们对于特征参数在说话人识别系统中的有效性进行大量的验证和研究，得到许多有意义的结果，例如：线性预测系数或其派生系数，由语音频谱直接导出的参数，其他鲁棒性系数包括Mel频率倒谱系数，以及经过信道谱减或噪声谱减的倒谱，混合参数等。当然没有一种是十全十美的。二、模型假设模型中处理的对象是数字声音信号。一个原始的声音信号，经过取样、量化、编码等处理变成了数字信号。取样既是把时间上的连续波形，用时间上离散的各时点值的序列来表示。根据奎斯特取样定理。一个连续的带限信号能被一个离散取样序列所代替而不会有任何信息的丢失。量化将模拟信号波形表示成一系列脉冲，这会造

5、成一定程度的量化失真。我们是通过Windows自带的录音机获得这种数字声音信号的。而录音设备和外界环境都会对声音信号造成一定的影响。声音可以理解成由振幅和相位随时间缓慢变化的正弦波构成。人的听觉对声音的感觉特征主要包含在振幅信息中，相位信息一般不起作用。在研究声音的性质时，往往把时域信息（波形图）变换得到它的频域信息（频谱），通过研究频谱和与频谱相关联的特征获得声音的特性。语音信号是一种典型的非平稳信号，但是由于语音的形成过程是与语音器官的运动密切相关的。这种物理运动比起声音振动速度要缓慢的多。因此，语音信号常常可以假定为短时平稳的。在10~30ms这样的时间段内，其频谱特性和某些

6、物理特征参量可近似地看作是不变的。这样我们可以采用平稳的分析方法来处理。由以上的分析可以提出以下几点假设：1．将原始的声音信号转换成数字信号的过程对声音的特征造成的影响可以忽略。2．录音设备和外界环境对声音信号的影响可以忽略。3．声音特征基本反映在振幅信息中。4．从时域变换到频域后，语音特征体现在它的频谱中，忽略频谱失真。5．语音信号是短时平稳的。三、建模与分析该模型采用的是声音内容依存型的说话人确认系统，需要先让系统对使用者说某个特定词的语音信号进行学习。该特定词就成为系统确认通过的“秘语”。也就是说想让系统确认通过，首先得知道这个“秘语”。这里，我们把这个“秘语”设定为汉语的“

7、开门”一词。当然这个“秘语”是可以改变的。1）语音个人特征的提取我们通过Windows自带的录音机得到声音数字信号。这种信号是一系列离散时间上的量化的振幅样点。图1给出某人说三次“开门”时的波形图。9芝麻开门图1（采样频率为22050Hz，横轴为时间，单位时间1/22050s，纵轴为振幅）从图1中可以看出，虽然同一人说的都是同一个词，但三个波形图还是有一定差别的。所以即便声音特征反映在振幅信息中也很难直接从时域信号中提取出语音的个人特征。因此需要从其它的角度来提取语音

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 9



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

本文意在处理说话人识别中的一个分支说话人确认.doc

本文意在处理说话人识别中的一个分支说话人确认.doc

相关文章

相关标签