音频识别实现方法及其技术ppt课件.ppt

音频识别实现方法及其技术ppt课件.ppt

ID:58988337

大小:517.50 KB

页数:56页

时间:2020-09-27

音频识别实现方法及其技术ppt课件.ppt_第1页
音频识别实现方法及其技术ppt课件.ppt_第2页
音频识别实现方法及其技术ppt课件.ppt_第3页
音频识别实现方法及其技术ppt课件.ppt_第4页
音频识别实现方法及其技术ppt课件.ppt_第5页
资源描述:

《音频识别实现方法及其技术ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、小组课题:音频识别小组成员:黎平、段建长、孙玉佩、刘贤杰语音识别系统语音识别系统结构语音识别系统典型结构如图1所示。输入的语音信号首先经过预处理,提取特征参数。对特征参数进行一定的处理后,为每个词条得到一个模板,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模板,与参考模板逐一进行比较,在某种判决规则下,获得最佳匹配的参考模板作为识别结果。预处理对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的预加重、语音分帧、端点检测等处理。语音端点检测的目的和意义目的语音信号端点检测技术其目的就是从包

2、含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号,它是语音处理技术中的一个重要方面。意义有效的端点检测技术不仅能在语音识别系统中减少数据的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低噪声和静音段的比特率,提高编码效率。基于短时能量和短时平均过零率的端点检测短时能量语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音段的能量是噪声段能量叠加语音声波能量的和。在信噪比很高时,那么只要计算输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开。这是

3、仅基于短时能量的端点检测方法。信号{x(n)}的短时能量定义为:语音信号的短时平均幅度定义为:其中w(n)为窗函数。短时平均过零率短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号称为过零。过零率就是样本改变符号次数。信号{x(n)}的短时平均过零率定义为:式中,sgn为符号函数,即:过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性;第二,用于判别清音和浊音、有话和无话。从上面提到的定义出发计算过零率容易受

4、低频干扰,特别是50Hz交流干扰的影响。解决这个问题的办法,一个是做高通滤波器或带通滤波,减小随机噪声的影响;另一个有效方法是对上述定义做一点修改,设一个门限T,将过零率的含义修改为跨过正负门限。于是,有定义:检测方法利用过零率检测清音,用短时能量检测浊音,两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。低门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。此时整个端点检测可分为四

5、段:静音段、过渡段、语音段、结束。实验时使用一个变量表示当前状态。静音段,如果能量或过零率超过低门限,就开始标记起始点,进入过渡段。过渡段当两个参数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果过渡段中两个参数中的任一个超过高门限,即被认为进入语音段。处于语音段时,如果两参数降低到门限以下,而且总的计时长度小于最短时间门限,则认为是一段噪音,继续扫描以后的语音数据,否则标一记结束端点。20004000600080001000012000140001600018000-101Speech20406080100120140160180200

6、22002040Energy204060801001201401601802002200102030ZCR数字“4”的短时能量与平均过零率基于倒谱特征的端点检测概念信号倒谱的一种定义是信号的能量谱密度函数S(ω)的对数的傅里叶反变换,或者可以将信号s(n)的倒谱c(n)看成是logS(ω)的傅里叶级数展开,即:式中Cn=C-n为实数,通常称为倒谱系数,且对于一对谱密度函数S(w)与S’(w),利用Parseval定理,其对数谱的均方距离可用倒谱距离表示:式中,Cn与C’n分别代表谱密度函数S(w)与S’(w)的倒谱系数。方法:倒谱距离的测量法步骤

7、类似于基于能量的端点检测,只是将倒谱距离代替短时能量来作为特征参数。首先,假定前几帧信号是背景噪声,计算这些帧的倒谱系数,利用前几帧倒谱系数的平均值可估计背景噪声的倒谱系数,噪声倒谱系数的近似值可按下述规则进行更新,即当前帧被认为是非语音帧:式中为噪声倒谱系数的近似值,为当前测试帧的倒谱系数,p为调节参数。倒谱距离可用下式近似计算:式中对应于的噪声倒谱系数,计算所有测试帧与背景噪声之间的倒谱距离可得到倒谱距离轨迹类似于基于能量的端点检测过程利用倒谱距离轨迹可检测语音的端点。特征参数提取识别语音的过程,实际上是对语音特征参数模式的比较和匹配的过程。

8、语音特征参数的选取对系统识别结果起着重要作用。因此,必须寻找一个既能充分表达语音特征又能彼此区别的特征参数。现在较常用的特征参数有线性预

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。