语音识别系统简述

语音识别系统简述

ID:42465017

大小:238.51 KB

页数:13页

时间:2019-09-15

语音识别系统简述_第1页
语音识别系统简述_第2页
语音识别系统简述_第3页
语音识别系统简述_第4页
语音识别系统简述_第5页
资源描述:

《语音识别系统简述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、语音识别电科0904吕亚伟语音识别系统简述语音识别系统的本质就是一种模式识别系统,它包括特征提取、模式匹配、参考模式库等基本单元。由于语音信号是一种典型的非平稳信号,加之呼吸气流、外部噪音、电流干扰等使得语音信号不能直接用于提取特征,而要进行前期的预处理。预处理过程包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。经过预处理的语音数据就可以进行特征参数提取。在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模板,与参考模板进

2、行匹配,将匹配分数最高的参考模板作为识别结果。语音识别原理框图语音信号采集语音信号预处理端点检测识别参数提取识别参数匹配识别模板信号待识别信号识别结果语音信号预处理端点检测识别参数提取语音信号预处理分帧:在实际处理时可以将语音信号分成很小的时间段(约10~30ms[5,7]),称之为“帧”,作为语音信号处理的最小单位,帧与帧的非重叠部分称为帧移,而将语音信号分成若干帧的过程称为分帧。预加重:对于语音信号的频谱,通常是频率越高幅值越小,在语音信号的频率增加两倍时,其功率谱的幅度下降6dB。因此必须对高频进行加重处理,

3、一般是将语音信号通过一个一阶高通滤波器1-0.9375z-1,即为预加重滤波器,其目的是滤除低频干扰。加窗:为了保持语音信号的短时平稳性,利用窗函数来减少由截断处理导致的Gibbs效应。用的最多的三种为矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)。几种典型的窗函数矩形窗:汉明窗(Hamming):哈宁窗(Hanning):1=(0≤n<N-1)WR={0=(Other)0.5-0.46cos(2πn/(N-1))(0≤n<N-1)WHM={0=(Other)0.5-0.5cos(2πn/(N-1))(

4、0≤n<N-1)0=(Other){WHN=语音信号端点检测在基于DTW算法的语音识别系统中,无论是训练和建立模板阶段还是在识别阶段,都先采用端点检测算法确定语音的起点和终点。语音端点检测是指用计算机数字处理技术从包含语音的一段信号中找出字、词的起始点及结束点,从而只存储和处理有效语音信号。1、短时能量2、短时过零率3、双门限端点检测短时能量:语音和噪声的主要区别在它们的能量上。语音段的能量比噪声段的大,语音段的能量是噪声段能量叠加语音声波能量的和。短时过零率:短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。

5、对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号则称为过零。双门限端点检测:双门限端点检测顾名思义需要两级检测,即短时能量检测和短时过零率检测。语音train_0.wav的时域分析参数语音train_0.wav的端点检测结果语音识别参数的提取经过预处理的语音数据就可以进行特征参数提取,特征参数的好坏将直接影响系统的性能和效率,提取出来的参数直接用来进行语音识别。对特征参数的要求:(1)提取的特征参数能有效地代表语音特征,具有很好的区分性;(2)各阶参数之间有良好的独立性;(

6、3)特征参数要计算方便,最好有高效的计算方法,以保证语音识别的实时实现。LPC与LPCC系数MFCC系数LPC与LPCC系数:LPC(线性预测系数)模拟人发音器官的声管模型,是一种基于语音合成的参数模型。在语音识别系统中很少直接使用LPC系统,而是由LPC系数推出的另一种参数LPCC。LPCC(线性预测倒谱系数)是LPC在倒谱域中的表示。LPCC的优点是计算量小,易于实现,对元音有较好的描述能力,缺点是对辅音描述能力较差。MFCC系数:人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是

7、一个对数的关系。近年来,一种能够比较充分利用人耳的这种特殊感知特性的系数得到了广泛应用,这就是Mel尺度倒谱系数(即MFCC)。大量研究表明,MFCC系数能够比LPCC参数更好地提高系统的识别性能。DTW算法实现DTW(DynamicTimeWarping,动态时间规整)是语音识别中较为经典的一种算法。在实现小词汇表孤立词识别系统时,其识别率及其它指标与HMM算法实现几乎等同。又由于HMM算法复杂,在训练阶段需要提供大量的语音数据通过反复计算才能得到模型参数,而DTW算法本身既简单又有效,因此在特定的场合下获得了广

8、泛的应用。DTW算法原理DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术,它寻找一个规整函数im=Ф(in),将测试矢量的时间轴n非线性地映射到参考模板的时间轴m上,并使该函数满足:D是处于最优时间规整情况下两矢量的距离。由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的是两矢量匹配时累积距离最小所对应的规整函数,这就保证了它们之间

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。