语音识别中基于神经网络的矢量量化方法

语音识别中基于神经网络的矢量量化方法

ID:5337986

大小:269.25 KB

页数:4页

时间:2017-12-08

语音识别中基于神经网络的矢量量化方法_第1页
语音识别中基于神经网络的矢量量化方法_第2页
语音识别中基于神经网络的矢量量化方法_第3页
语音识别中基于神经网络的矢量量化方法_第4页
资源描述:

《语音识别中基于神经网络的矢量量化方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第20卷第12期小型微型计算机系统Vol.20No.121999年12月MINI-MICROSYSTEMSDec.19993语音识别中基于神经网络的矢量量化方法孙杰李晶皎姚天顺(东北大学信息科学与工程学院沈阳110006)摘要本文对神经网络语音识别中的语音特征提取、网络结构以及学习算法进行了初步的研究,提出了一种用于语音特征矢量量化的简化和改进的自组织神经网络模型VQNN.VQNN中引入了动态规划法估计语音样本矢量的码本类中心初值并确定网络的初始权矩阵,可构造出256个量化等级的码本矢量.该方法具有较强的鲁棒性且矢量量化过程简单迅速.对28个地名的语音量化识别实验结果表明了这种量化方法对语音识

2、别的有效性.关键词语音识别矢量量化神经网络分类号TP3911引言矢量量化是80年代发展起来的一项信源编码新技术,它是根据Shannon的信息理论,采用组量化能够获得优于标量量化性能的基本思想而提出的.矢量量化技术利用了矢量各分量之间相互关联的性质,抑制了信号量化过程〔1,2〕中的信息冗余量而实现高效率的熵压缩编码.它是语音识别中的一个重要环节.语音识别过程首先要对连续语音信号进行特征提取,得到语音信号的一组特征矢量.为了进一步压缩信号,用若干离散的数字值(即码本号)来表示特征矢量,这就是矢量量化的过程.在语音信号的矢量量化系统中,码本训练的质量直接影响语音识别的识别率,为此我们探求更好的矢量量

3、化方法来获得高质量的码本.神经网络是一种模拟了人脑神经组织结构的信息处理方法.它具有自适应性、并行性、和鲁棒性等特点.自八十年代再复兴以来,神经网络技术已在诸如语音识别等各类智能系统中得到了广泛应用.人们已探索出多种将神经网〔3,4〕络用于语音识别的途径和方法,初步显示了神经网络的结构和算法在语音识别中的有效性.在语音识别中矢量量化的码本既是聚类中心,码本可通过各种聚类算法求得.已有文献将自组织神经网络(SONN)用于矢量量化过程.它利用SONN能确定样本空间概率聚类中心的自组织能力对语音矢量进行划分,形成以聚类中心表示的特征矢量,达到对语音矢量量化的目的.由于在语音矢量量化中量化等级事先确定

4、,随着量化等级的增加使网络规模迅速膨胀.此时采用SONN随机设置网络权值的无监督学习算法,不仅算法收敛速度缓慢,而且收敛后会出现大量神经元都包含空类的现象,从而影响语音识别效果.针对上述问题,本文在SONN算法基础上,增加了用于确定语音样本矢量初始码本类中心的动态规划过程,并将输出层简化为具有侧抑制的一维神经元结构,提出一种用于语音特征矢量量化的简化和改进的神经网络模型VQNN(VectorQuantizationNeuralNetwork).VQNN具有较强的鲁棒性,收敛速度快,并且能够有效减少神经元出现空类的现象,使码本中心的分配更趋合理并满足语音矢量量化等级要求.文中讨论了语音矢量的构造

5、形式、VQNN的结构和实现算法.对28组地名词汇的语音矢量的量化实验结果表明了该方法的有效性和实用性.2语音矢量量化的VQNN结构语音信号经过特征提取可表示为若干帧具有一定维数的语音矢量.设语音矢量表示为O={O1,O2,......,OT},T为语音长度(帧数),Oi=(x0,x1,x2,......,x15)是表示每帧的语音特征矢量(1≤i≤T),xi(0≤i≤15)是语音1998203211收稿3本课题由国家自然科学基金(69675019)和国家863项目(863230620320621)资助孙杰,博士,副教授,主要研究方向为智能系统理论与应用、神经网络、机器翻译.李晶皎,在职博士生,副

6、教授,主要研究方向为语音识别系统、人工智能,神经网络.姚天顺,教授,博士导师,主要研究方向为人工智能、计算语言学,智能人机接口等.942小型微型计算机系统1999年的一种特征描述.语音长度T是动态变化的,尤其是对于多组要识别的语音将形成大量n(n=16)维矢量.矢量量化就是要研究这些矢量的分布状况,找出聚类中心,并按量化等级的要求形成码本,从而将每一语音的T个n(n=16)维语音矢量转变成一个长度为T的码字序列.在本文的矢量量化过程中,作为样本的语音矢量构成了训练样本集S,利用神经网络的自学习特点,特别是自组织神经网络形成样本概率聚类中心的能力获取矢量量化特征.与样本集和要量化的等级即码本长度

7、(最大为256)相对应,VQNN采用两层结构.第一层为输入层,包括16个神经元,对应于语音特征矢量维数的16个分量.第二层为输出层,包含256个神经元,每个神经元分别对应于一个要生成的语音特征,神经元之间具有侧抑制.输入层神经元与任一输出神经元的连接权形成一个语音特征矢量.VQNN的网络结构如图1所示.图中Wi(0≤i≤255)为输出神经元与输入神经元间的连接权向量,Wi=(wi0,wi1,...

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。