小词汇表非特定人语音识别通用模块的实现

小词汇表非特定人语音识别通用模块的实现

ID:37615552

大小:1.17 MB

页数:11页

时间:2019-05-26

小词汇表非特定人语音识别通用模块的实现_第1页
小词汇表非特定人语音识别通用模块的实现_第2页
小词汇表非特定人语音识别通用模块的实现_第3页
小词汇表非特定人语音识别通用模块的实现_第4页
小词汇表非特定人语音识别通用模块的实现_第5页
资源描述:

《小词汇表非特定人语音识别通用模块的实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、小词汇表非特定人语音识别通用模块的实现比赛编号:B10899日期:2002.10.01姓名:王瀚(中文)WangHan(英文)职业:硕士研究生电子邮箱:zingelk@online.sh.cn单位名称:复旦大学计算机科学与工程系目录引言……………………………………………………………333系统概述……………………………………………………………333系统硬件……………………………………………………………666系统软件……………………………………………………………999参考文献……………………………………………………………112小词汇表非特定人语音识别通用模块的实现王瀚复旦

2、大学计算机科学与工程系(200433)摘要:本文介绍了一种基于动态时间归整(DTW)方法的小词汇表非特定人语音识别通用模块。系统采用Motorola公司DSP56F805芯片为核心,应用线性预测编码(LPC)与动态时间归整(DTW)算法进行非OOV(outofvocabulary)语音识别。测试表明,有良好的实用性。关键词:LPC,DTW,语音识别11.引言1.引言随着时代的发展,人们越来越注重生活的品质。便捷时尚成为当代人们的追求目标。信息家电的概念由此应运而生。越来越多的厂商投入到信息家电的行列中来。所有人都意识到了,在目前的市场中不能再依靠单纯的降价来进行竞争。

3、没有高新信息技术的支撑,就根本无法赢得这个有限的市场。由于受地域和语言等因素的限制,目前语音技术在该领域的运用还很少。因此,一款实用有效的语音技术产品将会有一个广阔的前景。在此背景下,我们采用LPC和DTW作为核心算法,开发了一套度从语音采样,训练,到识别的完整语音识别开发系统。可以广泛的应用在各种小词汇表情况下的人机交互界面上。用户可以按照指导,在没有语音处理论知识的情况下,依照自己意愿,适当的选择适合自己要求的词汇,从而开发出一整套自己的语音识别系统。2.系统概述2.1特性﹕V以DSP56805芯片为核心运算与控制模块V8位精确A/D采样V模块化设计,便于系统移植

4、与升级V表演模块以LCD作为交互界面直观清晰;V表演模块代码与系统其他部分相互独立,适应更广泛应用2.2系统概述﹕整个设计由两个部分组成:语音采样训练系统和语音识别系统。语音采样训练系统主要完成语音模板的建立,是语音识别系统的辅助系统。由DSP部分,PC机部分,以及相关软件实现。首先由DSP部分采样语音数据,通过串行通讯将数据传输到PC;然后在PC上进行语音数据的处理与聚类,得到语音数据模板。语音识别系统则是建立在可靠的语音数据模板基础上,将采样得到的语音数据与模板进行匹配,从而得到可靠识别结果。3图1:系统示意图2.3DSP56F805简介DSP56F805是Mot

5、orola公司的DSP芯片,与本系统相关的主要特点如下:a.40MIPSb.两路内置ADCc.31.5K-16bit程序FLASH;16位地址/数据总线,最大外接2×64K-16bitRAM/FLASHd.两路中断IRQA/IRQBe.14条专用I/O引脚,18条共用引脚f.3.3v供电g.144-pinLQFP封装2.4语音识别的基本原理语音识别通常由以下两个部分组成:1)预处理2)特征提取3)模式识别图2:语音识别42.4.1预处理预处理—预处理——端点检测—端点检测[1]常用的预处理有数字滤波以及端点监测,在本系统中我们使用了端点检测来确定语音数据的起始点和终点

6、。语音端点起点检测一般常用双门限前端检测法。由于本系统采用交流到直流变换的供电设计,无法避免的造成了50Hz左右的干扰。因此,根据多次试验的结果,我们采用的单一的短时能量作为我们检测语音标准:即,当采样得到的短时能量大于一定阈值时,我们就认定此时语音已经开始。然后以该点为基准,向前取既定帧数。这样我们认为就已经获得了语音的起点。由于汉语的特殊性,语音的终点获得可以直接计算短时能量得到。只要短时能量低于平均能量的1/16就可以认定此时已经是语音信号的终点了。即便是丢点后续的部分信号,也不会对处理带来影响。在本系统中,为了计算上的方便,我们同样对终点也设定了一个由经验得到

7、得阈值来判断是否到达了语音的终点。语音短时能量计算方法:∞2E=∑[]x(m)⋅w(n−m)nm=−∞其中,x(m)为一维语音信号,w(m)为窗函数。2.4.2特征提取特征提取—特征提取——线性预测编码(—线性预测编码(LPC)[2]线性预测编码(LPC)是目前众多特征提取方法中的一种,主要特点是运算简单,易于实现代码的优化,运算速度快。~p我们定义线性预测器S(n)=∑akS(n−k)(S(n)为输入信号的Z变换)则k=1其中a1~ap即为系统所求的的特征矢量。本系统中,为了配合DSP的定点计算,我们采用舒尔算法(参见参考文献2)解求特征矢量。2.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。