基于BP神经网络的语音识别技术.doc

基于BP神经网络的语音识别技术.doc

ID:56483303

大小:411.00 KB

页数:28页

时间:2020-06-24

基于BP神经网络的语音识别技术.doc_第1页
基于BP神经网络的语音识别技术.doc_第2页
基于BP神经网络的语音识别技术.doc_第3页
基于BP神经网络的语音识别技术.doc_第4页
基于BP神经网络的语音识别技术.doc_第5页
资源描述:

《基于BP神经网络的语音识别技术.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、上海海事大学神经网络与语音识别院系:物流工程学院课程名称:制造与物流决策支持系统学生姓名:学号:时间:目录一.绪论31.1研究背景及意义31.2语音识别的国内外研究现状31.3研究内容4二.语音识别技术52.1语音信号52.2语音信号的数学模型52.3语音识别系统结构62.4语音信号预处理72.4.1语音信号的采样82.4.2语音信号的分帧82.4.3语音信号的预加重92.4.4基于短时能量和过零率的端点检测92.5特征参数提取12三.基于BP神经网络语音识别算法实现143.1BP神经网络原理143.2输入层神经元个数的确定143.3网络隐含层数的确定153.4隐含

2、层神经元个数的确定153.5BP神经网络构造153.6BP神经网络的训练163.6.1训练样本集合和目标值集合163.6.2网络训练163.7网络训练173.8语音的识别结果18四.总结19参考文献20附录21一.绪论计算机的飞速发展,使人们的生活方式发生了根本性的改变,鼠标、键盘,这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异,假如让“机器”能够听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。语音

3、识别(SpeechRecognition)是指,计算机从人类获取语音信息,对语音信息进行分析处理,准确地识别该语音信息的内容、含义,并对语音信息响应的过程。语音信号具有非稳定随机特性,这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理,那么要求计算机能像人类一样地识别语音信号很有挑战性。1.1研究背景及意义语言在人类的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机

4、对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。1.2语音识别的国内外研究现状通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语音识别主要指让机器转达人说的话,即在各种情况下,准确的识别出语音的内容,从而根据其信息,执行人的各种意图。广义的语音识别包括说话人的识别和内容的识别两部分。这里所说的语音识别,是指内容识别方面。采用计

5、算机进行语音识别到现在已经发展了50年。从特征参数上改进,采用各种办法进行语音增强是一个研究方向,但是到目前为止,还没有一种办法能把语音信号完美地从噪音环境提取出来。语音识别有广泛的商业化运用前景,主要可以分为通用场合和专用场合两个方面。1.3研究内容本文研究的主要内容是结合模式识别的基本理论,研究BP神经网络孤立词语音识别的问题,实现1-5共5个数字的识别。分析了语音信号的预处理,特征提取及BP神经网络算法实现。二.语音识别技术2.1语音信号语音信号是随时间变化的一维信号,由一连串的音素组成,各个音素的排列有一定的规则。语音具有声学特征的物理性质,声音质量与它的频

6、率范围有关,语音信号的频谱分量主要集中在200~3400Hz的范围内。语音信号的另一个重要特点是它的短时性。语音信号的特征是随时间变化而变化,只有在一段很短的时间间隔中,才保持相对稳定的特性。研究表明,在5ms~40ms的范围内语音信号的频谱特性和一些物理特征基本保持不变。语音信号短时特征和短时参数包括它的短时能量、短时过零率、短时相关函数、短时频谱等。语音信号的最基本组成单位是音素。音素可分成浊音和清音两大类。如果将只有背景噪声的情况定义为“无声”,那么音素可分成“无声”、“浊音”和“清音”三类。在短时分析的基础上可以判断一小段语音属于哪一类。如果是浊语音段,还可

7、测定它的另一些重要参数,如基音频率和共振峰等。2.2语音信号的数学模型建立语音信号的数学模型是语音信号处理的基础。从人的发音器官的机理来假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特征是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时可以采用线性时不变模型。通过上面的分析,将语音生成系统分成三个部分,喉的部分称为声门,在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是“激励系统”。从声门到嘴唇的呼气通道是声道,是“声道系统”,声道的形状主要由嘴唇和舌头的位置来决定。在说话的时候,声门处气流冲击声带产生振动,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。