语音识别技术研究

语音识别技术研究

ID:46820255

大小:74.00 KB

页数:10页

时间:2019-11-28

语音识别技术研究_第1页
语音识别技术研究_第2页
语音识别技术研究_第3页
语音识别技术研究_第4页
语音识别技术研究_第5页
资源描述:

《语音识别技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、语咅识别技术研究采用动态时间规整模型和隐马尔科夫模型,实现了孤立词语咅识别方案。并探讨语咅识别在硬件上的实现以及基咅周期估值等具体问题。o论文在Windows平台上仿真和编写了预处理、端点检测、特征参数提取、K均值聚类法初值设定、语音模板训练、隐马尔可夫模型识别几个子程序模块,实现了语音识别的各个过程。并用汉语数码识别验证了方案的可行。计算机分析语音信号的目的是为了方便有效的提取并表示语音信号所携带信息,这种方法所需要的准确度是山语音中特定信息决定。根据所分析的参数类型,语音信号分析可以分为时域和

2、变换域(频域、倒谱域)处理技术。语音识别是指计算机将人类的语音信号“翻译”成表达相应语言的文字序列。这里的“翻译”是指在一个有限的集合里面确定待识别目标1.同一语音的时域波形不同发音之间千变力化,且-一段语音数据量大,不适合作为识別的基元,如何选取语音信号识別的特征,是频域变换结果,还是其它?2.语音特征参数怎样实现对不同语音的分类?或者说,语音信号中含有丰富的信息,但如何去除对语音识别无关紧要的冗余信息,从中提取出对语音识别有用的信息呢?1.采用什么样的模型(算法)来匹配选取的语音特征?2.怎样

3、测度两语音信号的相似性?选取什么样的准则?3.怎样评判语音识别的结果的有效性和正确率?一个成功的语音识别系统,需要考虑语音特征参数的有效和适应性、算法的复杂程度、各层知识的构建、系统可移植和扩展性等各方面问题语音识别系统根据说话人的方式可分为孤立字(词)、连接词、连续语音识别系统;按对说话人的依赖可分为特定人和非特定人识别系统:按词汇量的大小可分为小词汇量、屮等词汇量、大词汇量(无限词汇)语音识别系统。,语音识别的难点表现在以下几个方面:协同发音现彖:人们说话的方式很少是按孤立字发音的,总是按一定

4、的习惯方式连续发音,声学单元受上下文环境影响而发生模糊、变界,字母或单词的一部分在发音过程中其音量、音调、重音和发音速度可能不同。在语音识别系统屮,无论选用何种建模单元(词、音节、声韵母、音索),都需要对建模单元Z间的相互影响做细化处理,随之/而來的是模型数目的剧増和训练数据的匮乏。说话人变异:没有(几乎可论断)两个语音是…样的,即使是同…人用同样的语气和发声方法情况下。不同的说话人由于性别、年龄等因素的不同,相同内容的发音存在很大差异;同时由于情绪和环境的影响,发音也发生改变。随着说话人的不同,

5、识别系统的适应性表现得远不如人类。因此“说话人自适应”、“变异语音识别研究”技术一直是语音识别研究中的重要方向。对环境性的依赖:语音识别往往表现为在某种环境下采集到的语音训练系统只能在这种环境下适用,变换环境系统性能将急剧下降:另外,实际语音受到背景噪声的影响,如嘈杂的背景人声、工厂机器轰鸣、麦克和电话信道的畸变等,鲁棒性一直是影响语首识别系统能否实际应用的关键因素。方言的影响:口音是各种语言普遍具有的现象,而在汉语语音中尤其突出,发音也极其不规则,比如在一些方言中,不加区分…’和“f”、“1”和

6、…’、卷舌和不卷舌、前鼻音和后鼻音等等,声调也变化极大,这对汉语语音识别提出了更高的要求O统一的语音库建立、标准的数据接ISI、开放的开发平台和标准的测试规程都是语音识别标准化研究的方向,目前比较成熟的两种语音识别模型DTW和HMM分别实现孤立词识别,体会语音识别的整体流程。同时结合课题组在数字信号处理硬件方面的经验,对语音识别算法(孤立词)在DSP平台上移植实现的一些问题作了探讨,最后对语音的基音估值和频域分析提出了一些有益的尝试方法。:语音识别就是将语义信息从声波上“解调”的过程,语音识别系统

7、可类比于通信系统的接收机(语音合成系统相当于发射机)。这样给我们一个信息:我们可否仿照通信系统中的OSI(开放系统互连)模型的建立,将语音识别定义为层次模型【7],这样可以更清晰化的理解语音识别的整体结构。种典型的语音识别的应用:第一种方案为典型的中小词汇量、孤立词识别系统。系统以词语为基元建立模板,没有次音节、音节单元,也没有上层的语句语义层次,每个词条命令就是识别的最终结果。这种系统可认为语音、语言的知汲都包含在以词组为单元的模板中第二种方案仍然以词语为识别基元、连续或连接词的语首识别系统。系

8、统为每一词条建立模板,最终任务是按一定的语法规范将词语识别结果依次连缀成句子,这类系统往往用于特定任务(航班查询,电话查询等),具有明显的语句识别层次。第三种方案是以全音节为基元模型建立的识别系统。使用N.best算法逐次获得前N个最好的候选单元(无调、有调音节),再按词性、句法、语法网络信息得到最后识别结果。这种方案多用于汉语大词汇量、连续语音识别系统。汉语识别同样可以以声韵母为建模,直接跳过全音节(字)层次进行词识别。语音信号可以看作是激励信号激励一个线性系统而产生的输出。其中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。