高性能汉语数码语音识别算法.pdf

高性能汉语数码语音识别算法.pdf

ID:57301294

大小:211.43 KB

页数:6页

时间:2020-08-10

高性能汉语数码语音识别算法.pdf_第1页
高性能汉语数码语音识别算法.pdf_第2页
高性能汉语数码语音识别算法.pdf_第3页
高性能汉语数码语音识别算法.pdf_第4页
高性能汉语数码语音识别算法.pdf_第5页
资源描述:

《高性能汉语数码语音识别算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、高性能汉语数码语音识别算法李虎生刘加刘润生摘要:提出了一个高性能的汉语数码语音识别(MDSR)系统。MDSR系统使用Mel频标倒谱系数(MFCC)作为主要的语音特征参数,同时提取共振峰轨迹和鼻音特征以区分一些易混语音对,并提出一个基于语音特征的实时端点检测算法,以减少系统资源需求,提高抗干扰能力。采用了两级识别框架来提高语音的区分能力,其中第一级识别用于确定识别候选结果,第二级识别用于区分易混语音对。由于采用了以上改进,MDSR系统识别率达到了98.8%.关键词:汉语;数码语音识别分类号:TN9

2、12.34文献标识码:A文章编号:1000-0054(2000)01-0032-03HighperformancedigitmandarinspeechrecognitionLIHushengLIUJiaLIURunsheng(DepartmentofElectronicEngineering,TsinghuaUniversity,Beijing100084,China)Abstract:High-performancemandarindigitspeechrecognition(MDSR)sy

3、stemisdevelopedusingMFCC(melfrequencycepstrumcoefficient)asthemainparameteridentifyingthespeechpatterns.Theformanttrajectoryandthenasalfeatureareextractedtoidentifyconfusedwords.Afeature-based,real-timeendpointdetectionalgorithmisproposedtoreducethes

4、ystemresourcerequirementsandtoimprovethedisturbance-proofability.Atwo-stagerecognitionframeenhancesdiscriminationbyidentifyingcandidatewordsinthefirststageandconfusedwordpairsinthesecondstage.Theseimprovementsresultinacorrectrecognitionrateof98.8%.Ke

5、ywords:mandarin;digitspeechrecognition▲汉语数码语音识别(mandarindigitspeechrecognition,MDSR)是语音识别领域中一个具有广泛应用背景的分支,它的任务是识别“0”到“9”等10个非特定人汉语数码语音,在电[1]话语音拨号、工业监控、家电遥控等领域有着极大的应用价值。但与英语数码语音识别相比,MDSR的性能尚未达到成熟应用水平,这是因为1)汉语数码语音的混淆程度较高;2)汉语是一个多方言语种,说话人会带有或多或少的地方口音;3)

6、在许多应用背景中,MDSR需要在运算和存储资源都较为紧张的数字信号处理器(digitalsignalprocessor,DSP)系统上实现,这为MDSR算法的设计带来了很大的限制。由于以上原因,MDSR是一项相当困难的任务。针对汉语数码语音识别提出了一系列高性能的算法,使MDSR识别率达到了98.8%。由这些算法构成的识别系统框图如图1所示。[1]MDSR系统提取的语音特征参数包括用于识别的参数和用于端点检测的参数。图1MDSR系统框图1语音前端处理语音前端处理包括语音特征提取和端点检测两部分。

7、1.1语音特征提取1.1.1基本识别参数目前常用的语音识别参数有基于线性预测编码(LPC)的线性预测倒谱系数(LPCC)和基于Mel[2]频标的倒谱系数(MFCC)。实验证明,采用MFCC参数时系统识别率高于采用LPCC参数。因此本文的基本识别参数采用MFCC参数及一阶差分MFCC参数。1.1.2共振峰轨迹[3]在MDSR中,易混淆语音“2”和“8”可以由其第2,3共振峰的变化趋势区分开。因此[3]可将共振峰轨迹作为识别参数之一,并选用峰值选取算法来提取共振峰轨迹。1.1.3鼻音特征参数汉语数码

8、语音中,“0”的元音具有鼻音的特征,而“0”容易与具有非鼻化元音的“6”混[4]淆,因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括:1)鼻音在频谱低端(约0.25kHz左右)有1个较强的共振峰。2)鼻音在中频段(约0.8~2.3kHz)的能量分布较为均匀,没有明显的峰或谷。采用以下2个参数表征鼻音的特征:1)低频能量比:(1)其中fn为鼻音低频共振峰频率,B为鼻音低频共振峰带宽。Fk为对语音作快速Fourior变换(FFT)后第k个频率点的能量,[f1,f2]则为语音“6”能量集中的频带。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。