基于fpga的说话人识别系统设计与实现new

ID：33701454

大小：208.37 KB

页数：4页

时间：2019-02-28

资源描述：

《基于fpga的说话人识别系统设计与实现new》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、第30卷第9期重庆大学学报(自然科学版)Vol.30No.92007年9月JournalofChongqingUniversity(NɑturɑlScienceEdition)Sep.2007文章编号:10002582X(2007)0920076204基于FPGA的说话人识别系统设计与实现何伟,胡又文,张玲,陈方泉(重庆大学通信工程学院,重庆400030)摘要:针对当前基于DSP等硬核处理器的嵌入式说话人识别系统存在训练和辨认时间较长的问题,提出一种基于FPGA平台与矢量量化原理的说话人识别系统实现方案。在采用遗传算法进行矢量量化的说话人识别的系统中,该方案实现的硬件并行运

2、算结构可大大减少求适应度的耗时。经测试,该实现方案在保证识别率前提下,可有效提高训练与识别速度。关键词:说话人识别;矢量量化;遗传算法;适应度;FPGA中图分类号:TP391.42文献标志码:A说话人识别(SpeakerRecognition)又称为话者识试者语音2个主要功能,其系统结构框图如图1所示。别,是指根据特定说话人语音波形中反映生理和行为根据图1可见,系统的任务主要有3项:一是说话人语[1]等特征的语音参数来对说话人身份进行识别。说音采集与语音特征参数提取;二是通过遗传算法计算话人识别技术作为一种非接触性识别技术,在司法、军得到说话人语音码书,称为训练过程;三是在

3、说话人识事和信息服务等领域都有广泛的应用前景。别时将测试者的语音特征参数与已有码书进行匹配并SOPC技术是一种基于FPGA解决方案的SOC,由作出决策,称为识别过程。[2]美国ALTERA公司于2000年提出。基于SOPC平台的开发结合了FPGA灵活可编程与片上NiosII软核处理器的用户可配置等特点。在实现某功能时,可编写C/C++程序运行于NiosII处理器实现,也可设计硬件模块实现,通过硬件实现加速。目前的嵌入式说话人识别系统通常是基于DSP等硬处理器平台实现,训练与识别耗时长,实时性较差。笔者基于矢量量化(VQ)的说话人识别算法研究图1说话人识别系统框图的基础上,根

4、据采用遗传算法进行矢量量化的算法特当系统采集到用户或测试者的语音数据后,首先[3]点,综合考虑训练与识别时间,资源消耗等因素,在要提取反映说话人语音特征的参数,系统选用的是CycloneII2C35系列FPGA上实现了嵌入式说话人识MFCC参数。MFCC参数是一种基于人耳对语音频率[5]别系统。经验证,该说话人识别系统识别率高,实时性的非线形感知特征的描述参数,在说话人识别中,优于硬核处理器系统,应用前景良好。其性能优于LPC,LPCC等参数。训练过程就是系统为用户生成码书的阶段,当系1基于VQ的说话人识别算法统得到用户的一段MFCC参数Xn={xn1,xn2,⋯,xnM}

5、说话人识别系统包含记录用户语音特征和识别测(n=1,2,⋯,N)后,要以这段MFCC为依据为该用户收稿日期:2007205230基金项目:国家自然科学基金资助项目(60472037)作者简介:何伟(19642),男,重庆大学副教授,主要从事电子设计自动化、信号与信息处理的研究,(Tel)13908381077;(E2mail)hw@ccee.cqu.edu.cn。第9期何伟,等:基于FPGA的说话人识别系统设计与实现77建立一部表征其个人语音特征的码书,Xn可视为N个M维矢量点,称为训练序列。码书的生成过程就是将训练序列的M个点聚为K类,每一类用一个M维点表示,用这K个点描

6、述训练序列中M个点的空间分布情况。聚类得到的序列Sn={sn1,sn2,⋯,snM}(n=1,2,⋯,K)即为一部容量为K的码书。识别过程中,系统将得到测试者语音MFCC,称为测试序列,然后与用户码书匹配,如果与某用户码书的失真测度大于阈值,则可认为测试者为该码书表征的用户。由于码书的生成是高维空间中的点聚类过程,如果用LBG,K均值等方法进行聚类易导致结果陷入局部最优点,因而笔者选择具有全局搜索性能的遗传算[5]法进行聚类,可得到性能更好的VQ码书。针对说图2系统整体设计框图话人识别设计的具体步骤如下:次接收到的数据的前向差值与平方值,并将3个数值1)群体规模设置为30,

7、随机初试化群体;传至SRAM中的存储区,当存储区满后,模块以中断2)采用简单遗传操作,变异与交叉采用无回放随机方式通知CPU读取数据。CPU读出数据后分帧并根选择策略,单点交叉,交叉概率PC=90%,变异概率据式(2)、(3)求出每一帧的短时能量与过零率,然后PM=10%,每一代具有最优适应度的10%个体直接通过双门限法检测该段数据是否为有效语音。式(2)、保留;(3)中,N为每帧采样点数。3)计算执行遗传操作后的所有个体的适应度,淘由于每个采样点的前向差值与平方值已由数据接汰10%的最差个体;如果遗传代数为3的倍

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于fpga的说话人识别系统设计与实现new

基于fpga的说话人识别系统设计与实现new

相关文章

相关标签