科大讯飞语音引擎,科大讯飞语音识别.doc

科大讯飞语音引擎,科大讯飞语音识别.doc

ID:28115096

大小:136.00 KB

页数:7页

时间:2018-12-08

科大讯飞语音引擎,科大讯飞语音识别.doc_第1页
科大讯飞语音引擎,科大讯飞语音识别.doc_第2页
科大讯飞语音引擎,科大讯飞语音识别.doc_第3页
科大讯飞语音引擎,科大讯飞语音识别.doc_第4页
科大讯飞语音引擎,科大讯飞语音识别.doc_第5页
资源描述:

《科大讯飞语音引擎,科大讯飞语音识别.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、科大讯飞语音引擎,科大讯飞语音识别  今天,我们就为大家从技术上揭秘科大讯飞的新一代语音识别系统。  众所周知,自2011年微软研究院首次利用深度神经网络(DeepNeuralNetwork,DNN)在大规模语音识别任务上获得显著效果提升以来,DNN在语音识别领域受到越来越多的关注,目前已经成为主流语音识别系统的标配。然而,更深入的研究成果表明,DNN结构虽然具有很强的分类能力,但是其针对上下文时序信息的捕捉能力是较弱的,因此并不适合处理具有长时相关性的时序信号。而语音是一种各帧之间具有很强相关性的复杂时变信号,这种相关性主要体现在说话时的协同发音现象上,往往前后好几个字对我们正要说

2、的字都有影响,也就是语音的各帧之间具有长时相关性。  科大讯飞语音引擎,科大讯飞语音识别  今天,我们就为大家从技术上揭秘科大讯飞的新一代语音识别系统。  众所周知,自2011年微软研究院首次利用深度神经网络(DeepNeuralNetwork,DNN)在大规模语音识别任务上获得显著效果提升以来,DNN在语音识别领域受到越来越多的关注,目前已经成为主流语音识别系统的标配。然而,更深入的研究成果表明,DNN结构虽然具有很强的分类能力,但是其针对上下文时序信息的捕捉能力是较弱的,因此并不适合处理具有长时相关性的时序信号。而语音是一种各帧之间具有很强相关性的复杂时变信号,这种相关性主要体现

3、在说话时的协同发音现象上,往往前后好几个字对我们正要说的字都有影响,也就是语音的各帧之间具有长时相关性。    图1:DNN和RNN示意图  相比前馈型神经网络DNN,循环神经网络(RecurrentNeuralNetwork,RNN)在隐层上增加了一个反馈连接,也就是说,RNN隐层当前时刻的输入有一部分是前一时刻的隐层输出,这使得RNN可以通过循环反馈连接看到前面所有时刻的信息,这赋予了RNN记忆功能,如图1所示。这些特点使得RNN非常适合用于对时序信号的建模,在语音识别领域,RNN是一个近年来替换DNN的新的深度学习框架,而长短时记忆模块(Long-ShortTermMemory

4、,LSTM)的引入解决了传统简单RNN梯度消失等问题,使得RNN框架可以在语音识别领域实用化并获得了超越DNN的效果,目前已经在业界一些比较先进的语音系统中使用。  除此之外,研究人员还在RNN的基础上做了进一步改进工作,图2是当前语音识别中的主流RNN声学模型框架,主要还包含两部分:深层双向LSTMRNN和CTC(ConnecTIonistTemporalClassificaTIon)输出层。其中双向RNN对当前语音帧进行判断时,不仅可以利用历史的语音信息,还可以利用未来的语音信息,可以进行更加准确的决策;CTC使得训练过程无需帧级别的标注,实现有效的“端对端”训练。    图2:

5、基于LSTMRNN的主流声学模型框架  目前,国际国内已经有不少学术或工业机构掌握了RNN模型,并在上述某个或多个技术点进行研究。然而,上述各个技术点单独研究时一般可以获得较好的结果,但是如果想将这些技术点融合在一起的时候,则会碰到一些问题。例如,多个技术结合在一起的提升幅度会比各个技术点幅度的叠加要小。又例如,传统的双向RNN方案,理论上需要看到语音的结束(即所有的未来信息),才能成功的应用未来信息来获得提升,因此只适合处理离线任务,而对于要求即时响应的在线任务(例如语音输入法)则往往会带来3-5s的硬延迟,这对于在线任务是不可接受的。再者,RNN对上下文相关性的拟合较强,相对于D

6、NN更容易陷入过拟合的问题,容易因为训练数据的局部不鲁棒现象而带来额外的异常识别错误。最后,由于RNN具有比DNN更加复杂的结构,给海量数据下的RNN模型训练带来了更大的挑战。  鉴于上述问题,科大讯飞发明了一种名为前馈型序列记忆网络FSMN(Feed-forwardSequenTIalMemoryNetwork)的新框架。在这个框架中,可以把上述几点很好的融合,同时各个技术点对效果的提升可以获得叠加。值得一提的是,我们在这个系统中创造性提出的FSMN结构,采用非循环的前馈结构,在只需要180ms延迟下,就达到了和双向LSTMRNN相当的效果。下面让我们来具体看下它的构成。    图

7、3:FSMN结构示意图    图4:FSMN中隐层记忆块的时序展开示意图(左右各看一帧)  图3即为FSMN的结构示意图,相比传统的DNN,我们在隐层旁增加了一个称为“记忆块”的模块,用于存储对判断当前语音帧有用的历史信息和未来信息。图4画出了双向FSMN中记忆块左右各记忆一帧语音信息(在实际任务中,可根据任务需要,人工调整所需记忆的历史和未来信息长度)的时序展开结构。  从图中我们可以看出,不同于传统的基于循环反馈的RNN,FSMN记忆块的记忆功能是使用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。