lstm+ctc详解

lstm+ctc详解

ID:20387691

大小:2.88 MB

页数:27页

时间:2018-10-10

lstm+ctc详解_第1页
lstm+ctc详解_第2页
lstm+ctc详解_第3页
lstm+ctc详解_第4页
lstm+ctc详解_第5页
资源描述:

《lstm+ctc详解》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、LSTM+CTC详解随着智能硬件的普及,语音交互请求会越来越多。2011年之后,深度学习技术引入到语音识别之后,大家也一直再问一个问题,深度学习技术还能像刚提出时候那样,持续大幅度提升现在的语音识别技术吗?语音技术能够从小规模的使用转向全面产业化成熟吗?如果全面产业化成熟,意味着会有越来越多的语音处理需求,但百度语音技术部的负责人贾磊说,如果线上50%的搜索都由语音完成,而机器耗费还和过去一样,那么没有公司能承担起这样的机器耗费。语音搜索的未来会怎样?技术能持续发展吗?技术的发展能否优化成本结构,同时又保障

2、用户体验?贾磊演讲全文【贾磊】我简单介绍一下长短时记忆模型。这个模型的优势就在于,在传统的网络中引入三个门:输入门,输出门和遗忘门,分别代表对信息长期、远期和近期的记忆和控制。相对于我们传统的CNN和DNN模型,它的好处是能够记录轨迹的变化。这个模型已经提出来很久了,本身并不是近期的创新,但要把它应用在工业里,是有很多困难和现实问题的。为了把模型应用在产品上,我们提出了一套CNN+7DNN+2LSTM的结构。我当时提出这个结构,是专门在西北工业大学汇报过的,Google当时没有论文。Google当初提出2层

3、LSTM,在我们的验证中,如果是对于状态建模,那么需要比较Deep的模型,因为这是比较短的瞬时状态,它的轨迹并不清晰。那么如果采取这种深层结构,两三轮的迭代,数据就可以获得收敛,有很好的这个效果。而如果只用2层的LSTM,随着数据量的增加,这个提升会很慢。而且最终的收益,这个模型的效果好。Google最后的论文也证明了这一点,这样的模型结构,对于状态建模是比较好的。然后我们在LSTM的模型上,主要解决了海量数据的训练和效率问题。因为LSTM不是今天的重点,今天主要讲CTC,和语音识别对传统框架的改变。因此我

4、就跳过这一部分。LSTM的训练是有困难的,因为很容易发散。这是一个重要的技术,Google提出的LSTMP,它在传统的LSTM模型之上,引入了一个反馈层。这个反馈层对工业界弥足珍贵,因为这个反馈层会使运算的计算量大幅下降,它可以把反馈的,比如说你这个神经元节点是1024,他反馈的可以采用256,这样整个计算量会大幅压缩。因此我向大家推荐这个技术,基本上应该是工业界和学术界的最新技术,除了产品效果之外,这个的精度更高,我对这个的猜想是因为LSTM的输出层很大,它有两万多个节点,在状态建模的时候。因此为了和外部

5、的匹配,通常的就是C代表的LSTM的记忆单元,这个单元的维度会比较高,一般采用的是1024,也可以采用2048。当采用1024的时候,其实整个网络已经非常复杂了。这个属于反馈层,可以把参数大幅的压低,从而导致你可以鲁棒稳定的去训练这个网络。那么有人反映,带有反馈层之后训练会不稳定。我的感觉是这种反馈即使有不稳定,大家要去钻研,因为它是必不可少的。工业产品中如果不带这个反馈,计算量是难以承受的。这是Google对LSTM的贡献,我向大家推荐这个技术。然后讲BPTT算法,BPTT算法是最基本的训练神经网络的算法

6、,就是误差反向传播。对于R模型或者LSTM模型它是有轨迹的,因此它是根据轨迹的误差反向传播。它有两种方法。第一种方法是逐帧递推的,一帧推下一帧,再下一帧误差规避以后再向前传。第二种是所有的误差同步向前传,传固定的步数。这两种算法其实在BPTT的理论都是存在的。后面这种实际上就是把误差截断,不让误差从头传到尾。第一种就是直接从头传到尾。两种基本的算法,大家可以了解一下基本的理论。这是我们多层的LSTM的结构,下面是我们的CNN层,上面是我们的DNN全连接层,这是我们的LSTM两层。这个节点是采用了1024,这

7、个维数的大小,线上的工业产品是可以用的。所以大家的研究可以照着这个去做,如果你的体积过大或者过小,对于工业而言可能就是研究跟现实之间就会有不匹配。这解释了网络能够提升系统的根本原因:第一,多层结构对神经网络而言总是有价值的,因为多层意味着输入的扰动在输出总数会衰减。这个我觉得微软的于老师是有一篇论文去讲这个。第二个状态建模,状态的轨迹并不是很清晰,很短、很sharp的一个建模单元。这个时候如果完全采用LSTM去建模的话,造成的结果就是LSTM是轨迹比较强,但是它跟瞬态的模拟能力不够,因此结合瞬态跟轨迹这样的

8、一个模型结构,在我们现实产品中发现是稳定的,而且总是有好的效果。那我们和双层的LSTM做对比,谷歌当年刚开始提出双层的LSTM胜过CNN,有这样一篇论文,大家可以去找,我们做了实验,实际上我们达到的是negative的结果。在2000小时中,跟谷歌的实验一样,对等。双层LSTM的效果胜过了传统的CNN技术。但如果把数据量增加到一万小时的时候,这种十层的CNN会胜过双层的LSTM,节点是1024,大家可以做实验看看

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。