lstm+ctc详解

ID：20387691

大小：2.88 MB

页数：27页

时间：2018-10-10

资源描述：

《lstm+ctc详解》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、LSTM+CTC详解随着智能硬件的普及，语音交互请求会越来越多。2011年之后，深度学习技术引入到语音识别之后，大家也一直再问一个问题，深度学习技术还能像刚提出时候那样，持续大幅度提升现在的语音识别技术吗？语音技术能够从小规模的使用转向全面产业化成熟吗?如果全面产业化成熟，意味着会有越来越多的语音处理需求，但百度语音技术部的负责人贾磊说，如果线上50%的搜索都由语音完成，而机器耗费还和过去一样，那么没有公司能承担起这样的机器耗费。语音搜索的未来会怎样？技术能持续发展吗？技术的发展能否优化成本结构，同时又保障

2、用户体验？贾磊演讲全文【贾磊】我简单介绍一下长短时记忆模型。这个模型的优势就在于，在传统的网络中引入三个门：输入门，输出门和遗忘门，分别代表对信息长期、远期和近期的记忆和控制。相对于我们传统的CNN和DNN模型，它的好处是能够记录轨迹的变化。这个模型已经提出来很久了，本身并不是近期的创新，但要把它应用在工业里，是有很多困难和现实问题的。为了把模型应用在产品上，我们提出了一套CNN+7DNN+2LSTM的结构。我当时提出这个结构，是专门在西北工业大学汇报过的，Google当时没有论文。Google当初提出2层

3、LSTM，在我们的验证中，如果是对于状态建模，那么需要比较Deep的模型，因为这是比较短的瞬时状态，它的轨迹并不清晰。那么如果采取这种深层结构，两三轮的迭代，数据就可以获得收敛，有很好的这个效果。而如果只用2层的LSTM，随着数据量的增加，这个提升会很慢。而且最终的收益，这个模型的效果好。Google最后的论文也证明了这一点，这样的模型结构，对于状态建模是比较好的。然后我们在LSTM的模型上，主要解决了海量数据的训练和效率问题。因为LSTM不是今天的重点，今天主要讲CTC，和语音识别对传统框架的改变。因此我

4、就跳过这一部分。LSTM的训练是有困难的，因为很容易发散。这是一个重要的技术，Google提出的LSTMP，它在传统的LSTM模型之上，引入了一个反馈层。这个反馈层对工业界弥足珍贵，因为这个反馈层会使运算的计算量大幅下降，它可以把反馈的，比如说你这个神经元节点是1024，他反馈的可以采用256，这样整个计算量会大幅压缩。因此我向大家推荐这个技术，基本上应该是工业界和学术界的最新技术，除了产品效果之外，这个的精度更高，我对这个的猜想是因为LSTM的输出层很大，它有两万多个节点，在状态建模的时候。因此为了和外部

5、的匹配，通常的就是C代表的LSTM的记忆单元，这个单元的维度会比较高，一般采用的是1024，也可以采用2048。当采用1024的时候，其实整个网络已经非常复杂了。这个属于反馈层，可以把参数大幅的压低，从而导致你可以鲁棒稳定的去训练这个网络。那么有人反映，带有反馈层之后训练会不稳定。我的感觉是这种反馈即使有不稳定，大家要去钻研，因为它是必不可少的。工业产品中如果不带这个反馈，计算量是难以承受的。这是Google对LSTM的贡献，我向大家推荐这个技术。然后讲BPTT算法，BPTT算法是最基本的训练神经网络的算法

6、，就是误差反向传播。对于R模型或者LSTM模型它是有轨迹的，因此它是根据轨迹的误差反向传播。它有两种方法。第一种方法是逐帧递推的，一帧推下一帧，再下一帧误差规避以后再向前传。第二种是所有的误差同步向前传，传固定的步数。这两种算法其实在BPTT的理论都是存在的。后面这种实际上就是把误差截断，不让误差从头传到尾。第一种就是直接从头传到尾。两种基本的算法，大家可以了解一下基本的理论。这是我们多层的LSTM的结构，下面是我们的CNN层，上面是我们的DNN全连接层，这是我们的LSTM两层。这个节点是采用了1024，这

7、个维数的大小，线上的工业产品是可以用的。所以大家的研究可以照着这个去做，如果你的体积过大或者过小，对于工业而言可能就是研究跟现实之间就会有不匹配。这解释了网络能够提升系统的根本原因：第一，多层结构对神经网络而言总是有价值的，因为多层意味着输入的扰动在输出总数会衰减。这个我觉得微软的于老师是有一篇论文去讲这个。第二个状态建模，状态的轨迹并不是很清晰，很短、很sharp的一个建模单元。这个时候如果完全采用LSTM去建模的话，造成的结果就是LSTM是轨迹比较强，但是它跟瞬态的模拟能力不够，因此结合瞬态跟轨迹这样的

8、一个模型结构，在我们现实产品中发现是稳定的，而且总是有好的效果。那我们和双层的LSTM做对比，谷歌当年刚开始提出双层的LSTM胜过CNN，有这样一篇论文，大家可以去找，我们做了实验，实际上我们达到的是negative的结果。在2000小时中，跟谷歌的实验一样，对等。双层LSTM的效果胜过了传统的CNN技术。但如果把数据量增加到一万小时的时候，这种十层的CNN会胜过双层的LSTM，节点是1024，大家可以做实验看看

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 27



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

lstm+ctc详解

lstm+ctc详解

相关文章

相关标签