腾讯深度学习平台.docx

ID：57649198

大小：124.33 KB

页数：6页

时间：2020-08-30

资源描述：

《腾讯深度学习平台.docx》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、1介绍1.1背景腾讯提供了一些列Internet服务，比如拥有3.9亿左右月激活用户的微信(WeChat)、以及8.4亿左右QQ用户和6.4亿左右的QZone用户。这些数据是来自于2014年第一季度。腾讯拥有超过100PB数据，这些数据由不同的应用以及不同的用户产生的，用户生成的数据比如有照片、语音和视频。近些年深度学习在大数据挖掘已经成为一个热点，也在不同领域取得了突破性的进展，比如语音识别(automaticspeechrecognition)和图像识别。深度学习能给腾讯的很多应用带来实质性改变，比如微信中的语音和图像识别、QQ和QZone的广告投放。当然如果想要深度学习

2、在腾讯真正发挥作用，必须考虑三方面的因素。l需要具备大量的计算能力和有效的并行框架去训练模型。比如：在微信中用于识别中文和英文的ASR(AutomaticSpeechRecognition)语音识别模型采用的是一个深层的神经网络(DNN)去训练，该模型大约有超过5000万参数，然后用100亿训练实例，如果只使用单个CPU去训练可能需要花上好几年时间，或者采用单个GPU去训练可能花上几个月时间l对于训练大型模型，必要的支持能提高模型质量。在CNNs中，通过增加更多MapFilter(小块区域映射)和更多的层可以提高分类的准确率。l灵活的框架对于做不同模型选择实验是相当有帮助的，

3、模型选择包括：选择模型架构、寻找优化方法、以及微调一个高性能模型的超参数为了解决上面的三方面因素，并行框架必须在模型训练更快、更大、更易用。一般并行框架分为两种：数据并行(Dataparallelism)和模型并行(modelparallelism)，这两种框架是由GoogleDistBelief引进的，采用的是CPU组成的集群。由GoogleCOTS系统以及Facebook的Multi-GPU也才采用这种并行方案，这些系统是由GPU服务组成的。下面我们简单区分一下数据并行和模型并行，简单来讲数据并行就是把数据分成多份(每份称为mini-batch)，每份数据跑一个模型副本，

4、然后用每个模型计算出来的梯度(gradients)去更新参数；模型并行就是把模型切分开来，让每个计算节点计算模型一部分，然后在计算过程中做内部交互。模型并行除了提高性能外，也减少每个节点内存消耗，由此它有可能处理更大的模型。除了一些公司内部特有的框架，在一些开源社区里面也有一些使用CPUs和GPUs的深度学习框架。然而这些开源社区的框架不适合腾讯内部的需求。因为这些开源社区使用的是单核多线程或者单GPU作为训练框架，缺乏有效的并行方案。1.2平台介绍为了支持深度学习，我们构建了Mariana深度学习平台，这个平台可以让模型训练更快，让超大模型训练成为可能以及更方便的做实验。经

5、验表明，构建一个通用的平台去解决一些列业务(微信中语音和图像识别、QQ和Qzone中的CTR预估)相当困难。因为不同的应用更强调是的特殊业务场景。由此Mariana构建了三个并行架构1.)多GPUs的数据并行框架，应用于DNNs2.)多GPUs的模型并行和数据并行框架，应用于CNNs3.)CPU集群模型并行和数据并行框架，应用于大规模的DNNs。Mariana在简化深度学习实验和减轻算法工程师负担做出了很大的努力。Mariana提供一些列服务，这些服务主要包括：内建的算法、灵活的调整超参数、检查点(checkpoint)和周期重启、生成自动测试报告以及训练任务的监控。Mari

6、ana已经被应用到腾讯的很多业务之中，比如在微信中的语音识别和图像识别、在QQ和Qzone中广告点击率预测，在这些业务中，深度学习已经在过去一年中真正发挥出了它的优势。Mariana主要架构是采样GPU服务器，每台服务器装配4或者6块GPU卡，当然Mariana也采样CPU服务器。多GPU的数据并行框架(建立DNN模型)服务于微信中的语音识别功能，根据实验数据表明一台6GPUs计算能力大约是单GPU计算能力的4.6倍。多GPU的模型并行和数据并行框架(建立CNN模型)服务于微信中的图像识别以及QQ的CTR预估上，根据实验数据表明4GPUs的计算能力大约是单GPU计算能力2.5

7、2倍。他们的CPU集群也是被用于建立语音设别模型上。1Multi-GPU数据并行DNN1.1业务场景Mariana内部包括Multi-GPU的深度网络(DNN)，该深度网络首要的应用范围是语音识别(ASR)。语音识别是把输入音频信号分类成不同的三音素(triphones)，在这里我们把。在我们的语音识别模型中，采用了4-6隐层的全连接深度网络去训练音频数据，该模型大约有5000万个参数。ASR属于计算密集型的，它需要大量计算资源，而仅仅需要1G内存，所以GPU是一个很好的备选方案，因为GPU相对于CPU

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

腾讯深度学习平台.docx

腾讯深度学习平台.docx

相关文章

相关标签