IBM发布大数据机器学习解决方案，利用GPU一分钟内处理完30GB训练数据集.doc

ID：27509397

大小：82.50 KB

页数：3页

时间：2018-12-04

IBM发布大数据机器学习解决方案，利用GPU一分钟内处理完30GB训练数据集.doc_第1页

IBM发布大数据机器学习解决方案，利用GPU一分钟内处理完30GB训练数据集.doc_第2页

IBM发布大数据机器学习解决方案，利用GPU一分钟内处理完30GB训练数据集.doc_第3页

资源描述：

《IBM发布大数据机器学习解决方案，利用GPU一分钟内处理完30GB训练数据集.doc》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、IBM发布大数据机器学习解决方案,利用GPU一分钟内处理完30GB训练数据集　　IBM研究院与瑞士洛桑联邦理工学院共同于2017NIPSConference发表大数据机器学习解决方案，此方法可以利用GPU在一分钟内处理完30GB的训练数据集，是现存有限内存训练方法的10倍。　　研究团队表示，机器训练在大数据时代遇到的挑战是动辄TB等级起跳的训练数据，这是常见却又棘手的问题，或许一台有足够内存容量的服务器，就能将所有训练数据都加载内存中进行运算，但是仍要花费数小时，甚至是数周。　　他们认为，目前如GPU等特殊的运算硬件，的确能有效加速运算，但仅限于运算密集的工作，而非数据密集的任务。如果

2、想要善用GPU运算密集的优势，便需要把数据预先加载到GPU内存，而目前GPU内存的容量最多只有16GB，对于机器学习实作来说并不算宽裕。　　批次作业看似是一个可行的方法，将训练数据切分成一块一块，并且依造顺序加载至GPU做模型训练，不过经实验发现，从CPU将数据搬移进GPU的传输成本，完全盖过将数据放进GPU高速运算所带来的好处。，IBM研究员CelesTIneDünner表示，在GPU做机器学习最大的挑战，就是不能把所有的数据都丢进内存里面。　　为了解决这样的问题，研究团队开发为训练数据集标记重要性的技术，因此训练只使用重要的数据，那多数不必要的数据就不需要送进GPU，藉此大大节省训

3、练的时间。像是要训练分辨狗与猫图片的模型，一旦模型发现猫跟狗的差异之一为猫耳必定比狗小，系统将保留这项特征，在往后的训练模型中都不再重复回顾这个特征，因此模型的训练会越来越快。IBM研究员ThomasParnell表示，这样的特性便于更频繁的训练模型，也能更及时的调整模型。　　这个技术是用来衡量每个数据点对学习算法的贡献有多少，主要利用二元差距的概念并及时影响调整训练算法。将这个方法实际应用，研究团队在异质平台（Heterogeneouscomputeplatforms）上，为机器学习训练模型开发了一个全新可重复使用的组件DuHL，专为二元差距的异质学习之用。　　IBM表示，他们的下一

4、个目标是在云端上提供DuHL，因为目前云端GPU服务的计费单位是小时，如果训练模型的时间从十小时缩短为一小时，那成本节省将非常惊人。　　　　（上图）图中显示了三种算法所需的时间，包含DuHL在大规模的支持向量机的表现，所使用的数据集都为30GB的ImageNet数据库，硬件为内存8GB的NVIDIAQuadroM4000GPU，图中可以发现GPU序列批次的效率，甚至比单纯CPU的方法还要糟，而DuHL的速度为其他两种方法的10倍以上。

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 / 3



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

IBM发布大数据机器学习解决方案，利用GPU一分钟内处理完30GB训练数据集.doc

IBM发布大数据机器学习解决方案，利用GPU一分钟内处理完30GB训练数据集.doc

相关文章

相关标签