基于cuda技术的卷积神经网络识别算法

ID：15765114

大小：953.35 KB

页数：3页

时间：2018-08-05

资源描述：

《基于cuda技术的卷积神经网络识别算法》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、第36卷第15期计算机工程2010年8月Vol.36No.15ComputerEngineeringAugust2010·人工智能及识别技术·文章编号：1000—3428(2010)15—0179—03文献标识码：A中图分类号：TP193基于CUDA技术的卷积神经网络识别算法张佳康，陈庆奎(上海理工大学光电信息与计算机工程学院，上海200093)摘要：针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题，提出卷积神经网络的并行化识别算法，采用计算统一设备架构(CUDA)技术，并定义其上的并行化数据结构，描述计算任务到CUDA的映射机制。实验结果

2、证明，在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍，更适用于神经网络的相关应用。关键词：流处理器；单指令多线程；GTX200硬件架构；CUDA技术；卷积神经网络CUDATechnologyBasedRecognitionAlgorithmofConvolutionalNeuralNetworksZHANGJia-kang,CHENQing-kui(SchoolofOptical-ElectricalandComputerEngineering,UniversityofShanghaiforScie

3、nceandTechnology,Shanghai200093)【Abstract】FortheproblemwhetherGraphicProcessingUnit(GPU),thestreamprocessorwithhighperformanceoffloating-pointcomputingisapplicabletoneuralnetworks,thispaperproposestheparallelrecognitionalgorithmofConvolutionalNeuralNetworks(CNNs).ItadoptsComputeUn

4、ifiedDeviceArchitecture(CUDA)technology,definitestheparalleldatastructures,anddescribesthemappingmechanismforcomputingtasksonCUDA.ItcomparestheparallelrecognitionalgorithmachievedonGPUofGTX200hardwarearchitecturewiththeserialalgorithmonCPU.Itimprovesspeedbynearly60times.Resultshow

5、sthatGPUbasedthestreamprocessorarchitecturearemoreapplicabletosomerelatedapplicationsaboutneuralnetworksthanCPU.【Keywords】streamprocessor;Single-InstructionMultiple-Thread(SIMT);GTX200hardwarearchitecture;ComputeUnifiedDeviceArchitecture(CUDA)technology;ConvolutionalNeuralNetworks

6、(CNNs)卷积神经网络(ConvolutionalNeuralNetworks,CNNs)的能力为933/8=116.625GFLOPS，而实际运用中大概在识别算法是高密集型计算，使用图形处理单元(Graphic90GFLOPS左右。在存贮器层次结构上，具有4个不同类型[1]ProcessingUnit,GPU)的流计算模型来实现能将其性能发挥的片上存储器。到更高的水平。2五层卷积神经网络1计算统一设备架构体现卷积神经网络特征的3个基本概念为特征映射[5-6]硬件日渐成熟，在开发领域，计算统一设备架构(FeatureMap)、权重共享和子抽样。五层CNN

7、s结构如[2](ComputeUnifiedDeviceArchitecture,CUDA)技术的出现，图1所示。此神经网络应用于手写数字识别。其中，前三层[3]开创出了GPU计算的新时代，GPU已经逐渐成为计算机中均由若干特征映射组成，每一层的特征映射的尺度较前一层[3]新的计算资源。CUDA编程模型见文献[4]。在模型中，基都有所缩减，数量增加。各特征映射共享一个接受域和一个于CUDA开发的程序代码在实际执行中分为运行在CPU上偏置。的宿主代码(HostCode)和运行在GPU上的设备代码(DeviceC1层为输入层，输入29×29的数字手写图像对应的

8、{0,1}Code)。不同类型的代码由于其运行的物理位置不同，能够

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 / 3



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于cuda技术的卷积神经网络识别算法

基于cuda技术的卷积神经网络识别算法

相关文章

相关标签