基于cuda技术的卷积神经网络识别算法

基于cuda技术的卷积神经网络识别算法

ID:15765114

大小:953.35 KB

页数:3页

时间:2018-08-05

基于cuda技术的卷积神经网络识别算法_第1页
基于cuda技术的卷积神经网络识别算法_第2页
基于cuda技术的卷积神经网络识别算法_第3页
资源描述:

《基于cuda技术的卷积神经网络识别算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第36卷第15期计算机工程2010年8月Vol.36No.15ComputerEngineeringAugust2010·人工智能及识别技术·文章编号:1000—3428(2010)15—0179—03文献标识码:A中图分类号:TP193基于CUDA技术的卷积神经网络识别算法张佳康,陈庆奎(上海理工大学光电信息与计算机工程学院,上海200093)摘要:针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果

2、证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。关键词:流处理器;单指令多线程;GTX200硬件架构;CUDA技术;卷积神经网络CUDATechnologyBasedRecognitionAlgorithmofConvolutionalNeuralNetworksZHANGJia-kang,CHENQing-kui(SchoolofOptical-ElectricalandComputerEngineering,UniversityofShanghaiforScie

3、nceandTechnology,Shanghai200093)【Abstract】FortheproblemwhetherGraphicProcessingUnit(GPU),thestreamprocessorwithhighperformanceoffloating-pointcomputingisapplicabletoneuralnetworks,thispaperproposestheparallelrecognitionalgorithmofConvolutionalNeuralNetworks(CNNs).ItadoptsComputeUn

4、ifiedDeviceArchitecture(CUDA)technology,definitestheparalleldatastructures,anddescribesthemappingmechanismforcomputingtasksonCUDA.ItcomparestheparallelrecognitionalgorithmachievedonGPUofGTX200hardwarearchitecturewiththeserialalgorithmonCPU.Itimprovesspeedbynearly60times.Resultshow

5、sthatGPUbasedthestreamprocessorarchitecturearemoreapplicabletosomerelatedapplicationsaboutneuralnetworksthanCPU.【Keywords】streamprocessor;Single-InstructionMultiple-Thread(SIMT);GTX200hardwarearchitecture;ComputeUnifiedDeviceArchitecture(CUDA)technology;ConvolutionalNeuralNetworks

6、(CNNs)卷积神经网络(ConvolutionalNeuralNetworks,CNNs)的能力为933/8=116.625GFLOPS,而实际运用中大概在识别算法是高密集型计算,使用图形处理单元(Graphic90GFLOPS左右。在存贮器层次结构上,具有4个不同类型[1]ProcessingUnit,GPU)的流计算模型来实现能将其性能发挥的片上存储器。到更高的水平。2五层卷积神经网络1计算统一设备架构体现卷积神经网络特征的3个基本概念为特征映射[5-6]硬件日渐成熟,在开发领域,计算统一设备架构(FeatureMap)、权重共享和子抽样。五层CNN

7、s结构如[2](ComputeUnifiedDeviceArchitecture,CUDA)技术的出现,图1所示。此神经网络应用于手写数字识别。其中,前三层[3]开创出了GPU计算的新时代,GPU已经逐渐成为计算机中均由若干特征映射组成,每一层的特征映射的尺度较前一层[3]新的计算资源。CUDA编程模型见文献[4]。在模型中,基都有所缩减,数量增加。各特征映射共享一个接受域和一个于CUDA开发的程序代码在实际执行中分为运行在CPU上偏置。的宿主代码(HostCode)和运行在GPU上的设备代码(DeviceC1层为输入层,输入29×29的数字手写图像对应的

8、{0,1}Code)。不同类型的代码由于其运行的物理位置不同,能够

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。