CUDA编程基础培训ppt课件.ppt

CUDA编程基础培训ppt课件.ppt

ID:59422430

大小:1.79 MB

页数:67页

时间:2020-09-19

CUDA编程基础培训ppt课件.ppt_第1页
CUDA编程基础培训ppt课件.ppt_第2页
CUDA编程基础培训ppt课件.ppt_第3页
CUDA编程基础培训ppt课件.ppt_第4页
CUDA编程基础培训ppt课件.ppt_第5页
资源描述:

《CUDA编程基础培训ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、2011年12月CUDA编程基础培训AMAX技术工程师刘耀卿主要内容CUDA背景介绍GPU架构CUDA编程模型CUDA存储系统CUDA背景介绍CUDA程序优化背景介绍单线程串行计算发展遭遇瓶颈追求最小延迟和单个线程性能,以缓存和控制逻辑减小访存延迟,可以完成各种计算任务提升频率受材料和热设计功耗限制,频率近几年没有显著提升依靠大块缓存减小访存延迟,使用大量晶体管增加缓存并不能直接提高计算能力通过分支预测,乱序执行,超线程等手段挖掘指令级并行控制逻辑开销巨大,提升空间有限通过SSE,MMX等SIMD指令级提升并行处理能力SIMD指令级宽度有限,带宽不足背景介绍GPU通用计算已经成熟追求最大的整

2、体吞吐量,硬件控制线程间切换,以计算量来隐藏访问存储器的延迟,适合数据并行计算由固定渲染流水线演变为统一架构,适合通用计算计算精度和可编程性不断提高大量计算单元,处理能力强板载显存,电气性能好,位宽大外部存储器带宽大与专用CPU和向量机相比,GPU供货量巨大易于摊薄成本背景介绍与CPU的浮点运算能力的对比背景介绍与CPU存储器带宽对比背景介绍GPU为数据并行、高密度计算优化比较能够容忍较高的延迟更多的电路用于计算CPU为低延迟访问缓存优化大量的电路用于乱序执行和分支预测背景介绍GPU线程多,切换快访存带宽大、延迟大大量线程计算掩藏访存延迟CPU大的缓存保证线程访问内存的低延迟内存带宽小,执行

3、单元太少,数据吞吐量小背景介绍处理器需要巨大开销才能变得更快,但比较容易变得更宽CPU向多核化,GPU向众核化发展GPU-CPU融合,CPU矢量单元将经历一次更新无论是CPU还是GPU,都需要更新编程思考方式,目前,并行是共同的方向主要内容CUDA背景介绍CUDA编程模型CUDA存储系统CUDA程序优化GPU架构GPU架构Globalmemory(全局内存)类似CPU服务器中的内存6个64位内存控制器Streamingmultiprocessors(SMs,流多处理器)16个SM真正的计算单元每个SM拥有自己的控制单元,寄存器,执行流水线,缓存StreamingMultiprocessor(

4、SM)32CUDACoresperSM32fp32ops/clock16fp64ops/clock32int32ops/clock2warp调度器最高同时支持1536线程4special-functionunits(SFU)64KBsharedmem+L1cache32K32-bit寄存器CUDACore浮点单元IEEE754-2008浮点标准支持Fusedmultiply-add(FMA)指令整数单元逻辑指令,移动、比较指令等所有指令都支持32位为64位及扩展精度优化存储子系统GlobalMemory(全局内存)可以被CPU和GPU访问当前最大支持6GB带宽最大支持150GB/s(GDDR

5、5)支持ECC的开关(仅限于Quadro和Tesla产品)ECC保护DRAM支持GDDR5显存所有主要的内部存储器都支持ECC寄存器,L1cache,L2cache存储子系统Sharedmemory(共享内存)用户管理便签硬件不会修改,直到线程覆盖16或48KB/SM(L1和共享内存共享64KB)总带宽:1.03TB/s存储子系统L1(一级缓存)单个SM共享16或48KB/SM,可以通过程序选择硬件管理总带宽:1.03TB/sL2(二级缓存)768KB所有SM共享Fermi架构改进32SP/SM双warp-schduler64KBsharedmemory/L1cache,可以配置为48KBs

6、hared/16KBL1或者16KBshared/48KBL1支持ECC增加二级缓存(L2Cache)支持多kernel并发执行统一地址空间,完全支持C++支持64位寻址空间,最大支持1TB显存Fermi架构改进Fermi架构改进三代Tesla产品的对比主要内容CUDA背景介绍CUDA编程模型CUDA存储系统CUDA程序优化GPU架构早期GPGPU的编程模式早期GPGPU主要应用于信号成像和图像处理使用图形学API进行计算将数据打包为纹理,将对数据的计算编写为渲染程序,“欺骗”GPU进行计算程序员必须精通图像处理和专业领域内的算法,开发难度很大编程模型灵活性不足,不能使用更有效率的算法API

7、成熟可靠,通用性较好,仍然适合消费级应用程序开发CUDA架构ComputingUnifiedDeviceArchitecture,采用统一处理架构,不需要借助图形学API进行GPU通用计算的软硬件架构引入了片内共享存储器,支持随机写入和线程间通信软件经历了1.x,2.x,3.x,4.x四次版本更新硬件从Tesla架构(G80/G8x/G92/G9xGPU,计算能力1.0/1.1),改进到TeslaII架构(G

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。