基于异构多核平台的优化编程研究

基于异构多核平台的优化编程研究

ID:33412221

大小:6.22 MB

页数:115页

时间:2019-02-25

基于异构多核平台的优化编程研究_第1页
基于异构多核平台的优化编程研究_第2页
基于异构多核平台的优化编程研究_第3页
基于异构多核平台的优化编程研究_第4页
基于异构多核平台的优化编程研究_第5页
资源描述:

《基于异构多核平台的优化编程研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华中科技大学博士学位论文基于异构多核平台的优化编程研究姓名:李波申请学位级别:博士专业:计算机系统结构指导教师:金海2011-02-16华中科技大学博士学位论文摘要过去几十年来,代表CPU性能的主频在不断的提高,但由于生产工艺、功耗以及架构设计等原因使得主频之路已经走到了尽头。在无法进一步提高处理器主频的情况下,CPU进入了多核时代。对于计算密集型的应用,由若干个完全相同处理器核心构成的同构多核CPU并不是最好的方案。因此,出现了以通用CPU加专用加速核心构成的异构计算平台,并且逐渐成为高性能计算领域的主流架构。这种底层硬件架构的革新也给在它上面的程序开发带来重大改变。而目前的异构

2、多核平台都面临着性能调优困难和编程复杂的问题。如何简化编程,如何充分发挥异构多核平台的性能是程序开发方面不得不面临的挑战。在异构多核计算平台上,专用加速核心是提供计算能力的主要部件,如何挖掘加速核心的处理能力是影响整体性能的关键。本研究提出了基于异构多核平台的多粒度并行优化策略,基于该模型实现的应用能最大限度地使用专用加速核心硬件计算资源,由此,总结出在异构多核平台上的专用加速核心端进行性能调优的一般规律。现代异构计算平台的异构多核架构中,加速核心通常用于计算,但平台上的多核CPU的计算能力同样很强大。为了利用CPU的计算能力,针对数据并行应用,提出了异构数据并行模型,该异构数据并

3、行模型通过对CPU和加速核心间负载的合理划分,使得CPU和专用计算核心间的负载达到均衡。在利用专用加速核心计算能力的同时,充分发挥多核CPU的计算能力,从而提高系统整体的性能。同样是为了利用多核CPU的计算性能,对于一些流式数据并行计算的应用,提出了流式计算模型,该模型是由CPU、加速核心以及它们之间的数据通信组成一条三阶段的流水线。CPU端对输入数据进行初步处理,过滤掉部分无需APU处理的数据,这样做一方面减少了CPU与加速核心之间的巨大的通信延迟;另一方面也降低专用加速核心的负载。通过调整CPU端的过滤的精度来协调CPU和专用加速核心之间的负载,使流水线处于充盈状态,以达到整体

4、的性能最优。I华中科技大学博士学位论文在异构多核计算平台中,由于CPU和加速核心在存储系统上具有不同的特点并具有各自独立的地址空间,导致CPU和加速核心之间的数据传输是消息驱动的传输方式。在进行应用开发时,CPU和加速核心之间数据传输需要程序员显式调用API来进行,增加了编程的复杂性,加重了程序员的负担。通过在NVIDIAGPU平台上基于CUDA编程环境设计并实现了memCUDA原型系统,memCUDA通过扩展CUDA的关键字,利用源到源的代码转换,实现了设备内存到主内存的映射,从而屏蔽掉数据传输和设备内存的操作,简化编程。同时,通过优化异步执行的方式,对符合条件的应用能达到提高性

5、能的目的。关键词:异构多核处理器结构,编程模型,并行计算,CellBE,CUDA,性能评估II华中科技大学博士学位论文AbstractOverthepastfewdecades,thefrequencyofCPUissustainedincreased,whichdominatetheperformanceofCPU.However,theapproachthatgetsperformanceimprovementthroughincreasingthefrequencyisnotavailableduetothemicrochipproductionprocess,power,C

6、PUarchitecturedesignandsomeotherinevitablechallenges.TomaintaintheMoore’sLaw,thechipvendorsleadtheCPUtoentermulticoreera.Currently,therearetwokindsofarchitectureformulticoreCPU,homogeneousandheterogeneousmulticore.Forcomputing-intensiveapplications,thehomogeneousmulti-corewhichisconsistedofafe

7、wofidenticalCPUcoresisnotthemostappropriatesolustion.Oppositely,theheterogeneousmulticorearchitecturewhichisconsistedofCPUanddedicatedaccelerator-basedcorescouldachievebetterperformanceandisbecomingthemainstreamarchitectureofthehighperf

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。