intel xeon phi协处理器高性能编程指南 第2章

intel xeon phi协处理器高性能编程指南 第2章

ID:15337681

大小:5.24 MB

页数:32页

时间:2018-08-02

intel xeon phi协处理器高性能编程指南 第2章_第1页
intel xeon phi协处理器高性能编程指南 第2章_第2页
intel xeon phi协处理器高性能编程指南 第2章_第3页
intel xeon phi协处理器高性能编程指南 第2章_第4页
intel xeon phi协处理器高性能编程指南 第2章_第5页
资源描述:

《intel xeon phi协处理器高性能编程指南 第2章》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、2.8总结53第2章2高性能封闭追踪测试驱动想象一下你获得了一辆高级跑车一个下午、一天、一周,甚至更长时间的免费使用权,那么你首先想到的可能不会是开着它去杂货店之类的地方,也不会花太多时间阅读用户手册,你会第一时间将车开得非常快。在能够熟练驾驶它之前,避免受伤(或被捕)的最好办法是尝试在一个安全、封闭、没有其他车辆的直线测试跑道上开始练习,尽管这可能少了一些乐趣和挑战,但是你却能驾驶得非常舒服。在接下来的几章中,我们将带着你熟悉高性能IntelXeonPhi协处理器,就像在更具有挑战性和真实环境里学习驾驶跑车一样

2、,希望能够在学习的初期为你带来一点点的乐趣与刺激。你可以这样告诉朋友和家人“嘿,我开车速度达到了每小时200英里!”抑或是“嘿,我刚刚用电脑做了每秒钟两万亿次的计算!”我们将会用一些简单的代码示范能够利用到协处理器的特定处理单元,指出写代码的关键来使得性能达到令人难以置信的程度。缩写mph代表每小时所行英里数或每小时322千米(kph)尽管路上会有一些障碍,我们会在接下来的几章中逐步建立知识体系,直到我们进入到真实世界的应用实例中来获取关键概念和进行实战。换句话说,我们最终要找到最快、最有效的方式来做一些有用的事

3、情,比如去杂货店。让我们开始驾驶光鲜闪亮的跑车吧!在这一章中,我们将关注“汽车”的两个关键性能特征——具有浮点向量处理单元的众核心(气缸)和高速内存(燃油喷射系统)。2.8总结532.1揭开引擎盖:协处理器详解我准备上路了,但对于一款新车而言,我们至少要看一眼引擎盖下面的“引擎”。类似于其他的英特尔处理器,IntelXeonPhi处理器也有几种不同的规格。作为基于PCI-E的协处理器卡,双精度浮点(DP)的峰值计算能力超过了1teraFLOP/s(每秒1012次浮点操作),而单精度浮点(SP)的峰值计算能力要超过

4、2teraFLOP/s。不同规格产品之间的主要区别是指令时钟频率、处理器核心数量、可用随机访问内存的数量和速度。我们将在第8章“协处理器架构”中详细讲述这些关键细节。在阅读本书过程中,为了使IntelXeonPhi处理器潜在的高性能得到发挥,我们常常会重复一些关键术语,例如向量化(vectorize)、扩展性(scale),分别会是第5章和第6章中主要议题。这些术语在IntelXeon处理器中也得到了完美的呈现,也就是说,代码同时需要向量化和规模扩展,才能达到最佳性能。向量化是指在英特尔架构的处理器上使用基本数据

5、并行引擎,该引擎支持单指令多数据处理,例如使用SSE和AVX指令扩展IntelXeonPhi的指令集。扩展性是指让代码能够作为独立并行的任务在众多核心和硬件线程上运行。IntelXeonPhi协处理器上的向量引擎也即向量处理单元(VPU),支持512位的向量宽度。向量是指具有相同数据类型的一组数据项,它们可以由一条指令并行处理。向量通常是在可向量化的情况下,由编译器通过将数组表达式转换成底层处理器架构支持的向量格式而生成的,也可以通过快速广播或者复制标量到向量来将同一个数据加到或者乘到一组向量的数据值上。如图2.

6、1所示,对于32位单精度浮点数,可同时处理16个数值或分道;对于64位双精度浮点数,可同时处理8个分道。此外,在同时执行乘法和加法时,协处理器能够提供一种提升性能的重要手段,称为乘加融合(FMA),可在一条指令中执行两个浮点操作。我们会将代码实例运行在表2-1所列参数的协处理器上。我们将提到相对性能,即峰值的百分比,这样你们能够对在不同规格的IntelXeonPhi协处理器上代码的真实性能有所了解。图2.1IntelXeonPhi协处理器上的向量浮点形式2.8总结53表2-1IntelXeonPhi协处理器测试卡

7、规格时钟频率1.091GHz核心数量61内存大小/类型8GB/GDDR5内存速度5.5GT/secDP/SP峰值Flops1.065/2.130TeraFLOP/s内存带宽峰值352GB/s注意:多个可用产品模型在规格上各有不同计算IntelXeonPhi协处理器单精度浮点数峰值计算能力的公式如下:时钟频率 × 核心数量 × 16分道 × 2(FMA)FLOPs/时钟周期对于本书所使用的协处理器而言为:1.091GHz × 61核 × 16分道 × 2=2129.6gigaFLOPs/s双精度峰值FLOPs只有一

8、半,因为只有8分道,所以:1.091GHz × 61核 × 8分道 × 2=1064.8gigaFLOPs/s本章中,我们将看到另外一个关键的高性能点,即内存子系统带宽。在表2-1中,协处理器上的GDDR5内存的测试峰值带宽为惊人的352GB/s。不同于可以通过特定代码就能得到高百分比的FLOP/s峰值性能,由于硬件环境中其他因素的限制,内存带宽的最大使用率一般为峰值带宽

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。