cpu工程师该何去何从.doc

cpu工程师该何去何从.doc

ID:27469296

大小:477.00 KB

页数:10页

时间:2018-12-04

cpu工程师该何去何从.doc_第1页
cpu工程师该何去何从.doc_第2页
cpu工程师该何去何从.doc_第3页
cpu工程师该何去何从.doc_第4页
cpu工程师该何去何从.doc_第5页
资源描述:

《cpu工程师该何去何从.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、cpu工程师该何去何从  对可怜的处理器设计师表示同情。他们的工作以前非常简单。在每一半导体新工艺代中,每平方毫米的晶体管数量都会加倍,速度会有很大的提高,同时总功耗也会降低。设计师的黄金规则是“保持体系结构不变,在实现上稍作调整。”  但现在完全不同了。速度提高的越来越小,功耗降低的也越来越少。您再也不能简单的提高时钟了:设计师不得不使用所有新晶体管来研究实现并行功能。但是怎样找到并行功能呢?cpu工程师该何去何从  对可怜的处理器设计师表示同情。他们的工作以前非常简单。在每一半导体新工艺代中,每平方毫米的晶体管数量都会加倍,速度会有

2、很大的提高,同时总功耗也会降低。设计师的黄金规则是“保持体系结构不变,在实现上稍作调整。”  但现在完全不同了。速度提高的越来越小,功耗降低的也越来越少。您再也不能简单的提高时钟了:设计师不得不使用所有新晶体管来研究实现并行功能。但是怎样找到并行功能呢?首先,我们找到了现成的好方法:通过超标量体系结构自动实现指令级并行功能。然后,有了更多的晶体管,使用了大部分指令并行功能,矢量处理器进行数据并行处理,宏单元级指令并行——线程,采用多线程,然后是多核CPU。  但是,我们突然发现自己身处无尽的“暗硅片”中。所有这些晶体管的功率密度增加非常

3、快,如果它们都同时全速运行,根本没法对其进行散热。我们使用时钟选通,然后是电源选通,最后降低晶体管封装密度,以避免互联走线被熔化。但是,这限制了我们采用越来越多的晶体管实现数据和算法的并行处理。看起来这一过程要慢慢停下来了。  年初的热点芯片大会上就提出了这类问题。虽然在克服困难方面已经取得了很大的成就,但是芯片设计师仍然展示了还有继续创新的空间:找到能够进行并行处理的地方,使用所有晶体管的方法,以及使其保持较低温度的技术。找到好方法  很显然,如果我们继续使用所有这些晶体管,那么,我们必须降低能耗。这意味着,减少信息的传送:数据移动和

4、复制少了,指令读取的少了。不仅DRAM周期能耗比较高,而且在高级进程中,数据通过阻抗越来越大的片内互联也是问题。在传统的体系结构中,我们能够传送大量的数据:最近的估算表明,SoC中80%的活动硅片用于连接或者缓冲互联,而不是用于逻辑功能。  信息传送的少了,意味着需要围绕数据内部结构来组织处理单元——这是热点芯片大会论文最明显的观点。我们特别关注一下四种情形。第一,搜索引擎加速,处理大量的非结构和独立数据元素。第二种情形,矢量处理,处理高度结构化的数据,其元素之间会有相关性。第三种,有很多线程的问题,但不一定是并行数据处理。最后一种情形

5、,单线程加速。搜索引擎加速  对于并行执行而言,网络搜索既带来了很多难题,也创造了机会。数据中心设计师不仅仅需要多核x86CPU,他们考虑更多的是数据的非结构、独立特性——基本上,网页上到处都是。在热点芯片大会上,微软资深研究硬件设计工程师AndrewPutnam介绍了他的团队在加速必应搜索引擎方面的工作。  Putnam简要介绍了搜索问题的关键阶段流程,页面评定(图1)。在第一阶段,服务器群——大量的服务器,选择候选页面:含有某些搜索字符串元素的页面。这些页面被送入评定引擎,本身包括三级:特性提取、自由形式表达评估,以及机器学习评分。

6、    图1.在专用处理单元群中实现页面评定流水线,加速必应搜索。  Putnam说,特性提取是由54个硬件状态机阵列完成的,即,规则表达匹配和结果列表。使用状态机避免了指令获取和解码操作带来的能耗问题。为进一步降低能耗,页面内容不会通过特性提取器:只有记录特性出现、位置和频率的表格数据被传送至下一级。  表达式评估器是另一阵列,但这次是特殊的多线程处理器阵列。这些处理器,以240个单元为一群,读取来自提取器的表格数据,从中计算出非常复杂的数字表达值,这可能会包括超越函数。必应开发人员调整了算法,因此,这些表达式会有所变化,无法对其进行

7、硬线连接。这一级的输出是页面评定,为从搜索字符串中提取出的元特性分配一个数字。  这一数据随后被送入机器学习级,Putnam对此并没有介绍,这可能需要大量的并行神经网络仿真。正是这一可训练级为页面产生最终的评定分。  Putnam说,微软选择在大规模FPGA的2D平面内实现三级评定引擎。每一FPGA位于中间电路板上,插入到微软标准服务器机柜的服务器刀片中。Putnam观察到,可以采用ASIC来很好的均衡速度和功耗。但是由于必应评定算法的多变性,需要具备重新配置能力。他提醒说,否则,特殊的硬件很快就会成为程序员面临的瓶颈问题,最终不得不依

8、赖数据中心来解决问题。  微软的设计人员建立了硬件引擎的很多例化,允许异步运行,研究页面评定的固有并行特性。尽可能减少指令获取和解码操作。定义了任务,因此,只有很少量的数据在流水线级之间传送。在不同的环境中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。