互连网络的机制研究

互连网络的机制研究

ID:13288888

大小:155.50 KB

页数:10页

时间:2018-07-21

互连网络的机制研究_第1页
互连网络的机制研究_第2页
互连网络的机制研究_第3页
互连网络的机制研究_第4页
互连网络的机制研究_第5页
资源描述:

《互连网络的机制研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、互连网络的机制研究1概述半导体技术的进步使得在一块芯片上集成多个处理器内核成为了可能。ChipMulti-Processors(CMP)对于未来的数十亿的晶体管体系结构来说是一个很有吸引力的选择。因为它具有低设计复杂度,高时钟频率,高吞吐量等优点。然而,对于一个多核架构,我们仍然缺乏对核之间的内部连接框架设计的深入理解。而芯片内的这种通信,由于需要通过全局电线存在着一个很高的花销,这也是多核系统在性能提高方面的一个很重要的瓶颈。对于给定数量内核的芯片,在一定的芯片多处理环境下,“最好”的内核间交

2、互连接体系依赖于以下的一些因素:性能目标,功耗/面积预算,带宽需求,技术和系统软件。本文将就多核的交互内联以及和内联紧密相关的内存系统方面展开。2互连网络的机制,开支和缩放这一部分将从芯片上互连网络的区域,功耗,性能和设计等几个方面展开,描述芯片上互连网络的体系架构。同时,在阐述上述几个部分的时候,也会阐述互连网络对于芯片其他部分的影响。并提出了在芯片设计方面的一个注意点,就是互连网络并不应该被单独设计实现,而是需要和其他部分联合设计,以达到最好设计效果。2.1互连网络机制这里将着重于以下三种机

3、制:共享总线结构(SBF),点到点连接(P2Plink)和纵横互连系统(crossbar)。共享总线结构提供了一个对提供和接受一致性通信的各个模块共享连接。点到点连接则提供了两个SBF和多个SBF的连接。纵横互联提供了核/一级缓存和共享二级缓存库之间的连接。2.1.1共享总线结构(sharedbusfabric,SBF)SBF是一个高速链接,在一致性模式中,被用来处理处理器,缓存,IO和内存之间数据的通信。它提供了和基于监视的共享内存多处理器中的系统总线相同的功能。在建模中使用了MESI-lik

4、e监视写无效协议和写-回的二级缓存。因此SBF需要支持一致性事物,包括请求,监视,回应,数据传输,无效化等,同时还要支持对相应总线使用的仲裁。“双向”总线则是由两条单向管线总线构成。SBF的研究是基于这样一个基础:所有核都拥有私有的一级和二级缓存,SBF在二级缓存之间建立连接。一个典型的SBF事务如下:一个load指令在二级缓存中未命中,则进入SBF。首先,请求者会发信号给中央地址仲裁器,告诉仲裁器,它有一个请求。如果得到许可,请求就将被发送到一个地址总线中。请求然后会进入监视队列。等待监视总监

5、的进入许可。在监视总线上的事务会使每个监视节点都放一个响应在响应总线上。而响应总线末端的逻辑和队列则会收集这些响应,并生成一个广播消息。消息将通过响应总线确认各部分的动作。最后,数据通过数据总线被送到请求者。如果存在多个SBF,则消息将被广播到其他的SBF,返回的远程响应则将和本地的响应合并。2.1.2点到点链接(P2Plink)P2Plink被用来链接不同的SBF。多个SBF的存在是为了应对高带宽,低延时等的要求。P2Plink需要有双向传输所有种类事务的能力。每个P2Plink的终端都有多个

6、队列,一个队列应对一种类型的事务,如请求、响应和数据。2.1.3纵横互联系统(crossbarinterconnectionsystem)Crossbar是为了实现在多核共享二级缓存情况下对高带宽的需求。它使得多个核可以在同一周期对二级缓存执行操作。同样的,多个二级缓存库也能够在同一个周期内返回消息。Crossbar包含了两个组成部分:crossbar链接和crossbar接口逻辑。这其中包括了核到库的地址线,核到库的数据线及库到核的数据线。Crossbar接口逻辑提供了对指令获取单元和load

7、-store单元的简化接口。它为每个共享二级缓存的核提供一个load队列。Load队列会发送请求到L2库。请求然后会被放入bankloadqueue(BLQ,每个核一个以防止冲突)。在得到L2许可后,数据会通过reloadqueue和数据总线以到达请求的核。需要注意的一点是,在共享过程中,SBF仍然是必需的以便维持不同单元间的一致性。2.2区域,功耗,延时和性能分析这部分将阐述在65nm技术下的各种开支2.2.1配线区域开销一个总线需要的区域由电线的数量,电线间的有效间距以及电线的长度决定。当总

8、线下没有逻辑单元,中继器和锁存器将被置于总线之下,并且不会引入多余的区域开销。然而,当总线被放置在阵列结构上时,则子阵列不得不被移动以为中继器和锁存器创造空间。这两者成为了决定区域开销的一个重要参数。2.2.2逻辑单元区域开销对于这部分的区域开销,则主要来自于互连网络相关的队列。这里,队列是通过锁存器来实现的。对于65nm技术来说,一个1-bit锁存器需要的面积为115平方微米。这块大小包括了一个本地时钟驱动和本地时钟分布。同时,这部分的区域开销还包括了维护队列的逻辑单元的开销,这部分占了30%

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。