消除存储墙:处理器存储器一体化.doc

消除存储墙:处理器存储器一体化.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
消除存储墙:处理器存储器一体化 1 绪论 传统上,处理器和存储设备的发展是独立的。处理技术、芯片设计和处理器体系结构的发展、处理器速度和存储设备容量几乎以指数级增长。然而,存储延迟并没有显著提高,存储器访、时间进一步限制了系统的性能,这个现象被称为“存储墙”(the Memory Wall) [1] [2]。处理这个问题的一般方法是添加很多级的cache到存储系统中:使用SRAM设备(static rando、-access memory)可大幅提升系统的执行效率。结合预取和适当的代码调度等延迟隐藏技术、高性能的处理器可以运行在比较合理的效率。 上述的方法应用在所有主流微处理器体系结构的高端系统中。但是,大型的应用软件,比如CAD程序、数据库或科学应用软件常常达不到由于CPU高速度而产生的对性能的预期。这种以CPU为中心的设计模式导致了非常复杂的,拥有深度流水线的超标量体系结构处理器、这里的复杂性很多是为了隐藏存储系统的延迟,比如乱序执行、寄存器记数等。而且,高端、处理器需要大量的逻辑电路的支持:caches,控制器,数据通路等。不包括I/O,10米晶体、CPU芯片需要通过昂贵的支持芯片来对话主存:cache存储器,cache控制器,数据通路,存、器控制器。这增加了相当大的开销、功能损耗和设计复杂度。为了充分地利用处理器,要求、一个大型的存储系统。 这样设计的效果会产生瓶颈,增加了CPU和存储器的距离——如图1所示。它增加了接口和芯、边界,封装和连接限制会降低了存储器带宽的可用性。从外部来看,一个DRAM设备只有一小、分的内部带宽可用。、我们将证明把处理器和存储设备一体化设计可以避免很多以CPU为中心的设计带来的问题,、且可以有效地弥补单一芯片设计的技术局限性。 2 背景 在当代的高端模式中,Sun的Sparc-Station 5 workstation (SS-5)的优越性能证明了把存储器处理器紧密结合的优势。 在低端模式中,SS-5包含了一个小型的MicroSparc CPU,它的cache是小的,单层的(16K字节的指令,8K字节的数据)。它把存储控制器整合到CPU中,所以DRAM设备直接由处理器芯片逻辑驱动。CPU和外围设备之间由一条单独的I/O总线连接。外围设备只能通过CPU芯片访问存储器。 同时期的可供比较的高端机是Sparc-Station 10/61 (SS-10/61)。它有一个大型的带有两层cache的SuperSparc CPU。cache的第一层是20K的指令和16K的数据;同时它们共享了1M的第二层cache。 如表1所示,和SS-10/61相比较,SS-5在Spec’92 Int和Spec’92 Fp基准测试方面稍逊一筹,但是,在综合工作量上(Synopsys[3],超过50Mbytes)表现优于SS-10/61。 这种差异的原因是SS-5较低的主存延迟,它弥补了相对低速的CPU。图2显示了在不同大小的存储数组不同长度的跨距下的存储器访问时间。 存储墙是许多日益紧迫的障碍中的第一个。在不远的将来,这些障碍会和快速增长的多处理器性能产生进一步冲撞。通过多处理器和其他并行形式来提高性能的压力会进一步增大,但是这些策略也必须解决存储子系统的性能问题。、即将来临的一体化技术可以通过集成一个大型的存储器、处理器、共享内存控制器和交互控制器在相同的设备上来解决这个问题。这篇论文提供和评估了这种方案。 3技术特性和趋势 存储器处理器一体化的主要缺陷是存储器的价格昂贵。许多增加DRAM性能的尝试,比如video-buffers (VDRAM), integrated caches(CDRAM), graphics support (3D-RAM)和smart, higher performance interfaces (RamBus, SDRAM)都由于非存储区的额外成本而受到损害。 然而随着256Mbit和1Gbit设备[4] [5]的出现,存储芯片已经足够大,以至于许多计算机只需要一个存储芯片。这使得存储设备可以看作一个单元,与CPU拥有同等的地位。 在过去,CDRAM增加7%的容量,造价需要增加10%。忽略那些影响价格的非技术因素,一个256M字节的DRAM芯片需要800美元,大约25美元每兆。从CDRAM的例子可以推算出,增加10%的容量到存储器处理器一体化设备,需要花费1000美元——其中200美元是增加处理器性能的开销。我们证明这样一台机器可以匹敌比它昂贵许多的系统。而且它的体积更小,功耗更小,设计更简单。 过去的DRAM技术不能满足高效的处理器。比如,直到16M这一代,DRAM才使用多于一层的材料。然而即将到来的0.25微米的DRAM拥有两层或者三层的材料,已经可以支持一个简单200MHzd的CPU

您可能关注的文档

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档