查看: 2008|回复: 0

[转贴]Intel 45nm 处理器

0 主题	0 好友	395 积分

超级会员

Rank: 5 Rank: 5 Rank: 5 Rank: 5 Rank: 5

发消息

电梯直达

1^#

发表于 2008-1-10 03:53 AM |只看该作者 |倒序浏览

早在今年年初，Intel 45nm双核心、四核心处理器的进展就已经初现端倪，在Intel的原定计划中，今年的11月11日才是全新的45nm桌面级处理器Yorkfield发布之日，此后基于45nm的双核心处理器也会面世。更先进的制作工艺、更大的二级缓存、更强的超频潜力和更低的功耗、发热量，这一次都让人们无比期待，现在，我们驱动之家评测室就为大家提前带来了Intel桌面版45nm处理器的评测。

在11月11日的发布日上，Intel一举推出了8款针对桌面市场的45nm处理器，其中最为高端的是QX9650，主频为3.0G，具有12MB的超大二级缓存，而更为高端的QX9770处理器则要等到2008年的第一季度才能面世。“Yorkfield”45nm处理器将全面转入1333MHz前端总线上，而在45nm处理器的架构并没有做任何大的改变，四颗核心是将两颗“酷睿2”双核处理器直接进行封装，两颗双核心处理器以及二级缓存的数据需要通过前端总线和北桥芯片进行交换。

而原生的四核心处理器我们要等到2008年的下半年的Mehalem架构才会见到，当然就现阶段来说，Intel也没有必要加快自己的发展脚步，因为AMD的四核心桌面版“巴塞罗那”处理器依旧没有看到任何可供媒体测试的实物。另外，就算AMD能够赶在今年年底之前推出，在主频方面的落后也还不足以对Intel的“Yorkfield”45nm处理器带来威胁，所以就现在的局面来看，AMD还是要加把劲儿啊。

也许看过上表的读者对Q9550、Q9300、E8500、E8300这些型号的处理器有些疑问，3.16G、2.5G这些时钟频率，在333MHz的外频下，这个频率是不可能实现的。因此，在新一代的45nm处理器中，Intel准备全面引进X.5倍频概念，这一点除了在AMD的处理器上早就应用之外，在Intel Pentium4处理器面市之后就没有被使用过的，现在为了更加全面的划分市场以及其他某些方面的考虑（1333MHz前端总线，即333MHz外频的全面转入，使得还以1为倍频跨度的话，会造成两个临近产品的频率差距过大），使得Intel首次将X.5倍频引入到了45nm处理器中。

不仅仅是工艺提升——Intel 45nm处理器详解

Penryn并非全新架构的产物，而是现有Core架构的工艺改进版，大体上区别不大，只是进行了一些技术增强，比如更大容量的二级缓存、更高的主频、更好的散热、完整的SSE4指令集、先进的high-k工艺等等。在接口上，LGA775继续沿用，很多设计周详的主板基本只需BIOS即可。

在晶体管数量上，65nm双核心Conroe/Merom/Woodcrest拥有2.93亿个，45nm双核心Penryn则提高到4.1亿个，其中四核心版本更是翻番到8.2亿个。虽然这只是现在Montecito双核心Itanium 2的大约一半(后者17亿个)，但相当于2000年180nm工艺Willamette核心Pentium 4的20倍(后者4200万个)。

Penryn有很多值得关注的地方，其中最重要的莫过于“high-k”工艺。这也是Intel首次在酷睿2处理器上使用。“high-k”工艺是用更高介电常数的金属栅极取代传统的低介电常数(low-k)的二氧化硅栅极，从而大大解决漏电问题。据称，与同频率的65nm工艺相比，45nm high-k可将晶体管转换速度(频率)提高20％，同时转换能耗减少30％，并将漏电降至1/5。该原理主要是借由以具有优异绝缘性的hafnium铬元素为新型材料的基础物质，通过该物质拥有的比传统二氧化硅栅更为优秀的绝缘性和绝缘层，大幅度降低晶体管在高频下的漏电率。

Penryn时代的功耗仍会维持在35W左右，所以主频会有不小的提高。Intel没有给出确切的频率，但有关工程师指出高端桌面会超过3.3GHz，笔记本则会不低于2.5GHz，而理论上的工作速度会更高。

Intel没有详细解释high-k工艺所用的材料，只是表示high-k栅极基于“铪”元素，金属栅极的两种元素则拒绝透露。Intel高级研究员Mark Bohr称：“可能的组合有上百种，能完成这种组合是一个重大的成就。”Intel还放出豪言，其他半导体企业要达到他们这种水平，得等到32nm工艺时代甚至更晚。

从上到下依次为：低电阻层、金属栅极(包含两种不同的材料)、high-k氧化层、硅通道。

Intel Penryn 45nm处理器虽然在架构上与之前的酷睿处理器架构并没有什么差别，但是一些改良还是让新一代的Intel 45nm处理器有了更好的表现。

Intel Penryn 45nm处理器改良。在这里我先简单的介绍一下“Deep Power Down Technology”（深度休眠技术）。Penryn 45nm处理器加入全新高级电源管理休眠状态，可显著降低闲置期间处理器的功耗，并有效防止晶体管漏电情况。这种休眠状态就是Deep Power Down（C-6），才用该技术之后，处理器可以实时清楚一级缓存内的数据，在保存处理器微架构状态下，关闭内核和二级缓存。此时就算芯片组会继续进行数据传输，但是不会唤醒处理器。同时电压控制更加智能，只有在内核却是需要的时候，电压才会提高，而内核时钟和PPL才会额打开，并重置处理器，把缓存数据从内存中读回，此时处理器状态为全部恢复，并可以继续执行操作指令。

Intel给出的解释是，Deep Power Down模式相比于Enhanced Deeper Sleep模式，可以让电压再降低一倍，一级缓存关闭，处理器功耗进而减少最高可达75%，但是唤醒处理器的时间要比Enhanced Deeper Sleep模式多出越50%。

但是此时的问题就出现了，由于休眠深度越深，处理器唤醒的能耗损失也就提高，并且所花时间更大，为了弥补这个缺陷，Intel为Penryn 45nm处理器加入了更为先进的智能探测功能，可以更好的确定休眠时间和状态。如果智能探测技术发现目前不适合采用Deep Power Down模式，那么只会让处理器以Enhanced Deeper Sleep模式休眠。

Penryn 45nm处理器性能增强对比说明。

在Intel的酷睿2双核心处理器设计中，每个独立的核心都有自己的二级缓存，Core微架构透过核心内部的“Shared Bus Router”来共享的二级缓存，例如当一个核心处理完数据并将其存放在二级缓存中时，另外一颗核心便可通过“Shared Bus Router”来读取另一个核心存放在二级缓存中的数据，这样的数据读取和交换速度要远远大于通过前端总线进行数据传递，而L2 & DCU Data Pre-fetchers及Deeper Write output缓冲存储器的采用更是加大了缓存的命中率，“Shared Bus Router”和“Bandwidth Adaptation”技术还分别优化了数据传输排程和共享前端总线时候的效率。这也是酷睿2架构具有优异性能的一大原因。虽然具有上述这些技术让酷睿2双核心架构具有强劲的性能，但是面对通过前端总线进行数据交换的四核心处理器来说，酷睿2架构的性能发挥却收到了很大的制约。

Penryn 45nm处理器的二级缓存容量相比65nm的二级缓存增加了50%，双核心产品二级缓存容量最大可达至6MB、四核心更是达到了12MB，Intel也是考虑到了四核心的一些限制问题，因此提升到了24路联合(24-way set Associative) ，令二级缓存命中率进一步提升，从而让性能获得更好表现。

此外，Penryn 45nm处理器加入了名为“增强高速缓存拆分负载功能(Split Load Cache Enhancement)”的全新技术。当需要数据读取时，如果数据位于两个不同的高速缓存当中时，将会对在高速缓存中的数据进行拆分，让一个高速缓存进行数据读取，其速度要高于数据在两个高速缓存中进行读取和处理要快上许多。该技术我们可以看成是酷睿2中高速智能缓存技术的增强版本。

在原有的酷睿2处理器可以支持每个周期同时处理4个指令，并且重新使用了较高效率的14层“Pipeline Stages”。

Penryn 45nm处理器在原有的架构上对除法器进行了改良，Intel称其为“Fast Radix-16 Divider快速Radix-16除法器”。改良之后的除法器在运行科学计算、三维坐标转换和其他数学密集型运算的时候，会带来比原有高两倍的运算速度，并可以加速浮点和整数运算的速度。其重要原理就在于，通过Radix-16除法器的采用，使得当面对基数提升到16的运算时，该功能会每次运算出4位商值，将运算延迟缩短了一倍。

Super Shuffle Engine超级流水线引擎：

Intel在酷睿2架构中加入128Bit-SIMD interger arithmetic及128bit SIMD双倍精准度Floating-Point Operations单元。旧有的处理器执行128Bit的SSE、SSE2及SSE3指令时，需要把指令分拆为2个64Bit指令，在2个频率周期完成，但Core微架构则只需要一个频率周期便能完成，执行效率提升了一倍。经过多年的推广，DDE指令集已经被目前的绘图、影音、压缩、加密、数学运算等应用所广泛采用，而单周期128Bit的处理器能力则有效的提高了运算效率。

Penryn 45nm处理器在这些方面也进行了改良，其加入全新Super Shuffle Engine（超级流水线引擎），可以让SSE指令更具效率的运行。以往在处理128Bit宽度的字节、字及Dword SSE数据时，是无法在一个周期内完成，而超级流水线引擎的加入可让这些不同性质的128Bit SSE指令，在1个周期内便可完成，减低延迟及吞吐量外。

SSE 4.1指令集

在Penryn 45nm处理器中，Intel加入了全新的SSE4.1指令集，SSE4指令集目前分为4.1和4.2两个版本。其增强指令主要针对向量绘图运算、3D游戏、视音频编码加速及协同处理加速方面。

Intel指出，加入的SSE4指令集让Penryn 45nm处理器增加了2个不同的32Bit向量整数乘法运算单元，并加入8位无符号 (Unsigned)最小值及最大值运算，以及16Bit 及32Bit 有符号 (Signed) 运算。在面对支持SSE4指令集的软件时，可以有效的改善编译器效率及提高向量化整数及单精度代码的运算能力。同时，SSE4改良插入、提取、寻找、离散、跨步负载及存储等动作，令向量运算进一步专门化。

SSE4还计入了六条浮点运算指令，支持单精度、双精度浮点运算及浮点产生操作，可立即转换其路径模式，大大减少延误，这些支持将会在3D游戏及对浮点运算能力非常敏感的领域起到积极的效果。

此外，SSE4指令集还加入了串流式负载指令，能够提升帧缓冲区的读取数据频宽，理论上可获取完整的快取缓存行，即每次读取64Bit而非8Bit，并可以将其保存在临时缓冲区内，让支持SSE4指令集的读取频宽效能提升最高至8倍。