自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

史上最強(qiáng)Intel Nehalem架構(gòu)超詳解析

運(yùn)維 服務(wù)器運(yùn)維 芯片
本文詳細(xì)解析了Intel Nehalem的架構(gòu)。

IDF大會(huì)驕子:Nehalem

以下這張照片是Ronak Singhal先生,他在Intel工作,他正在向大家問(wèn)好。

[[1261]]

他現(xiàn)在正在聚精會(huì)神的演講,但是相信我,他不是油腔滑調(diào)的人。因?yàn)樗褪荌ntel下一代Nehalem處理器的架構(gòu)設(shè)計(jì)師。

從下面這張Intel最為知名的tick-tock“嘀嗒”路線(xiàn)圖中,我們就可以看到,Nehalem處理器就是目前Intel最新一代的微架構(gòu)處理器產(chǎn)品線(xiàn)。

這是一代全新的體系架構(gòu),至少它比Penryn處理器要新。不過(guò)它仍然是基于45nm制造工藝技術(shù)的處理器。在制程方面出次登場(chǎng)的Nehalem與Penryn是一樣的。在下一年,我們就能看到32nm制造工藝版本的Nehalem處理器,而屆時(shí)它的研發(fā)代號(hào)也另叫作Westmere。另外更新的一代研發(fā)代號(hào)Sandy Bridge將采用全新的架構(gòu),同樣也是使用32nm制程。但是今天我們要講述的主角就是——Nehalem。

最近Intel正式發(fā)布了Nehalem核心的處理器LOGO標(biāo)識(shí),那就是傳說(shuō)中的Intel Core i7微處理器。我們?cè)儐?wèn)了Intel方面的人,為什么這款處理器會(huì)叫這個(gè)名字。我們得到了Intel方面人員積極的回應(yīng),Intel僅僅是發(fā)布了一個(gè)龐大陣容的產(chǎn)品線(xiàn),但是并沒(méi)有具體的處理器規(guī)格和型號(hào)。因此盡管這款處理器叫做Core i7,但是我仍然喜歡稱(chēng)它為Nehalem,在整篇文章中,我也會(huì)一直這樣稱(chēng)呼它。

第一印象:Nehalem概述

首先,讓我們來(lái)看看這個(gè)圖表。

這是Nehalem內(nèi)部的一個(gè)單獨(dú)的處理核心,請(qǐng)注意,你在市場(chǎng)中絕對(duì)不會(huì)買(mǎi)到這樣的產(chǎn)品,因?yàn)樗皇翘幚砥髌渲械囊粋€(gè)處理核心,它并不包含內(nèi)存控制器,L3高速緩存,還有Intel為多核心處理器所設(shè)計(jì)的許多部件。這張圖表繪制的相當(dāng)精確全面,這是Nehalem處理器中完整的執(zhí)行核心,它絕對(duì)不是1/3的處理核心,它包括亂序執(zhí)行單元和完整的邏輯電路。有了這些部分,才算是一個(gè)完整的高級(jí)處理核心。現(xiàn)在你可以明白為什么說(shuō)嵌入式的Intel Atom處理器算是一個(gè)高級(jí)的處理核心了吧。

Nehalem中單獨(dú)的處理核心,并不是由大規(guī)模的高速緩存組成的。大概僅有1/3的芯片面積用來(lái)做L1和L2的高速緩存。另外1/3用來(lái)部署亂序執(zhí)行單元引擎和其他零碎的部件。最后1/3的面積用來(lái)實(shí)現(xiàn)解碼單元的功能,分支預(yù)測(cè)邏輯判定功能,內(nèi)存的排序和頁(yè)處理功能。

除了單獨(dú)的處理核心之外,Intel還未所有的處理核心設(shè)計(jì)了8MB超大L3高速緩存。它可以很顯著的改善各個(gè)核心之間的負(fù)載平衡。

在上面這張圖表中,我們可以看到完整的Nehalem四個(gè)處理核心。同時(shí)也能在下面看到超大容量的L3高速緩存,I/O控制單元,內(nèi)存控制器電路和傳說(shuō)中的QPI互聯(lián)總線(xiàn)。在桌面級(jí)別的Nehalem處理器,將會(huì)有1條QPI鏈接,即QPI 0。而在服務(wù)器和工作站級(jí)別的Nehalem處理器,將會(huì)有2條QPI鏈接,即QPI 0和QPI 1。

Nehalem架構(gòu)采用的是高可升級(jí)性和模塊化的設(shè)計(jì)。因此你會(huì)看到雙核心和四核心的版本,在2009年甚至?xí)吹?核心的版本。

甚至某些版本的Nehalem處理器還將包含一個(gè)圖形核心。它將不屬于Nehalem內(nèi)部的處理核心,很快我們就會(huì)看到這個(gè)版本的處理器。要說(shuō)明的是,這顆圖形核心并不是基于Larrabee架構(gòu),它很有可能只是沿用了當(dāng)前的G45顯示核心架構(gòu)。

#p#

全新架構(gòu):不是另一個(gè)Conroe

如果拿Pentium 4和Conroe來(lái)做比較那么他們之間的差別就像是黑夜與白天之間那么明顯。P4所采用的NetBurst架構(gòu)純粹就是為了追求時(shí)鐘速度的極限。而Conroe則剛好相反,只追求時(shí)鐘周期執(zhí)行效率。他們?cè)诩軜?gòu)設(shè)計(jì)思想方面,有本質(zhì)的不同。Pentium 4需要做極大的軟件方面優(yōu)化,才能更進(jìn)一步提高硬件的物理效能,此后Intel從中吸取了這個(gè)教訓(xùn),不在期望通過(guò)編譯器和代碼優(yōu)化來(lái)提高硬件的性能。他們?cè)谥匦略O(shè)計(jì)新一代處理器架構(gòu)的時(shí)候,采用了模塊化的設(shè)計(jì)思想。

Conroe是Intel第一顆包含了4路前端的處理器。這顆處理器可以進(jìn)行解碼、重命名,并且在同一個(gè)時(shí)鐘周期可以執(zhí)行4個(gè)內(nèi)部微指令。不過(guò)事實(shí)上Conroe的實(shí)際處理效能可能達(dá)不到這個(gè)程度。

在Conroe中,Intel推出了宏指令的概念,它可以將2個(gè)x86指令“融合”在一起進(jìn)行解碼、執(zhí)行和退出操作。這2個(gè)指令融合之后,就會(huì)被視為是一條指令。這項(xiàng)技術(shù)在某些情況下會(huì)極大的加速指令的處理效能。

Nehalem中近一步添加了更多的指令融合機(jī)制,同時(shí)也支持目前所有Core2中的宏指令技術(shù)。

 

另外在Nehalem中還加入了64bit指令的融合機(jī)制。在過(guò)去僅僅可以融合32bit的指令,現(xiàn)在64bit的指令融合也可以得以實(shí)現(xiàn)。在處理64bit代碼的時(shí)候,我們可以看到明顯的性能改善。

殺死分支:改善循環(huán)監(jiān)測(cè)機(jī)制

在Core 2中特有一種叫做LSD流循環(huán)檢測(cè)機(jī)制。它通過(guò)一個(gè)邏輯點(diǎn)檢測(cè)處理器執(zhí)行效能,查看在軟件中各種循環(huán)語(yǔ)句的結(jié)構(gòu)。它可以停止分支預(yù)測(cè),可以停止那些潛在的不正確的預(yù)測(cè)分支,同時(shí)也能簡(jiǎn)單而有效的停止指令流中的指令。

分支預(yù)測(cè)和指令取回的硬件都可以被停止。在LSD單元中可以停止Core2處理器正在運(yùn)行的18條指令。并且簡(jiǎn)單的從指令流中踢出他們。此后他們會(huì)再次被送到解碼單元,提前完成一次循環(huán)?;蛘呔蛯⑦@些指令廢棄。

 

在Nehalem中LSD被遷移到解碼單元中,并且被放置在解碼單元中的微指令高速緩存中。在一個(gè)循環(huán)中,分支預(yù)測(cè),指令取回和解碼硬件都可以通過(guò)訪(fǎng)問(wèn)高速緩存來(lái)找到LSD,那么LSD能發(fā)揮作用的同時(shí)也能進(jìn)一步降低功耗。并且LSD能在重訂緩沖區(qū)中直接對(duì)指令流進(jìn)行操作。在Nehalem處理器中,LSD能夠緩沖28個(gè)微指令,在實(shí)際的工作中,會(huì)比Core 2處理更多的分支指令。

兩級(jí)預(yù)測(cè):Nehalem中的分支預(yù)測(cè)改進(jìn)

上文已經(jīng)談到了許多Nehalem中的改善,在Nehalem中分支預(yù)測(cè)單元方面的改善顯得比較溫和,不過(guò)這對(duì)于Intel本已經(jīng)十分強(qiáng)大的分支預(yù)測(cè)來(lái)說(shuō),這些改進(jìn)可算是相當(dāng)難得了。

現(xiàn)在的Nehalem已經(jīng)有了第二級(jí)分支預(yù)測(cè)單元,雖然它的速度相對(duì)較慢一些,不過(guò)它能檢索到更大的程序分支歷史記錄,無(wú)論他們是否已經(jīng)被踢出。在L2高速緩存中的分支預(yù)測(cè)單元具備非常大的代碼容積。Intel采用數(shù)據(jù)庫(kù)應(yīng)用軟件做了一些實(shí)際的演示范例。得益于分支預(yù)測(cè)的精確性,應(yīng)用程序的處理效能有顯著的增加。

在Nehalem中,重命名堆棧返回緩沖器也是一項(xiàng)非常重大的改進(jìn)。在上一代Penryn處理器中,處理管線(xiàn)中無(wú)法預(yù)測(cè)的部分會(huì)導(dǎo)致數(shù)據(jù)遷移結(jié)果在返回堆棧中的錯(cuò)誤。由于要保持?jǐn)?shù)據(jù)結(jié)構(gòu)的完整性,處理器在處理內(nèi)存數(shù)據(jù)的時(shí)候都將交由一個(gè)函數(shù)來(lái)完成工作。返回堆棧會(huì)通過(guò)重命名的方式來(lái)防止堆棧錯(cuò)誤。因此這種調(diào)用和返回的操作都會(huì)一對(duì)一對(duì)的匹配進(jìn)行。在Nehalem中你會(huì)看到如果發(fā)生分支預(yù)測(cè)的時(shí)候,數(shù)據(jù)總能被正確的輸出。

對(duì)于應(yīng)用程序來(lái)說(shuō),這是非常重要的改進(jìn)。Nehalem的設(shè)計(jì)在服務(wù)器領(lǐng)域內(nèi)修復(fù)了這些缺點(diǎn)。早在這次秋季IDF之前,關(guān)于Nehalem在服務(wù)器領(lǐng)域的性能表現(xiàn)就已經(jīng)成為了業(yè)界的焦點(diǎn)。當(dāng)Nehalem被應(yīng)用在桌面臺(tái)式機(jī)市場(chǎng)的時(shí)候,同時(shí)也激發(fā)了服務(wù)器領(lǐng)域的設(shè)計(jì)。

而這些改進(jìn)已經(jīng)成為了Nehalem整個(gè)架構(gòu)設(shè)計(jì)的一部分。Nehalem的體系架構(gòu)要追溯到Pentium-M處理器和Centrino平臺(tái)。而這次在服務(wù)器領(lǐng)域的技術(shù)進(jìn)步,也激發(fā)了臺(tái)式機(jī)和移動(dòng)領(lǐng)域芯片的革命。

如果說(shuō)對(duì)Nehalem最大的期望是什么,那么小編我說(shuō)就是不要重蹈Pentium 4的覆轍,不要為了再追求時(shí)鐘頻率而犧牲了性能,增大了處理器的發(fā)熱量。

Nehalem和Atom的設(shè)計(jì)都是Intel有史以來(lái)重大的突破,將功耗/性能之比提高到了一個(gè)前所未有的地步。如果Nehalem和Atom的功耗增加了1%,那么相應(yīng)的他們的性能要增加到2%。否則如果功耗的提升與性能的提升曲線(xiàn)保持平行,那么Intel還會(huì)走上速度至上的死路。

#p#

數(shù)量加大:執(zhí)行引擎的改善

Nehalem中的執(zhí)行引擎與Penryn相比并沒(méi)有較大的變化,處理管線(xiàn)的前端已經(jīng)足夠?qū)拸V,可以吞下足夠多的數(shù)據(jù)。因此下面我們就來(lái)談?wù)勌幚砉芫€(xiàn)架構(gòu)后端的執(zhí)行部分。

在芯片內(nèi)部,Intel顯然沒(méi)有增加數(shù)據(jù)結(jié)構(gòu)的尺寸,但是對(duì)于處理單元的個(gè)數(shù)有所增加。在Conroe/Merom/Penryn中僅有96個(gè)uop,而在Nehalem中增加到128個(gè)。

 

而預(yù)留執(zhí)行單元也從以前的32個(gè)uop增加到36個(gè)。并且它的裝載和存儲(chǔ)緩沖區(qū)也分別從以前的32/20增加到現(xiàn)在的48/32個(gè)登錄入口。

雖然Nehalem相對(duì)于Conroe/Penryn來(lái)說(shuō)在這方面不會(huì)有較大的改進(jìn),但是各項(xiàng)參數(shù)的配置設(shè)計(jì)都要算是最為匹配的。小

更加完善:TLB單元和獨(dú)立高速緩存鏈接

在計(jì)算機(jī)的發(fā)展史上,可以說(shuō)應(yīng)用軟件促進(jìn)了硬件的發(fā)展。而在微處理器發(fā)展史上,服務(wù)器應(yīng)用軟件推動(dòng)了處理器中TLB單元尺寸和性能的發(fā)展。在Nehalem中不僅僅增加TLB單元的尺寸,同時(shí)也增加了第二級(jí)統(tǒng)一的TLB單元,他們可以處理代碼和數(shù)據(jù)。

另一個(gè)潛在的重大修正是Nehalem具備更快的獨(dú)立高速緩存鏈接。在應(yīng)用程序中,可能有許多大型尺寸的SSE內(nèi)存操作,他們的長(zhǎng)度能達(dá)到16-bytes (128-bits)。對(duì)于這些數(shù)據(jù)的裝載/存儲(chǔ)操作都會(huì)有2個(gè)步驟,第一步操作是劃分出16-byte的界限,第二步操作將數(shù)據(jù)拆解。

當(dāng)編譯器在執(zhí)行拆解操作的時(shí)候,如果內(nèi)存的存取沒(méi)有16-byte個(gè)字長(zhǎng),那么它將不能被正常操作。在所有的Core 2處理器中,拆解操作都將會(huì)花費(fèi)很多時(shí)鐘周期,拖累整個(gè)處理流水線(xiàn)的運(yùn)作。

問(wèn)題是許多編譯器不能保證數(shù)據(jù)在拆解的時(shí)候長(zhǎng)度恰好符合要求,并且默認(rèn)的操作通常都會(huì)出現(xiàn)這些問(wèn)題。

在Nehalem中,Intel大幅減少了拆解操作的出現(xiàn)幾率,同時(shí)如果在使用拆解操作的時(shí)候,不會(huì)對(duì)處理流水線(xiàn)的性能產(chǎn)生重大的影響。編譯器現(xiàn)在可以自由的使用拆解操作了。

早先的Core 2架構(gòu)中在拆解操作方面可是吃盡了苦頭。程序員需要額外編寫(xiě)代碼來(lái)指定拆解目標(biāo)解決執(zhí)行效能的問(wèn)題。在Nehalem中有一個(gè)區(qū)域可以實(shí)現(xiàn)重新再優(yōu)化/再編譯功能,這樣會(huì)在拆解操作的時(shí)候加快速度。

在Nehalem中,也重點(diǎn)改進(jìn)了線(xiàn)程并行處理的性能表現(xiàn),我們會(huì)在下一頁(yè)詳細(xì)說(shuō)明這個(gè)技術(shù)點(diǎn)。

又見(jiàn)又見(jiàn):Hyper Threading超線(xiàn)程

小編我曾經(jīng)問(wèn)過(guò)Intel的一位高級(jí)工程師,在微處理器行業(yè)中什么是最讓你感到興奮的技術(shù)?他就回答出一個(gè)字:線(xiàn)程!不過(guò)在Pentium 4處理器上,我們并沒(méi)有體驗(yàn)到Hyper Threading超線(xiàn)程的強(qiáng)大,總被DIY發(fā)燒友抨擊為騙人的玩意。

Hyper Threading是Intel在市場(chǎng)營(yíng)銷(xiāo)時(shí)所使用的名稱(chēng),從技術(shù)層面上講它應(yīng)該叫做SMT同時(shí)多線(xiàn)程技術(shù)。在同一個(gè)時(shí)刻處理器可以同時(shí)取回2條指令。而操作系統(tǒng)就會(huì)將基于HT技術(shù)的處理器識(shí)別為多個(gè)處理器,一般單核心的處理器會(huì)被識(shí)別為2個(gè)處理器,因?yàn)樘幚砥骺梢酝瑫r(shí)發(fā)送2條線(xiàn)程指令。

我們回到Nehalem處理器,看看它的Hyper Threading有哪些新花招??偟膩?lái)說(shuō),它將比Pentium 4具備更高的執(zhí)行效能,具體有以下幾個(gè)原因:

1、Nehalem擁有更大的內(nèi)存帶寬和更大的高速緩存,這要比傳統(tǒng)的Pentium 4強(qiáng)上許多。因此,它將會(huì)為處理核心提供更充足的數(shù)據(jù),具備更好的分支預(yù)測(cè)性能。

2、Nehalem比Pentium 4具備更為優(yōu)秀的體系架構(gòu),每個(gè)核心都具備使用多線(xiàn)程的能力。

正如史上第一顆Pentium 4不具備超線(xiàn)程技術(shù)一樣,Nehalem架構(gòu)的處理器,也沒(méi)有特指繼承了以前的超線(xiàn)程技術(shù)。Intel這樣做的主要原因是要讓Nehalem的核心架構(gòu)看起來(lái)更加簡(jiǎn)單,而且現(xiàn)在很多簡(jiǎn)單的應(yīng)用程序也都開(kāi)始支持一般的超線(xiàn)程技術(shù)。

你可以從下面的圖表中看到開(kāi)啟和關(guān)閉超線(xiàn)程特性時(shí),Nehalem處理器的性能表現(xiàn)。

Nehalem中的超線(xiàn)程設(shè)計(jì),與Atom相類(lèi)似。植入超線(xiàn)程功能僅僅占用了很小一部分芯片面積。要實(shí)現(xiàn)超線(xiàn)程技術(shù),僅僅需要加入一些寄存器,重命名返回緩沖器,更長(zhǎng)的TLB指令載入頁(yè)。只要簡(jiǎn)單的加入這些組件,就可以實(shí)現(xiàn)該功能了。當(dāng)開(kāi)啟超線(xiàn)程時(shí),其余的數(shù)據(jù)結(jié)構(gòu)會(huì)被拆分,從新分配?;蛘邥?huì)被資源管理器動(dòng)態(tài)的決定他們要被分配到哪個(gè)處理器核心去。

開(kāi)啟超線(xiàn)程特性后,Nehalem處理器的性能會(huì)大幅加強(qiáng)。在許多應(yīng)用程序中,性能的提升都非常明顯。它的性能提升幅度要遠(yuǎn)遠(yuǎn)高于Pentium 4處理器。

現(xiàn)在各位讀者也許能夠猜到,為什么Intel會(huì)大幅增加Nehalem處理器的各種緩沖區(qū)的容量了吧。為的就是讓緩沖區(qū)能夠存儲(chǔ)更多的指令,這些指令將會(huì)被拆分為2個(gè)線(xiàn)程,同時(shí)執(zhí)行。同時(shí),處理流水線(xiàn)的前端,也被設(shè)計(jì)的非常寬廣,他們可以一次吞入更多的指令,為更多的指令進(jìn)行解碼,這樣就能喂飽后面的超線(xiàn)程與多核心單元。在處理流水線(xiàn)中,可以傳輸更多的內(nèi)部微指令,執(zhí)行更多的微指令操作,同時(shí)也可以給分支預(yù)測(cè)更多的歷史記錄,讓亂序執(zhí)行的效率大幅增加。

#p#

深入分析:高速緩存的層級(jí)架構(gòu)

我們又談到了Nehalem的高速緩存層次,這次我們來(lái)對(duì)它整個(gè)層級(jí)架構(gòu)做一個(gè)詳細(xì)的介紹。

 

Nehalem的高速緩存層級(jí)架構(gòu)有點(diǎn)類(lèi)似于A(yíng)MD的Phenom,它具備3個(gè)級(jí)別的高速緩存層次。L1高速緩存具備64KB,其中32KB數(shù)據(jù)和32KB指令。每一個(gè)處理核心具備256KB的L2高速緩存,這些都是處理核心所獨(dú)占的,處理核心之間的L2高速緩存不會(huì)共享。最后L3高速緩存的容量高達(dá)8MB,所有處理核心都可以共享L3內(nèi)的數(shù)據(jù)。

Nehalem中的L1高速緩存的容量雖然與Penryn核心相同,但是它更慢一些,Penryn僅有3個(gè)周期,而Nehalem會(huì)有4個(gè)周期。Intel聲稱(chēng),降低L1的速度有利于更好地控制處理器的時(shí)鐘速度,特別是在Nehalem這樣極其復(fù)雜的芯片中。根據(jù)Intel所估計(jì)提高Nehalem的L1的潛伏期,會(huì)造成處理器整體效能下降2~3%。

同時(shí)L2高速緩存的性能也會(huì)有所閹割。在Penryn中兩個(gè)核心之間可以共享6MB容量的L2高速緩存。Nehalem雖然為每個(gè)處理核心配備了獨(dú)立的L2高速緩存,但是其容量驟降為256KB。

從Pentium 4開(kāi)始起,Intel還沒(méi)有為處理器制定出容量如此小的L2高速緩存。Intel指出,小容量L2的速度將會(huì)更快,數(shù)據(jù)從L2中裝載和輸出僅需10個(gè)潛伏期就可以達(dá)成。

由此L2充當(dāng)了L3的高速緩沖區(qū),不過(guò)也并不是所有的核心都可以自由的訪(fǎng)問(wèn)L3,它們也需要提前發(fā)出訪(fǎng)問(wèn)L3的請(qǐng)求。

所有的核心都可以共享L3高速緩存中的數(shù)據(jù),并且Core i7處理器具備高達(dá)8MB的容量,這對(duì)于多核心處理器來(lái)說(shuō),是非常有必要的。通過(guò)共享L3中的數(shù)據(jù),支持多線(xiàn)程的應(yīng)用程序就可以支配所有處理核心協(xié)作完成所需的運(yùn)算??梢哉f(shuō)Nehalem的高速緩存層級(jí)架構(gòu)沿用了Intel一貫的包容風(fēng)格,在過(guò)去Intel設(shè)計(jì)緩存架構(gòu)的時(shí)候一直使用著這種思想。Nehalem中的L3高速緩存包含L1和L2中的所有數(shù)據(jù)。這樣的好處是如果處理器在L3中尋找所需的數(shù)據(jù),并且沒(méi)有找到的話(huà),它就知道數(shù)據(jù)不在這里,同時(shí)也不在任何的L1和L2高速緩存中。這樣它就會(huì)從更低級(jí)的內(nèi)存中尋找數(shù)據(jù)。這樣的機(jī)制不僅會(huì)加快處理的效能同時(shí)也能減少功耗。

高速緩存也包含了對(duì)于核心數(shù)據(jù)處理流量的偵測(cè)機(jī)制。隨著處理器中處理核心的不斷增加,將很難控制他們的處理任務(wù)量。介于Nehalem被設(shè)計(jì)為4核心的處理器,流量偵測(cè)機(jī)制也被加強(qiáng)了。

從T6到T8:改善緩存功耗管理

在今年秋季的IDF大會(huì)上,Intel介紹了在Nehalem中應(yīng)用的一項(xiàng)新的功耗節(jié)能技術(shù)——8T(8晶體管)SRAM單元設(shè)計(jì)。所有核心中的L1和L2高速緩存都采用了這項(xiàng)技術(shù),而L3高速緩存并沒(méi)有使用這項(xiàng)技術(shù)。當(dāng)Intel在Nehalem上應(yīng)用8T設(shè)計(jì)時(shí),能減少它的操作電壓,進(jìn)而可以減少Nehalem的功耗。這樣的設(shè)計(jì)與Intel在A(yíng)tom的L1高速緩存上的設(shè)計(jì)比較類(lèi)似。

為了降低Atom上L1的功耗,Intel使用小型信號(hào)數(shù)組來(lái)代替開(kāi)關(guān)寄存器文件單元。這是L1的寫(xiě)入和讀取端口?,F(xiàn)在高速緩存具備更大尺寸的單元,每個(gè)單元有8個(gè)晶體管構(gòu)成。因此也相應(yīng)的增加了L1的芯片面積和針腳數(shù)量。從Intel官方發(fā)布的芯片內(nèi)部結(jié)構(gòu)圖來(lái)看他具有更大的數(shù)據(jù)高速緩存,不過(guò)為了降低功耗,它從32KB閹割成了24KB。這是Atom緩存架構(gòu)中最為獨(dú)特的方面,當(dāng)Intel第一次公布這條消息的時(shí)候,所有人都在驚詫?zhuān)瑸槭裁碅tom的L1中數(shù)據(jù)和指令緩存是非對(duì)等的。通過(guò)這樣的設(shè)計(jì),Atom可以進(jìn)一步降低工作時(shí)候的驅(qū)動(dòng)電壓。

Atom的小信號(hào)數(shù)組采用的是6T單元的設(shè)計(jì),因此它的操作電壓可以降低到最小。換句話(huà)說(shuō),使用最微弱的電壓就能保存L1中的數(shù)據(jù)。在L2中Intel使用了6T單元的小信號(hào)數(shù)組,并帶有ECC奇偶校驗(yàn)。架構(gòu)設(shè)計(jì)師的初衷就是要盡可能的不去使用較大的晶體管單元,從而進(jìn)一步降低工作電壓。

Intel指出,在Nehalem的核心緩存中,從以前的6T SRAM轉(zhuǎn)換到了8T SRAM。這僅僅是Nehalem中的L1和L2高速緩存。這是因?yàn)樵贜ehalem中的每個(gè)處理核心,其L2的容量已經(jīng)非常小了,僅有256KB。Intel聲稱(chēng),從6T到8T的轉(zhuǎn)換過(guò)程中,付出了沉重的代價(jià),激增的晶體管數(shù)量相當(dāng)于Nehalem的8MB L3高速緩存的33%。

偷師無(wú)愧:整合內(nèi)存控制器

在Nehalem中還整合了內(nèi)存控制器。Intel第一次將內(nèi)存控制器由主板芯片組中轉(zhuǎn)移到了處理器的核心內(nèi)。同時(shí)我們也應(yīng)該注意到,這個(gè)獨(dú)特的內(nèi)存控制器是一個(gè)貨真價(jià)實(shí)的3通道DDR3內(nèi)存控制器。這也就意味著你要在主板上同時(shí)插上3條DDR3內(nèi)存,才能實(shí)現(xiàn)3通道的帶寬。我想這一定把內(nèi)存廠(chǎng)商給樂(lè)壞了。今后內(nèi)存廠(chǎng)商肯定會(huì)為Nehalem平臺(tái),推出3通道內(nèi)存套裝產(chǎn)品。桌面級(jí)的Nehalem處理器會(huì)有2個(gè)內(nèi)存控制器,而更高級(jí)的服務(wù)器級(jí)別會(huì)有3個(gè)內(nèi)存控制器。

3通道DDR3內(nèi)存技術(shù)的出現(xiàn),使得Nehalem擁有了足夠大的內(nèi)存帶寬。這絕對(duì)有助于喂飽饑渴的處理核心。不過(guò)內(nèi)存帶寬的增加帶來(lái)的副作用就是使得Nehalem的預(yù)取單元的工作更加忙碌。

下面我們來(lái)談?wù)劮?wù)器級(jí)別的Nehalem處理器的詳情。事實(shí)上由于Core 2處理性能的突飛猛進(jìn),使得在許多企業(yè)級(jí)別的應(yīng)用中數(shù)據(jù)的預(yù)取機(jī)制幾乎沒(méi)有發(fā)揮出來(lái)。很多企業(yè)及的應(yīng)用軟件都會(huì)對(duì)系統(tǒng)的帶寬造成很高的資源占用率。通過(guò)預(yù)取機(jī)制,我們可以更好的平衡帶寬負(fù)載。

在Nehalem中的預(yù)取機(jī)制的權(quán)限非常大,在系統(tǒng)內(nèi)沒(méi)有足夠的可用帶寬時(shí),它可以劫殺一部分資源占用率較高的進(jìn)程。

傳說(shuō)中的:QPI總線(xiàn)

當(dāng)Intel提出了將內(nèi)存控制器集成在處理器核心內(nèi)部的時(shí)候,它還需要一個(gè)與處理核心之間通信的高速鏈接。因此Quick Path Interconnect (QPI)總線(xiàn)也就由此誕生了。從字面上看去,它比Hyper Transport更有助于提升系統(tǒng)的效能。

QPI每一個(gè)鏈接都是全雙工的,每一個(gè)鏈接支持6.4GT/s的帶寬。每一個(gè)2-byte寬度的鏈接每個(gè)方向可以得到12.8GB的帶寬,由此一個(gè)單一的QPI鏈接足以提供25.6GB/s的帶寬。

[[1265]]

而更高端的Nehalem處理器將會(huì)有2個(gè)QPI鏈接,而一般主流階層的Nehalem處理器將只有1個(gè)QPI鏈接。

可以說(shuō)QPI總線(xiàn),與AMD的HT總線(xiàn)相類(lèi)似?,F(xiàn)在開(kāi)發(fā)人員最擔(dān)心的就是NUMA非一致性平臺(tái)。在由Nehalem組成的多處理器系統(tǒng)中,每一個(gè)處理器都將有自己的本地內(nèi)存,并且應(yīng)用程序需要保證處理器能找到與之相對(duì)應(yīng)的內(nèi)存。

在這個(gè)領(lǐng)域中,AMD早期的IMC和HT都對(duì)Intel今天的處理器設(shè)計(jì)有很大的參考價(jià)值。在服務(wù)器領(lǐng)域針對(duì)應(yīng)用軟件,AMD完整了大部分的架構(gòu)設(shè)計(jì)工作,這對(duì)于Nehalem來(lái)說(shuō)也有著非常多的借鑒價(jià)值。

繼續(xù)擴(kuò)充:新的SSE指令集

與Penryn相比,Intel擴(kuò)展了SSE4指令集,在Nehalem設(shè)計(jì)的初期版本為SSE 4.1,現(xiàn)在Intel又加入了幾條更新的指令,目前Intel將它叫做SSE 4.2。

未來(lái)Intel的擴(kuò)展指令集架構(gòu)中還將加入更為先進(jìn)的高級(jí)矢量擴(kuò)展指令(AVX),由此處理器就可以支持256bit位寬矢量處理。AVX指令可以作為一種中間媒介讓SSE指令和未來(lái)的Larrabee圖形核心進(jìn)行指令通信。小編我猜想,未來(lái)Intel可能有意將Nehalem與Larrabee的指令集合并。

#p#

有新玩意:功耗管理的增強(qiáng)

在今年的秋季IDF上,最熱門(mén)的焦點(diǎn)就是Nehalem處理器的功耗管理技術(shù)。

在這方面Nehalem處理器的設(shè)計(jì)徹底顛覆了以往的微處理器。在傳統(tǒng)的處理器中,一般都是用動(dòng)態(tài)多米諾邏輯電路來(lái)進(jìn)行功耗管理,諸如Pentium 4處理器和IBM的Cell處理器,都是用這種方式驅(qū)動(dòng)時(shí)鐘速度。而在Nehalem處理器中,Intel移除了動(dòng)態(tài)多米諾邏輯電路,轉(zhuǎn)而使用完全靜態(tài)的CMOS設(shè)計(jì)。

在Nehalem處理器中,為了實(shí)現(xiàn)功耗管理電路就花費(fèi)了超過(guò)1百萬(wàn)個(gè)晶體管。在這里,處理器內(nèi)部的功耗管理電路被稱(chēng)作PCU功耗控制單元。這1百萬(wàn)顆晶體管,相當(dāng)于1顆486處理器的級(jí)數(shù)。同時(shí)PCU自身帶有固件,并且它帶有溫度、電流、功耗管理,還有具備操作系統(tǒng)調(diào)用功能。

在Nehalem處理器中,每一個(gè)處理核心都帶有自己的PLL同步邏輯單元。每一個(gè)核心的時(shí)鐘頻率都是獨(dú)立的。這一點(diǎn)與AMD的Phenom處理器相類(lèi)似。另外還有更相似的地方,每一個(gè)處理核心都是有自己獨(dú)特的核心電壓。而Nehalem和Phenom之間最大的差別就是Intel使用了完整的功耗門(mén)電路。

在此期間,Intel的架構(gòu)工程師與制造商進(jìn)行了非常緊密的合作。Intel說(shuō)服了制造商,采用一種非常獨(dú)特的材料,這種功耗門(mén)電路連接著電壓電源與處理器核心,同時(shí)它自己也在處理核心之中。

 

這樣的好處是Intel仍然使用一個(gè)單一的核心電壓,而在深度睡眠的時(shí)候,個(gè)別的處理核心幾乎可以完全被關(guān)閉。目前在Intel和AMD的多核心處理器中,所有的處理核心都具備相同的核心電壓。這就意味著活躍的處理核心與不活躍的處理核心都要消耗相同的功耗。

在Nehalem處理器中,功耗門(mén)電路總能保持一個(gè)以上的核心處于被激活的工作狀態(tài),它的電壓將維持正常的水平。其他的處理核心會(huì)根據(jù)任務(wù)量的大小,或開(kāi)啟或完全關(guān)閉。

功耗管理另一項(xiàng)突破就是超快的切換速度。集成在處理器內(nèi)部的功耗管理單元可以快速的發(fā)出“開(kāi)啟核心/關(guān)閉核心”的信號(hào)。一旦處理核心處于空閑,功耗管理單元就會(huì)立刻將之關(guān)閉。其開(kāi)啟和關(guān)閉的切換速度在百萬(wàn)分之一秒。

上文中我們提到了PCU單元可以監(jiān)控操作系統(tǒng)的性能,并且向其發(fā)出命令請(qǐng)求。因此它可以非常智能的決定系統(tǒng)的運(yùn)行狀態(tài),是在高性能模式,還是在節(jié)電模式。

在一般的情況下,諸如Vista這樣的操作系統(tǒng)在運(yùn)行一個(gè)應(yīng)用程序的時(shí)候,都會(huì)采用高等級(jí)節(jié)電模式,由此來(lái)保證CPU具備較低的功耗狀態(tài)。無(wú)視操作系統(tǒng)的決斷,PCU都可以控制處理器工作的形態(tài)。

自動(dòng)超頻:Turbo模式

這項(xiàng)新的特性,事實(shí)上已經(jīng)應(yīng)用在移動(dòng)版本的Penryn處理器上了。當(dāng)時(shí)Intel的設(shè)想是一個(gè)雙核心的Penryn處理器運(yùn)行一個(gè)單線(xiàn)程的程序,一顆核心就可以搞定,另一顆核心就會(huì)完全閑置。而整個(gè)芯片的功耗就會(huì)降低。Intel最善于做的事情,就是提升芯片的時(shí)鐘速度。當(dāng)只有一個(gè)核心在運(yùn)行的時(shí)候,它的時(shí)鐘頻率就會(huì)被提升。不幸的是,Penryn處理器中的Turbo mode模式很少有用武之地。現(xiàn)在的電腦使用時(shí),很少有人會(huì)只開(kāi)啟一個(gè)應(yīng)用程序,一般我們?cè)谏暇W(wǎng)的時(shí)候,都會(huì)開(kāi)QQ,開(kāi)瀏覽器,P2P下載。在Vista這樣的操作系統(tǒng)中,更有大量的進(jìn)程在前后臺(tái)運(yùn)行著。很多任務(wù)都會(huì)交替著在兩個(gè)處理核心之間運(yùn)行。

Turbo模式還存在著另一個(gè)問(wèn)題,當(dāng)你的計(jì)算機(jī)只運(yùn)行了一個(gè)單一線(xiàn)程的程序,那么Vista會(huì)產(chǎn)生額外的線(xiàn)程,保持你的移動(dòng)版Penryn處理器不進(jìn)入到Turbo模式。

所有的Nehalem處理器在以Turbo模式運(yùn)行的時(shí)候,如果所有核心都處在激活狀態(tài)時(shí),每個(gè)時(shí)鐘提升步進(jìn)是133MHz。同時(shí)PCU功耗控制單元還要進(jìn)行偵測(cè),保證TDP不會(huì)超過(guò)額定的范圍。如果偵測(cè)到的TDP數(shù)值足夠低,或者有其他的核心處在空閑的狀態(tài)。那么Nehalem事實(shí)上還會(huì)將處理器的時(shí)鐘頻率提升到一個(gè)更高的步進(jìn)。那么這就意味著它會(huì)將時(shí)鐘頻率提升256MHz。很顯然,這次Intel對(duì)自家的Turbo模式非常有信心。

在未來(lái)Intel還將發(fā)布具備更為高級(jí)的“Turbo模式”Nehalem處理器。并且你可以期盼時(shí)鐘頻率會(huì)自動(dòng)提升到一個(gè)新的高度。這個(gè)Turbo模式的點(diǎn)子,想必是Intel受到了超頻愛(ài)好者的啟發(fā),給那些希望提高處理器性能,同時(shí)又不肯自己動(dòng)手超頻的消費(fèi)者的絕佳禮物。不過(guò)如果消費(fèi)者不喜歡Turbo模式,也不必?fù)?dān)心,完全可以通過(guò)軟件設(shè)置來(lái)禁用該模式。

#p#

深度分析:Nehalem處理器的速度與性能

在本屆IDF大會(huì)上,Intel并沒(méi)有確切透露未來(lái)的Nehalem處理器產(chǎn)品的時(shí)鐘速度與售價(jià)。不過(guò)這也是廣大消費(fèi)者最為關(guān)心的事情。

預(yù)計(jì)Core i7處理器產(chǎn)品線(xiàn)最初將會(huì)有三種頻率。一個(gè)是2.66GHz,一個(gè)是2.93GHz,一個(gè)是3.2GHz。所有處理器都會(huì)采用相同的8MB L3高速緩存,并且全部都是4核心處理器。同時(shí)Intel徹底拋棄了FSB系統(tǒng)總線(xiàn),轉(zhuǎn)而采用更為先進(jìn)的QPI總線(xiàn),所有QPI總線(xiàn)的時(shí)鐘頻率皆是133MHz。

[[1266]]

 

 

 

通過(guò)Turbo模式,每個(gè)Nehalem處理器至少都會(huì)提高2個(gè)步進(jìn),即256MHz的頻率。并且這還是非常保守的估計(jì),預(yù)計(jì)實(shí)際的處理器產(chǎn)品會(huì)有更大的超頻潛力。我們最期待的還是2.66GHz的產(chǎn)品,希望Intel盡快將它的價(jià)格拉下來(lái)。

預(yù)計(jì)Nehalem處理器的性能將會(huì)有較大的突破,這我們已經(jīng)從Intel的各種應(yīng)用演示中看到了端倪。對(duì)于性能提升最為明顯的就要數(shù)服務(wù)器應(yīng)用了,不過(guò)毫無(wú)疑問(wèn)具備如此強(qiáng)大的多核心多線(xiàn)程處理能力,也將為桌面應(yīng)用程序帶來(lái)前所未有的效能提升。尤其是視頻編碼,3D渲染部分。有興趣的讀者可以翻看我們小熊在線(xiàn)處理器頻道早先關(guān)于Nehalem的文章。

如果你的應(yīng)用程序并沒(méi)有針對(duì)多線(xiàn)程,多核心進(jìn)行優(yōu)化,那么它至少也會(huì)有1%~15%的性能提升

寫(xiě)在最后:想說(shuō)愛(ài)你不容易

Nehalem的關(guān)鍵特性介紹是今年IDF大會(huì)的重點(diǎn)。各位讀者再耐心等上幾個(gè)月,相信我們很快就會(huì)在市場(chǎng)的貨架上看到它的身影。不過(guò)需要注意的是,你需要一個(gè)全新的主板,才能與之搭配,并且內(nèi)存也要升級(jí)到DDR3才可以與之配合。但是相信Nehalem處理器給你帶來(lái)前所未有的性能體驗(yàn),將不會(huì)令你失望。

Intel的工程師在設(shè)計(jì)Nehalem的初期就深刻的了解到Intel處理器在服務(wù)器領(lǐng)域的弱點(diǎn)。由此,Intel發(fā)布的第一款服務(wù)器級(jí)別的Nehalem處理器就面向高端階層,四核心,雙QPI總線(xiàn),三通道內(nèi)存。如此華麗的配置讓我們想起了AMD的Barcelona巴塞羅那處理器。AMD面向服務(wù)器市場(chǎng)階層,目標(biāo)就是提供高可靠性,高性能的平臺(tái)。

得益于最近幾年內(nèi)桌面級(jí)別的多核心處理器的發(fā)展,Nehalem的技術(shù)已經(jīng)進(jìn)化的相對(duì)成熟而完善,同時(shí)它也應(yīng)對(duì)了目前服務(wù)器應(yīng)用軟件發(fā)展的趨勢(shì)。

事實(shí)上,Intel最大的革新并不是Nehalem,而是在處理器設(shè)計(jì)思想上的革命。以前為了提高處理器的性能,只是簡(jiǎn)單粗暴的增加處理器的時(shí)鐘頻率?,F(xiàn)在為了提高處理器的效能,采用了多核心,多線(xiàn)程的思想,進(jìn)一步提高處理器的執(zhí)行效率,而不是運(yùn)行頻率。通過(guò)這樣的思想,我們看到了超低功耗的Atom處理器?,F(xiàn)在Intel繼續(xù)延續(xù)著這種思想,我們亦迎來(lái)了Nehalem。

[[1267]]

雖然Nehalem小荷才露尖尖角,但是已經(jīng)注定將成為Core 2完美的繼任者。此時(shí)我們就在深思另一個(gè)問(wèn)題,下一步,Intel將會(huì)拿出怎樣的處理器產(chǎn)品來(lái)催動(dòng)整個(gè)處理器和半導(dǎo)體行業(yè)的發(fā)展呢?目前Nehalem大部分性能提升都得益于HT超線(xiàn)程技術(shù)和各種部件帶寬的增加。我們要想知道Intel下一個(gè)“嘀嗒”將會(huì)拿出怎樣的產(chǎn)品,我們至少還要等上2年時(shí)間。Intel的一位工程師告訴小編,如果想要提升性能其實(shí)比較簡(jiǎn)單,只要在處理器中集成內(nèi)存控制器就ok了。那么未來(lái)呢?Intel還會(huì)怎么作呢?這將是值得我們不斷尋找的答案。

而在2009年,Intel的重點(diǎn)將放在Larrabee獨(dú)立顯示核心上。Nehalem的繼任者Sandy Bridge也將在2010年到來(lái),這也是我們值得期待的一款處理器。在那個(gè)時(shí)候Nehalem將會(huì)成為服務(wù)器市場(chǎng)的主打產(chǎn)品,而在桌面市場(chǎng)中,Conroe依舊會(huì)成為最為普及的處理器。

讓我們擔(dān)心的,并不僅僅是Nehalem處理器的價(jià)格。為了一顆性能強(qiáng)大的處理器,消費(fèi)者不得不升級(jí)整個(gè)系統(tǒng)。主板和內(nèi)存,都需要更換。這對(duì)于消費(fèi)者來(lái)說(shuō),將是最為痛苦的抉擇。相信最初阻止消費(fèi)者升級(jí)到Nehalem處理器的敵人,并不是處理器自身的價(jià)格,而是那張升級(jí)整個(gè)電腦平臺(tái)的預(yù)算單結(jié)尾處一長(zhǎng)串?dāng)?shù)字。

Nehalem處理器將在今年年底正式發(fā)布,具體的處理器評(píng)測(cè)報(bào)告,屆時(shí)也會(huì)在第一時(shí)間放出。

【編輯推薦】

  1. AMD伊斯坦布爾CPU下半年上市 對(duì)陣英特爾NehalemEP
  2. Nehalem至強(qiáng)處理器領(lǐng)銜09服務(wù)器市場(chǎng)?
  3. 你嗨了嗎 Nehalem服務(wù)器平臺(tái)測(cè)試
責(zé)任編輯:符甲 來(lái)源: 小熊在線(xiàn)
相關(guān)推薦

2009-11-05 10:03:25

Oracle調(diào)優(yōu)NUMA架構(gòu)

2024-08-14 13:50:00

模型訓(xùn)練

2009-10-29 13:46:30

ADSL接入解決方案

2009-04-01 20:39:15

方正nehalem5500

2009-05-27 10:05:27

Nehalem-EXIntel8核

2011-09-07 15:52:01

EverNote筆記管理

2009-03-25 09:29:49

NehalemEPCore i7

2013-06-08 10:41:51

2009-04-10 13:40:55

Nehalemintel服務(wù)器

2013-08-19 15:14:02

2017-01-15 14:47:23

Windows 10微軟預(yù)覽版

2009-12-09 11:23:50

2020-05-19 21:40:35

Tomcat架構(gòu)Connector

2009-11-10 09:41:37

2024-10-14 20:04:13

2009-03-21 15:09:32

Nehalem服務(wù)器Intel

2015-06-29 09:51:45

支付寶

2017-09-29 09:42:53

2023-05-15 15:18:22

AI智能

2009-02-05 10:58:30

內(nèi)存存儲(chǔ)技嘉i-Ram另類(lèi)硬盤(pán)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)