英特爾至強Sandy Bridge首測(圖)
前不久,英特爾對外發(fā)布了最新的基于Sandy Bridge微架構(gòu)的32nm至強處理器——E3系列。雖然這并非是英特爾第一次發(fā)布基于Sandy Bridge微架構(gòu)的產(chǎn)品,雖然E3僅僅面向單路應(yīng)用而生,但不管怎么說,E3的出現(xiàn)的確標(biāo)志著英特爾在至強處理器發(fā)展中邁出了重要的一步,也是Tick-Tock戰(zhàn)略中重要的內(nèi)容(Tock)。
英特爾發(fā)布Sandy Bridge微架構(gòu)32nm至強處理器
得益于桌面級Sandy Bridge處理器的成功,許多人對于至強Sandy Brideg處理器也充滿了期待。雖然對于至強處理器應(yīng)用的服務(wù)器環(huán)境來說,多媒體性能并非是人們應(yīng)該關(guān)注的內(nèi)容。而每當(dāng)提到Sandy Bridge的技術(shù)特點——環(huán)形總線、AVX指令集、Turbo Boost2等內(nèi)容都是眾多報道中頻繁出現(xiàn)的內(nèi)容。究竟這些技術(shù)為我們帶來了什么?它們的存在會有哪些的好處。這些還要從Sandy Brideg之前的Nehalem開始說起。
#p#
按照英特爾著名的時鐘規(guī)律——Tick-Tock來看,Sandy Bridge明顯屬于后者,也就是Tock范疇。Tock主要是指處理器微架構(gòu)方面的改變,而核心工藝的上一次升級已經(jīng)由我們熟悉的Westmere完成了,下一次22nm的升級還要再等等才行。
在進行系統(tǒng)的分析之前,我們先來看看最新的至強Sandy Bridge處理器路線圖。相比以往的產(chǎn)品來說,Sandy Bridge至強處理器采用了與桌面級酷睿處理器類似的命名規(guī)范,分為E3、E5和E7三個系列。其中,E3系列是面向入門級單路服務(wù)器的產(chǎn)品,E5系列則面對了主流的雙路服務(wù)器平臺。唯一有特點的是E7,這款產(chǎn)品雖然在型號上采用了新的命名規(guī)則,但是在本質(zhì)上E7還是上一代架構(gòu)的產(chǎn)品,它還有一個大家非常熟悉的名字——Westmere-EX 。
至強處理器路線圖
本次我們要介紹的至強E3系列屬于面向單路服務(wù)器應(yīng)用的產(chǎn)品,使用的是LGA115接口,也就是圖中的Sandy Bridge-DT。按照產(chǎn)品布局分析,Sandy Bridge-DT主要定位在入門級的單路服務(wù)器,雖然同樣是單路,但是高端應(yīng)用的任務(wù)則是由Sandy Bridge-EN來承擔(dān)。
#p#
正如我們剛才提到的,新一代的至強Sandy Bridge處理器給我們帶來的一個印象就是采用了環(huán)形總線架構(gòu),這也是英特爾在繼Nehalem和Westmere之后繼續(xù)使用環(huán)形總線的架構(gòu)。
Sandy Bridge核外架構(gòu)圖
Sandy Bridge處理器使用了新的環(huán)形總線設(shè)計。事實上從之前的Nehalem開始,英特爾就轉(zhuǎn)向了融合核心的理念。在Nehalem當(dāng)中,英特爾將內(nèi)存控制器融入其中,而在接下來的Westmere當(dāng)中,GPU也作為融入的對象而出現(xiàn)(只是那時候的GPU還僅僅使用的是45nm工藝)。在之前的8核心Nehalem-EX上,我們就看到了環(huán)形總線的身影,不過當(dāng)時的產(chǎn)品在性能和功耗上并沒有表現(xiàn)出明顯的優(yōu)勢。
本次Sandy Bridge使用的是重新設(shè)計的核外結(jié)構(gòu),全新的Ring Bus環(huán)形總線更能夠較好的展示出Sandy Bridge的真實性能。通過上圖大家可以看到,Ring Bus環(huán)形總線連接各個CPU核心、LLC緩存(L3緩存)、融合進去的GPU以及System Agent(系統(tǒng)北橋)等部分。
這個圖片或許可以更好的說明問題。新的Ring Bus環(huán)形總線由四條獨立的環(huán)組成,分別是數(shù)據(jù)環(huán)Data Ring、請求環(huán)Request Ring、響應(yīng)環(huán)Acknowledge Ring和偵聽環(huán)Snoop Ring。借助于環(huán)形總線,CPU與GPU可以共享LLC緩存,將大幅度提升GPU性能。
在這個環(huán)形總線上,分布著多個Ring Stop,也就是俗稱的“站臺”。這個“站臺”在每個CPU/LLC塊上具有兩個連接點,而之前使用環(huán)形總線的產(chǎn)品,也就是Nehalem-EX環(huán)在每個CPU/LLC塊上只有一個連接點。
環(huán)形總線的存在,可以大大減少核心訪問三級緩存的周期。在以往的產(chǎn)品中,多個核心共享一個三級緩存,需要訪問的話必須先經(jīng)過流水線發(fā)送請求,在進行優(yōu)先級排序之后才能進行。新的環(huán)形總線將三級緩存分割成了若干部分,借助于每個站臺,核心可以快速的訪問LLC。LLC小容量緩存的延遲優(yōu)勢與核心頻率一致性在這里也就體現(xiàn)了出來,這就使得Sandy Bridge的周期相比以往產(chǎn)品有所縮減,從原來的35-40個縮減到了26-31個。同時,由于每個核心與LLC之間可以提供若干帶寬,使得Sandy Bridge的整體帶寬也提升了4倍。
#p#
在Sandy Bridge處理器中,英特爾使用了一個全新的概念——System Agent(系統(tǒng)助手)。事實上,System Agent也就是我們之前所說的核外架構(gòu),只是英特爾本次給予了其全新的命名,而在以往的名稱中,我們親切的稱之為系統(tǒng)北橋。
系統(tǒng)助手
System Agent包含了比以往產(chǎn)品更為豐富的功能,包括整合內(nèi)存控制器、支持16條PCIE2.0通道的PCIE控制器、圖形處理器(GPU)、電源控制單元(PCU)以及DMI總線的IO接口。
PCI-E控制器,可提供16條PCI-E 2.0信道,支持單條PCI-E x16或者兩條PCI-E x8插槽;
重新設(shè)計的雙通道DDR3內(nèi)存控制器,內(nèi)存延遲也恢復(fù)了正常水平(Westmere將內(nèi)存控制器移出CPU、放到了GPU上);
此外還有DMI總線接口、顯示引擎、電源控制單元(PCU)。
系統(tǒng)助手的頻率要低于其他部分,有自己獨立的電源層。
#p#
在Sandy Bridge處理器中,最大的改進要算是增加了全新的AVX指令集——Advanced Vector Extensions,高級矢量擴展。這個指令集的增加是X86處理器中的重要內(nèi)容,不僅僅是提供了更為良好的性能,同時也是對現(xiàn)有指令集的整合與優(yōu)化。
介紹AVX指令集之前,先要引入一個向量的概念。所謂向量,就是多個標(biāo)量的組合,通常意味著SIMD(單指令多數(shù)據(jù)),就是一個指令同時對多個數(shù)據(jù)進行處理,達到很大的吞吐量。早在1996年,英特爾就在X86架構(gòu)上應(yīng)用了MMX(多媒體擴展)指令集,那時候還僅僅是64位向量。到了1999年,SSE(流式SIMD擴展)指令集出現(xiàn)了,這時候的向量提升到了128位。
如今,Sandy Bridge的AVX將向量化寬度擴展到了256位,原有的16個128位XMM寄存器擴充為256位的YMM寄存器,可以同時處理8個單精度浮點數(shù)和4個雙精度浮點數(shù)。換句話說,Sandy Bridge的浮點吞吐能力可以達到前代的兩倍。不過現(xiàn)在,AVX的256位向量還僅僅能夠支持浮點運算。不過AVX的特別之處在于,它可以應(yīng)用128位的SIMD整數(shù)和SIMD浮點路徑。



#p#
既然我們一直在討論Sandy Bridge核心,那么不談到其特色的整合GPU顯然是不合適的,雖然對于服務(wù)器的應(yīng)用來說多媒體性能的確是無足輕重。其實我們在文章最初就提到過,作為Tioc-Tock時鐘式的重要內(nèi)容,其實從Wesrtmere 32nm處理器開始,英特爾就在處理器中整合了GPU,不過僅僅是將二者封裝在一個Die上。因為45nm的GPU與32nm的CPU在制程上不一致,最重要的是關(guān)鍵的內(nèi)存控制器被放在了45nm的GPU當(dāng)中,造成了32nm Westmere性能并沒有想象的那么出色。而在Tock中,Sandy Bridge的出現(xiàn)解決了這一問題,特別是將GPU整合在了環(huán)形總線之內(nèi),實現(xiàn)了二者真正的融合。
SandyBridge GPU有自己的電源島和時鐘域,也支持Turbo Boost技術(shù),可以獨立加速或降頻,并共享三級緩存。顯卡驅(qū)動會控制訪問三級緩存的權(quán)限,甚至可以限制GPU使用多少緩存。將圖形數(shù)據(jù)放在緩存里就不用繞道去遙遠而“緩慢”的內(nèi)存了,這對提升性能、降低功耗都大有裨益。
可編程著色硬件被稱為EU,包含著色器、核心、執(zhí)行單元等,可以從多個線程雙發(fā)射時取指令。內(nèi)部ISA映射和絕大多數(shù)DX10.1 API指令一一對應(yīng),架構(gòu)很像CISC,結(jié)果就是有效擴大了EU的寬度,IPC也顯著提升。抽象數(shù)學(xué)運算由EU內(nèi)的硬件負責(zé),性能得以同步提高。
英特爾此前的圖形架構(gòu)中,寄存器文件都是即時重新分配的。如果一個線程需要的寄存器較少,剩余寄存器就會分配給其他線程。這樣雖能節(jié)省核心面積,但也會限制性能,很多時候線程可能會面臨沒有寄存器可用的尷尬。在芯片組集成時代,每個線程平均64個寄存器,Westmere HD Graphics提高到平均80個,Sandybridge則每個線程固定為120個。
#p#
好了,介紹了這么多,終于輪到我們本次評測的主角——至強E3系列登場了。關(guān)于至強E3系列,一共有7款產(chǎn)品,其中兩款為超低功耗版的產(chǎn)品。它們的主頻最低為2.2GHz,最高為2.5GHz。
本次我們拿到的測試產(chǎn)品是E3系列中的E3-1275和E3-1220。前者是E3系列中的高端產(chǎn)品,主頻為3.4GHz,支持超線程技術(shù),TDP為80W;后者是E3系列標(biāo)準(zhǔn)版中的最低規(guī)格,主頻僅為3.1GHz,不支持超線程技術(shù)。其中,整合GPU的處理器命名統(tǒng)一以5結(jié)尾。
至強E3-1220處理器
至強E3-1275處理器
LGA1155接口處理器
至強E3系列處理器采用的是LGA1155接口,從處理器的背面來看其布局與LGA1156有非常大的區(qū)別,也就是說用戶不可能直接從LGA1156平滑升級到LGA1155處理器,必須要更換平臺。
對于桌面級的Sandy Bridge處理器來說,6系列芯片組,包括P67和H67都是比較好的選擇。而在本次測試中,由于我們暫未難道應(yīng)用于E3系列處理器的主板,因此在測試中我們只能選擇P67芯片組進行。這次,我們將針對高端的E3-1270處理器進行測試。
#p#
對于至強E3-1270處理器的測試,我們搭建了一套專門的平臺,具體配置如下:
平臺信息服務(wù)器
|
|
產(chǎn)品名稱 | 至強E3-1275處理器 |
平臺類型 | 英特爾 P67芯片組 |
處理器子系統(tǒng) | |
---|---|
處理器型號 | 英特爾 Xeon E3-1275 |
處理器架構(gòu) | 英特爾 32nm Sandy Bridge |
代號 | Sandy Bridge |
處理器封裝 | Socket 1155 LGA |
核心/線程數(shù)量 | 4/8 |
主頻 | 3.4GHz |
處理器指令集 |
MMX,SSE,SSE2,SSE3, |
外部總線 | 2×QPI 2933MHz 6.40GT/s 單向12.8GB/s(QPI) 雙向25.6GB/s(QPI) |
L1 Code Cache | 4× 32KB 8路集合關(guān)聯(lián) |
L1 Data Cache | 4× 32KB 4路集合關(guān)聯(lián) |
L2 Cache | 4× 256KB 8路集合關(guān)聯(lián) |
L3 Cache | 8MB 16路集合關(guān)聯(lián) |
服務(wù)器主板 | |
主板型號 | 英特爾 DP67BG |
主板芯片組 | 英特爾 P67 |
北橋芯片特性 | 2×QPI VT-d Gen 2 |
內(nèi)存子系統(tǒng) | |
內(nèi)存控制器 | 每CPU集成雙通道R-ECC DDR3 1333 |
內(nèi)存類型 | 2GB R-ECC DDR3 1333 SDRAM ×4條 |
存儲子系統(tǒng) | |
磁盤控制器 | 英特爾 ICH10R SATA AHCI Controller |
磁盤控制器規(guī)格 | 4x SATA 3Gb/s+2x SATA 6Gb/s AHCI w/ NCQ RAID 0/1/10 |
控制器驅(qū)動 | 英特爾 Matrix Storage Manager 8.8.0.1009 |
硬盤型號數(shù)量 | Seagate Barracuda 7200.12 ST3250318AS |
硬盤規(guī)格 | 7200RPM 500GB SATA 3Gb/s NCQ 16MB Cache |
網(wǎng)絡(luò)連通性 | |
網(wǎng)卡控制器 | 英特爾 82576EB Port Gigabit Network Controller |
網(wǎng)卡驅(qū)動 | 英特爾 PRO Set 15.8.76.0 |
軟件環(huán)境 | |
操作系統(tǒng) | Windows Server 2008 R2 Enterprise Edition SP1 x64 |
本次我們?yōu)檫@款平臺搭配的是Windows Server 2008 R2操作系統(tǒng),而且還增加了SP1補丁。剛剛我們在介紹AVX指令集的時候提到,這個指令集在SP1版本下有比較好的表現(xiàn),因此我們特別安裝了SP1補丁。平臺方面,P67平臺是當(dāng)下我們的無奈選擇,好在這個是英特爾原廠的主板,還算是比較搭配。出于測試SPEC CPU 2006的考慮,我們?yōu)槠脚_搭配了4條宇瞻 DDR3 1333內(nèi)存,這樣系統(tǒng)的內(nèi)存容量達到了16GB。
#p#
對于服務(wù)器性能方面的考察,我們主要分為子系統(tǒng)測試和應(yīng)用性能測試。在子系統(tǒng)測試中我們按處理器、內(nèi)存以及磁盤等各個子系統(tǒng)進行了分項測試,當(dāng)然各子系統(tǒng)的測試成績也是相輔相成,也需要其它子系統(tǒng)的支持,并非是完全獨立的,只是對考察的子系統(tǒng)有所偏重而已。
處理器子系統(tǒng)測試
對服務(wù)器處理器子系統(tǒng)的考察,我們主要采用的是業(yè)界公認的SPEC CPU 2006測試,該項測試通過對數(shù)十個典型應(yīng)用程序的運行,來測試系統(tǒng)處理器子系統(tǒng)在應(yīng)用中的整、浮點運算效率。SPEC CPU 2006測試具有很好的開放性,因此在業(yè)界為廣大用戶所接受,可以利用這一公開的測試結(jié)果進行系統(tǒng)間運算性能的比較。
此外SiSoftware Sandra也有測試子項可用于處理器運算性能測試,其結(jié)果通常以每秒完成的指令數(shù)來表現(xiàn)。也可以用作不同處理器間運算效率的比較。
SPEC CPU 2006 v1.1
SPEC是標(biāo)準(zhǔn)性能評估公司(Standard Performance Evaluation Corporation)的簡稱。SPEC是由計算機廠商、系統(tǒng)集成商、大學(xué)、研究機構(gòu)、咨詢等多家公司組成的非營利性組織,這個組織的目標(biāo)是建立、維護一套用于評估計算機系統(tǒng)的標(biāo)準(zhǔn)。
SPEC CPU 2006是SPEC組織推出的CPU子系統(tǒng)評估軟件最新版,我們之前使用的是SPEC CPU 2000。和上一個版本一樣,SPEC CPU 2006包括了CINT2006和CFP2006兩個子項目,前者用于測量和對比整數(shù)性能,后者則用于測量和對比浮點性能,SPEC CPU 2006中對SPEC CPU 2000中的一些測試進行了升級,并拋棄/加入了一些測試,因此兩個版本測試得分并沒有可比較性。
SPEC CPU測試中,測試系統(tǒng)的處理器、內(nèi)存子系統(tǒng)和使用到的編譯器(SPEC CPU提供的是源代碼,并且允許測試用戶進行一定的編譯優(yōu)化)都會影響最終的測試性能,而I/O(磁盤)、網(wǎng)絡(luò)、操作系統(tǒng)和圖形子系統(tǒng)對于SPEC CPU2006的影響非常的小。
SPECfp測試過程中同時執(zhí)行多個實例(instance),測量系統(tǒng)執(zhí)行計算密集型浮點操作的能力,比如CAD/CAM、科學(xué)計算等方面應(yīng)用可以參考這個結(jié)果。SPECint測試過程中同時執(zhí)行多個實例(instances),然后測試系統(tǒng)同時執(zhí)行多個計算密集型整數(shù)操作的能力,可以很好的反映諸如數(shù)據(jù)庫服務(wù)器、電子郵件服務(wù)器和Web服務(wù)器等基于整數(shù)應(yīng)用的多處理器系統(tǒng)的性能。
我們在被測服務(wù)器中安裝了英特爾 C++ 11.1.034 Compiler、英特爾 Fortran 11.1.034 Compiler這兩款SPEC CPU 2006必需的編譯器,通過最新出現(xiàn)的QxS編譯參數(shù),英特爾 Compiler 10版本開始支持對英特爾 SSE4指令集進行優(yōu)化(假如只支持SSE3,則使用QxT編譯參數(shù))。我們另外安裝了Microsoft Visual Studio 2003 SP1提供必要的庫文件。按照SPEC的要求我們根據(jù)自己的情況編輯了新的Config文件,使用了較多的編譯選項。我們根據(jù)被測系統(tǒng)選擇實際可同時處理的線程數(shù)量,最后得到SPEC rate base測試結(jié)果(基于base標(biāo)準(zhǔn)編譯,SPEC base rate測試代表系統(tǒng)同時處理多個任務(wù)的能力)。
和其它測試部件不同,SPEC CPU 2006需要大量的系統(tǒng)物理內(nèi)存,我們的SPEC測試在64位的Windows Server 2008 R2 下完成,對于每個運算核心,最低配置1.5GB內(nèi)存。
內(nèi)存子系統(tǒng)測試
對于內(nèi)存子系統(tǒng)的考察,也是利用SiSoftware Sandra來實現(xiàn),在該軟件中有相應(yīng)組件可進行內(nèi)存帶寬、內(nèi)存延遲等方面的測試。
SiSoftware Sandra v2011
SiSoftware Sandra是一款可運行在32bit和64bit Windows操作系統(tǒng)上的分析軟件,這款軟件可以對于系統(tǒng)進行方便、快捷的基準(zhǔn)測試,還可以用于查看系統(tǒng)的軟件、硬件等信息。從2007開始,Sandra的Arithmetic benchmarks增加了對SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了對于SSE4的支持,另外還升級了File System benchmark和Removable Storage benchmark兩個子項目。對于新的硬件的支持當(dāng)然也是該軟件每次升級的重要內(nèi)容之一,SiSoftware Sandra 2010對NUMA架構(gòu)以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外測試項目和測試結(jié)果也有了略微的變化。SiSoftware Sandra所有的基準(zhǔn)測試都針對SMP和SMT進行了優(yōu)化,最高可支持32/64路平臺。
#p#
激動人心的時刻終于到來了。對于一款處理器來說,許多人都喜歡使用CPU-Z來觀察它的規(guī)格。下面我們就一起來看看至強Sandy Bridge處理器給我們帶來了什么。
因為測試處理器為ES版,所以依然識別為Core i7處理器,不過下面一行倒是看得很清楚——E3 1275
8MB三級緩存,由4個核心共享,每核心分配2MB
測試主板使用的是P67芯片組
我們使用了4條宇瞻4GB DDR3 1333內(nèi)存,系統(tǒng)總內(nèi)存容量為16GB
#p#
AIDA64(原EVEREST)是一個測試軟硬件系統(tǒng)信息的工具,它可以詳細的顯示出PC硬件每一個方面的信息。支持上千種(3400+)主板,支持上百種(360+)顯卡,支持對并口/串口/USB這些PNP設(shè)備的檢測,支持對各式各樣的處理器的偵測。支持查看遠程系統(tǒng)信息和管理,結(jié)果導(dǎo)出為HTML、XML功能。
之前這款軟件命名為AIDA32,后改名為EVEREST,現(xiàn)在又改名為AIDA64,真是夠折騰的。
E3-1275支持超線程技術(shù),我們可以看到完整的8個線程
P67主板僅能夠支持雙通道內(nèi)存,不過我們剛剛在介紹System Agent的說過,這個雙通道是經(jīng)過重新設(shè)計的
系統(tǒng)北橋?qū)嶋H上就是System Agent,因為我們使用的是P67而非H67,所以顯示自帶的GPU已禁用
主板南橋信息
#p#
SPEC CPU 2006的浮點運算測試包括的全部都是科學(xué)運算,科學(xué)運算需要用到大量的高精度浮點數(shù)據(jù),如410.bwaves 流體力學(xué)、416.gamess 量子化學(xué)、433.milc 量子力學(xué)、434.zeusmp 物理:計算流體力學(xué)、435.gromacs 生物化學(xué)/分子力學(xué)、436.cactusADM 物理:廣義相對論、437.leslie3d 流體力學(xué)、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 線形編程、優(yōu)化、453.povray 影像光線追蹤、454.calculix 結(jié)構(gòu)力學(xué)、459.GemsFDTD 計算電磁學(xué)、465.tonto 量子化學(xué)、470.lbm 流體力學(xué)、481.wrf 天氣預(yù)報、482.sphinx3 語音識別共17項測試。
首先我們看到的是浮點預(yù)算的測試成績,我們采用的對比處理器為至強X3430。至強X3430是上一代的單路服務(wù)器產(chǎn)品,采用45nm工藝,其主頻為2.4GHz,4核心4線程。從這個測試結(jié)果來看,E3-1275大幅度領(lǐng)先于對比產(chǎn)品,許多項目的性能提升在一倍以上。
這個原因是多方面的。首先從主頻上來看,E3-1275相比X3430提升了1GHz的主頻,差距很明顯;其次是超線程的應(yīng)用,8線程相比4線程也提升了一倍;第三是處理器微架構(gòu)的差別,包括整體的設(shè)計及制造工藝。因此,至強E3-1275的明顯優(yōu)勢也就沒什么好奇怪的了。
#p#
SPEC CPU 2006整數(shù)運算主要包含編譯、壓縮、人工智能、視頻壓縮轉(zhuǎn)換、XML處理等,此外,各種日常操作也主要是基于整數(shù)操作。SPEC CPU 2006的整數(shù)運算包含了400.perlbench PERL編程語言、401.bzip2 壓縮、403.gcc C編譯器、429.mcf 組合優(yōu)化、445.gobmk 人工智能:圍棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:國際象棋、462.libquantum 物理:量子計算、464.h264ref 視頻壓縮、471.omnetpp 離散事件仿真、473.astar 尋路算法、483.xalancbmk XML處理共12項。
剛才我們說過了E3-1275在硬件規(guī)格及軟件設(shè)計上的三點優(yōu)勢,這些優(yōu)勢在整數(shù)運算中表現(xiàn)更為明顯,部分項目領(lǐng)先了X3430達5倍之多。
#p#
SiSoftware Sandra是一款很不錯的軟件,但是對于Sandy Bridge平臺來說,原來的2010版本已經(jīng)不能使用,而目前提供免費下載的版本型號為2011Lite。相比我們之前使用的Business版本來說,Lite版簡化了許多的功能,還好我們常用的測試項目都還在。
在成績分析前我們必須要清楚,這兩個相對比的服務(wù)器平臺所配的處理器分屬于英特爾至強5500和5600前后兩個不同的系列,雖然二者每個處理器都是4個核心,但是二者的工作頻率卻有比較大的差距,聯(lián)想萬全R525 G3采用的至強E5620的工作主頻為2.4GHz,是至強5600系列中主頻最低的,而對比服務(wù)器平臺所選用的至強X5570卻是至強5500系列中工作主頻最高的,為2.93GHz。接下來的對比也將是兩個處理器配置懸殊的服務(wù)器平臺間的較量。
SiSoftware Sandra Lite 2011
|
||
產(chǎn)品名稱 | 至強E3-1275 | 至強X3430 |
平臺類型 | 單路Sandy Bridge | 單路Lynnfield |
Processor Arithmetic Benchmark 處理器算術(shù)運算測試 |
||
---|---|---|
Dhrystone ALU | 136.74GIPS |
62244MIPS
|
Dhrystone ALU vs SPEED | 35.98MIPS/MHz | 48.75MIPS/MHz |
Whetstone iSSE3 | 83.43 GFLOPS |
29187MFLOPS
|
Dhrystone iSSE3 vs SPEED | 21.96 MFLOPS/MHz |
12.16MFLOPS/MHz
|
Processor Multi-Media Benchmark 處理器多媒體測試 |
||
Multi-Media Int x16 iSSE4.1 | 201.26MPixel/s |
106.74MPixel/s
|
Multi-Media Int x16 iSSE4.1 vs SPEED | 78.26 kPixels/s/MHz |
44.48kPixels/s/MHz
|
Multi-Media Float x8 iSSE2 | 153MPixel/s |
81.28MPixel/s
|
Multi-Media Float x8 iSSE2 vs SPEED | 59.48 kPixels/s/MHz |
33.87kPixels/s/MHz
|
Multi-Media Double x4 iSSE2 | 83.54MPixel/s |
42.24MPixel/s
|
Multi-Media Double x4 iSSE2 vs SPEED | 32.49 kPixels/s/MHz |
17.60kPixels/s/MHz
|
Multi-Core Efficiency Benchmark 處理器效能測試 |
||
Inter-Core Bandwidth | 16 GB/s |
13.27GB/s
|
Inter-Core Bandwidth vs SPEED | 4.29 MB/s/MHz |
5.66MB/s/MHz
|
Inter-Core Latency(越小越好) | 42.4ns |
60ns
|
Inter-Core Latency vs SPEED(越小越好) | 0.01ns/MHz |
0.03ns/MHz
|
.NET Arithmetic Benchmark .NET算術(shù)運算測試 |
||
Dhrystone .NET | 18GIPS |
11567MIPS
|
Dhrystone .NET vs SPEED | 5MIPS/MHz |
4.82MIPS/MHz
|
Whetstone .NET | 50.1 GFLOPS |
26730MFLOPS
|
Whetstone .NET vs SPEED | 13.92MFLOPS/MHz |
11.14MFLOPS/MHz
|
.NET Multi-Media Benchmark .NET多媒體測試 |
||
Multi-Media Int x1 .NET | 37.72 MPixel/s |
21.93MPixel/s
|
Multi-Media Int x1 .NET vs SPEED | 9.93MPixel/s |
9.14kPixels/s/MHz
|
Multi-Media Float x1 .NET | 13.7MPixel/s |
7.26MPixel/s
|
Multi-Media Float x1 .NET vs SPEED | 3.61kPixels/s/MHz |
3.03kPixels/s/MHz
|
Multi-Media Double x1 .NET | 27.22 MPixel/s |
11.82MPixel/s
|
Multi-Media Double x1 .NET vs SPEED | 7.16 kPixels/s/MHz |
4.92kPixels/s/MHz
|
依然是一邊倒的成績,我們甚至覺得選擇X3430作為對比產(chǎn)品有點怠慢了E3-1275。不過沒辦法,單路服務(wù)器處理器數(shù)量太少,我們手中的數(shù)據(jù)有較為有限。
#p#
SiSoftware Sandra Lite 2011
|
||
產(chǎn)品名稱 | 至強E3-1275 | 至強X3430 |
平臺類型 | 單路Sandy Bridge | 單路Lynnfield |
Memory Bandwidth Benchmark 內(nèi)存帶寬測試 |
||
---|---|---|
Int Buff'd iSSE2 Memory Bandwidth | 17.37 GB/s |
13.78GB/s
|
Float Buff'd iSSE2 Memory Bandwidth | 17.37GB/s |
13.77GB/s
|
Memory Latency Benchmark 內(nèi)存延遲測試 |
||
Memory(Random Access) Latency (越小越好) | 73.3ns |
89ns
|
Speed Factor (越小越好) | 68.20 |
57.50
|
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 11clocks | 9clocks |
L3 On-board Cache | 35clocks | 47clocks |
Cache and Memory Benchmark 緩存及內(nèi)存測試 |
||
Cache/Memory Bandwidth | 97.76GB/s |
51.08GB/s
|
Cache/Memory Bandwidth vs SPEED | 27.06MB/s/MHz |
21.79MB/s/MHz
|
Speed Factor (越小越好) | 38.10 |
27.10
|
Internal Data Cache | 427.84GB/s |
205.08GB/s
|
L2 On-board Cache | 287.5GB/s |
175.49GB/s
|
內(nèi)存帶寬測試中,同樣是雙路的兩款平臺在性能上出現(xiàn)了較大的差異,特別是L3緩存的項目中差距較大,這都是環(huán)形總線的功勞。
#p#
CineBench是基于Cinem4D工業(yè)三維設(shè)計軟件引擎的測試軟件,用來測試對象在進行三維設(shè)計時的性能,它可以同時測試處理器子系統(tǒng)、內(nèi)存子系統(tǒng)以及顯示子系統(tǒng),我們的平臺偏向于服務(wù)器多一些,因此就只有前兩個的成績具有意義。和大多數(shù)工業(yè)設(shè)計軟件一樣,CineBench可以完善地支持多核/多處理器,它的顯示子系統(tǒng)測試基于OpenGL。
CineBench R10
|
||
產(chǎn)品名稱 | 至強E3-1275 | 至強X3430 |
平臺類型 | 單路Sandy Bridge | 單路Lynnfield |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 6041 CB-CPU | 3868 CB-CPU |
Rendering (x CPU) | 23643 CB-CPU | 12964 CB-CPU |
Multiprocessor Speedup | 3.91x |
3.35x
|
OpenGL Benchmark | ||
OpenGL Standard | 335 CB-GFX | 7690 CB-GFX |
至強E3-1275處理器。
#p#
本次測試的至強E3-1275是E3系列的高端產(chǎn)品,具備了4核心8線程,性能非常強悍。下面,我們將關(guān)閉E3-1275的超線程功能,觀察在這個狀態(tài)下它的性能表現(xiàn),以便總結(jié)超線程技術(shù)對于Sandy Bridge處理器的影響。
SiSoftware Sandra Lite 2011
|
||
產(chǎn)品名稱 | 至強E3-1275(開啟) | 至強E3-1275(關(guān)閉) |
平臺類型 | 單路Sandy Bridge | 單路Sandy Bridge |
Processor Arithmetic Benchmark 處理器算術(shù)運算測試 |
||
---|---|---|
Dhrystone ALU | 136.74GIPS |
106.77GIPS
|
Dhrystone ALU vs SPEED | 35.98MIPS/MHz | 28.86MIPS/MHz |
Whetstone iSSE3 | 83.43 GFLOPS |
49.57 GFLOPS
|
Dhrystone iSSE3 vs SPEED | 21.96 MFLOPS/MHz |
13.40MFLOPS/MHz
|
Processor Multi-Media Benchmark 處理器多媒體測試 |
||
Multi-Media Int x16 iSSE4.1 | 201.26MPixel/s |
163.79MPixel/s
|
Multi-Media Int x16 iSSE4.1 vs SPEED | 78.26 kPixels/s/MHz |
63.69kPixels/s/MHz
|
Multi-Media Float x8 iSSE2 | 153MPixel/s |
111.37 MPixel/s
|
Multi-Media Float x8 iSSE2 vs SPEED | 59.48 kPixels/s/MHz |
43.3kPixels/s/MHz
|
Multi-Media Double x4 iSSE2 | 83.54MPixel/s |
60.16MPixel/s
|
Multi-Media Double x4 iSSE2 vs SPEED | 32.49 kPixels/s/MHz |
23.4kPixels/s/MHz
|
Multi-Core Efficiency Benchmark 處理器效能測試 |
||
Inter-Core Bandwidth | 16 GB/s |
8.84GB/s
|
Inter-Core Bandwidth vs SPEED | 4.29 MB/s/MHz |
2.45MB/s/MHz
|
Inter-Core Latency(越小越好) | 42.4ns |
40.2ns
|
Inter-Core Latency vs SPEED(越小越好) | 0.01ns/MHz |
0.11ns/MHz
|
.NET Arithmetic Benchmark .NET算術(shù)運算測試 |
||
Dhrystone .NET | 18GIPS |
15.81GIPS
|
Dhrystone .NET vs SPEED | 5MIPS/MHz |
4.16MIPS/MHz
|
Whetstone .NET | 50.1 GFLOPS |
29.34GFLOPS
|
Whetstone .NET vs SPEED | 13.92MFLOPS/MHz |
7.72MFLOPS/MHz
|
.NET Multi-Media Benchmark .NET多媒體測試 |
||
Multi-Media Int x1 .NET | 37.72 MPixel/s |
29.17MPixel/s
|
Multi-Media Int x1 .NET vs SPEED | 9.93MPixel/s |
7.68kPixels/s/MHz
|
Multi-Media Float x1 .NET | 13.7MPixel/s |
8.16MPixel/s
|
Multi-Media Float x1 .NET vs SPEED | 3.61kPixels/s/MHz |
2.15kPixels/s/MHz
|
Multi-Media Double x1 .NET | 27.22 MPixel/s |
16.24MPixel/s
|
Multi-Media Double x1 .NET vs SPEED | 7.16 kPixels/s/MHz |
4.27kPixels/s/MHz
|
對比開啟與關(guān)閉超線程的測試數(shù)據(jù)我們發(fā)現(xiàn),處理器計算性能方面,開啟超線程之后會有30%-50%左右的性能提升,多媒體方面的性能提升為30%左右。而在.NET測試中,這個數(shù)值被縮小到了15%-30%,效能測試的時候兩者的差距大約為40%??傮w而言,在開啟超線程之后,Sandy Bridge至強處理器在運算性能上會有30%左右的提升,這個數(shù)值與Nehalem與Westmere的成績是差不多的,事實上我們也沒發(fā)現(xiàn)Sandy Bridge在超線程方面有什么特別大的改動。
#p#
接下來同樣是開啟與關(guān)閉超線程下的內(nèi)存/緩存系統(tǒng)測試。
SiSoftware Sandra Lite 2011
|
||
產(chǎn)品名稱 | 至強E3-1275(開啟) | 至強E3-1275(關(guān)閉) |
平臺類型 | 單路Sandy Bridge | 單路Sandy Bridge |
Memory Bandwidth Benchmark 內(nèi)存帶寬測試 |
||
---|---|---|
Int Buff'd iSSE2 Memory Bandwidth | 17.37 GB/s |
17.78GB/s
|
Float Buff'd iSSE2 Memory Bandwidth | 17.37GB/s |
17.78GB/s
|
Memory Latency Benchmark 內(nèi)存延遲測試 |
||
Memory(Random Access) Latency (越小越好) | 73.3ns |
73.2ns
|
Speed Factor (越小越好) | 68.20 |
68.30
|
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 11clocks | 11clocks |
L3 On-board Cache | 35clocks | 35clocks |
Cache and Memory Benchmark 緩存及內(nèi)存測試 |
||
Cache/Memory Bandwidth | 97.76GB/s |
100.55GB/s
|
Cache/Memory Bandwidth vs SPEED | 27.09MB/s/MHz |
27.09MB/s/MHz
|
Speed Factor (越小越好) | 38.10 |
39.10
|
Internal Data Cache | 424.22GB/s |
424.22GB/s
|
L2 On-board Cache | 355.42GB/s |
355.42GB/s
|
相對比的兩臺服務(wù)器所作用的處理器都采用了集成內(nèi)存控制器的設(shè)計,由于工作主頻的不同,這兩款不同處理器的QPI傳輸并不一樣,聯(lián)想萬全R525 G3所用處理器的QPI帶寬為5.86GT/s,而對比平臺的至強X5570處理器的QPI為6.4GT/s。不過這兩個服務(wù)器平臺的內(nèi)存的實際工作頻率卻并不一樣,雖然在測試中兩個平臺所使用的內(nèi)存條都是DDR3 1333,聯(lián)想萬全R525 G3共安裝了6條,它的實際工作頻率為1066,而對比平臺共裝配了18條內(nèi)存,內(nèi)存工作頻率只能達到800MHz,也正是以上這一內(nèi)存安裝方式的不同,直接導(dǎo)致了處理器QPI頻率較低的聯(lián)想萬全R525 G3內(nèi)存帶寬成績占了上風(fēng)。
#p#
最后我們進行的是CineBench項目的測試。CineBench測試中有一個處理器核心能效比的內(nèi)容,我們相信這個項目更可以看出開關(guān)超線程之后的性能差距。
CineBench R10
|
||
產(chǎn)品名稱 | 至強E3-1275(開啟) | 至強E3-1275(關(guān)閉) |
平臺類型 | 單路Sandy Bridge | 單路Sandy Bridge |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 6041 CB-CPU | 6188 CB-CPU |
Rendering (x CPU) | 23643 CB-CPU | 20886 CB-CPU |
Multiprocessor Speedup | 3.91x | 3.38x |
OpenGL Benchmark | ||
OpenGL Standard | 335 CB-GFX | 336 CB-GFX |
CineBench10所進行測試項目在于考察單核心與多核心的性能對比。我們可以看到,對于CineBench R10來說,開啟超線程下的MS成績?yōu)?.91,關(guān)閉的時候只有3.38,相比之下提升了15.6%。
CineBench R11.5
|
||
產(chǎn)品名稱 | 至強E3-1275(開啟) | 至強E3-1275(關(guān)閉) |
平臺類型 | 單路Sandy Bridge | 單路Sandy Bridge |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 1.52 pts | 1.42 pts |
Rendering (x CPU) | 6.84 pts | 5.59 pts |
MP Ratio | 4.51x | 3.95x |
OpenGL Benchmark | ||
OpenGL | - | - |
而在最新的Cinebench R11.5進行的測試中,兩者的成績差距并沒有拉大,依然在15%左右。因為CineBench只考察核心與效能的關(guān)系,而之前我們的測試項目更多還依賴于整體平臺的性能,因此單純從提升來說,CineBench只能看到15%的提升,但是開啟超線程之后,整體平臺的提升會更高一些。
#p#
Tick-Tock戰(zhàn)略的出現(xiàn),使英特爾避免了在同一年更新制程和微架構(gòu),有效的規(guī)避了新平臺、新制程出現(xiàn)所帶來的商業(yè)風(fēng)險。而將新品首先試水桌面平臺,進而在推廣到服務(wù)器平臺也是非常明智的舉措,這次Sandy Bridge處理器就充分說明了這個問題。事實上,由于配套芯片組的問題,Sandy Bridge處理器在推廣之初就遭遇挫折,幸好英特爾的反應(yīng)夠快,在服務(wù)器平臺上我們并沒有發(fā)現(xiàn)這樣的問題。而隨著至強Sandy Bridge處理器的推出,也標(biāo)志著英特爾在桌面和服務(wù)器兩個平臺上全面轉(zhuǎn)向了新的微架構(gòu),Tock時代終于到來了。
至強Sandy Bridge處理器終于現(xiàn)身了
Sandy Bridge處理器相比上一代的產(chǎn)品有了非常大的改進,包括AVX指令集、環(huán)形總線架構(gòu)、全新System Agent系統(tǒng)助手、革命性的整合GPU等內(nèi)容。事實上,Sandy Bridge最大的特征在于全32nm整合CPU和GPU,但對于服務(wù)器來說,GPU作為多媒體工具來說并沒有實際的用處,除非可以通過GPU加速運算。
我們再來看看性能。相比上一代的至強3400系列來說,至強E3系列在性能上有了大幅度的提升, 有著至少30%的性能優(yōu)勢,部分項目的性能優(yōu)勢得到了翻倍。相比之下,超線程方面自從Nehalem開始為至強處理器增加了這一功能之后,在Sandy Bridge上面我們并沒有看到明顯的革新。
對于至強系列來說,E3僅僅是低端的入門版本,今年英特爾主推的依然是面向雙路服務(wù)器應(yīng)用的E5系列,不過這個系列要等到下半年才可以看到。今天,英特爾發(fā)布了E7系列的產(chǎn)品,雖然使用了全新的命名,但是E7卻是我們熟知的Westmere-EX。
我們相信,隨著新一代Sandy Bridge至強處理器的出現(xiàn),我們在服務(wù)器領(lǐng)域可以看到越來越多的、性能更為出色的產(chǎn)品出現(xiàn)。我們期待著這一天的早日到來。
【編輯推薦】