拒絕新品!多款主流服務器橫評(多圖)
據(jù)美國Alliance to Save Energy節(jié)能聯(lián)盟的資料顯示,以現(xiàn)在的增長速度來看,如果數(shù)據(jù)中心的能效不做提升的話,那么它們的用電需求將不停提高,不到10年的時間就可以翻倍,而全球數(shù)據(jù)中心的電費也將每年再增加2億~3億美元。同時,市場研究公司Gartner也預言,在接下來的幾年中,世界上一半左右的數(shù)據(jù)中心將受到電力和空間的約束,能耗會占到IT部門三分之一左右的預算,IT組織在能耗方面的花費將達到硬件花費的四分之一。
而且,大量的IT基礎設施(除了服務器之外、還有網(wǎng)絡、冷卻等設備)所消耗的不僅僅是電力,產(chǎn)生這些電力的能源消耗所帶來的環(huán)境污染更加令人擔憂。因此,在這樣的大背景下,以節(jié)能、環(huán)保、高效為核心價值的綠色IT產(chǎn)品與技術的發(fā)展,也就成為了新一代IT產(chǎn)品的創(chuàng)新重點。
現(xiàn)在,IT行業(yè)整個范圍內(nèi),包括從芯片、服務器、存儲到網(wǎng)絡設備廠商,都希望在自身的產(chǎn)品上做更優(yōu)化的設計,力圖在提升產(chǎn)品性能的同時,推出更為節(jié)能的產(chǎn)品??梢哉f,綠色節(jié)能、高效計算已經(jīng)成為了整個IT界的產(chǎn)品趨勢。下面我們就從數(shù)據(jù)中心的重要組成部分:服務器來對綠色高效計算進行探討。
早在上一年10月的時候,英特爾發(fā)布了使用了45nm工藝制程的Penryn系列處理器?;赥ick-Tock戰(zhàn)略,它和上一代65nm的Conroe相比,微架構上的變化并不大,同時依靠于SSE4等變化,性能也可以有比較明顯的提升,最明顯的地方是由于制程上的大進步,功耗得到了極大的降低。
Tick-Tock戰(zhàn)略
按照Tick-Tock規(guī)劃,Conroe面市1年后的今天,Intel將會推出45nm工藝、基于Core微架構改良的處理器產(chǎn)品,也就是我們熟知的代號為Penryn的新一代Core 2 處理器家族。Penryn家族將基于全新45納米High-K金屬閘極(High-K Metal Gate) 技術,配合經(jīng)過改良的微架構設計,達成Intel目標每年推出具備增強微架構或全新微架構處理器產(chǎn)品的承諾。
Intel 45nm Penryn處理器
除了Intel已經(jīng)普遍使用的45nm Penryn之外,AMD也開始將其產(chǎn)品轉(zhuǎn)移到45nm工藝——就在我們的橫評進行期間,送來采用65nm AMD Operton處理器的兩個廠商浪潮Inspur和戴爾DELL表示他們現(xiàn)在就可以提供代號為Shanghai的45nm Operton處理器,僅需要升級BIOS,就可以完成升級工作,大幅度提升性能。
AMD Shanghai/上海,采用了45nm工藝制程(這也是AMD CPU第一次采用45nm),集成了7.05億晶體管,擁有共享6M的三級緩存,增強的雙通道內(nèi)存控制器可以同時支持DDR2內(nèi)存和DDR3內(nèi)存,內(nèi)置了最多4條Hyper Transport總線以支持組建大規(guī)模并行系統(tǒng),“上海”還支持AMD的快速虛擬化索引(RVI)的AMD-V虛擬化技術,同時具備48位物理尋址能力,尋址空間可以達到(256TB)。
工藝的進步影響最大的就是功耗,根據(jù)我們的測試,Intel的65nm到45nm的工藝轉(zhuǎn)變有著接近30%~40%的功耗降低,AMD的65nm到45nm工藝轉(zhuǎn)變也是有著相似的數(shù)字,雖然題目是SPEC測試,不過這一頁中進行了簡單的功率測試。制程帶來的功耗降低可以讓廠商們通過直接提升處理器們的L2/L3緩存來提高性能,同時功耗仍然保持在較低的水平,可以說,對能效比這個概念來說是很有意義的。
#p#
Intel嚴格的按照其“Tick-Tock”戰(zhàn)略,在2007年的11月份推出了基于45nm制程的四核處理器,代號Harpertown。相對于上一代65nm Clovertown核心的產(chǎn)品,Harpertown進一步優(yōu)化了微架構,添加了功能并且升級了主要規(guī)格。

Xeon E5430處理器,2.66GHz,12M緩存,1333MHz FSB,具有適中的性能、功耗及價格
高分辨率45nm Penryn核心圖片,Nehalem之前的Core架構仍然是基于雙核設計的
從65nm到45nm的轉(zhuǎn)變,不僅僅是當前芯片設計在體積上的縮小。此類處理器中還增加了許多新的特性,如全新的英特爾SIMD流指令擴展4(SSE4),可通過47條全新指令加快包括視頻編碼在內(nèi)的工作負載的處理速度,從而支持高清晰度畫質(zhì)和照片處理,以及重要的HPC和企業(yè)應用。
較高端的X5460處理器,后來Intel還發(fā)布了頻率更高的X5482處理器
和上一代Clovertown相比,Harpertown處理器將2 x 4MB的L2緩存提升到了2 x 6MB L2緩存,每兩個核心共享6MB緩存。Harpertown處理器將不再使用舊的1066MHz FSB,而開始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技術,四核Harpertown的功耗依然保持同現(xiàn)有的雙核大致相當?shù)乃?,TDP為80瓦、120瓦和150瓦,并且頻率規(guī)格也有所提高,最高端的Xeon X5492處理器可以達到3.4GHz,而上一代Xeon X5365只有3.00GHz。
45nm Penryn的增強Core架構主要基于5大方面的改進
除了采用了更新的45nm工藝,Xeon 5400在微架構方面也做了大量的改進,主要包括以下5個方面:
- Intel Wide Dynamic Execution(Intel寬動態(tài)執(zhí)行)方面的改進著實從處理器基礎架構上提升了處理器的運算性能,它包括快速16進制除法器、更快速的操作系統(tǒng)基礎支持、增強的Intel虛擬化技術三個部分。與桌面平臺相關的主要是16進制除法器,而服務器則可以從所有的改進內(nèi)容中獲益。
- Faster Radix-16 Divider(快速Radix-16除法器)
雖然除法也可以用乘法來代替,不過單獨的除法指令、除法運算器部件顯然可以提升效能,Penryn架構搭載了新的16進制除法部件,可以提供目前最頂級的除法性能。傳統(tǒng)的2進制或者4進制除法只能在每個時鐘處理1位或者2位數(shù)據(jù)(2個位就能表示4個數(shù),也就是4進制的意思),而Penryn 16進制除法器可以每個時鐘處理4位數(shù)據(jù)(4個位就能表示16個數(shù)),可以大大提升包括整數(shù)、浮點在內(nèi)的除法性能,并大大優(yōu)化了平方根的運算,而且Penryn的除法器的Early-out構造可以以極低的延遲輸出結(jié)果,最小值需要6個時鐘周期。除法器的性能提升幾乎涉及到了所有的應用程序。
- Faster OS Primitive Support(更快速的操作系統(tǒng)原語支持)
Primitive原語是指一些基本的操作語義,Penryn增強了操作系統(tǒng)的同步原語,通過提升中斷遮罩控制以及時間戳計數(shù)器的性能,從而達到提升操作系統(tǒng)同步性能的目的。通常的多任務操作系統(tǒng)中,需要通過大量的硬件/軟件中斷請求來驅(qū)動設備、處理時分多任務,這些中斷請求處理需要CPU不斷地在多個線程之間切換,這些線程的上下文切換將會帶來巨大的開銷。Penryn的微架構通過減少流水線停頓的方法來增強多線程切換的性能(線程上下文切換會很容易引起流水線停頓)。此外,在繁忙的操作系統(tǒng)中,不同程序中大量的定時器/計數(shù)器需要不停地查詢時間戳計數(shù)器,通過2倍于原來速度的CLI/STI/RDTSC指令執(zhí)行速度,Penryn架構大大提升了這些應用的性能,例如數(shù)據(jù)中心、事務處理等應用都可以從中獲得明顯的提升,這有點像現(xiàn)代芯片組中新增加的精確時鐘技術,這個技術可以比較明顯地提升繁忙的服務器的性能表現(xiàn)。
- Enhanced Intel Virtualization Technology(增強的Intel虛擬化技術)
作為當前的熱點,也是Intel當前專注的部分,虛擬化技術也沒有被忽略,這個持續(xù)發(fā)展中的技術也獲得了改進:VM Exit/VM Entry性能獲得了25%~75%的提升,在虛擬化應用中,虛擬機切換是很頻繁的,VM Exit/VM Enry的執(zhí)行也就很是頻繁,這方面的改進可以明顯地改進虛擬機(特別是多虛擬機)下的性能。
- Intel Advanced Smart Cache(Intel先進智能緩存)則進一步提升了緩存性能,以符合未來多核心的趨勢,其包括了更大容量的緩存以及更多路的緩存關聯(lián),服務器對L2緩存的利用效率是非常高的。
Intel Advanced Smart Cache其實就是L2緩存方面的改進,Penryn處理器家族的L2緩存容量得到了提升,雙核心版本將擁有最多6MB、四核心將擁有最多12MB的L2緩存,比上一個版本增大了50%。并且在容量提升的基礎上,Penryn還把L2 Cache的Associativity關聯(lián)性由上一代的16路提升到了24路,令L2緩存存取的平均潛伏期得到了進一步的下降。
- Intel Smart Memory Access(Intel智能內(nèi)存存?。?/strong>提升了裝載數(shù)據(jù)的速度,包括強化的存儲轉(zhuǎn)發(fā)結(jié)構和更高的總線帶寬設計。
除了更快的1600MT/s總線可以提供更高的存取速度之外,Penryn架構還提供了Improved Store Forwarding強化存儲轉(zhuǎn)發(fā)特性,通過新的64位載入指令,提升了內(nèi)存之間、核心之間等的存儲轉(zhuǎn)發(fā)性能。
- Intel Advanced Digital Media Boost(Intel先進數(shù)字媒體增強)則是對數(shù)字媒體的一系列優(yōu)化、增強,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超級傳送引擎,這一點留待下一節(jié)介紹。
- Intel Intelligent Power Capability(Intel智能電源特性)則是充分發(fā)揮新制程的特點,降低總體能源的消耗,包括了深層關機技術和增強的Intel動態(tài)加速技術(該項改進主要針對移動平臺)。
#p#
Bensley平臺仍然是主流,Stoakley平臺形蹤難覓
Intel于06年年初發(fā)布的Bensley平臺在最近的幾年內(nèi)得到了服務器廠商廣泛采用。這個平臺包括了三款芯片組它們是Intel 5000P、Intel 5000V和Intel 5000X,其中的前兩者主要定位于服務器應用,而后者是定位于工作站應用——當然,也可以應用于服務器。為了支持全系列Xeon 5400處理器,Intel在08年還推出了兩個新的芯片組系列產(chǎn)品:Intel 5400芯片組和Intel 5100芯片組。
45nm High-K Xeon 5400 DP處理器與采用了Intel 5000芯片組家族的Bensley服務器平臺保持了較好的兼容,除了不能支持1600FSB Xeon 54x2處理器之外,可以很好的支持其它的1333FSB Xeon 5400處理器。這對于服務器廠商來說的確是一件好事,他們可以不必放棄已經(jīng)經(jīng)過2年市場考驗的成熟系統(tǒng),直接將現(xiàn)有產(chǎn)品升級到Xeon 5400即可得到一款“新產(chǎn)品”了。這也就是我們?yōu)槭裁船F(xiàn)在看到的幾乎所有服務器都依然固守在Bensley平臺上的主要原因。
Intel 5000P、Intel 5000V這兩款芯片組的關系就如同以往的Intel E7520和Intel E7320芯片組的關系,Intel 5000P定位相對較高,Intel 5000V定位略低。Intel 5000P和Intel 5000V芯片組的主要區(qū)別在于MCH芯片,它們均可以搭配新的6321ESB芯片(又叫ESB2,Enterprise South Bridge 2)或者6700PXH芯片。
Intel 5000P芯片組功能示意圖
Intel 5000V芯片組功能示意圖
Intel 5100P芯片組功能示意圖
Intel 5400芯片組功能示意圖
Intel 5000系列芯片組通過獨立的點對點系統(tǒng)總線支持兩個處理器,完全不同于之前的芯片組采用的共享總線的方式,這被英特爾稱之為雙獨立總線(DIB)。每條總線運行頻率為333MHz(1333MT/s),那么安裝了FSB1333處理器的系統(tǒng)的前端總線的總帶寬最高可達21.2GB/s。
Intel 5000系列芯片組開始支持FB-DIMM(Fully Buffered DIMM)內(nèi)存,英特爾計劃讓這種新型的內(nèi)存全面取代現(xiàn)有的ECC Register DIMM。Intel 5000P MCH支持36bit尋址能力,總共可支持64GB物理內(nèi)存。MCH支持4個FB-DIMM內(nèi)存通道,每個通道最高支持4個Dual-Bank FB-DIMM DDR DIMM。因此在非鏡像模式下,MCH最高可支持16 DIMM或者最大64GB物理內(nèi)存,在鏡像模式下最大可以支持32GB物理內(nèi)存。Intel 5000V MCH則僅支持2個FB-DIMM內(nèi)存通道,每個通道最高可支持4 DIMMs,總共可支持8 DIMM,那么最高內(nèi)存容量可達16 GB。而Intel 5100則是采用通常DDR2解決方案的產(chǎn)品,也許是Intel觀察到了FBDIMM具有昂貴、發(fā)熱量較大的缺點。5100芯片組確實是面向比較廉價解決方案的產(chǎn)品,它只支持最多雙通道內(nèi)存,而且采用了源自桌面平臺的ICH9R南橋芯片組。
每個安裝了DDR667 FB-DIMM內(nèi)存的FB-DIMM通道的讀取帶寬為5.33 GB/s,所以4個通道最高可以提供21.2GB/s的內(nèi)存帶寬,這正好同F(xiàn)SB1333 DIB總線的帶寬相匹配。在雙通道配置的Intel 5000V/5100平臺上,這些數(shù)字都將減半,總帶寬為10.6GB/s。
Intel 5000P MCH和Intel 5000V MCH另外一個重要區(qū)別是對于PCI-Express總線的支持,5000P MCH支持3個x8 PCI-Express通道,每通道可以進一步配置為2個x4通道,其中1個x8通道(或者配置為2個x4通道)將用于同ESB2通訊。5000V MCH則僅提供1個x8(或者配置為2個x4通道)將用于同ESB2通訊。
嶄新的Stoakley平臺由45nm Harpertown處理器和5400芯片組組成
Stoakley平臺主要在于新的5400芯片組(應用5400芯片組的產(chǎn)品現(xiàn)在仍然不是很多)。Intel 5400 MCH芯片代號為Seaburg,它依然采用了DIB前端總線,工作模式為1066/1333/1600MT/s,可提供17-25.6GB/s的數(shù)據(jù)傳輸帶寬——可很好的支持Intel Xeon 54x2處理器。為了保證雙路四核系統(tǒng)的效能,Seaburg整合了容量高達24MB的Snoop Filter(探聽過濾器)緩存。
在以前的5000X芯片組上,我們就已經(jīng)看到了Snoop Filter緩存的存在,現(xiàn)在Seaburg將5000X的12MB容量擴展的更大。探聽過濾器是位于芯片組中的高速緩存標記結(jié)構,它可追蹤處理器中的高速緩存的高速緩存線狀態(tài)——只是包括其標簽和狀態(tài),不包括數(shù)據(jù),過濾不必要的SNOOP偵聽操作(Snoop操作就是一個處理器核心不時看看其他處理器核心有沒有對自己掌握的huancun頁面進行了修改),有助于減少處理器的前端總線發(fā)生數(shù)據(jù)堵塞的情況,幫助多個處理器核心更好的協(xié)作,以提升多路處理器系統(tǒng)的工作效率。Snoop Filter的容量要大于或等于每個CPU二級緩存容量之和才能發(fā)揮最佳的作用,5400系列處理器的二級緩存從5300系列的8MB增加到12MB,相應的5400芯片組中Snoop Filter也由5000X的16MB增加到24MB(兩個處理器)。
Seaburg整合了4通道FB-DIMM 533/667MHz內(nèi)存控制器,最高可提供21GB/s的內(nèi)存帶寬。當然,我們不排除細分市場的需要,會有雙通道版本的Seaburg(雖然現(xiàn)在還沒有看到)。Seaburg所整合的內(nèi)存控制器最高尋址范圍為38bit(128GB),是上一代MCH的一倍。
從Intel各代芯片組的變遷來看,除了需要對相應的處理器提供支持所做的必需改進之外,Intel芯片組最大的改變就是內(nèi)存控制器。從本頁最后的表格可以看出,目前Intel 5000、Intel 5100和Intel 5400系列芯片組均可支持Intel Xeon 5100/5200/5300和5400中的大部分處理器。只有Intel 5100系列芯片組支持DDR2,而其余的Intel 5000X/P/V和Intel 5400系列芯片組均支持FBD內(nèi)存。但是在RASUM相關的功能中,Intel 5000X/P和Intel 5400芯片組是相同的,而Intel 5000V和Intel 5100芯片組是相同的,它們均不支持Memory RAID和 Memory mirroring功能。
Intel 5100 | Intel 5000X | Intel 5000P | Intel 5000V | Intel 5400 | |
名稱 | 5100芯片組 | 5000X芯片組 | 5000P芯片組 | 5000V芯片組 | 5400芯片組 |
目標應用 | 入門服務器 | 服務器/工作站 | 主流服務器/工作站 | 入門服務器 | 服務器/工作站 |
處理器 | 四核/雙核Intel Xeon 5000系列 | 四核/雙核Intel Xeon 5000系列 | 四核/雙核Intel Xeon 5000系列 | 四核/雙核Intel Xeon 5000系列 | 四核/雙核Intel Xeon 5000系列 |
處理器數(shù)量 | 1-2 | 1-2 | 1-2 | 1-2 | 1-2 |
系統(tǒng)總線 | 1066/1333MHz | 1066/1333MHz | 1066/1333MHz | 1066/1333MHz | 1067/1333/1600 MHz |
MCH 封裝 | 1432 FC-BGA | 1432 FC-BGA | 1432 FC-BGA | 1432 FC-BGA | 1520 FC-BGA |
內(nèi)存類型 | DDR2 | FBDIMM | FBDIMM | FBDIMM | FBDIMM |
內(nèi)存規(guī)格 | DDR2 533/667 | DDR2 FBDIMM 533/667 | DDR2 FBDIMM 533/667 | DDR2 FBDIMM 533/667 | DDR2 FBDIMM 533/667/800 |
最高內(nèi)存容量 | 32 GB(發(fā)布時) 48GB(2008年) |
64 GB | 64 GB | 32 GB | 128 GB |
內(nèi)存通道 | 2xDDR2通道,每通道最多支持3 DIMM(總共最多6 DIMM) | 4xFBD通道,每通道4 DIMM | 4xFBD通道,每通道4 DIMM | 2xFBD通道,每通道4 DIMM | 4xFBD通道,每通道8 DIMM |
內(nèi)存芯片Mbit支持 | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb |
ECC/Parity | 支持 | 支持 | 支持 | 支持 | 支持 |
ICH搭配 | ICH9R | 6321ESB | 6321ESB | 6321ESB | 6321ESB |
ICH 封裝 | 676 FC-BGA | 1284 FC-BGA | 1284 FC-BGA | 1284 FC-BGA | 1284 FC-BGA |
PCI-X支持 | N/A | 兩個獨立64-bit/133 MHz PCI-X段 | 兩個獨立64-bit/133 MHz PCI-X段 | 兩個獨立64-bit/133 MHz PCI-X段 | 兩個獨立64-bit/133 MHz PCI-X段 |
PCI | 4 PCI (此外,MCH提供6個PCI-E 1.0a x4端口,并且可根據(jù)情況配置為x4,x8 or x16,ICH9R可提供6個PCI-E x1端口) | 6 | 6 | 6 | 6 |
IDE | N/A | 雙通道UltraATA 100 | 雙通道UltraATA 100 | 雙通道UltraATA 100 | 雙通道UltraATA 100 |
Serial ATA | 6個SATA 3Gbps端口 | 6個SATA 3Gbps端口 | 6個SATA 3Gbps端口 | 6個SATA 3Gbps端口 | 6個SATA 3Gbps端口 |
USB端口/控制器 | 12 USB 2.0端口 | 6 USB 2.0端口 | 6 USB 2.0端口 | 6 USB 2.0端口 | 6 USB 2.0端口 |
LAN MAC | 整合10/100/1000 | N/A | N/A | N/A | N/A |
RASUM | DIMM sparing Patrol and Demand Scrubbing ECC and SDDC a memory location can be poisoned |
DIMM sparing Memory RAID Memory mirroring x4 SDDC Memory ECC HUB interface ECC DMA |
DIMM sparing Memory RAID Memory mirroring x4 SDDC Memory ECC HUB interface ECC DMA |
DIMM sparing Patrol and Demand Scrubbing ECC and SDDC a memory location can be poisoned |
DIMM sparing Memory RAID Memory mirroring x4 SDDC Memory ECC HUB interface ECC DMA |
I/O管理 | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO |
PCI-X控制器 | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub |
WSE 封裝 | 567 FC-BGA | 567 FC-BGA | 567 FC-BGA | 567 FC-BGA | 567 FC-BGA |
WSE PCI | 最多支持3個PXH 64-bit hub組件,每個最大帶寬可達4 GB/s | 最多支持3個PXH 64-bit hub組件,每個最大帶寬可達4 GB/s | 最多支持3個PXH 64-bit hub組件,每個最大帶寬可達4 GB/s | 最多支持3個PXH 64-bit hub組件,每個最大帶寬可達4 GB/s | 最多支持3個PXH 64-bit hub組件,每個最大帶寬可達4 GB/s |
WSE PCI Masters | 每個PXH包含兩個獨立的64-bit PCI/PCI-X接口,最大PCI接口總線速度:66 MHz;最大PCI-X接口總線速度:133 MHz | 每個PXH包含兩個獨立的64-bit PCI/PCI-X接口 | 每個PXH包含兩個獨立的64-bit PCI/PCI-X接口 | 每個PXH包含兩個獨立的64-bit PCI/PCI-X接口 | 每個PXH包含兩個獨立的64-bit PCI/PCI-X接口,最大PCI接口總線速度:66 MHz;最大PCI-X接口總線速度:133 MHz |
#p#
一般的評估服務器都采用RASUM評價體系或者RUMA評介體系,兩者的內(nèi)容非常的相似,RASUM為Reliability(可靠性)、Availability(可用性)、Scalability(可擴展性)、Usability(易用性)、Manageability(可管理性)的縮寫,RUMA為Scalability(可擴展性),Usability(易用性),Manageability(易管理性),Availability(可用性)。這些評估準則均是從長期的實踐中總結(jié)出來的,符合這些準則的服務器產(chǎn)品可以更好的為用戶服務。我們依據(jù)這些基本的準則結(jié)合我們的實際測試環(huán)境對于服務器的以下幾個方面進行了評估。
一、性能評估
2005年度服務器橫評之后,我們認為當時的網(wǎng)絡實驗室無法滿足今后繼續(xù)發(fā)展的服務器測試的需要。所以,2006年我們IT168評測中心又斥資幾十萬對于IT168網(wǎng)絡實驗室的服務器測試平臺進行了大幅度的升級,為思科Catalyst4500千兆交換機(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一個思科全千兆24口模塊WS-X4424-GB-RJ45,可同時連接72個千兆銅纜設備和2個光纜設備。另外,我們還購置了29臺Dell PowerEdge SC430塔式服務器和原來的32臺主流配置PC一起為服務器測試平臺的提供負載。2007年,我們又采購性能更強的部分客戶端,來確保為新一代的服務器提供足夠的測試負載。
Catalyst4500千兆交換機
部分Dell PowerEdge SC430服務器
在新的測試環(huán)境下,我們進一步完善了服務器性能測試方案:
-
SPECCPU2006 v1.0.1
SPEC是標準性能評估公司(Standard Performance Evaluation Corporation)的簡稱。SPEC是由計算機廠商、系統(tǒng)集成商、大學、研究機構、咨詢等多家公司組成的非營利性組織,這個組織的目標是建立、維護一套用于評估計算機系統(tǒng)的標準。
SPEC CPU 2006是SPEC組織推出的CPU子系統(tǒng)評估軟件最新版,我們之前使用的是SPEC CPU 2000。和上一個版本一樣,SPEC CPU 2006包括了CINT2006和CFP2006兩個子項目,前者用于測量和對比整數(shù)性能,而后者則用于測量和對比浮點性能,SPEC CPU 2006中對SPEC CPU 2000中的一些測試進行了升級,并拋棄/加入了一些測試,因此兩個版本測試得分并沒有可比較性。
SPEC CPU測試中,測試系統(tǒng)的處理器、內(nèi)存子系統(tǒng)和使用到的編譯器(SPEC CPU提供的是源代碼,并且允許測試用戶進行一定的編譯優(yōu)化)都會影響最終的測試性能,而I/O(磁盤)、網(wǎng)絡、操作系統(tǒng)和圖形子系統(tǒng)對于SPEC CPU2006的影響非常的小。
SPECfp測試過程中同時執(zhí)行多個實例(instance),測量系統(tǒng)執(zhí)行計算密集型浮點操作的能力,比如CAD/CAM、DCC以及科學計算等方面應用可以參考這個結(jié)果。SPECint測試過程中同時執(zhí)行多個實例(instances),然后測試系統(tǒng)同時執(zhí)行多個計算密集型整數(shù)操作的能力,可以很好的反映諸如數(shù)據(jù)庫服務器、電子郵件服務器和Web服務器等基于整數(shù)應用的多處理器系統(tǒng)的性能。
我們在被測服務器中安裝了當前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler這兩款SPEC CPU2006必需的編譯器,通過最新出現(xiàn)的QxS編譯參數(shù),Intel Compiler 10版本開始支持對Intel SSE4指令集進行優(yōu)化(對于SSE3,使用的是QxT編譯參數(shù))。我們另外安裝了Microsoft Visual Studio 2003 SP1提供必要的庫文件。按照SPEC的要求我們根據(jù)自己的情況編輯了新的Config文件,使用了較多的編譯選項。我們根據(jù)被測系統(tǒng)選擇實際可同時處理的線程數(shù)量,最后得到SPEC rate base測試結(jié)果(基于base標準編譯,SPEC base rate測試代表系統(tǒng)同時處理多個任務的能力)。
和其它測試部件不同,SPEC CPU 2006需要大量的系統(tǒng)物理內(nèi)存,我們的SPEC測試在64bit Windows Server 2008 Enterprise下完成,每臺待測試服務器至少配置12GB內(nèi)存。
-
IOMeter 2006.7.27
IOMeter是一款功能非常強大的IO測試軟件,它除了可以在本機運行測試本機的IO(磁盤)性能之外,還提供了模擬網(wǎng)絡應用的能力。在這次的測試中,我們僅僅讓它在本機運行測試服務器的磁盤性能。為了全面測試被測服務器的IO性能,我們分別選擇了不同的測試腳本。
-
Max_throughput(read):文件尺寸為64KB,100%讀取操作,隨機率為0%,用于檢測磁盤系統(tǒng)的最大讀取吞吐量
-
Max_IO(read):文件尺寸為512B,100%讀取操作,隨機率為0%,用于檢測磁盤系統(tǒng)的最大讀取操作IO處理能力
-
Max_throughput(write):文件尺寸為64KB,0%讀取操作,隨機率為0%,用于檢測磁盤系統(tǒng)的最大寫入吞吐量
-
Max_IO(write):文件尺寸為512B,0%讀取操作,隨機率為0%,用于檢測磁盤系統(tǒng)的最大寫入操作IO處理能力
-
SiSoftware Sandra v2009
SiSoftware Sandra是一款可運行在32bit和64bit Windows操作系統(tǒng)上的分析軟件,這款軟件可以對于系統(tǒng)進行方便、快捷的基準測試,還可以用于查看系統(tǒng)的軟件、硬件等信息。從2007開始,Sandra的Arithmetic benchmarks增加了對SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了對于SSE4的支持,另外還升級了File System benchmark和Removable Storage benchmark兩個子項目。對于新的硬件的支持當然也是該軟件每次升級的重要內(nèi)容之一。SiSoftware Sandra所有的基準測試都針對SMP和SMT進行了優(yōu)化,最高可支持32/64路平臺,這也是我們選擇這款軟件的原因之一。
-
NetBench v7.03
NetBench是針對文件服務器的性能測試軟件,影響NetBench性能的主要是服務器的磁盤子系統(tǒng),服務器磁盤控制器、條帶大小、讀寫緩存、硬盤類型、組建磁盤陣列模式、內(nèi)存容量、網(wǎng)絡拓樸結(jié)構等都會對測試結(jié)果有明顯的影響。我們在被測服務器上設立了文件服務器,NetBench通過網(wǎng)絡實驗室中60個客戶端來模擬網(wǎng)絡中的PC向文件服務器所發(fā)出的文件傳輸請求,文件服務器則將存儲在磁盤上的文件數(shù)據(jù)發(fā)送給相應的客戶端。在測試過程中,客戶端會以每四臺一組的步進依次增加并且向服務器發(fā)送文件傳輸請求,測試結(jié)束后控制臺收集數(shù)據(jù)并繪制出服務器的數(shù)據(jù)傳輸變化曲線。
-
Benchmarkfactory 4.6
大部分的服務器應用都同數(shù)據(jù)庫有著密切的聯(lián)系,因此我們今年開始著手在在服務器測試中加入對于數(shù)據(jù)庫性能的測試。我們選擇了Benchmark Factory 4.6軟件和Microsoft SQL2000 SP4來測試不同的硬件平臺在數(shù)據(jù)庫應用中的表現(xiàn)。
我們選擇了BF內(nèi)置的標準測試腳本AS3AP,這項測試可用于對于ANSI結(jié)構化查詢語言(SQL)關系型數(shù)據(jù)庫進行測試,它可用于測試DBMS(單用戶微機數(shù)據(jù)庫管理系統(tǒng)),也可用于測試高性能并行或者分布式數(shù)據(jù)庫。
-
系統(tǒng)功耗監(jiān)測
我們使用UNI-T UT71E智能數(shù)字萬用表對于被測服務器系統(tǒng)的整體功耗進行了監(jiān)測,利用隨機附帶的接口程序,我們可以記錄被測服務器任意時間段內(nèi)的功率變化。
二、主要規(guī)格和技術驗證
這個部分主要對于送測服務器的物理特性、硬件配置等等進行考察、評估,比如服務器機箱架構、規(guī)格尺寸、處理器型號/數(shù)量/主頻、芯片組、內(nèi)存型號和容量、磁盤控制器、硬盤型號、磁盤陣列、網(wǎng)卡型號和接口類型、散熱設備、供電、擴展槽、IO接口、托架數(shù)量等等。此外還對于處理器技術(SMP技術、HT技術、EMT64、Dual Core)、內(nèi)存技術(DDR、DDRII、FB-DIMM、雙/多通道、內(nèi)存鏡像、內(nèi)存熱備、內(nèi)存?zhèn)慑e/糾錯)、磁盤接口技術(SATA、IDE、SCSI、SAS)、磁盤陣列技術(RAID 0、RAID 1、RAID 10、RAID 5)等等進行了全面的考查和驗證。
#p#
如上表所示,除了我們的兩臺基準服務器之外,本次橫向評測活動共有8個廠商的10款主流產(chǎn)品,它們都是基于Intel的Nehalem Xeon處理器,其中有一臺是單路配置,其余的均為雙路配置(但是有一臺在測試的時候)。和兩臺AMD Opteron服務器。
AMD Opteron 2350
在這10款產(chǎn)品中有兩款服務器采用了AMD Opteron 2300處理器——代號為Barcelona的處理器,這是AMD在07年發(fā)布的主力產(chǎn)品。曙光A650-FX采用的是2350,DELL PowerEdge R805采用的是2354,它們的區(qū)別只是頻率不同,2350頻率是2.0GHz,2354頻率是2.2GHz,此外它們的參數(shù)都一樣,每個核心有512KB L2緩存,并且共享總?cè)萘繛?MB的L3緩存。
較高端的X5460處理器,后來Intel還發(fā)布了頻率更高的X5482處理器
另外的八款產(chǎn)品均采用了Intel 45nm Xeon四核處理器。ASUS RS162-E4(3.16GHz Xeon X5460)和Lenovo R525(3.0GHz Xeon E5450)的頻率比較高,它們明顯不以省電為目的。排在第三的是Dawning I650-F(2.66GHz Xeon E5430),再后有三臺機器采用了2.50GHz的Xeon,只不過DELL PowerEdge 1950 III和五舟5105采用的是通常的E5420,而Inspur NF285E采用的是低電壓版本L5420,在其它完全一樣的情況下,電壓/功耗得到了降低。頻率最低的是Aisino 6501R-8和ASUS RS160-E5,采用的是2.33GHz Xeon E5410,這幾乎就是頻率最低的45nm Xeon了,更低的只有2.0GHz的5405。
所有10款服務器中,AMD平臺都采用了NVIDIA nForce Pro 3600(MCP55 Pro)芯片組,Intel平臺則都采用了Intel的芯片組,不過型號各不相同,有四款采用了5000P芯片組,占了一半,兩款采用了5000V,占25%,剩下的兩款一款是5000X,一款是5100。無人采用最新的5400芯片組。
出于部分測試項目的需要,此次橫評我們要求廠商為其送測產(chǎn)品配置了較大容量的內(nèi)存,要求在8GB以上——實際測試的時候,需要的是12GB。在10款產(chǎn)品中,DELL PowerEdge R805和Lenovo萬全R525令人矚目,前者配置了16GB內(nèi)存,后者配置了24GB內(nèi)存,巨大容量的內(nèi)存會在重負荷的科學運算和數(shù)據(jù)庫應用中得到好處。
SAS接已經(jīng)非常普及,在本次參測的10款產(chǎn)品全部采用了SAS接口硬盤。關于磁盤子系統(tǒng)的詳細對比,可以查看本文的第16頁。
網(wǎng)絡子系統(tǒng)上,在這10款服務器產(chǎn)品中,Aisino 6501R-8、ASUS RS162-E4、Dawning I650-F、Inspur NF285E、Lenovo萬全R525、五舟5105共6款產(chǎn)品均采用了Intel的PRO/1000 EB解決方案(巧的是,上一年也是60%的機器采用了這樣的方案),對于Intel I/OAT技術提供了完全的支持。剩下的4款產(chǎn)品中,兩款AMD平臺產(chǎn)品自然不會使用Intel的解決方案,一款用的是nForce Pro 3600主板芯片組自帶的MAC功能配合一個Marvell 88E1121 PHY芯片形成雙NVIDIA千兆網(wǎng)卡(Dawning A650-FX),另一款用的是比較流行的Broadcom BCM5708解決方案(DELL PowerEdge R805),同樣適用5708的還有Intel平臺的DELL PowerEdge 1950 III。DELL喜歡使用Broadcom BCM5708網(wǎng)絡芯片。最后的一款產(chǎn)品使用的是相對少見的Broadcom BCM5721(ASUS RS160-E5)??梢奍ntel的解決方案占據(jù)了主流,剩下來的幾乎就是Broadcom了。
#p#
SiSoftware Sandra是一款可運行在32bit和64bit Windows操作系統(tǒng)上的分析軟件,它可以對于系統(tǒng)進行方便、快捷的基準測試,還可以用于查看系統(tǒng)的軟件、硬件等信息。SiSoftware Sandra所有的基準測試都針對SMP和SMT進行了優(yōu)化,最高可支持32/64路平臺。我們利用了其中多個性能測試模塊對于被測系統(tǒng)的性能進行了快速的測試。
有一點需要說明的是,Sandra的處理器架構性能測試是根據(jù)處理器所能支持的所有指令集中選擇進行的,不同的處理器支持的指令集不同,測試使用到的指令集也就不同。例如,Nehalem在這個測試當中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而Opteron可能就只能使用SSE3了。一般而言,由于可以使用SSE4,Intel的處理器理論性能會比較好。
處理器架構性能測試分為整數(shù)和浮點兩個部分,AMD的處理器兩個成績分值很接近,而Intel的處理器整數(shù)分值則要比浮點分值高出不少,這可以從兩個方面解釋:第一,這是因為AMD的處理器架構和Sandra的基準測試平臺架構很接近;第二,這是因為AMD的處理器可以每時鐘周期運行相同的整數(shù)/浮點指令(都是三條),而Intel的Penryn處理器不是(整數(shù)是三條,浮點是兩條)。
ASUS RS162-E4(Xeon X5460,3.16GHz)、Lenovo萬全R525(Xeon E5450,3.0GHz)、由于采用了最高頻率的兩個處理器,因此在性能上取得了最高的分值,而AMD的兩款服務器由于較低的頻率(2GHz和2.2GHz)和指令集方面的原因,在這個測試上得分比較低。
多媒體性能可以說是Intel的強項,而各種SSE擴展指令集也對多媒體測試助力甚大,這方面的測試結(jié)果仍然和處理器架構性能測試一樣。
#p#
從2007年開始,我們已經(jīng)逐漸地將SEPC CPU2000測試過渡到SPEC CPU 2006,在本次橫評中我們利用這款軟件測試了所有參測服務器。SPEC CPU 2006包括了CINT2006和CFP2006兩個子項目,SPECfp測試過程中同時執(zhí)行多個實例(instance),測量系統(tǒng)執(zhí)行計算密集型浮點操作的能力,比如CAD/CAM、DCC以及科學計算等方面應用可以參考這個結(jié)果。SPECint測試過程中同時執(zhí)行多個實例(instances),然后測試系統(tǒng)同時執(zhí)行多個計算密集型整數(shù)操作的能力,可以很好的反映諸如數(shù)據(jù)庫服務器、電子郵件服務器和Web服務器等基于整數(shù)應用的多處理器系統(tǒng)的性能。
我們在被測服務器中安裝了當前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler這兩款SPEC CPU2006必需的編譯器,通過最新出現(xiàn)的QxS編譯參數(shù),Intel Compiler 10版本開始支持對Intel SSE4指令集進行優(yōu)化(對于SSE3,使用的是QxT編譯參數(shù))。我們另外安裝了Microsoft Visual Studio 2005 SP1提供必要的庫文件。按照SPEC的要求我們根據(jù)自己的情況編輯了新的Config文件,使用了較多的編譯選項。我們根據(jù)被測系統(tǒng)選擇實際可同時處理的線程數(shù)量,最后得到SPEC rate base測試結(jié)果(基于base標準編譯,SPEC base rate測試代表系統(tǒng)同時處理多個任務的能力)。
需要說明的是,SPEC CPU測試是在64位Windows Server 2008 Enterprise下進行的,它可以比較完全地發(fā)揮出處理器的優(yōu)勢。
就接過來看,測試得分和Sandra的有共通之處:處理器架構性能測試分為整數(shù)和浮點兩個部分,AMD的處理器兩個成績分值很接近,而Intel的處理器整數(shù)分值則要比浮點分值高出不少。如前面所述,這可以從兩個方面解釋:第一,這是因為AMD的處理器架構和SPEC CPU 2006的基準測試平臺(一臺古老的64位Digital Alpha工作站,我們要知道,AMD Opteron處理器和Alpha處理器具有很深的淵源)架構很接近;第二,這是因為AMD的處理器可以每時鐘周期運行相同的整數(shù)/浮點指令(都是三條),而Intel的Penryn處理器不是(整數(shù)是三條,浮點是兩條)。比較有趣的是,同樣基于Opteron處理器而只是頻率不同,Dawning的A650-FX和DELL R805具有不同的整數(shù)/浮點傾向,這應該是由于處理器之外的原因。
我們先從一般的應用操作來看,它們多基于整數(shù)性能,這方面采用高頻率處理器(3GHz以上)的ASUS RS162-E4和Lenovo萬全R525再次名列前茅,而采用頻率略輸一籌的Dawning I650-F(2.66GHz)則跟在后面,其他頻率更低的服務器依次排列。
一般的三維內(nèi)容創(chuàng)作、科學計算則多基于浮點性能,這方面來看Opteron處理器效率非常高(每時鐘周期三條浮點指令畢竟強于每時鐘周期兩條),采用2.2GHz Opteron的DELL R805得分最高,2.0GHz Opteron(Dawning A650-FX)則比3.xGHz Xeon(ASUS RS162-E4、Lenovo萬全R525)要低一點。
總體來看,頻率最高的ASUS RS162-E4自然擁有計算性能上的優(yōu)勢。Intel平臺中,僅配置雙通道內(nèi)存的幾臺機器排在了后面,不過同樣是雙通道內(nèi)存,5000P芯片組(Inspure NF285E)仍然比其他采用5000V/5100的強一些。
#p#
我們利用NetBench 7.03和Ent_dm.tst測試腳本模擬企業(yè)級文件服務器應用,通過60個客戶端讀寫被測服務器的共享目錄來考查被測服務器做為文件服務器時的表現(xiàn)。
影響這項測試的因素比較多,磁盤子系統(tǒng)性能(IO處理能力和吞吐量)、網(wǎng)絡連通能力等等,在這項測試中DELL PowerEdge 1950 III(PERC 6/i R硬件RAID 0)在平均值和峰值中都取得了第一,再接下去比較顯眼的是Dawning I650-F(8708ELP硬件RAID 5),同樣RAID 0,基于HostRAID的兩臺華碩就沒有這么高的性能——8708ELP配置為RAID 0的話性能會更高,不過對于保存資料的文件服務器而言,RAID 0看起來不是個好主意。
DELL PowerEdge 1950 III常用的DELL PERC 6/i Integrated SAS RAID Controller,硬件RAID 5/6/50/60陣列卡,256MB內(nèi)存,兩個4x寬端口(每口四個SAS設備)
DELL PERC 6/i IR可以支持RAID 5/6/50/60,然而DELL PowerEdge 1950 II僅配置了兩個3.5英寸SAS,因此只能組建RAID 0或者RAID 1陣列。硬件RAID 0的性能從測試結(jié)果可見一斑
#p#
我們在被測服務器上安裝了Microsoft SQL 2005,按照測試要求建立了數(shù)據(jù)庫。BF在測試之前會在數(shù)據(jù)庫中生成9個表,其中包括4個500萬行的表格,每行包括100字節(jié)的數(shù)據(jù),因此每個表格容量大約是476MB,整個數(shù)據(jù)庫容量為1.86GB。我們用60個客戶端模擬了最多1000個用戶,在這個數(shù)據(jù)庫中進行查詢、添加、刪除、修改等操作。
數(shù)據(jù)庫測試同時考驗了處理器、緩存-內(nèi)存、磁盤以及網(wǎng)絡。我們作為參考的是測試數(shù)據(jù)的平均值。從上表可以看出,前三名分別是ASUS RS162-E4(3.16GHz Xeon X5460)、DELL PowerEdge 1950 III(2.50GHz Xeon E5420)、Lenovo萬全R525(3.0GHz Xeon E5450),采用了3GHz以上Xeon的兩款機器處理能力高很容易理解,不過頻率較低的DELL 1950 III能獲得比較高的性能就需要特別說明了:首先,它采用了5000X芯片組,帶有12MB Snoop Filter緩存,在頻繁的內(nèi)存頁面操作上效率較高,其次它的硬件RAID 0性能也比較好。
#p#
我們綜合了SPEC CPU2006、文件服務器性能測試和微軟SQL2005性能測試得到了服務器的綜合性能表現(xiàn)。
綜合性能得分以SPEC CPU2006性能測試、文件服務器性能測試和微軟SQL2005性能測試的得分為基礎,分別占據(jù)40%、20%、40%的分值,并以我們配置了Xeon E5430處理器的平臺:DELL PowerEdge 2900 III為基準,基準得分定為100。
華碩RS162-E4機架式服務器
處理器頻率最高的ASUS RS162-E4的綜合性能取得了第一名的成績。這款服務器采用的是Xeon X5460處理器(Harpertown核心,主頻3.16GHz,2x6MB L2緩存),5000P芯片組和8GB FBD內(nèi)存,磁盤子系統(tǒng)因為采用了4塊15000RPM硬盤做RAID 0也很特出,因此綜合性能較高也很容易理解。RS162-E4的SPEC CPU 2006性能和SQL2005性能都是最強的,不過由于是SAS控制卡做的HostRAID,并非是純的“硬”RAID,因此RS162-E4的文件服務器性能并不是最強。
DELL PowerEdge 1950 III服務器
稍后的是DELL PowerEdge 1950 III,雖然處理器頻率不高(Xeon E5420,2.50GHz),不過它具有兩個優(yōu)點:首先是采用了5000X芯片組,具有16MB Snoop Filter緩存,可以提升處理器的協(xié)作效率,其次是采用了硬件RAID 0模式(使用PERC 6/i IR和兩個15000RPM硬盤),磁盤性能比較好,因此在綜合性能也很出色(主要是文件服務器性能很不錯,缺點是RAID 0的可靠性稍有不足)。
聯(lián)想萬全R525服務器
在90分附近的還有Lenovo萬全R525和Dawning I650-F,萬全R525的配置非常高:3.0GHz Xeon E5450,16GB FBD內(nèi)存和LSI Logic MegaRAID SAS 8708ELP控制器,以及12個2.5英寸SAS磁盤,不過在測試中只使用了4個的緣故,因此有些影響到了其文件服務器性能(10000RPM 2.5英寸SAS盤的單盤性能也有些不足),請相信,滿配置的R525將是非常強勁的機器。Dawning I650-F采用了2.66GHz Xeon E5430,也采用了LSI Logic MegaRAID SAS 8708ELP控制器,不過使用的是三個15000RPM 3.5英寸SAS硬盤RAID 5的方式,因此文件服務器性能要好一些,整體也能取得較好的成績。
曙光I650-F服務器
#p#
我們通過測試得到了服務器的功耗數(shù)據(jù):
在綜合性能上處于前列的四臺機器:ASUS RS162-E4、DELL PowerEdge 1950 III、Lenovo萬全R525、Dawning I650-F的功耗上則不占據(jù)優(yōu)勢。功耗上表現(xiàn)最好的是ASUS RS160-E5,空載功耗(149.1)和滿載功耗(241.8)都達到了最低,這符合了其提倡的綠色IT概念符合,它采用了較低頻率的處理器(2.33GHz Xeon E5410),采用了高效率的80Plus電源,因此功耗表現(xiàn)良好。
ASUS RS160-E5服務器
DELL PowerEdge R805服務器
浪潮英信NF285服務器
功耗在相近水平的還有DELL PowerEdge R805和Inspur NF285E,前者是由于僅采用了單個10000RPM 2.5英寸的小SAS硬盤,以及功耗較低的DDR2內(nèi)存,在功耗較低的同時性能也不高。而Inspur NF285E是真正的以綠色計算理念設計的服務器,采用了低電壓版處理器(2.50GHz的Xeon L5420), 在功耗表現(xiàn)良好的情況下提供了很不錯的性能。
【編輯推薦】