全球第十超算:Sun刀片服務(wù)器和存儲展示
原創(chuàng)【10月25日51CTO外電頭條】在超級計算機(jī)中,全球排名第十的是位于美國新墨西哥州阿爾伯克基桑迪亞國家實驗室的Red Sky,它由甲骨文Sun x6275刀片組成,配備了多達(dá)42440個擁有64TB隨機(jī)存儲器的英特爾Xeon 5500系列處理器核心,能夠提供500萬億次的事務(wù)處理能力。這一切都由一組甲骨文Sun的存儲來支持,在集群內(nèi)使用紅帽Linux操作系統(tǒng)(51CTO推薦閱讀:外媒:美國超算領(lǐng)先地位遭中國挑戰(zhàn))。
“我們正在利用甲骨文的Sun刀片服務(wù)器和Sun存儲進(jìn)行私有云設(shè)置,”桑迪亞國家實驗室的高級計算機(jī)系統(tǒng)主管John Zepper說。
這實際上是兩個超級計算機(jī)操作系統(tǒng)的結(jié)合。這臺被大家稱之為Red Sky或者Red Mesa的超級計算機(jī)是桑迪亞國家實驗室、國家可再生能源實驗室(NREL)和甲骨文/Sun(納斯達(dá)克:ORCL)通力合作的成果。Red Sky是一個由Red Mesa 每秒180萬億次系統(tǒng)支持的每秒325萬億次的系統(tǒng)。
“Sun贏得了這臺超級計算機(jī)的投標(biāo),目前在兩臺機(jī)器之間有將近有43000個核心,”Zepper說。
甲骨文Sun X6275刀片采用了英特爾Nehalem架構(gòu),這是針對一般商業(yè)中高性能計算環(huán)境下的計算密集型應(yīng)用程序設(shè)計的。桑迪亞國家實驗室采用了無限帶寬技術(shù),利用英特爾的QuickPath技術(shù)來實現(xiàn)更高的帶寬和更低的延遲。
Zepper對該無限帶寬技術(shù)的優(yōu)點做了解釋。通常情況下,對于每個節(jié)點,技術(shù)人員都必須牽一根連至主交換機(jī)的電纜。所以最終會導(dǎo)致你不得不采用很多根電纜。
“無限帶寬技術(shù)能夠幫助我們顯著減少布線的數(shù)量,”Zepper說。
集成的無限帶寬QDR主機(jī)通道適配器(HCA)和四倍數(shù)據(jù)速率以及高速網(wǎng)絡(luò)交換模塊(QNEM)被用于安置在甲骨文Sun 6048刀片機(jī)箱內(nèi)刀片的相互連接。
“我們在處理QNEM的時候遇到了一些問題,所以甲骨文與我們一起合作對其進(jìn)行修改從而使它們能夠在我們的環(huán)境下保持最佳的工作狀態(tài),”Zepper說。
由桑迪亞和甲骨文/Sun共同設(shè)計的交換機(jī)被用來創(chuàng)建使用無線帶寬網(wǎng)絡(luò)技術(shù)的首次三維環(huán)面互聯(lián)拓?fù)?。該系統(tǒng)也被認(rèn)為是首個完全采用光互聯(lián)電纜的基于無限帶寬的系統(tǒng)。
Zepper透露說,實驗室已經(jīng)將所有硬盤驅(qū)動器從x6275刀片中移除。通過無限帶寬進(jìn)行啟動,可以讓實驗室不再為Red Sky配備以太網(wǎng)基礎(chǔ)架構(gòu)。這將為每個刀片節(jié)約高達(dá)20%的成本。
“通過啟動無限帶寬,我們可以看到現(xiàn)在的設(shè)備性能比起使用先前的基礎(chǔ)架構(gòu)的時候提高了四到五倍。”#p#
電源和冷卻
Zepper舉了一個關(guān)于在加速計算性能的同時降低內(nèi)存的生動案例。舊的超級計算機(jī)有17個機(jī)架,而桑迪亞現(xiàn)在可以將這一切都濃縮在一個刀片機(jī)架內(nèi)。
不過,由此帶來的敝處就是它所產(chǎn)生的巨大熱量。因此,為了提高工作效率和降低成本,實驗室從新設(shè)計了它的冷卻裝置。Zepper將它描述為桑迪亞到目前為止所開發(fā)的是最具能源效率的計算平臺。在電源和冷卻方面,它配備了Emerson/Liebert XDP和APC配電裝置(PDUs),同時為機(jī)架安裝了Cooligy Clacier Door冷卻設(shè)備。
“外殼門采用了制冷劑,其目的是用來冷卻刀片而不是機(jī)房,”Zepper說,“單單就電這一項,每年可以節(jié)省大約十萬美元的開支。”安置在機(jī)房內(nèi)的Liebert XDP可以保持制冷劑的冷卻,這讓每臺機(jī)架可以負(fù)荷35千瓦的功率。
這種直接冷卻系統(tǒng)可以為每千瓦的冷卻節(jié)約0.13千瓦。Zepper稱這種冷卻過程每年可以降低制冷設(shè)備耗損的37%,節(jié)約540萬加侖的水,同時節(jié)省77%的制冷電能耗損。
衡量數(shù)據(jù)中心工作效率的標(biāo)準(zhǔn)之一是電能利用率(PUE)。用進(jìn)入數(shù)據(jù)中心的總功率除以運行計算機(jī)架構(gòu)所使用的功率,然后你會得到一個功率比。該數(shù)值越接近1越好。而Red Sky已經(jīng)達(dá)到了1.27的PUE(51CTO推薦閱讀:如何提高PUE值 數(shù)據(jù)中心能耗詳解(圖))。
“對于一臺擁有43000個核心的設(shè)備而言,實現(xiàn)1.27的PUE可謂驚人了,”Zepper說。
他還說,比起老一代的四機(jī)架,APC PDUs可以在半臺機(jī)架內(nèi)提供288千瓦的功率。
在存儲方面,桑迪亞國家實驗室擁有148個甲骨文Sun J4400磁盤陣列,能夠為超計算機(jī)集群提供6PB的存儲容量。Lustre文件系統(tǒng)在集群內(nèi)部以20GB每秒的速度通過無線帶寬技術(shù)進(jìn)行運作。
“Lustre擁有能夠聚合數(shù)據(jù)的輸入和輸出控制器,可以讓數(shù)以百計的用戶訪問我們的機(jī)器,”Zepper說。最重要的是,Red Sky/Red Mesa平臺為處理復(fù)雜的問題帶來了時間上質(zhì)的飛躍。這才是這臺設(shè)備的真正價值所在——讓研究人員可以在處理實驗室工作的時候加快步伐。
【本文乃51CTO精選譯文,轉(zhuǎn)載請務(wù)必標(biāo)明作者和出處】
原文標(biāo)題:Red Sky Supercomputer: A Showcase for Oracle/Sun Blade Servers and Storage 作者:Drew Robb
【編輯推薦】