ISC 09前瞻:高性能計算的八大趨勢預(yù)測
1、前言
如果我們對高性能計算TOP500榜單進行預(yù)測一下會發(fā)現(xiàn),速度突破100 Petaflops的系統(tǒng)最有可能在2016年出現(xiàn)。在過去的11年內(nèi),計算機系統(tǒng)的性能從Gigaflops(1986年推出的Cray 2)、到Teraflops(1997年推出的Intel ASCI Red)、再到Petaflops(2008年推出的IBM Roadrunner),性能增長了1000倍!雖然性能提升速度迅猛,但是高性能計算領(lǐng)域?qū)⒃絹碓蕉嗟乇桓叨扔嬎忝芗蛻?yīng)用刷新紀(jì)錄。這些應(yīng)用來自不同的領(lǐng)域,例如量子物理學(xué)、氣象預(yù)報、氣候研究、分子模擬(計算化學(xué)元素的結(jié)構(gòu)和組成、生物大分子、聚合體和結(jié)晶體)、物理模擬(例如飛機在風(fēng)道中的飛行模擬以及核子融合研究)、密碼分析學(xué)、以及針對石油開采的地震處理。對于以上大多數(shù)應(yīng)用來說,只有Petaflops級的計算系統(tǒng)才能得出詳細(xì)的計算結(jié)果。Exascale級系統(tǒng)有望在2019年出現(xiàn)。
那么在不久的將來會有怎樣的發(fā)展趨勢呢?現(xiàn)在和未來所有高性能計算系統(tǒng)的處理器需求帶來的最大挑戰(zhàn)就是:低成本、低能耗、并行程序支持的可用性以及對現(xiàn)有代碼的有效運用。
2、大型集群中的多核系統(tǒng)
最近高性能計算系統(tǒng)方面的發(fā)展趨勢表明了未來性能的增長將只通過增加系統(tǒng)規(guī)模來實現(xiàn),例如使用大量組件,而不是提高單處理器的性能。
未來單CPU芯片將需要更高的主頻,這就導(dǎo)致CPU能耗增加,產(chǎn)生更多熱量和單CPU芯片的物理瓶頸,這些因素成為推動多核處理器技術(shù)的真正動力。從Terascale發(fā)展到Petascale級甚至更高的高性能計算系統(tǒng)意味著系統(tǒng)內(nèi)的組件(內(nèi)核、互連、存儲等)數(shù)量也在迅猛增加。在不久的將來我們看到內(nèi)核數(shù)在10萬~100萬甚至更多的多核集群系統(tǒng)。顯然,這種高度并行的系統(tǒng)將帶來并行軟件開發(fā)、硬件容錯和可靠性等諸多問題。
但是多核系統(tǒng)面對的真正難題是內(nèi)存訪問的帶寬限制,因為一個多核芯片上的所有內(nèi)核都在爭奪內(nèi)存訪問路徑。說到內(nèi)存訪問,一個很好的解決方案就是每個Flop和每個內(nèi)核一個字節(jié)。如果這個解決方案可以實現(xiàn)的話,一個芯片有上百個內(nèi)核都不成問題。Intel的Nehalem就是朝著這個方向,從每個Flop和每個內(nèi)核半個字節(jié)。Intel最近展示了他們尚在實驗室開發(fā)階段、以未來為主導(dǎo)的原生80核芯片,預(yù)計計算性能將達(dá)到1 Teraflops。
未來的開發(fā)工作將主要集中在針對硬件架構(gòu)滿足并行程序的動態(tài)多核芯片,甚至未來還將開發(fā)具有矢量擴展的多核芯片。
有了所有這些多核技術(shù),最終并行計算將普及開來。并行計算可以大幅提升高性能計算系統(tǒng)的速度、效率和性能,但是從1個發(fā)展到更多個中央處理單元(或者內(nèi)核)并不是一件容易的事。
3、并行計算成為必需技術(shù)
硬件架構(gòu)內(nèi)計算組件的增加意味著我們要在應(yīng)用程序的并行化上投入更多精力。向并行模式的轉(zhuǎn)變并非易事,因為目前已經(jīng)有很多項目是在單核技術(shù)基礎(chǔ)上實施的。
并行計算機程序比連續(xù)計算程序更難編寫,因為同步問題將帶來不少潛在的軟件漏洞,其中競態(tài)條件是最常見的問題。在不同子任務(wù)之間的通信和同步往往是保持并行程序性能的最大挑戰(zhàn)。眾所周知,并行化工具的開發(fā)遠(yuǎn)遠(yuǎn)落后于高性能計算硬件。現(xiàn)在我們使用了很多不同的編程技術(shù),例如將數(shù)據(jù)分區(qū)到CPU本地內(nèi)存塊中的數(shù)據(jù)定位技術(shù)。并行化將是每個基于多核系統(tǒng)的新程序開發(fā)的重中之重。嵌入現(xiàn)有的連續(xù)代碼仍然是一個未解決的問題。
在一個芯片上增加更多內(nèi)核的想法只有確保在并行編程上投入大量資金和精力的情況下才可能實現(xiàn),否則超級計算機無法讓應(yīng)用運行得越來越快。正如我們在上面第2點中所說,未來性能增長的一個限制因素將是內(nèi)存帶寬。
4、GPU:既是多核的競爭對手,也是增值所在
GPU是多核CPU一個主要的競爭對手,它是一種用于科學(xué)計算的圖形卡。關(guān)于GPU主要有四點:它的速度很快,而且會越來越快;它的價格很低;它的能耗更低,但是第四點也是它的瓶頸所在。
GPU僅適用于那些運行某種數(shù)值運算的任務(wù)。GPU是專門針對流程圖、也就是處理數(shù)據(jù)流設(shè)計的。圖形芯片可以被視作大量多核,在高端方面甚至有多達(dá)800個單元在同時運行,一個GPU集群內(nèi)可能就有超過3000個。
以下的數(shù)字說明了GPU的巨大潛力。AMD和Nvidia最快的圖形芯片已經(jīng)達(dá)到了Teraflops層級,在這個范圍內(nèi),普通的多核芯片的速度就顯得相形見絀了。
GPU真正的問題在于,它不能像普通的x86、Sparc或者Power CPU那樣進行編程。這就是為什么Nvidia GPU提供了CUDA技術(shù)的支持,CUDA提供了一系列用戶層級的子路徑,允許GPU利用標(biāo)準(zhǔn)C語言或者Fortran進行編程,無需使用專門針對圖形的API。
東京技術(shù)研究所所使用的“Tsubame”超級計算機是TOP500榜單中第一個采用Nvidia Tesla圖形芯片的系統(tǒng)。該系統(tǒng)集群有170個Tesla-S1070系統(tǒng)組成,理論性能可以達(dá)到170 Teraflops,實際系統(tǒng)可以達(dá)到7748 Teraflops,這在TOP500榜單(2008年11月發(fā)布的)上可以排到第29位。
未來的高性能計算系統(tǒng)中,硬件架構(gòu)將成為一個由專門CPU和GPU類型內(nèi)核所組成的系統(tǒng)。
但是就現(xiàn)在來說,高性能計算最具挑戰(zhàn)性的問題就是能耗。未來,芯片制造商和數(shù)據(jù)中心經(jīng)理必須解決能源效率和能耗的問題。
5、綠色IT和能耗
性能在Teraflops甚至更高的計算系統(tǒng)的能耗是非常驚人的。你可能還記得,曾經(jīng)有一年美國經(jīng)歷了持續(xù)高溫的天氣,由于供電不足,很多超級計算機中心不得不關(guān)閉了他們的高性能計算設(shè)備。如果這種情況持續(xù)下去的話,未來4~5年內(nèi)高性能計算數(shù)據(jù)中心的能耗將翻一番。據(jù)直接推斷,Exaflops級系統(tǒng)的耗電量在兆瓦級。這就是為什么超級計算機中心經(jīng)理尤其關(guān)注超級計算機開發(fā)的未來趨勢,特別是能源供應(yīng)方面。
惠普公司的Frank Baetke表示:“過去,傳統(tǒng)的超級計算機中心在設(shè)計的時候并不考慮能耗問題。如果多核CPU的時鐘頻率只減少20%的話,那么其能耗相比以全時鐘頻率運行的系統(tǒng)減少了50%?!?/P>
高性能計算制造商和數(shù)據(jù)中心將更多地關(guān)注能源效率問題。因為,開發(fā)降低了能耗的高性能計算系統(tǒng)是很有必要的。
但是也許是我們已經(jīng)在高性能計算領(lǐng)域劃定了能耗的臨界線,未來能耗增長將成為高性能計算應(yīng)用的一個限制因素。現(xiàn)在,如何解決未來性能需求的同時不增加二氧化碳排放量、放緩全球溫室效應(yīng)仍然是一個亟待解決的問題。
一個解決辦法就是不再將處理器生成的熱量排放到空氣中,而是通過液體進行冷卻。這樣,液體的溫度升高,然后被輸送到熱量交換裝置中,用于為辦公室和房間供暖?,F(xiàn)在,這方面的環(huán)境測試正在進行中。
綠色IT也和數(shù)據(jù)存儲系統(tǒng)有著某些聯(lián)系。
6、數(shù)據(jù)量將迅猛增長
數(shù)據(jù)量的增長將是驚人的,每幾個小時產(chǎn)生一個Terabytes的速度已經(jīng)不足為奇了。
尤其是在綠色IT的影響下,顯著降低主存儲組件的能耗是很有必要的。未來幾年我們將看到在固態(tài)硬盤領(lǐng)域有新的開發(fā)成果出現(xiàn)。與傳統(tǒng)硬盤驅(qū)動器相比,固態(tài)硬盤沒有活動部件,他們的處理速度更快更穩(wěn)定,可以切換到低能耗模式,而且固態(tài)硬盤的每瓦性能效率更高,這也是固態(tài)硬盤一個最大的優(yōu)點。如果固態(tài)硬盤的價格可以降到足夠低,那么它將成為取代傳統(tǒng)硬盤驅(qū)動器安裝在高性能計算系統(tǒng)中的最佳選擇。
如果能夠?qū)崿F(xiàn)這一點,高性能計算必將步入主流趨勢。
7、高性能計算將滲透到中小企業(yè)領(lǐng)域
集群多核系統(tǒng)的靈活結(jié)構(gòu)——尤其是基于刀片技術(shù)——幫助高性能計算系統(tǒng)更廣泛地滲透到中小企業(yè)領(lǐng)域。顯然,數(shù)據(jù)中心會從低價位的小型高性能計算系統(tǒng)起步,然后根據(jù)他們的預(yù)算和應(yīng)用需求逐漸擴展至更大型的系統(tǒng)。而且,越來越多的獨立軟件提供商也加入其中,通過他們的軟件封裝幫助企業(yè)更輕松地將高性能計算系統(tǒng)集成到他們的環(huán)境中。微軟推出了可以取代Linux的Windows HPC Server,從而推動了高性能計算的采用率,為那些因為操作系統(tǒng)問題遲遲沒有采用的用戶提供超級計算機層級的性能水平。
最近出現(xiàn)的一個新名詞——“集裝箱”進一步豐富了高性能計算系統(tǒng)理念。這種解決方案的設(shè)計理念是根據(jù)需要精確地提供計算能力和存儲空間。顯然最終這將成為一種模塊化統(tǒng)一解決方案,以“即插即用”的形式在短時間內(nèi)增加超級計算機性能。唯一的問題是,如果集裝箱是由卡車運輸?shù)脑捰脩粼趺崔k?
8、未來的發(fā)展趨勢?
到2011年,勞倫斯利弗莫爾光電科學(xué)國家實驗室(Lawrence Livermore National Laboratory)將采用IBM開發(fā)的Sequoia系統(tǒng),并從2012年開始運行這一系統(tǒng)。Sequoia配置了160萬個Power處理器和1.6 PB的主內(nèi)存容量,性能最高可以超過20 Pflops,將登上TOP500的榜首。從技術(shù)角度來看,這款系統(tǒng)是IBM BlueGene/P架構(gòu)的進一步開發(fā),將16核45納米芯片技術(shù)與最新基于光纖通信的交換技術(shù)結(jié)合起來。BlueGene/P系統(tǒng)的耗電量為6 MW,能效為3000 MFflops/Watt,相當(dāng)于BlueGene/P的7倍,基于Cell處理器的Roadrunner的5倍。
9、云計算
25年來Sun一直秉承“網(wǎng)絡(luò)就是計算機”的原則。2009年云計算將讓這一口號真正變成現(xiàn)實。6月23日即將在德國漢堡召開的International Supercomputing Conference ISC’09上,來自Googel、Amazon、Yahoo、微軟、IBM、惠普和Sun的演講者將共同探討一個重要話題:“高性能計算&云計算——伙伴還是競爭對手?”在4個多小時的演講中,這些專家將展示和探討云計算是否將繼續(xù)影響著IT基礎(chǔ)架構(gòu)設(shè)計和交付滿足網(wǎng)絡(luò)、業(yè)務(wù)、也別是高性能計算用戶不同需求的方式。
【編輯推薦】