HPC計(jì)算超人:大塊頭有大麻煩
如果我們把PC比作普通人的話,那么HPC系統(tǒng)(或稱超級(jí)計(jì)算機(jī))就稱得上是“超人”了,因?yàn)榫退闶潜容^尋常的HPC系統(tǒng),其計(jì)算能力也相當(dāng)于PC的數(shù)千倍了。而頂級(jí)的HPC系統(tǒng),例如風(fēng)行歐美的IBM“藍(lán)色基因”系列,又如國(guó)產(chǎn)的“曙光機(jī)”、“浪潮機(jī)”、“聯(lián)想機(jī)”或“神威機(jī)”等,其能力更是不可限量!也因?yàn)樗?,它們才能?dān)負(fù)起解決大型和復(fù)雜問(wèn)題的重任。
不過(guò),就像科幻電影中的超人遇到“氪”物質(zhì)就會(huì)氣力盡失,或時(shí)常為愛(ài)情和親情的問(wèn)題及敵人發(fā)起的輿論攻擊感到困撓一樣。HPC系統(tǒng)這個(gè)計(jì)算領(lǐng)域的“超人”在其成長(zhǎng)過(guò)程中,也會(huì)遇到各種來(lái)自自身或外部的挑戰(zhàn)和障礙,就目前而言,這些讓它煩心的事情主要集中在以下六方面:
HPC麻煩一、有勁使不出,應(yīng)用效率偏低
全球HPC TOP500也好,中國(guó)的TOP100也罷,比的都是HPC系統(tǒng)的潛能,即理論運(yùn)算峰值速度及Linpack基準(zhǔn)測(cè)試性能,但它們卻無(wú)法反映HPC的實(shí)用性能。實(shí)際上,對(duì)于很多科研院所、高校、企業(yè)等HPC應(yīng)用機(jī)構(gòu)來(lái)說(shuō),因?yàn)檐浖?、配置、管理等因素?dǎo)致其HPC系統(tǒng)應(yīng)用效率低下的例子比比皆是,例如一些用戶HPC系統(tǒng)的硬件規(guī)模雖然在不斷擴(kuò)展,但其實(shí)際計(jì)算力卻沒(méi)有明顯提升,又或是現(xiàn)在擁有幾百個(gè)甚至上千個(gè)計(jì)算核心的HPC集群系統(tǒng)雖然大量涌現(xiàn)出來(lái),但是能充分利用其性能的應(yīng)用軟件卻是少之又少……結(jié)果就是這些用戶雖然買得起HPC,卻用不好它。
HPC麻煩二、系統(tǒng)配置不夠“平衡”
HPC這個(gè)計(jì)算“超人”的性能,指的可不僅僅是“計(jì)算性能”,而是包括CPU浮點(diǎn)處理能力、I/O帶寬和內(nèi)存帶寬三個(gè)方面。不同種類應(yīng)用對(duì)于這三方面性能的需求不盡相同,以石油勘探行業(yè)為例,油藏模擬類應(yīng)用就對(duì)內(nèi)存帶寬和延遲比較敏感,而地震資料處理則需要強(qiáng)大的計(jì)算性能。
在這種情況下,如果用戶不能科學(xué)地根據(jù)其應(yīng)用軟件的性能需求來(lái)合理配置HPC系統(tǒng),就不免會(huì)造成它的“先天失調(diào)”,如為通信密集型的應(yīng)用配置了針對(duì)計(jì)算密集型應(yīng)用優(yōu)化的硬件平臺(tái),就會(huì)出現(xiàn)這樣一種情況:節(jié)點(diǎn)空有強(qiáng)大的計(jì)算力,但由于I/O通信帶寬的限制,造成了數(shù)據(jù)的堆積,帶來(lái)了計(jì)算資源的極大浪費(fèi)。
HPC麻煩三、有“失業(yè)”危機(jī),軟硬件發(fā)展失衡
別看國(guó)產(chǎn)的百萬(wàn)億次、千萬(wàn)億次HPC系統(tǒng)在今年頻頻亮相,但它們隨時(shí)都面臨著“失業(yè)”的風(fēng)險(xiǎn)!
不信?我們來(lái)看兩個(gè)例子:一個(gè)是美國(guó)能源部下屬的橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的Jaguar TX5千萬(wàn)億次級(jí)HPC系統(tǒng),它擁有15萬(wàn)顆CPU內(nèi)核,其科學(xué)計(jì)算作業(yè)任務(wù)安排得很飽滿:可利用其3萬(wàn)顆以下CPU內(nèi)核的作業(yè)占50%;利用3-4.5萬(wàn)顆內(nèi)核的作業(yè)占32%,利用4.5-9萬(wàn)顆內(nèi)核的作業(yè)占18%。相比之下,中國(guó)上海超級(jí)計(jì)算中心的曙光5000A百萬(wàn)億次HPC系統(tǒng)雖有3萬(wàn)顆CPU內(nèi)核,但其應(yīng)用卻遠(yuǎn)沒(méi)有跟上——其上使用16顆內(nèi)核以下的作業(yè)占到了60%,17-160個(gè)內(nèi)核的作業(yè)占39%,160個(gè)內(nèi)核以上的作業(yè)僅占1%。
上面這種應(yīng)用上的差距主要源于我國(guó)HPC應(yīng)用軟件的缺乏。我們HPC系統(tǒng)的硬件技術(shù)雖然在這幾年內(nèi)得到了長(zhǎng)足的發(fā)展,但應(yīng)用軟件的基礎(chǔ)卻一直很薄弱,而且相關(guān)的人才、軟件投資和創(chuàng)新研發(fā)體制也不夠健全,這使得中國(guó)在HPC應(yīng)用上一直面臨“計(jì)算規(guī)模受限制,計(jì)算精度、分辨率不高,關(guān)鍵應(yīng)用受限制,不易改進(jìn)和發(fā)展”等多方面的挑戰(zhàn),進(jìn)而造成了“大機(jī)器,小應(yīng)用,軟硬發(fā)展失衡”的困局。
HPC麻煩四、“飯量”太大,能耗驚人
俗話說(shuō),人是鐵,飯是鋼,一頓不吃餓得慌。HPC這個(gè)計(jì)算“超人”也一樣,不過(guò)它消耗的是驚人的電能。隨著人們對(duì)計(jì)算量、計(jì)算時(shí)間、處理問(wèn)題的復(fù)雜度等要求越來(lái)越高,現(xiàn)在HPC系統(tǒng)規(guī)模也是越做越大,使用的CPU數(shù)量也是以成千上萬(wàn)的規(guī)模遞增,用電量自然水漲船高,這讓那些供養(yǎng)它的企事業(yè)單位不堪重負(fù)。例如,一套百萬(wàn)億次級(jí)別的HPC系統(tǒng)每天光電費(fèi)就是兩三萬(wàn)元人民幣,一年下來(lái)就得要好幾百萬(wàn)!而性能達(dá)到千萬(wàn)億次的HPC系統(tǒng),消耗的電力更是趕得上一座小型城市。
HPC麻煩五、“瘦身”難、提升計(jì)算密度挑戰(zhàn)多
人到中年難免有發(fā)福的困擾,HPC系統(tǒng)也是一樣,這個(gè)計(jì)算“超人”的身材很容易走形,特別是對(duì)于百萬(wàn)億次以上的系統(tǒng),如果還用傳統(tǒng)1U或2U機(jī)架服務(wù)器來(lái)做節(jié)點(diǎn),其體積會(huì)非常驚人,會(huì)讓那些機(jī)房較小的用戶叫苦不迭。而且這些節(jié)點(diǎn)的“屁股”上再帶上一大堆線纜,不好看,也不容易管理。于是,人們開(kāi)始嘗試用刀片服務(wù)器或改良過(guò)的高密度服務(wù)器(如1機(jī)兩主板的雙胞胎服務(wù)器)來(lái)構(gòu)建大規(guī)模HPC系統(tǒng)。可這種方式也帶來(lái)了一些新的挑戰(zhàn),比如機(jī)房環(huán)境,尤其是機(jī)柜供電與機(jī)房散熱必須要改造,還有刀片服務(wù)器沒(méi)有統(tǒng)一標(biāo)準(zhǔn)的問(wèn)題,也著實(shí)讓人頭痛。
HPC麻煩六、生產(chǎn)廠家各行其是、缺乏統(tǒng)一標(biāo)準(zhǔn)
現(xiàn)在能制造HPC系統(tǒng)的廠商有很多,既有IBM、HP、戴爾、Sun這樣的海外大鱷,也有曙光、浪潮、聯(lián)想、寶德等民族企業(yè),還有一些規(guī)模不大的地方軍,甚至有些系統(tǒng)是由用戶“DIY”出來(lái)的。如果它們是用x86機(jī)架服務(wù)器來(lái)做,情況還算好,畢竟這種產(chǎn)品有統(tǒng)一的標(biāo)準(zhǔn),兼容與互操作沒(méi)有大問(wèn)題,配件也容易找到,服務(wù)不用愁;但如果是用刀片服務(wù)器來(lái)構(gòu)建,其標(biāo)準(zhǔn)不統(tǒng)一的問(wèn)題可就會(huì)引出大麻煩了。
與傳統(tǒng)的機(jī)架服務(wù)器不同,刀片服務(wù)器誕生至今雖也有十年光景,但卻一直沒(méi)有一個(gè)統(tǒng)一標(biāo)準(zhǔn),僅刀片服務(wù)器機(jī)箱就曾出現(xiàn)過(guò)五六十種不同的產(chǎn)品,現(xiàn)在還有十幾種在市場(chǎng)上互掐,刀片服務(wù)器本身更是各行其道,相互之間別說(shuō)可替代,連實(shí)現(xiàn)互操作都有困難,甚至有些廠家最新發(fā)布的刀片服務(wù)器都不兼容它以前推出的刀片機(jī)箱。顯然,對(duì)于HPC系統(tǒng)用戶來(lái)說(shuō),這種情況只會(huì)讓它遭遇容易被一家廠商綁定、相關(guān)配件不好買、服務(wù)費(fèi)用過(guò)高、平臺(tái)切換代價(jià)太大,以及來(lái)自不同廠商的平臺(tái)在HPC系統(tǒng)中只能獨(dú)立運(yùn)行,形不成合力等問(wèn)題。
結(jié)語(yǔ)
上面列舉的這六件煩心事,是目前絕大多數(shù)HPC系統(tǒng)用戶都會(huì)遇到的“通病”。不解決掉它們,就會(huì)讓HPC系統(tǒng)束手束腳,甚至使它在無(wú)奈之中甘于平庸,那么這個(gè)計(jì)算“超人”也就沒(méi)有什么“過(guò)人”之處了。而為避免這種情況的出現(xiàn),無(wú)論是HPC系統(tǒng)的用戶,還是這些系統(tǒng)的制造商、處理器和計(jì)算平臺(tái)提供商,以及應(yīng)用軟件開(kāi)發(fā)商都必須找出這些問(wèn)題的成因,才能有針對(duì)性地提出解決方案。
【編輯推薦】