美國(guó)重奪全球超算第一!人類實(shí)現(xiàn)百億億次E級(jí)超算,F(xiàn)rontier屠榜全球Top500
?已經(jīng)霸榜兩年,完成四連冠的日本富岳終于跌落了「神壇」。
在剛剛公布的2022年全球超算Top500名單中,美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室(ORNL)的Frontier奪得第一。 憑借1.102 Exaflop/s的HPL分?jǐn)?shù),F(xiàn)rontier不僅是有史以來(lái)最強(qiáng)大的超級(jí)計(jì)算機(jī),它也是第一臺(tái)真正的「E級(jí)超算」。
相比之下,中國(guó)的神威·太湖之光和天河二號(hào)排名下滑至第六和第九。 去年,美國(guó)將神威·太湖之光的處理器供應(yīng)商申威列入了實(shí)體清單,或多或少給中國(guó)超算的發(fā)展造成了影響。
這次Top500的64位浮點(diǎn)計(jì)算總算力為4.4 exaflops,比六個(gè)月前的上一期榜單增長(zhǎng)了44.7%。
Frontier:突破百億億次
那么,F(xiàn)rontier的性能到底達(dá)到了怎樣「逆天」的程度呢?! 簡(jiǎn)單來(lái)說(shuō),就是把排在它之后的468個(gè)超算的算力加起來(lái),都比不過(guò)一個(gè)Frontier。
除了如此炫目的算力之外,F(xiàn)rontier還是全球跑AI最快的超級(jí)電腦之一。在HPL-AI基準(zhǔn)的混合精度性能測(cè)試中,F(xiàn)rontier跑出了6.88 ExaFlops的成績(jī)。
用白話說(shuō),這個(gè)性能相當(dāng)于,給一個(gè)860億神經(jīng)元組成的智能體中的每個(gè)神經(jīng)元,每秒都下達(dá)6800萬(wàn)個(gè)指令。 用這個(gè)訓(xùn)練AI大模型,那可真是火箭發(fā)動(dòng)機(jī)搭上了一級(jí)方程式賽車,可以直接在賽道上起飛。 全新的Frontier占地372平方米,由74個(gè)HPE Cray EX機(jī)柜組成,可容納9408個(gè)節(jié)點(diǎn)。
其中,每個(gè)節(jié)點(diǎn)有一個(gè)AMD Milan 「Trento」 7A53 Epyc CPU,搭配512GB DDR4內(nèi)存和4個(gè)AMD Radeon Instinct MI250X GPU。 總的來(lái)說(shuō),該系統(tǒng)有602,112個(gè)CPU核心,與4.6PB的DDR4內(nèi)存相連接。 此外,37,888個(gè)AMD MI250X GPU具有8,138,240個(gè)核心,并搭配了4.6PB的HBM內(nèi)存(每個(gè)GPU有128GB)。 CPU和GPU使用基于以太網(wǎng)的HPE Cray Slingshot-11網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行連接。
儲(chǔ)存上則與一個(gè)性能極佳的存儲(chǔ)子系統(tǒng)相連,有著700PB的容量,75TB/s的吞吐量和150億IOPS的性能。 元數(shù)據(jù)層分布在480個(gè)NVMe SSD上,提供10PB的整體容量,而5400個(gè)NVMe SSD為主要的高速存儲(chǔ)層提供11.5PB的容量。 同時(shí),47,700個(gè)PMR硬盤提供679PB的容量。
散熱方面,基于水冷的系統(tǒng)讓6000加侖的水在350馬力的泵在整個(gè)系統(tǒng)中「移動(dòng)」,由此將溫度控制在了85度左右。 直觀來(lái)說(shuō),這些水泵可以在30分鐘內(nèi)填滿一個(gè)奧林匹克標(biāo)準(zhǔn)游泳池。 Frontier不僅是現(xiàn)在世界上最快的超算,也是最環(huán)保的超算。
Frontier的能耗比,亦居全球超算的環(huán)保程度Green500榜單之首。單個(gè)由第三代AMD的Epyc處理器與Instinct MI250x加速器組建的機(jī)柜單元,其能耗效率是每瓦電能運(yùn)算62.68 gigaflops。
不過(guò),想把Frontier組裝起來(lái)可不容易,ORNL必須采購(gòu)685個(gè)不同編號(hào)的6000萬(wàn)個(gè)部件。 此外,在建造過(guò)程中還不得不去應(yīng)對(duì)芯片的短缺。
ORNL受影響的零件編號(hào)有167個(gè),算下來(lái)是200萬(wàn)個(gè)零件。而AMD缺少M(fèi)I200 GPU的15個(gè)編號(hào)的零件。
于是ORNL與ASCR合作,為這些零件獲得了國(guó)防優(yōu)先權(quán)和分配系統(tǒng)(DPAS)評(píng)級(jí),這意味著美國(guó)政府可以使用年度的防務(wù)預(yù)算,用顯著高于市場(chǎng)價(jià)的更優(yōu)厚價(jià)格來(lái)采購(gòu)這些部件。 很快,「短缺」的問(wèn)題也就得到了解決。
經(jīng)過(guò)這波操作,是不是可以解開(kāi)很多人心中所謂的「疑惑」了呢? 美國(guó):為了我們的國(guó)防事業(yè),加大力度搞超算!
雖然這么花錢,但用處不可謂不廣。在英偉達(dá)老黃這種財(cái)主老爺都要做地球數(shù)字孿生體的時(shí)代,各國(guó)官方部門的超級(jí)計(jì)算機(jī)在開(kāi)發(fā)處理龐大數(shù)據(jù)的AI、模擬氣候和產(chǎn)業(yè)用途等方面越來(lái)越重要。 就算橡樹(shù)林自己用不完這算力,也可以租、售嘛,工業(yè)界對(duì)算力可是嗷嗷待哺。
而且這已有他國(guó)先例:在預(yù)測(cè)機(jī)床材料加工結(jié)果的實(shí)驗(yàn)中,日本DMG森精機(jī)床自帶工業(yè)電腦需要8小時(shí),但富岳只需要10分鐘就完成了。
中國(guó):玩你們的,我就看看
在新一期榜單上,中國(guó)和美國(guó)仍然是上榜最多的國(guó)家。
在上榜超算數(shù)量上,中國(guó)仍為173臺(tái),和上期持平,繼續(xù)位列榜首。美國(guó)從上期的150臺(tái)下降到127臺(tái),排名次席。盡管如此,這兩個(gè)國(guó)家仍然占了TOP 500榜單總數(shù)的60%。 日本、德國(guó)、法國(guó)分別以34、31、22臺(tái)位列3-5位。
雖然此次Frontier正式成為世界上最強(qiáng)大的超級(jí)計(jì)算機(jī),但它還沒(méi)有與去年被曝光的兩個(gè)中國(guó)超算進(jìn)行比較。 不過(guò),這兩個(gè)系統(tǒng)目前都沒(méi)有向Top500提交測(cè)試數(shù)據(jù)。
根據(jù)爆料的數(shù)據(jù),有不少外媒推斷Sunway OceanLight(神威·海洋之光)超級(jí)計(jì)算機(jī)在HPL基準(zhǔn)上的峰值約為1.3 exaflops/1.05 exaflops,而天河三號(hào)則能夠達(dá)到1.7 exaflops峰值/1.3 exaflops持續(xù)值。然而,考慮到美國(guó)在芯片上的各種「卡脖子」,中國(guó)超算刷榜的后果很有可能就變成了一個(gè)制裁的「靶子」,想必短時(shí)間內(nèi)應(yīng)該不會(huì)看到任何有關(guān)數(shù)據(jù)的更新了。
上榜數(shù)量占比上,中國(guó)以34.6%的比例占據(jù)榜首,美國(guó)以25.4%的比例位列第二,中美爭(zhēng)霸的態(tài)勢(shì)依舊。
而在總性能排行榜上,美國(guó)的優(yōu)勢(shì)仍然不可動(dòng)搖,以47.3%的總算力牢牢占據(jù)首位,不難看出,此次登頂?shù)腇rontier為美國(guó)穩(wěn)定霸榜貢獻(xiàn)不小。
此外,此次Top 500榜單還統(tǒng)計(jì)了自1990年起超算算力的進(jìn)步趨勢(shì),并進(jìn)行了線性回歸。 表中橫軸為時(shí)間,縱軸為算力(取對(duì)數(shù))。
綠色點(diǎn)為上榜超算的總算力,黃色三角為榜單冠軍的算力,藍(lán)色方塊為榜單倒數(shù)第一(第500名)超算的算力。對(duì)應(yīng)顏色的直線為線性回歸的結(jié)果。 可以看到,這三條直線大致符合摩爾定律的對(duì)算力提升的預(yù)測(cè)性判斷。 都說(shuō)摩爾定律已死,看起來(lái)在超算領(lǐng)域,它還活的很好很健壯。
歐洲崛起:Top10占據(jù)7席
美國(guó)并不是唯一取得顯著成績(jī)的地區(qū)。歐洲也表現(xiàn)良好,從總排名上看,美、中、日占據(jù)前3,前十中剩余的七席則全部為歐洲國(guó)家占據(jù)。
其中德國(guó)上榜31臺(tái),法國(guó)上榜22臺(tái),意大利上榜14臺(tái)。 芬蘭新部署的LUMI超級(jí)計(jì)算機(jī)以151.9 petaflops的FP64性能勉強(qiáng)超過(guò)美國(guó)的Summit,獲得第3名。
另外,法國(guó)GENCI-CINES的Adastra以46.1 petaflops的性能險(xiǎn)些奪得第10名。雖然遠(yuǎn)不及LUMI強(qiáng)大,但Adastra仍然保持著歐洲第二強(qiáng)大的超級(jí)計(jì)算機(jī)的殊榮。 LUMI和Adastra等系統(tǒng)也說(shuō)明了另一個(gè)趨勢(shì)。與Frontier一樣,它們基于HPE的全AMD Cray EX平臺(tái),使用第三代Epyc CPU和Instinct GPU。
為啥不用GPU加速:還是差錢
長(zhǎng)久以來(lái),AMD第一次在Top500中的系統(tǒng)內(nèi)的主機(jī)CPU中占有代表性的份額,但英特爾至強(qiáng)處理器仍然占主導(dǎo)地位。
從本世紀(jì)初開(kāi)始,英特爾在高性能計(jì)算領(lǐng)域開(kāi)始發(fā)力,只用了幾年時(shí)間,就將IBM、惠普等幾家之前的主要玩家排擠得元?dú)獯髠?nbsp;從2017年到2020年,英特爾在高性能計(jì)算領(lǐng)域達(dá)到極盛的市場(chǎng)占有率一度超過(guò)90%。
直到目前,英特爾的份額仍高達(dá)77.4%,下降了4.2個(gè)百分點(diǎn),而AMD的份額正好上升了這個(gè)數(shù)字。預(yù)計(jì)Epycs會(huì)在與Xeon SP的競(jìng)爭(zhēng)中獲得更大的動(dòng)力。而且,AMD有后來(lái)居上的勢(shì)頭。在2022年的全球超算Top500榜單中,現(xiàn)在有94臺(tái)超算依賴AMD的產(chǎn)品,年度增長(zhǎng)95%。而且AMD的 Instinct MI200 加速器首次被其中7臺(tái)超算采用。
另一個(gè)問(wèn)題是,為什么不用GPU加速器?可能是因?yàn)橘F? GPU加速器作為計(jì)算引擎,可以提升巨大的性能和性價(jià)比,但目前,加速器并沒(méi)有在Top500榜單上的超算架構(gòu)中占據(jù)主導(dǎo)地
位。這些GPU加速器主要是英偉達(dá)的。 但是,除了英偉達(dá)自家的HPC中心有大量應(yīng)用需要移植到GPU上,而且不差錢之外,世界上成千上萬(wàn)的其他HPC中心還是差錢的,這些HPC的代碼是明確為CPU編寫的。
目前的Top500榜單中,只有170臺(tái)超算采用了GPU加速器--當(dāng)然大部分來(lái)自英偉達(dá)。 另一個(gè)因素是,更便宜的CPU本身現(xiàn)在也在陸續(xù)添加類似于GPU的加速計(jì)算功能,比如向量和現(xiàn)在的矩陣計(jì)算等。
這樣就比將CPU程序轉(zhuǎn)移至GPU運(yùn)行更省錢,也更容易編程。我們可能永遠(yuǎn)不會(huì)看到一個(gè)主要由GPU加速系統(tǒng)組成的Top500榜單了。 事實(shí)上,在「富岳」、「太湖之光」這樣排名靠前的超算系統(tǒng)中,CPU基本上充當(dāng)了具備向量和矩陣計(jì)算型GPU的作用。?