全球TOP10超級(jí)計(jì)算機(jī)8臺(tái)都選英偉達(dá)的三大原因
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
本周,又是一年一度的高性能計(jì)算大會(huì)ISC。今天,是超級(jí)計(jì)算機(jī)TOP500榜單更新的時(shí)間。根據(jù)TOP500剛剛發(fā)布的超算TOP500榜單,中國部署了226臺(tái)位列第一,美國部署了114臺(tái)名列第二,日本以30臺(tái)位居第三。
2020年6月更新的TOP500超算系統(tǒng)排名
細(xì)看這份最新的榜單,可以發(fā)現(xiàn)TOP10的超級(jí)計(jì)算機(jī)中有8臺(tái)采用了英偉達(dá)GPU、InfiniBand網(wǎng)絡(luò)技術(shù),或同時(shí)采用了兩種技術(shù)。TOP500榜單的系統(tǒng)中,有333套(三分之二)采用了英偉達(dá)的技術(shù)。
TOP500超算系統(tǒng)采用NVIDIA GPU、Mellanox網(wǎng)絡(luò)技術(shù),或同時(shí)采用了這兩種技術(shù)數(shù)量
三年前的2017年6月,TOP500榜單使用英偉達(dá)和Mellanox(被英偉達(dá)以69億美元收購)的系統(tǒng)為203套,不到TOP500個(gè)超算系統(tǒng)的一半。為什么在超算領(lǐng)域英偉達(dá)能進(jìn)展如此迅猛?TOP100超算為何要選英偉達(dá)?
高速數(shù)據(jù)互聯(lián)技術(shù)普及
英偉達(dá)愿意以高價(jià)收購Mellanox的重要原因是高速數(shù)據(jù)互聯(lián)在大數(shù)據(jù)時(shí)代變得越來越重要,在超算系統(tǒng)里尤為明顯。自2019年11月以來,TOP500榜單上使用HDR InfiniBand的系統(tǒng)數(shù)量幾乎增加了一倍。共有141臺(tái)超級(jí)計(jì)算機(jī)使用了InfiniBand,自2019年6月以來增長了12%。
如今,TOP500榜單上有將近四分之三(74%)的全新InfiniBand系統(tǒng)采用了NVIDIA Mellanox HDR 200G InfiniBand,這是智能高速數(shù)據(jù)互聯(lián)技術(shù)迅速普及的一個(gè)體現(xiàn)。另外,在TOP500超級(jí)計(jì)算機(jī)中,有305套系統(tǒng)使用了NVIDIA Mellanox InfiniBand和Ethernet網(wǎng)絡(luò)(占61%)。
InfiniBand為排名前10的超級(jí)計(jì)算機(jī)中的7臺(tái)提速
ISC期間,英偉達(dá)又宣布推出Mellanox UFM Cyber-AI平臺(tái),新的平臺(tái)運(yùn)用AI分析技術(shù)檢測(cè)安全威脅和運(yùn)行問題并預(yù)測(cè)網(wǎng)絡(luò)故障,能夠大幅減少InfiniBand數(shù)據(jù)中心的停機(jī)時(shí)間。
收購Mellanox和智能高速數(shù)據(jù)互聯(lián)迅速普及是讓英偉達(dá)的產(chǎn)品在TOP500榜單中比例迅速提升的一個(gè)關(guān)鍵,但作為超算系統(tǒng),性能更為關(guān)鍵。
超高性能系統(tǒng)像積木一樣搭建
特別是,當(dāng)下AI和分析已成為科學(xué)計(jì)算中的新需求,全球各地的研究者都正在使用深度學(xué)習(xí)和數(shù)據(jù)分析預(yù)測(cè)各種最具潛力的領(lǐng)域,進(jìn)而開展實(shí)驗(yàn)。GTC2020上,英偉達(dá)就表示位于美國阿貢國家實(shí)驗(yàn)室的研究者使用24臺(tái)NVIDIA DGX A100系統(tǒng)組成的集群對(duì)數(shù)十億種藥物進(jìn)行掃描,以尋找COVID-19的治療方法。
英偉達(dá)最新發(fā)布的安培(Ampere)架構(gòu)GPU A100正是推動(dòng)超算系統(tǒng)選用英偉達(dá)產(chǎn)品的關(guān)鍵之一。在一臺(tái)6U服務(wù)器中集成了8顆A100 GPU以及NVIDIA Mellanox HDR InfiniBand網(wǎng)絡(luò)技術(shù)的NVIDIA DGX A100 AI系統(tǒng)單節(jié)點(diǎn)性能達(dá)到了創(chuàng)紀(jì)錄的5 petaflops。由140臺(tái) DGXA100系統(tǒng)組成的新一代DGX SuperPOD的AI算力更是高達(dá)700 Petaflop。
這對(duì)于競(jìng)爭(zhēng)已經(jīng)到了百萬兆級(jí)超算而言,意義重大,并且,這個(gè)系統(tǒng)具有很好的擴(kuò)展性。英偉達(dá)表示, DGX SuperPOD架構(gòu)設(shè)計(jì)展示了如何像搭積木一樣使用高性能NVIDIA Mellanox InfiniBand交換機(jī)連接20臺(tái)DGX A100系統(tǒng)。4名操作人員僅需不到1個(gè)小時(shí),就能組裝起一套由20臺(tái)系統(tǒng)組成的DGX A100集群,創(chuàng)建出一套性能可以達(dá)到2-petaflops的系統(tǒng)。
據(jù)悉,通過添加NVIDIA Mellanox InfiniBand交換機(jī)層,英偉達(dá)工程師將14套分別配置有20臺(tái)DGX A100系統(tǒng)的模塊組的相連接,打造出了Selene。Selene系統(tǒng)具有:
-
280臺(tái) DGX A100系統(tǒng)
-
2240顆NVIDIA A100 GPU
-
494臺(tái)NVIDIA Mellanox Quantum 200G InfiniBand交換機(jī)
-
56 TB/s的網(wǎng)絡(luò)架構(gòu)
-
7PB的高性能全閃存
Selene最重要的性能規(guī)格之一是可以提供超過1 exaflops的AI性能。并且,在TPCx-BB關(guān)鍵數(shù)據(jù)分析基準(zhǔn)測(cè)試中,使用了16臺(tái)DGX A100系統(tǒng)就創(chuàng)造了新紀(jì)錄,性能表現(xiàn)高出其他系統(tǒng)20倍。
在ISC 2020期間,英偉達(dá)還宣布推出PCIe版本的A100,為的是補(bǔ)充上月發(fā)布的四卡和八卡NVIDIA HGX A100配置,這樣,服務(wù)器制造商就能夠提供從內(nèi)置單個(gè)A100 GPU的系統(tǒng)到內(nèi)置10個(gè)或10個(gè)以上GPU的服務(wù)器,進(jìn)一步更好地滿足超算系統(tǒng)構(gòu)建需求。
除了性能,TOP500超算系統(tǒng)也非常關(guān)注能耗,這也是英偉達(dá)能吸引超算系統(tǒng)制造商的另一大原因。
能效平均提升2.8倍
根據(jù)英偉達(dá)的說法,在能效方面,TOP500超算使用英偉達(dá)GPU的系統(tǒng)與不使用的相比,能效(以gigaflops/watt為單位)平均高出2.8倍。最能證明這個(gè)優(yōu)勢(shì)的是上面提到的英偉達(dá)內(nèi)部研究集群新成員Selene。
據(jù)悉,Selene在Linpack基準(zhǔn)測(cè)試中以27.5 petaflops的性能表現(xiàn),在最新Green500榜單中排名第二,TOP500榜單中排名第七。Selene的功耗為20.5 gigaflops/watt,與Green500榜單上的第一名相差不大,但排名第一的MN-3系統(tǒng)體積更小,性能表現(xiàn)排在第394位。
NVIDIA GPU平均提高TOP500超級(jí)計(jì)算機(jī)能效2.8倍
值得一提的是,Selene是TOP100系統(tǒng)中唯一突破20 20 gigaflops/watt能效表現(xiàn)大關(guān)的系統(tǒng),也是全球性能排名第二的工業(yè)超級(jí)計(jì)算機(jī),僅次于意大利能源巨頭Eni S.p.A.的No. 6 系統(tǒng)。
而Selene的能效比TOP500系統(tǒng)的平均表現(xiàn)比未使用英偉達(dá)GPU的超算系統(tǒng)高出了6.8倍。這種性能和能效是歸功于A100 GPU中的第三代Tensor Core核心,最新一代Tensor Core可以為傳統(tǒng)的64位數(shù)學(xué)模擬及精度較低的AI工作提供加速。
雷鋒網(wǎng)小結(jié)
高性能計(jì)算處理器是一家公司產(chǎn)品性能領(lǐng)導(dǎo)力的體現(xiàn),更是生態(tài)實(shí)力的體現(xiàn)。英偉達(dá)在ISC 2020期間宣布,今年夏天預(yù)計(jì)有30款搭載A100的服務(wù)器上市,年底還會(huì)有20多款系統(tǒng)上市。包括華碩、Atos、思科、Dell Technologies、富士通、技嘉科技、HPE、浪潮、聯(lián)想、One Stop Systems、Quanta/QCT和Supermicro。
黃仁勛在GTC2020上強(qiáng)調(diào),DGX A100系統(tǒng)可以實(shí)現(xiàn)高利用率和低總擁有成本。當(dāng)以高售價(jià)廣為人知的英偉達(dá)高性能GPU開始強(qiáng)調(diào)總體擁有成本和能效時(shí),對(duì)于市場(chǎng)時(shí)的其他競(jìng)爭(zhēng)者而言無疑是一個(gè)壞消息,這也正是吸引更多超算系統(tǒng)使用英偉達(dá)產(chǎn)品的關(guān)鍵因素。
并且,英偉達(dá)也推出了為安培架構(gòu)和A100優(yōu)化的軟件支持,包括CUDA 11、50多個(gè)CUDA-X庫的新版本; 多模式對(duì)話式AI服務(wù)框架NVIDIA Jarvis;深度推薦應(yīng)用框架 NVIDIA Merlin; RAPIDS開源數(shù)據(jù)科學(xué)軟件庫套件;NVIDIA HPC SDK。
正在通過軟硬件產(chǎn)品幫助開發(fā)者構(gòu)建并加速HPC、基因組學(xué)、5G、數(shù)據(jù)科學(xué)、機(jī)器人學(xué)等領(lǐng)域的應(yīng)用的英偉達(dá),未來重點(diǎn)的提升方向會(huì)在哪?