從人工智能到云原生 NVIDIA正在布局超算領(lǐng)域
日前,在本周SC21高性能計(jì)算大會(huì)上最新發(fā)布的TOP500榜單上,NVIDIA技術(shù)為355套超級(jí)計(jì)算機(jī)系統(tǒng)提供加速,占榜單的70%以上,而新增系統(tǒng)中90% 以上都采用了NVIDIA 的技術(shù)。對(duì)比6月份發(fā)布的TOP500榜單上342個(gè)系統(tǒng)(占榜單68%)使用NVIDIA技術(shù),增長趨勢明顯。
NVIDIA在全球最節(jié)能系統(tǒng)Green500榜單上也繼續(xù)保持領(lǐng)先優(yōu)勢,占據(jù)了榜單排名前25名系統(tǒng)中的23套,與6月份持平。平均來看,采用NVIDIA GPU的系統(tǒng)能耗效率比非GPU系統(tǒng)高3.5倍。
除此之外,NVIDIA在本屆SC21高性能計(jì)算大會(huì)上還有不少發(fā)布,下面我們一起關(guān)注一下。
人工智能助力科學(xué)領(lǐng)域
另外,人工智能正帶來一場科學(xué)計(jì)算的革命。近年來,研究高性能計(jì)算和機(jī)器學(xué)習(xí)的論文數(shù)量激增,從2018年的約600篇增長到2020年的近5000篇。
HPL-AI、MLPerf HPC等新基準(zhǔn)也強(qiáng)調(diào)了高性能計(jì)算和AI工作負(fù)載的持續(xù)融合。
作為一個(gè)融合了高性能計(jì)算和人工智能工作負(fù)載的新基準(zhǔn),HPL-AI使用了深度學(xué)習(xí)和許多科學(xué)與商業(yè)工作的基礎(chǔ)——混合精度計(jì)算,同時(shí)還提供高性能計(jì)算基準(zhǔn)傳統(tǒng)的標(biāo)準(zhǔn)標(biāo)尺——雙精度計(jì)算的高度準(zhǔn)確性。
MLPerf HPC基準(zhǔn)適用于通過AI實(shí)現(xiàn)超級(jí)計(jì)算機(jī)模擬加速和增強(qiáng)的計(jì)算方式,主要被用來測試高性能計(jì)算中心天體物理學(xué)、天氣和分子動(dòng)力學(xué)三大關(guān)鍵工作負(fù)載的性能表現(xiàn)。
NVIDIA通過GPU加速處理、智能網(wǎng)絡(luò)、GPU優(yōu)化應(yīng)用程序和支持AI和高性能計(jì)算融合的庫來解決整個(gè)堆棧的問題。這一方法提升了工作負(fù)載的性能表現(xiàn),并推動(dòng)了科學(xué)突破。
GPU的并行處理能力再加上超過2500個(gè)GPU優(yōu)化應(yīng)用程序,在多數(shù)情況下可以讓用戶把高性能計(jì)算任務(wù)的時(shí)間從幾周減少到幾小時(shí)。加上NVIDIA持續(xù)優(yōu)化CUDA-X庫和GPU加速應(yīng)用程序,用戶GPU架構(gòu)性能還會(huì)有進(jìn)一步提升。
通過全棧創(chuàng)新,NVIDIA可助力超級(jí)計(jì)算機(jī)在科學(xué)應(yīng)用程序上實(shí)現(xiàn)高達(dá)16倍的性能提升。
NVIDIA通過NGC目錄中的容器提供最新版本的人工智能和高性能計(jì)算軟件。用戶只需在數(shù)據(jù)中心或云端的超級(jí)計(jì)算機(jī)上拖拽并運(yùn)行應(yīng)用程序,即可實(shí)現(xiàn)性能的快速提升。
云原生超級(jí)計(jì)算
NVIDIA還在SC21大會(huì)發(fā)布了最新云計(jì)算原生超級(jí)計(jì)算機(jī),能夠兼顧運(yùn)算性能與多租戶使用的需求,在不犧牲性能的前提下完成多人同時(shí)使用的應(yīng)用方式。
NVIDIA在SC21超級(jí)電大會(huì)的演說中提到,隨著通過GPU進(jìn)行加速運(yùn)算,以及Scale Up、Scale Out等擴(kuò)展,以及導(dǎo)入機(jī)器學(xué)習(xí),都大幅提升模擬運(yùn)算的性能。然而這類高性能計(jì)算大多以裸機(jī)運(yùn)算的形式進(jìn)行,不像云計(jì)算原生能夠以虛擬化、容器化的方式簡化管理并滿足多租戶的使用需求。
NVIDIA通過由Quantum-2交換機(jī)、ConnectX-7網(wǎng)卡、BlueField-3資料處理器(DPU)及DOCA軟件組成的Quantum-2 400Gbps InfiniBand網(wǎng)絡(luò)平臺(tái),將網(wǎng)絡(luò)與資料吞吐相關(guān)的工作轉(zhuǎn)移至DPU,讓運(yùn)行于云計(jì)算原生環(huán)境的程序也能完全發(fā)揮性能。
在SC21的演說中,NVIDIA也提到了先前在GTC 21秋季展發(fā)布的Earth-2超級(jí)計(jì)算機(jī)與地球數(shù)字孿生,但并沒有提供更多詳細(xì)信息。
與Atos成立卓越人工智能實(shí)驗(yàn)室
人工智能在高性能計(jì)算中的應(yīng)用能幫助研究人員加快模擬速度,同時(shí)保持傳統(tǒng)模擬方法的準(zhǔn)確性。
在此背景下,Atos和NVIDIA宣布成立卓越人工智能實(shí)驗(yàn)室(Excellence AI Lab,簡稱EXAIL),該實(shí)驗(yàn)室將匯聚一批科學(xué)家和研究人員,助力推進(jìn)歐洲計(jì)算技術(shù)、教育和研究的發(fā)展。
該實(shí)驗(yàn)室的首批研究項(xiàng)目將集中在高性能計(jì)算和AI的進(jìn)步所推動(dòng)的五大關(guān)鍵領(lǐng)域:氣候研究、醫(yī)療和基因組學(xué)、與量子計(jì)算的結(jié)合、邊緣人工智能/計(jì)算機(jī)視覺以及網(wǎng)絡(luò)安全。
Atos公司將利用NVIDIA基于Arm架構(gòu)的Grace CPU、NVIDIA下一代GPU、Atos BXI E級(jí)互聯(lián)技術(shù)和NVIDIA Quantum-2 InfiniBand網(wǎng)絡(luò)平臺(tái),開發(fā)一臺(tái)E級(jí)計(jì)算級(jí)別的BullSequana X超級(jí)計(jì)算機(jī)。
一、預(yù)測和解決氣候變化問題
為了更準(zhǔn)確地預(yù)測氣候變化,來自Atos和NVIDIA的研究人員將在歐洲最快的超級(jí)計(jì)算機(jī)——Jülich超級(jí)計(jì)算中心上,運(yùn)行新的AI和深度學(xué)習(xí)模型。這種巨型模型可用于預(yù)測極端天氣事件的演變、及其隨全球變暖而發(fā)生的變化,而這些將極大地受益于E級(jí)計(jì)算。
JUWELS Booster系統(tǒng)基于Atos的BullSequana XH2000平臺(tái),擁有近2.5 exaflops的AI性能,搭載3744個(gè)NVIDIA A100 Tensor Core GPU,并采用NVIDIA Quantum InfiniBand網(wǎng)絡(luò),將有助于更深入地了解氣候變化,并對(duì)颶風(fēng)、極端降水、炎熱和寒潮等事件進(jìn)行更準(zhǔn)確的長期預(yù)測。
二、利用高性能計(jì)算、量子和AI加速醫(yī)學(xué)研究
利用計(jì)算基因組學(xué)助力實(shí)現(xiàn)醫(yī)學(xué)突破,正在徹底改變藥物研發(fā)和醫(yī)療領(lǐng)域。Atos生命科學(xué)卓越中心已經(jīng)與40家領(lǐng)先機(jī)構(gòu)合作,利用高性能計(jì)算、量子計(jì)算和AI來推進(jìn)醫(yī)學(xué)成像、基因組學(xué)和制藥領(lǐng)域的發(fā)展。NVIDIA Clara 醫(yī)療應(yīng)用框架可為基因組學(xué)、醫(yī)學(xué)成像和計(jì)算化學(xué)應(yīng)用提供超級(jí)計(jì)算性能。
EXAIL將利用Atos的先進(jìn)計(jì)算解決方案和NVIDIA Clara,幫助醫(yī)療研究人員和供應(yīng)商利用嵌入式、邊緣、數(shù)據(jù)中心和云平臺(tái),加速藥物研發(fā)并設(shè)計(jì)先進(jìn)的診斷解決方案。
三、推進(jìn)量子研究
量子計(jì)算有望解決藥物研發(fā)、氣候研究、機(jī)器學(xué)習(xí)、物流和金融等領(lǐng)域的復(fù)雜問題。但在量子計(jì)算機(jī)變得可行之前,還有很多研究工作需要開展。
Atos的量子機(jī)器學(xué)習(xí)是為即將到來的量子計(jì)算機(jī)時(shí)代開發(fā)的量子軟件開發(fā)和模擬設(shè)備,使研究人員和工程師能夠開發(fā)和實(shí)驗(yàn)量子軟件。它將使用NVIDIA GPU助力大幅提高量子模擬的速度和規(guī)模。這將加速量子算法、量子信息科學(xué)、新的量子處理器架構(gòu)以及量子-GPU混合系統(tǒng)架構(gòu)的研究。
四、加速計(jì)算機(jī)視覺
利用Atos的邊緣設(shè)備,例如其在NVIDIA BlueField DPU上運(yùn)行的BullSequana Edge,EXAIL的研究團(tuán)隊(duì)將協(xié)力加速計(jì)算機(jī)視覺和5G無線基礎(chǔ)設(shè)施。Atos全球六個(gè)專門研究計(jì)算機(jī)視覺的實(shí)驗(yàn)室將配備最新NVIDIA Fleet Command技術(shù),用于在分布式邊緣基礎(chǔ)設(shè)施上安全地部署和管理AI應(yīng)用。
寫在最后
在SC21高性能計(jì)算大會(huì)上可以看出,從科學(xué)模擬、數(shù)據(jù)分析再到機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的發(fā)展和應(yīng)用,正在推動(dòng)超級(jí)計(jì)算中心、云服務(wù)提供商和企業(yè)重新思考他們的計(jì)算架構(gòu)。有一點(diǎn)值得注意的是,超算不僅被用在科研,也開始在產(chǎn)業(yè)應(yīng)用上取得進(jìn)展。而NVIDIA在全棧計(jì)算方面的布局,使其開始發(fā)揮出更廣泛的價(jià)值。