英偉達(dá)吞噬世界!新架構(gòu)超級(jí)GPU問(wèn)世,AI算力一步提升30倍
「這不是演唱會(huì)。你們是來(lái)參加開(kāi)發(fā)者大會(huì)的!」老黃出場(chǎng)時(shí),現(xiàn)場(chǎng)爆發(fā)出了巨大的歡呼聲。
今天凌晨四點(diǎn),加州圣何塞,全球市值第三大公司英偉達(dá)一年一度的 GTC 大會(huì)開(kāi)始了。
今年的 GTC 大會(huì)伴隨著生成式 AI 技術(shù)爆發(fā),以及英偉達(dá)市值的暴漲。相對(duì)的是,算力市場(chǎng)也在升溫,硬件和軟件方面的競(jìng)爭(zhēng)都在加劇。
而英偉達(dá)帶來(lái)的產(chǎn)品,再次將 AI 芯片的標(biāo)桿推向了難以想象的高度。
「通用計(jì)算已經(jīng)失去動(dòng)力,現(xiàn)在我們需要更大的模型,我們需要更大的 GPU,更需要將 GPU 堆疊在一起?!裹S仁勛說(shuō)道。「這不是為了降低成本,而是為了擴(kuò)大規(guī)模。」
黃仁勛提到,大模型參數(shù)量正在呈指數(shù)級(jí)增長(zhǎng),此前 OpenAI 最大的模型已經(jīng)有 1.8T 參數(shù),需要吞吐數(shù)十億 token。即使是一塊 PetaFLOP 級(jí)的 GPU,訓(xùn)練這樣大的模型也需要 1000 年才能完成。這句話(huà)還透露了一個(gè)關(guān)鍵信息:GPT-4 的實(shí)際參數(shù)量應(yīng)該就是 1.8 萬(wàn)億。
為了幫助世界構(gòu)建更大的 AI,英偉達(dá)必須首先拿出新的 GPU,這就是 Backwell。此處老黃已有點(diǎn)詞窮了:「這是塊非常非常大的 GPU!」
Blackwell 的發(fā)布意味著,近八年來(lái),AI 算力增長(zhǎng)了一千倍。一些網(wǎng)友看完發(fā)布會(huì)驚嘆:Nvidia eats world!
2080 億個(gè)晶體管的 Blackwell
同行不知應(yīng)該怎么追
雖然全球的科技公司都還在爭(zhēng)搶 H100 芯片,但新一代產(chǎn)品已來(lái)。
在今天的大會(huì)上,英偉達(dá)正式推出了 Blackwell 平臺(tái)。從此以后,在數(shù)萬(wàn)億參數(shù)上構(gòu)建和運(yùn)行實(shí)時(shí)生成式 AI 大型語(yǔ)言模型的成本和能耗降低到此前的 25 分之一。
Blackwell 的名字旨在紀(jì)念第一位入選美國(guó)國(guó)家科學(xué)院的黑人學(xué)者、數(shù)學(xué)家和博弈論學(xué)家 David Harold Blackwell,它繼承了 Hopper GPU 架構(gòu),為加速計(jì)算樹(shù)立了新的標(biāo)準(zhǔn)。英偉達(dá)表示,Blackwell 架構(gòu)的 GPU 預(yù)計(jì)將于今年晚些時(shí)候發(fā)貨。
David Harold Blackwell。圖源 britannica
正如預(yù)期的一樣,Blackwell 是英偉達(dá)首個(gè)采用 MCM(多芯片封裝)設(shè)計(jì)的 GPU,在同一個(gè)芯片上集成了兩個(gè) GPU。
在活動(dòng)現(xiàn)場(chǎng),黃仁勛對(duì)比了 Blackwell(右手)與 Hopper GH100 GPU(左手)的尺寸大小。
It’s OK, Hopper.
黃仁勛表示,Blackwell 將成為世界上最強(qiáng)大的芯片。Blackwell 架構(gòu)的 GPU 擁有 2080 億個(gè)晶體管,采用定制的、雙 reticle 的臺(tái)積電 4NP(4N 工藝的改進(jìn)版本)制程工藝,兩塊小芯片之間的互聯(lián)速度高達(dá) 10TBps,可以大幅度提高處理能力。
此處需要強(qiáng)調(diào)的是,沒(méi)有內(nèi)存局部性問(wèn)題或緩存問(wèn)題,CUDA 將其視為單塊 GPU。
它還帶有 192GB 速度為 8Gbps 的 HBM3E 內(nèi)存,AI 算力能達(dá)到 20 petaflops(FP4 精度),相比之下,上代的 H100「僅為」4 petaflops。
這是世界上第一次有如此高效整合在一起的多 die 芯片,或許也是在制程升級(jí)速度減慢之后,升級(jí)算力的唯一方法。
黃仁勛提到,Blackwell 不是芯片名,而是整個(gè)平臺(tái)的名字。具體來(lái)講,采用 Blackwell 架構(gòu)的 GPU 分為了 B200 和 GB200 產(chǎn)品系列,后者集成了 1 個(gè) Grace CPU 和 2 個(gè) B200 GPU。
其中 B200 GPU 通過(guò) 2080 億個(gè)晶體管提供高達(dá) 20 petaflops 的 FP4 吞吐量。而 GB200 GPU 通過(guò) 900GB / 秒的超低功耗芯片到芯片連接,將兩個(gè) B200 GPU 連接到 1 個(gè) Grace CPU 上。
GB200 架構(gòu),包含兩個(gè) GPU 和一個(gè) CPU
相較于 H100 Tensor Core GPU,GB200 超級(jí)芯片可以為大語(yǔ)言模型(LLM)推理負(fù)載提供 30 倍的性能提升,并將成本和能耗降低高達(dá) 25 倍。
「人們認(rèn)為我們制造 GPU,但 GPU 看起來(lái)并不像以前那樣了,」黃仁勛表示。「我現(xiàn)在一手拿著 100 億,一手拿著 50 億?!?/span>
現(xiàn)在,顯卡不再是顯卡,而是作為系統(tǒng)整體售賣(mài),畢竟只有通過(guò)英偉達(dá)自家的組件才能達(dá)到最佳效率?!脯F(xiàn)在我們賣(mài)的 GPU 是 7000 個(gè)組件,3000 磅重。」
基于 Blackwell 的 AI 算力將以名為 DGX GB200 的完整服務(wù)器形態(tài)提供給用戶(hù),結(jié)合了 36 顆 NVIDIA Grace CPU 和 72 塊 Blackwell GPU。這些超級(jí)芯片通過(guò)第五代 NVLink 連接成一臺(tái)超級(jí)計(jì)算機(jī)。
再往上擴(kuò)展,Grace Blackwell 架構(gòu)的 DGX SuperPOD 由 8 個(gè)或以上的 DGX GB200 系統(tǒng)構(gòu)建而成,這些系統(tǒng)通過(guò) NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)連接,可擴(kuò)展到數(shù)萬(wàn)個(gè) GB200 超級(jí)芯片。用戶(hù)可通過(guò) NVLink 連接 8 個(gè) DGX GB200 系統(tǒng)中的 576 塊 Blackwell GPU,從而獲得海量共享顯存空間,來(lái)訓(xùn)練下一代 AI 模型。
再詳細(xì)對(duì)比一下性能的升級(jí),以前使用 Hopper 訓(xùn)練 GPT-MoE-1.8T,8000 塊 GPU 要花費(fèi) 90 天,同樣的事只需要 2000 塊 GB2000,能耗也只需要四分之一。
生成式 AI 的下一步是多模態(tài)和視頻,也就意味著更大規(guī)模的訓(xùn)練,Blackwell 帶來(lái)了更多可能性。
此外,大模型(LLM)的大規(guī)模推理始終是一個(gè)挑戰(zhàn),并非適合單個(gè) GPU 的任務(wù)。在具有 1750 億個(gè)參數(shù)的 GPT-3 LLM 基準(zhǔn)測(cè)試中,GB200 的性能是 H100 的 7 倍,并且訓(xùn)練速度是 H100 的 4 倍。
現(xiàn)在,用于大模型推理的速度是上代的 30 倍,黃仁勛展示了一張對(duì)比圖,藍(lán)線(xiàn)是 Hopper。
「DGX 超級(jí)計(jì)算機(jī)是推進(jìn) AI 產(chǎn)業(yè)變革的工廠(chǎng)。新一代 DGX SuperPOD 集加速計(jì)算、網(wǎng)絡(luò)和軟件方面的最新進(jìn)展于一身,能幫助每一個(gè)公司、行業(yè)和國(guó)家完善并生成自己的 AI,」黃仁勛說(shuō)道。
有了 Blackwell,我們距離生成式 AI 的實(shí)用化也更近了一步。
兩大技術(shù)革新
第二代 Transformer 引擎、第五代 NVLink
30 倍 AI 算力是如何做到的?除了使用新制程,并聯(lián)兩塊芯片以外,Blackwell 的關(guān)鍵改進(jìn)在于引入第二代 Transformer 引擎,它支持了 FP4 和 FP6,使得計(jì)算、帶寬和模型大小翻了一番。
得益于新的微張量(micro-tensor)擴(kuò)展支持和集成到英偉達(dá) TensorRT-LLM 和 NeMo Megatron 框架中的先進(jìn)動(dòng)態(tài)范圍管理算法,Blackwell 通過(guò) 4-bit 浮點(diǎn) AI 推理能力支持了雙倍的算力和模型大小。
當(dāng)互聯(lián)大量此類(lèi) GPU 時(shí),第二個(gè)關(guān)鍵區(qū)別開(kāi)始顯現(xiàn):下一代 NVLink 交換機(jī)可讓 576 個(gè) GPU 相互通信,具有每秒 1.8 TB 的雙向帶寬。
英偉達(dá)表示,此前,僅由 16 個(gè) GPU 組成的集群會(huì)在相互通信上花費(fèi) 60% 的時(shí)間,而只有 40% 的時(shí)間用于實(shí)際計(jì)算。
現(xiàn)在,英偉達(dá)的 NVLink Switch Chip 可以讓所有這些芯片互聯(lián)起來(lái),全速運(yùn)轉(zhuǎn)沒(méi)有瓶頸(1.8TB/s,幾乎比上代快 10 倍),并幫助構(gòu)建了 DGX GB200 NVL72。
通過(guò)高速互聯(lián)的機(jī)制,DGX GB200 NVL72 可以被認(rèn)為是一個(gè)超級(jí) GPU,F(xiàn)P8 訓(xùn)練吞吐量高達(dá) 720 PFLOPS、FP4 推理吞吐量為 1.44 ExaFLOPS,多節(jié)點(diǎn) All-to-All 通信速度為 130TB / 秒,多節(jié)點(diǎn) All-Reduce 通信速度為 260TB / 秒。
在具體架構(gòu)方面,DGX GB200 NVL72 擁有 18 個(gè) GB200 節(jié)點(diǎn)機(jī)架,每個(gè)節(jié)點(diǎn)搭配 2 個(gè) GB200 GPU。此外還有 9 個(gè) NVSwitch 機(jī)架,從而為 GB200 NVL 提供了 720 PFLOPS 的 FP8 吞吐量,以及 FP4 精度的 ExaFLOPS。
所以今年畫(huà)風(fēng)變了現(xiàn)在 DGX 長(zhǎng)這樣:擁有 5000 條 NVLink 電纜,長(zhǎng)達(dá) 2 英里,都是銅電纜,不需要光收發(fā)器,節(jié)省了 20kW 的計(jì)算成本。
它的功耗過(guò)大,以至于需要用液冷,同時(shí)重量高達(dá) 3000 磅(約 1361 公斤)。
2016 年,老黃扛著第一個(gè) DGX 系統(tǒng)給 OpenAI,這才有了如今的 ChatGPT。那個(gè)時(shí)候 DGX 的算力是 0.17Petaflops,現(xiàn)在這個(gè) GB200,算力是以 Exaflop 計(jì)算的。
在英偉達(dá)新的摩爾定律下,算力的提升速度居然還加快了。
構(gòu)建生態(tài),入場(chǎng)具身智能
除了硬件系統(tǒng),英偉達(dá)也利用生成式 AI 構(gòu)建了一系列元宇宙、工業(yè)數(shù)字孿生、機(jī)器人訓(xùn)練軟件體系。
英偉達(dá)表示,它正在將 Omniverse 企業(yè)技術(shù)引入蘋(píng)果。這個(gè)想法是讓開(kāi)發(fā)人員通過(guò) Vision Pro 在 AR/VR 設(shè)置中使用 Omniverse 工具。在 GTC 上,英偉達(dá)展示了設(shè)計(jì)師是如何通過(guò) Vision Pro 使用汽車(chē)配置工具來(lái)操縱車(chē)輛,然后虛擬地進(jìn)入其中的。人們可以通過(guò) Omniverse Cloud API 以及通過(guò)云端直接流式傳輸?shù)?Vision Pro 的圖形傳輸網(wǎng)絡(luò)來(lái)做到這一點(diǎn)。
最后,還有前沿方向機(jī)器人的工作,英偉達(dá)公布了人形機(jī)器人項(xiàng)目 GR00T。
在今天的主題演講中,黃仁勛展示了多個(gè)由 GR00T 驅(qū)動(dòng)的人形機(jī)器人如何完成各種任務(wù),包括來(lái)自 Agility Robotics、Apptronik、傅利葉智能(Fourier Intelligence) 和宇樹(shù)科技(Unitree Robotics) 的機(jī)器人產(chǎn)品。
GR00T 脫胎于英偉達(dá)的 Isaac 機(jī)器人平臺(tái)工具,基于新的通用基礎(chǔ)模型,GR00T 驅(qū)動(dòng)的人形機(jī)器人能夠接受文本、語(yǔ)音、視頻甚至現(xiàn)場(chǎng)演示的輸入,并對(duì)其進(jìn)行處理以采取特定的操作,包括理解自然語(yǔ)言、模擬人類(lèi)行為、在現(xiàn)實(shí)世界中導(dǎo)航和交互。
英偉達(dá)還開(kāi)發(fā)了一種新型「機(jī)器人大腦」計(jì)算芯片 Jetson Thor,能夠執(zhí)行復(fù)雜的任務(wù)并使用 Transformer 引擎處理多個(gè)傳感器。
人形機(jī)器人賽道近期達(dá)到了一個(gè)新的火熱程度。就比如英偉達(dá)的「大客戶(hù)」OpenAI,一直在使用自己的 AI 模型來(lái)為一家名為 Figure 的初創(chuàng)公司的人形機(jī)器人提供支持。
現(xiàn)在英偉達(dá)也把它擺在了重要位置,正如黃仁勛所說(shuō):「機(jī)器人的 ChatGPT 時(shí)刻可能即將到來(lái)?!?/span>
你準(zhǔn)備好了嗎?