專為 DeepSeek 類強推理加速,老黃拿出 Blackwell Ultra,下代架構(gòu)性能還要翻倍
「因為 AI 技術爆發(fā),GTC 大會的規(guī)模每年都在擴大,以前人們說 GTC 是 AI 的伍德斯托克音樂節(jié),今年我們搬進了體育場,我覺得 GTC 已經(jīng)成了 AI 的超級碗,」英偉達 CEO 黃仁勛說道?!肝ㄒ坏牟煌谟诿總€人都是『超級碗』的贏家?!?/p>
北京時間 3 月 19 日凌晨,全世界的目光都匯聚在加州圣何塞 SAP 中心,期待英偉達給出的下一個 AI 大方向。
老黃的 Keynote 演講行云流水,沒有提詞器
在詳細介紹 Keynote 內(nèi)容之前,我們劃下重點:
- Blackwell 已經(jīng)全面投產(chǎn)?!府a(chǎn)量驚人,客戶需求驚人,因為人工智能出現(xiàn)了一個拐點,由于推理人工智能以及推理人工智能系統(tǒng)和智能體系統(tǒng)的訓練,我們在人工智能領域必須完成的計算量大大增加。」
- Blackwell Ultra 將于 2025 年下半年上市,下一代 AI 加速器架構(gòu) Vera Rubin 則會在 2026 年推出。
- 搭載分布式推理系統(tǒng) Dynamo 的 Blackwell NVLink 72 的「AI 工廠」性能是英偉達 Hopper 的 40 倍?!鸽S著人工智能規(guī)模的擴大,推理將成為未來十年最重要的工作負載之一」。
- 按照最新路線圖,英偉達正在構(gòu)建三種 AI 基礎設施:一種用于云,第二種用于企業(yè),第三種用于機器人。
發(fā)布會上,老黃再次拿出 CES 上展示的 AI 發(fā)展曲線:
從 2012 年的 AlexNet 開始,現(xiàn)在我們處于生成式人工智能的階段,即將進入智能體時代,隨后是物理人工智能。物理 AI 也就是進入物理世界的人工智能,包括自動駕駛汽車與機器人?!该恳淮卫顺倍紴槲覀兇蜷_了新的市場機遇?!?/p>
再增加一個維度,不容忽視的是 DeepSeek R1 推動測試時擴展(Test-Time Scaling)給機器智能帶來的全新發(fā)展曲線:
智能背后是計算的力量。預訓練時代解決數(shù)據(jù)問題,后訓練解決的是 human-in-the-loop 問題,而測試時間擴展則是為了增強 AI 的推理能力。每一階段都有自己的 Scaling Law,算力都是強需求。
所以,雖然 DeepSeek R1 的高效率給全世界以震撼,讓人們正在重估大模型的算力需求,但英偉達對于未來的 AI 算力需求仍然非常樂觀。
英偉達給出了一組數(shù)據(jù):僅在 2024 年,全球前四的云服務運營商共采購了 130 萬片 Hopper 架構(gòu)芯片。預計數(shù)據(jù)中心的建設投資將很快達到 1 萬億美元。不知道其中有多少是 OpenAI 星際之門項目的貢獻。
AI 計算不是在萎縮,而是在通貨膨脹,老黃進一步給出了兩個增長曲線:
- 第一個曲線,軟件都會因為 AI 而加速,在常規(guī)云服務上運行的人類編寫軟件,會轉(zhuǎn)變?yōu)?AI 編寫的軟件運行在加速 AI 基礎設施上;
- 第二個曲線,人們編寫的文字提示獲得 AI 生成的 token,轉(zhuǎn)變成為 AI 生成的 Token 引導出 AI 生成的結(jié)果(即強推理)。
在此之上,整個世界將會被重塑。
每個企業(yè)未來都會有兩個工廠,一個是物理的工廠,一個是 AI 的虛擬工廠。英偉達為所有行業(yè)的變革準備了新的工具,包括 CUDA X 軟件庫,其中包括用于 NumPy 的 cuPYNUMERIC、用于量子計算的 cuQUANTUM 和 CUDA-Q、用于深度學習的 NCCL 和 cuBLAS 等等。
所有這些庫都依賴 CUDA 核心來完成工作,為此英偉達也準備好了更先進的 AI 算力。
Blackwell 發(fā)布超大杯,性能猛增
Blackwell 架構(gòu)的 AI 加速卡現(xiàn)在已經(jīng)全面進入量產(chǎn)階段,正在推動下一波 AI 基礎設施浪潮?!高@是我們改變計算架構(gòu)基礎的重要一步,」黃仁勛說道。
在芯片架構(gòu)進步的同時,英偉達正在研究讓用戶同時訪問多個 GPU 的 NVLINK 交換機。
大規(guī)模的推理可能是英偉達迄今為止面臨的最復雜的計算問題,但又是 AI 未來的方向。過去幾個月里,很多人都在嘗試使用 DeepSeek,肯定已經(jīng)有了親身體驗:
黃仁勛展示了新舊兩代大模型是如何解決「為七位客人優(yōu)化婚宴餐桌位次」的問題。上代大語言模型 Llama 輸出了 439 個 token,結(jié)果不盡如人意。強推理模型 DeepSeek R1 輸出了 8559 個 token 進行了一番推理,花費的時間更長,計算量也更大,但結(jié)果真正能被人用得上。
老黃表示:「這是個只有丈母娘或者 AI 才能解決的問題。」
但是上面這個問題需要消耗 150 倍的算力。AI 服務商希望盡可能地向每位用戶提供更高的速度,同時也希望盡可能地向更多用戶提供服務。這就產(chǎn)生了對內(nèi)存、帶寬、計算速度等各個方面的巨大需求。Grace Blackwell NVLink72 正是為滿足這樣的需求誕生的。
為了提升效率,英偉達在軟件上也有創(chuàng)新,提出了「AI 工廠的操作系統(tǒng)」——NVIDIA Dynamo。它是一個「分布式推理服務庫」,而且是一個開源解決方案,解決的是用戶需要 token 但無法提供足夠 token 的問題。據(jù)介紹,Dynamo 會被用于在大量 GPU 之間高效編排和協(xié)調(diào) AI 推理請求。目前,微軟、Perplexity 等公司已宣布開始接入這一系統(tǒng)。
接下來,讓我們看看軟件 + 硬件能夠帶來的算力效率提升。如果強推理模型落地成產(chǎn)品,我們就需要 AI 能以極快的速度跑完思維鏈?!钢挥性谟ミ_,你才會這樣被數(shù)學折磨,」老黃說道。在推理模型中,最新版 Blackwell 的性能是 Hopper 的 40 倍:
黃仁勛展示了一個非常直觀的對比。同樣是 100 MW 功率的 AI 工廠,使用 GB200 搭建的數(shù)據(jù)中心的生產(chǎn)力是使用 H100 的數(shù)據(jù)中心的 40 倍,同時機架數(shù)量還能從 1400 大幅減少到 600。
現(xiàn)在不是「the more you buy the more you save」了,而是「the more you buy the more you generate」?!溉?TOPS 的云服務提供商(CSP)訂購的 Blackwell 芯片數(shù)量是 Hopper 的三倍,AI 算力的需求正在迅猛增長。」黃仁勛表示。
不得不說,他表示自己確實想提高 Blackwell 的銷量,但這同時在一定程度上降低了 Hopper 的銷量。他甚至打趣說自己是 chief revenue destroyer(首席收入破壞官)。
黃仁勛表示,人們的 AI 任務需求正在大幅提升,因為大模型推理任務、AI Agent 等任務,AI 推理的算力需求已經(jīng)增長了 10-100 倍。這也就產(chǎn)生了對更強大性能的需求。
似乎是在順應手機和新能源車出「超大杯」Ultra 版的風潮,英偉達在旗艦 AI 計算卡上也搞了個 Ultra 版:Blackwell Ultra NVL72。
這是迄今為止 AI 算力最強大的硬件,配備了 1.1 EF 的密集 FP4 推理能力和 0.36 EF 的 FP8 訓練能力,達到了 GB200 NVL72 的 1.5 倍。此外,它的互聯(lián)帶寬是 GB200 NVL72 的 2 倍,內(nèi)存速度也提升了 1.5 倍。至于 Blackwell Ultra NVL72 的上市時間,預計會是今年下半年。
將八個 NVL72 機架放在一起,就可以獲得完整的 Blackwell Ultra DGX SuperPOD:288 個 Grace CPU、576 個 Blackwell Utlra GPU、300TB HBM3e 內(nèi)存和 11.5 ExaFLOPS FP4 算力。這就形成了英偉達定義中「AI 工廠」的超級計算機解決方案。
需要注意的是,Blackwell Ultra GPU(GB300 和 B300)與 Blackwell GPU(GB200 和 B200)是不同的芯片。
下一代架構(gòu) Vera Rubin
既然算力在通貨膨脹,那這還遠遠不夠。在今天的 Keynote 中,英偉達很快就介紹完了 Blackwell Ultra,轉(zhuǎn)而展示了其下一代架構(gòu) Vera Rubin—— 其全機架性能應是同類 Blackwell Ultra 的 3.3 倍。
Vera Rubin 將是英偉達的下一個平臺,將于 2026 年下半年推出。Vera Rubin 具有 NVLink144,更強大的 Rubin Ultra 則具有 NVLink576,將于 2027 年下半年推出。在具體性能上,其將具有 3.6 EF 的 FP4 推理性能和 1.2 EF 的 FP8 訓練性能,整體可達到 GB300 NVL72 的 3.3 倍,同時在其它指標上也有 2 倍左右的提升。
其 Ultra 版則計劃在 2027 年下半年推出,其性能更是有望達到 GB300 NVL72 的 14 倍!
除了 GPU 芯片的迭代,Rubin 還將標志著從 HBM3/HBM3e 向 HBM4 的轉(zhuǎn)變。每 GPU 的內(nèi)存容量仍為 288GB,與 B300 相同,但帶寬將從 8 TB/s 提高到 13 TB/s。下代產(chǎn)品還將擁有更快的 NVLink,吞吐量翻倍至 260 TB/s,機架之間的新 CX9 鏈路速度為 28.8 TB/s(是 B300 和 CX8 的兩倍)。
如果將 4 組 Vera Rubin NVLink144 組成的 Vera Rubin NVLink576 來構(gòu)建 NVIDIA Rubin System,則這將是配備 576 個 Rubin GPU 的性能怪獸,能實現(xiàn) 15 EF 的 FP4 性能,同時內(nèi)存也將達到驚人的 150 TB。對比前代 Blackwell System 的性能,可以看到優(yōu)勢非常明顯。
黃仁勛特別強調(diào):「你可以看到,Rubin 將大大降低成本?!?/p>
據(jù)了解,這一代 GPU 得名于科學家 Vera Rubin,她是一位美國天文學家,1928 年出生于費城。她的知名成就是發(fā)現(xiàn)了暗物質(zhì)存在的證據(jù)。
值得一提的是,自去年的 Blackwell 開始,命名就不再單指芯片架構(gòu)。黃仁勛就曾強調(diào),Blackwell 并不是某塊芯片,而是一個技術平臺,英偉達也越來越多地開始使用「Blackwell」一詞來指代該公司所有最新一代 AI 產(chǎn)品,例如 GB200 芯片和 DGX 服務器機架。
黃仁勛還在演講中簡單提到了再后一代的 Feynman 架構(gòu) —— 很顯然這得名于著名物理學家理查德?費曼。不過這至少得等到 2028 年了。
此外,黃仁勛還宣布了 NVIDIA Photonics,這似乎是迄今為止最強大的 Spectrum-X 以太網(wǎng)互聯(lián),以激光作為介質(zhì),可以大幅提升 GPU 之間的傳輸速度,支持擁有數(shù)百萬塊 GPU 的集群。預計這款產(chǎn)品將于今年下半年上市,而新一代的 Quantum-X 將在明年下半年上市。
今天的新產(chǎn)品中相對來說接地氣的是 Blackwell RTX Pro 系列圖形產(chǎn)品。其面向的是筆記本電腦和臺式機,以及獨立 PC 和數(shù)據(jù)中心產(chǎn)品。具體規(guī)格和配置的細節(jié)尚未公布,已知頂級解決方案將使用與 GeForce RTX 5090 相同的 GB202 芯片(但顯存會更大)。
至此,英偉達看起來已經(jīng)為強推理 AI 大規(guī)模落地所需巨量的計算做好了準備。
下一波浪潮:物理世界的 AI
最后是對未來的展望。英偉達表示,AI 的下一波浪潮必然會延伸到物理世界,主要形式會是三種機器人:工業(yè)機器人、自動駕駛車輛以及狹義的人形機器人。
三種機器人都需要的算力包括預訓練、模擬環(huán)境和端側(cè)算力,這些算力英偉達都提供。物理世界的 AI 將會帶動數(shù)萬億美元的工業(yè)產(chǎn)值,數(shù)以十億計的機器人將會使用英偉達的計算平臺。
數(shù)據(jù)、架構(gòu)、Scaling Law,這些問題在機器人領域也同樣存在
對此,英偉達的預訓練模型平臺 Cosmos、GROOT N1 以及 NVIDIA Omniverse 將會幫助物理 AI 生態(tài)的構(gòu)建,推動技術的發(fā)展。
其中,GROOT N1 是通用的機器人基礎模型,英偉達宣布已經(jīng)把它開源了出來。模型采用雙系統(tǒng)架構(gòu),靈感來自人類認知原理。在視覺語言模型的支持下,系統(tǒng) 2 可以推理其環(huán)境和收到的指令,從而規(guī)劃行動。然后,系統(tǒng) 1 將這些計劃轉(zhuǎn)化為精確、連續(xù)的機器人動作。
基于可通過少量人類演示生成指數(shù)級的大量合成動作數(shù)據(jù)的生成藍圖,他們在短短 11 小時內(nèi)生成了 78 萬條合成軌跡,相當于 6500 小時或連續(xù) 9 個月的人類演示數(shù)據(jù)。然后,通過將合成數(shù)據(jù)與真實數(shù)據(jù)相結(jié)合,與僅使用真實數(shù)據(jù)相比,GR00T N1 的性能提高了 40%。
黃仁勛展示了與迪斯尼和 DeepMind 聯(lián)合開發(fā)的機器人平臺 Newton,以及基于該平臺打造的《星球大戰(zhàn)》風格的機器人 Blue。
他表示,對于機器人,可驗證的獎勵就是物理定律。
利用 Omniverse 和 Cosmos 通過數(shù)字孿生虛擬訓練機器人的 AI,然后將其轉(zhuǎn)化為現(xiàn)實世界的動作 Token 輸出,這就是未來機器人大規(guī)模落地的方式嗎?
如果人形機器人會有恐怖谷效應的話,科幻電影里早已為我們準備了解決方案。
「每個人都應該關注機器人領域,它很可能會成為最大的產(chǎn)業(yè),」黃仁勛說。