自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

專為 DeepSeek 類強推理加速,老黃拿出 Blackwell Ultra,下代架構(gòu)性能還要翻倍

人工智能
雖然 DeepSeek R1 的高效率給全世界以震撼,讓人們正在重估大模型的算力需求,但英偉達對于未來的 AI 算力需求仍然非常樂觀。

「因為 AI 技術爆發(fā),GTC 大會的規(guī)模每年都在擴大,以前人們說 GTC 是 AI 的伍德斯托克音樂節(jié),今年我們搬進了體育場,我覺得 GTC 已經(jīng)成了 AI 的超級碗,」英偉達 CEO 黃仁勛說道?!肝ㄒ坏牟煌谟诿總€人都是『超級碗』的贏家?!?/p>

北京時間 3 月 19 日凌晨,全世界的目光都匯聚在加州圣何塞 SAP 中心,期待英偉達給出的下一個 AI 大方向。

老黃的 Keynote 演講行云流水,沒有提詞器

在詳細介紹 Keynote 內(nèi)容之前,我們劃下重點:

  • Blackwell 已經(jīng)全面投產(chǎn)?!府a(chǎn)量驚人,客戶需求驚人,因為人工智能出現(xiàn)了一個拐點,由于推理人工智能以及推理人工智能系統(tǒng)和智能體系統(tǒng)的訓練,我們在人工智能領域必須完成的計算量大大增加。」
  • Blackwell Ultra 將于 2025 年下半年上市,下一代 AI 加速器架構(gòu) Vera Rubin 則會在 2026 年推出。
  • 搭載分布式推理系統(tǒng) Dynamo 的 Blackwell NVLink 72 的「AI 工廠」性能是英偉達 Hopper 的 40 倍?!鸽S著人工智能規(guī)模的擴大,推理將成為未來十年最重要的工作負載之一」。
  • 按照最新路線圖,英偉達正在構(gòu)建三種 AI 基礎設施:一種用于云,第二種用于企業(yè),第三種用于機器人。

發(fā)布會上,老黃再次拿出 CES 上展示的 AI 發(fā)展曲線:

從 2012 年的 AlexNet 開始,現(xiàn)在我們處于生成式人工智能的階段,即將進入智能體時代,隨后是物理人工智能。物理 AI 也就是進入物理世界的人工智能,包括自動駕駛汽車與機器人?!该恳淮卫顺倍紴槲覀兇蜷_了新的市場機遇?!?/p>

再增加一個維度,不容忽視的是 DeepSeek R1 推動測試時擴展(Test-Time Scaling)給機器智能帶來的全新發(fā)展曲線:

智能背后是計算的力量。預訓練時代解決數(shù)據(jù)問題,后訓練解決的是 human-in-the-loop 問題,而測試時間擴展則是為了增強 AI 的推理能力。每一階段都有自己的 Scaling Law,算力都是強需求。

所以,雖然 DeepSeek R1 的高效率給全世界以震撼,讓人們正在重估大模型的算力需求,但英偉達對于未來的 AI 算力需求仍然非常樂觀。

英偉達給出了一組數(shù)據(jù):僅在 2024 年,全球前四的云服務運營商共采購了 130 萬片 Hopper 架構(gòu)芯片。預計數(shù)據(jù)中心的建設投資將很快達到 1 萬億美元。不知道其中有多少是 OpenAI 星際之門項目的貢獻。

AI 計算不是在萎縮,而是在通貨膨脹,老黃進一步給出了兩個增長曲線:

  • 第一個曲線,軟件都會因為 AI 而加速,在常規(guī)云服務上運行的人類編寫軟件,會轉(zhuǎn)變?yōu)?AI 編寫的軟件運行在加速 AI 基礎設施上;
  • 第二個曲線,人們編寫的文字提示獲得 AI 生成的 token,轉(zhuǎn)變成為 AI 生成的 Token 引導出 AI 生成的結(jié)果(即強推理)。

在此之上,整個世界將會被重塑。

每個企業(yè)未來都會有兩個工廠,一個是物理的工廠,一個是 AI 的虛擬工廠。英偉達為所有行業(yè)的變革準備了新的工具,包括 CUDA X 軟件庫,其中包括用于 NumPy 的 cuPYNUMERIC、用于量子計算的 cuQUANTUM 和 CUDA-Q、用于深度學習的 NCCL 和 cuBLAS 等等。

所有這些庫都依賴 CUDA 核心來完成工作,為此英偉達也準備好了更先進的 AI 算力。

Blackwell 發(fā)布超大杯,性能猛增

Blackwell 架構(gòu)的 AI 加速卡現(xiàn)在已經(jīng)全面進入量產(chǎn)階段,正在推動下一波 AI 基礎設施浪潮?!高@是我們改變計算架構(gòu)基礎的重要一步,」黃仁勛說道。

在芯片架構(gòu)進步的同時,英偉達正在研究讓用戶同時訪問多個 GPU 的 NVLINK 交換機。

大規(guī)模的推理可能是英偉達迄今為止面臨的最復雜的計算問題,但又是 AI 未來的方向。過去幾個月里,很多人都在嘗試使用 DeepSeek,肯定已經(jīng)有了親身體驗:

黃仁勛展示了新舊兩代大模型是如何解決「為七位客人優(yōu)化婚宴餐桌位次」的問題。上代大語言模型 Llama 輸出了 439 個 token,結(jié)果不盡如人意。強推理模型 DeepSeek R1 輸出了 8559 個 token 進行了一番推理,花費的時間更長,計算量也更大,但結(jié)果真正能被人用得上。

老黃表示:「這是個只有丈母娘或者 AI 才能解決的問題。」

但是上面這個問題需要消耗 150 倍的算力。AI 服務商希望盡可能地向每位用戶提供更高的速度,同時也希望盡可能地向更多用戶提供服務。這就產(chǎn)生了對內(nèi)存、帶寬、計算速度等各個方面的巨大需求。Grace Blackwell NVLink72 正是為滿足這樣的需求誕生的。

為了提升效率,英偉達在軟件上也有創(chuàng)新,提出了「AI 工廠的操作系統(tǒng)」——NVIDIA Dynamo。它是一個「分布式推理服務庫」,而且是一個開源解決方案,解決的是用戶需要 token 但無法提供足夠 token 的問題。據(jù)介紹,Dynamo 會被用于在大量 GPU 之間高效編排和協(xié)調(diào) AI 推理請求。目前,微軟、Perplexity 等公司已宣布開始接入這一系統(tǒng)。

接下來,讓我們看看軟件 + 硬件能夠帶來的算力效率提升。如果強推理模型落地成產(chǎn)品,我們就需要 AI 能以極快的速度跑完思維鏈?!钢挥性谟ミ_,你才會這樣被數(shù)學折磨,」老黃說道。在推理模型中,最新版 Blackwell 的性能是 Hopper 的 40 倍:

黃仁勛展示了一個非常直觀的對比。同樣是 100 MW 功率的 AI 工廠,使用 GB200 搭建的數(shù)據(jù)中心的生產(chǎn)力是使用 H100 的數(shù)據(jù)中心的 40 倍,同時機架數(shù)量還能從 1400 大幅減少到 600。

現(xiàn)在不是「the more you buy the more you save」了,而是「the more you buy the more you generate」?!溉?TOPS 的云服務提供商(CSP)訂購的 Blackwell 芯片數(shù)量是 Hopper 的三倍,AI 算力的需求正在迅猛增長。」黃仁勛表示。

不得不說,他表示自己確實想提高 Blackwell 的銷量,但這同時在一定程度上降低了 Hopper 的銷量。他甚至打趣說自己是 chief revenue destroyer(首席收入破壞官)。

黃仁勛表示,人們的 AI 任務需求正在大幅提升,因為大模型推理任務、AI Agent 等任務,AI 推理的算力需求已經(jīng)增長了 10-100 倍。這也就產(chǎn)生了對更強大性能的需求。

似乎是在順應手機和新能源車出「超大杯」Ultra 版的風潮,英偉達在旗艦 AI 計算卡上也搞了個 Ultra 版:Blackwell Ultra NVL72。

這是迄今為止 AI 算力最強大的硬件,配備了 1.1 EF 的密集 FP4 推理能力和 0.36 EF 的 FP8 訓練能力,達到了 GB200 NVL72 的 1.5 倍。此外,它的互聯(lián)帶寬是 GB200 NVL72 的 2 倍,內(nèi)存速度也提升了 1.5 倍。至于 Blackwell Ultra NVL72 的上市時間,預計會是今年下半年。

將八個 NVL72 機架放在一起,就可以獲得完整的 Blackwell Ultra DGX SuperPOD:288 個 Grace CPU、576 個 Blackwell Utlra GPU、300TB HBM3e 內(nèi)存和 11.5 ExaFLOPS FP4 算力。這就形成了英偉達定義中「AI 工廠」的超級計算機解決方案。

需要注意的是,Blackwell Ultra GPU(GB300 和 B300)與 Blackwell GPU(GB200 和 B200)是不同的芯片。

下一代架構(gòu) Vera Rubin

既然算力在通貨膨脹,那這還遠遠不夠。在今天的 Keynote 中,英偉達很快就介紹完了 Blackwell Ultra,轉(zhuǎn)而展示了其下一代架構(gòu) Vera Rubin—— 其全機架性能應是同類 Blackwell Ultra 的 3.3 倍。

Vera Rubin 將是英偉達的下一個平臺,將于 2026 年下半年推出。Vera Rubin 具有 NVLink144,更強大的 Rubin Ultra 則具有 NVLink576,將于 2027 年下半年推出。在具體性能上,其將具有 3.6 EF 的 FP4 推理性能和 1.2 EF 的 FP8 訓練性能,整體可達到 GB300 NVL72 的 3.3 倍,同時在其它指標上也有 2 倍左右的提升。

其 Ultra 版則計劃在 2027 年下半年推出,其性能更是有望達到 GB300 NVL72 的 14 倍!

除了 GPU 芯片的迭代,Rubin 還將標志著從 HBM3/HBM3e 向 HBM4 的轉(zhuǎn)變。每 GPU 的內(nèi)存容量仍為 288GB,與 B300 相同,但帶寬將從 8 TB/s 提高到 13 TB/s。下代產(chǎn)品還將擁有更快的 NVLink,吞吐量翻倍至 260 TB/s,機架之間的新 CX9 鏈路速度為 28.8 TB/s(是 B300 和 CX8 的兩倍)。

如果將 4 組 Vera Rubin NVLink144 組成的 Vera Rubin NVLink576 來構(gòu)建 NVIDIA Rubin System,則這將是配備 576 個 Rubin GPU 的性能怪獸,能實現(xiàn) 15 EF 的 FP4 性能,同時內(nèi)存也將達到驚人的 150 TB。對比前代 Blackwell System 的性能,可以看到優(yōu)勢非常明顯。

黃仁勛特別強調(diào):「你可以看到,Rubin 將大大降低成本?!?/p>

據(jù)了解,這一代 GPU 得名于科學家 Vera Rubin,她是一位美國天文學家,1928 年出生于費城。她的知名成就是發(fā)現(xiàn)了暗物質(zhì)存在的證據(jù)。

值得一提的是,自去年的 Blackwell 開始,命名就不再單指芯片架構(gòu)。黃仁勛就曾強調(diào),Blackwell 并不是某塊芯片,而是一個技術平臺,英偉達也越來越多地開始使用「Blackwell」一詞來指代該公司所有最新一代 AI 產(chǎn)品,例如 GB200 芯片和 DGX 服務器機架。

黃仁勛還在演講中簡單提到了再后一代的 Feynman 架構(gòu) —— 很顯然這得名于著名物理學家理查德?費曼。不過這至少得等到 2028 年了。

此外,黃仁勛還宣布了 NVIDIA Photonics,這似乎是迄今為止最強大的 Spectrum-X 以太網(wǎng)互聯(lián),以激光作為介質(zhì),可以大幅提升 GPU 之間的傳輸速度,支持擁有數(shù)百萬塊 GPU 的集群。預計這款產(chǎn)品將于今年下半年上市,而新一代的 Quantum-X 將在明年下半年上市。

今天的新產(chǎn)品中相對來說接地氣的是 Blackwell RTX Pro 系列圖形產(chǎn)品。其面向的是筆記本電腦和臺式機,以及獨立 PC 和數(shù)據(jù)中心產(chǎn)品。具體規(guī)格和配置的細節(jié)尚未公布,已知頂級解決方案將使用與 GeForce RTX 5090 相同的 GB202 芯片(但顯存會更大)。

至此,英偉達看起來已經(jīng)為強推理 AI 大規(guī)模落地所需巨量的計算做好了準備。

下一波浪潮:物理世界的 AI

最后是對未來的展望。英偉達表示,AI 的下一波浪潮必然會延伸到物理世界,主要形式會是三種機器人:工業(yè)機器人、自動駕駛車輛以及狹義的人形機器人。

三種機器人都需要的算力包括預訓練、模擬環(huán)境和端側(cè)算力,這些算力英偉達都提供。物理世界的 AI 將會帶動數(shù)萬億美元的工業(yè)產(chǎn)值,數(shù)以十億計的機器人將會使用英偉達的計算平臺。

數(shù)據(jù)、架構(gòu)、Scaling Law,這些問題在機器人領域也同樣存在

對此,英偉達的預訓練模型平臺 Cosmos、GROOT N1 以及 NVIDIA Omniverse 將會幫助物理 AI 生態(tài)的構(gòu)建,推動技術的發(fā)展。

其中,GROOT N1 是通用的機器人基礎模型,英偉達宣布已經(jīng)把它開源了出來。模型采用雙系統(tǒng)架構(gòu),靈感來自人類認知原理。在視覺語言模型的支持下,系統(tǒng) 2 可以推理其環(huán)境和收到的指令,從而規(guī)劃行動。然后,系統(tǒng) 1 將這些計劃轉(zhuǎn)化為精確、連續(xù)的機器人動作。

基于可通過少量人類演示生成指數(shù)級的大量合成動作數(shù)據(jù)的生成藍圖,他們在短短 11 小時內(nèi)生成了 78 萬條合成軌跡,相當于 6500 小時或連續(xù) 9 個月的人類演示數(shù)據(jù)。然后,通過將合成數(shù)據(jù)與真實數(shù)據(jù)相結(jié)合,與僅使用真實數(shù)據(jù)相比,GR00T N1 的性能提高了 40%。

黃仁勛展示了與迪斯尼和 DeepMind 聯(lián)合開發(fā)的機器人平臺 Newton,以及基于該平臺打造的《星球大戰(zhàn)》風格的機器人 Blue。

他表示,對于機器人,可驗證的獎勵就是物理定律。

利用 Omniverse 和 Cosmos 通過數(shù)字孿生虛擬訓練機器人的 AI,然后將其轉(zhuǎn)化為現(xiàn)實世界的動作 Token 輸出,這就是未來機器人大規(guī)模落地的方式嗎?

如果人形機器人會有恐怖谷效應的話,科幻電影里早已為我們準備了解決方案。

「每個人都應該關注機器人領域,它很可能會成為最大的產(chǎn)業(yè),」黃仁勛說。

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2025-02-28 08:20:00

2024-04-02 11:39:17

數(shù)據(jù)訓練

2023-09-11 12:58:00

AI訓練

2025-03-19 09:37:25

2025-03-31 08:28:24

大型語言模型LLMDeepSeek

2023-11-14 08:59:25

英偉達AI

2025-02-27 09:09:45

2024-08-30 14:00:00

AI訓練

2025-03-19 09:52:50

2025-02-24 12:22:13

DeepSeek開源模型

2025-03-21 09:22:37

2025-02-24 09:00:00

微軟模型算法

2020-10-30 08:58:25

人工智能

2024-07-29 07:46:00

英偉達模型

2024-08-29 12:58:35

2024-06-03 12:00:23

2024-03-19 07:34:05

AI英偉達人工智能

2025-02-21 10:34:49

點贊
收藏

51CTO技術棧公眾號