自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="zs9ub"></sub>

<sub id="zs9ub"><rt id="zs9ub"></rt></sub>

^{<thead id="zs9ub"></thead>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

專為 DeepSeek 類強推理加速，老黃拿出 Blackwell Ultra，下代架構(gòu)性能還要翻倍

作者：機器之心 2025-03-19 09:38:58

雖然 DeepSeek R1 的高效率給全世界以震撼，讓人們正在重估大模型的算力需求，但英偉達對于未來的 AI 算力需求仍然非常樂觀。

「因為 AI 技術爆發(fā)，GTC 大會的規(guī)模每年都在擴大，以前人們說 GTC 是 AI 的伍德斯托克音樂節(jié)，今年我們搬進了體育場，我覺得 GTC 已經(jīng)成了 AI 的超級碗，」英偉達 CEO 黃仁勛說道?！肝ㄒ坏牟煌谟诿總€人都是『超級碗』的贏家?！?/p>

北京時間 3 月 19 日凌晨，全世界的目光都匯聚在加州圣何塞 SAP 中心，期待英偉達給出的下一個 AI 大方向。

老黃的 Keynote 演講行云流水，沒有提詞器

在詳細介紹 Keynote 內(nèi)容之前，我們劃下重點：

Blackwell 已經(jīng)全面投產(chǎn)?！府a(chǎn)量驚人，客戶需求驚人，因為人工智能出現(xiàn)了一個拐點，由于推理人工智能以及推理人工智能系統(tǒng)和智能體系統(tǒng)的訓練，我們在人工智能領域必須完成的計算量大大增加。」
Blackwell Ultra 將于 2025 年下半年上市，下一代 AI 加速器架構(gòu) Vera Rubin 則會在 2026 年推出。
搭載分布式推理系統(tǒng) Dynamo 的 Blackwell NVLink 72 的「AI 工廠」性能是英偉達 Hopper 的 40 倍?！鸽S著人工智能規(guī)模的擴大，推理將成為未來十年最重要的工作負載之一」。
按照最新路線圖，英偉達正在構(gòu)建三種 AI 基礎設施：一種用于云，第二種用于企業(yè)，第三種用于機器人。

發(fā)布會上，老黃再次拿出 CES 上展示的 AI 發(fā)展曲線：

從 2012 年的 AlexNet 開始，現(xiàn)在我們處于生成式人工智能的階段，即將進入智能體時代，隨后是物理人工智能。物理 AI 也就是進入物理世界的人工智能，包括自動駕駛汽車與機器人?！该恳淮卫顺倍紴槲覀兇蜷_了新的市場機遇?！?/p>

再增加一個維度，不容忽視的是 DeepSeek R1 推動測試時擴展（Test-Time Scaling）給機器智能帶來的全新發(fā)展曲線：

智能背后是計算的力量。預訓練時代解決數(shù)據(jù)問題，后訓練解決的是 human-in-the-loop 問題，而測試時間擴展則是為了增強 AI 的推理能力。每一階段都有自己的 Scaling Law，算力都是強需求。

所以，雖然 DeepSeek R1 的高效率給全世界以震撼，讓人們正在重估大模型的算力需求，但英偉達對于未來的 AI 算力需求仍然非常樂觀。

英偉達給出了一組數(shù)據(jù)：僅在 2024 年，全球前四的云服務運營商共采購了 130 萬片 Hopper 架構(gòu)芯片。預計數(shù)據(jù)中心的建設投資將很快達到 1 萬億美元。不知道其中有多少是 OpenAI 星際之門項目的貢獻。

AI 計算不是在萎縮，而是在通貨膨脹，老黃進一步給出了兩個增長曲線：

第一個曲線，軟件都會因為 AI 而加速，在常規(guī)云服務上運行的人類編寫軟件，會轉(zhuǎn)變?yōu)?AI 編寫的軟件運行在加速 AI 基礎設施上；
第二個曲線，人們編寫的文字提示獲得 AI 生成的 token，轉(zhuǎn)變成為 AI 生成的 Token 引導出 AI 生成的結(jié)果（即強推理）。

在此之上，整個世界將會被重塑。

每個企業(yè)未來都會有兩個工廠，一個是物理的工廠，一個是 AI 的虛擬工廠。英偉達為所有行業(yè)的變革準備了新的工具，包括 CUDA X 軟件庫，其中包括用于 NumPy 的 cuPYNUMERIC、用于量子計算的 cuQUANTUM 和 CUDA-Q、用于深度學習的 NCCL 和 cuBLAS 等等。

所有這些庫都依賴 CUDA 核心來完成工作，為此英偉達也準備好了更先進的 AI 算力。

Blackwell 發(fā)布超大杯，性能猛增

Blackwell 架構(gòu)的 AI 加速卡現(xiàn)在已經(jīng)全面進入量產(chǎn)階段，正在推動下一波 AI 基礎設施浪潮?！高@是我們改變計算架構(gòu)基礎的重要一步，」黃仁勛說道。

在芯片架構(gòu)進步的同時，英偉達正在研究讓用戶同時訪問多個 GPU 的 NVLINK 交換機。

大規(guī)模的推理可能是英偉達迄今為止面臨的最復雜的計算問題，但又是 AI 未來的方向。過去幾個月里，很多人都在嘗試使用 DeepSeek，肯定已經(jīng)有了親身體驗：

黃仁勛展示了新舊兩代大模型是如何解決「為七位客人優(yōu)化婚宴餐桌位次」的問題。上代大語言模型 Llama 輸出了 439 個 token，結(jié)果不盡如人意。強推理模型 DeepSeek R1 輸出了 8559 個 token 進行了一番推理，花費的時間更長，計算量也更大，但結(jié)果真正能被人用得上。

老黃表示：「這是個只有丈母娘或者 AI 才能解決的問題。」

但是上面這個問題需要消耗 150 倍的算力。AI 服務商希望盡可能地向每位用戶提供更高的速度，同時也希望盡可能地向更多用戶提供服務。這就產(chǎn)生了對內(nèi)存、帶寬、計算速度等各個方面的巨大需求。Grace Blackwell NVLink72 正是為滿足這樣的需求誕生的。

為了提升效率，英偉達在軟件上也有創(chuàng)新，提出了「AI 工廠的操作系統(tǒng)」——NVIDIA Dynamo。它是一個「分布式推理服務庫」，而且是一個開源解決方案，解決的是用戶需要 token 但無法提供足夠 token 的問題。據(jù)介紹，Dynamo 會被用于在大量 GPU 之間高效編排和協(xié)調(diào) AI 推理請求。目前，微軟、Perplexity 等公司已宣布開始接入這一系統(tǒng)。

接下來，讓我們看看軟件 + 硬件能夠帶來的算力效率提升。如果強推理模型落地成產(chǎn)品，我們就需要 AI 能以極快的速度跑完思維鏈?！钢挥性谟ミ_，你才會這樣被數(shù)學折磨，」老黃說道。在推理模型中，最新版 Blackwell 的性能是 Hopper 的 40 倍：

黃仁勛展示了一個非常直觀的對比。同樣是 100 MW 功率的 AI 工廠，使用 GB200 搭建的數(shù)據(jù)中心的生產(chǎn)力是使用 H100 的數(shù)據(jù)中心的 40 倍，同時機架數(shù)量還能從 1400 大幅減少到 600。

現(xiàn)在不是「the more you buy the more you save」了，而是「the more you buy the more you generate」?！溉?TOPS 的云服務提供商（CSP）訂購的 Blackwell 芯片數(shù)量是 Hopper 的三倍，AI 算力的需求正在迅猛增長。」黃仁勛表示。

不得不說，他表示自己確實想提高 Blackwell 的銷量，但這同時在一定程度上降低了 Hopper 的銷量。他甚至打趣說自己是 chief revenue destroyer（首席收入破壞官）。

黃仁勛表示，人們的 AI 任務需求正在大幅提升，因為大模型推理任務、AI Agent 等任務，AI 推理的算力需求已經(jīng)增長了 10-100 倍。這也就產(chǎn)生了對更強大性能的需求。

似乎是在順應手機和新能源車出「超大杯」Ultra 版的風潮，英偉達在旗艦 AI 計算卡上也搞了個 Ultra 版：Blackwell Ultra NVL72。

這是迄今為止 AI 算力最強大的硬件，配備了 1.1 EF 的密集 FP4 推理能力和 0.36 EF 的 FP8 訓練能力，達到了 GB200 NVL72 的 1.5 倍。此外，它的互聯(lián)帶寬是 GB200 NVL72 的 2 倍，內(nèi)存速度也提升了 1.5 倍。至于 Blackwell Ultra NVL72 的上市時間，預計會是今年下半年。

將八個 NVL72 機架放在一起，就可以獲得完整的 Blackwell Ultra DGX SuperPOD：288 個 Grace CPU、576 個 Blackwell Utlra GPU、300TB HBM3e 內(nèi)存和 11.5 ExaFLOPS FP4 算力。這就形成了英偉達定義中「AI 工廠」的超級計算機解決方案。

需要注意的是，Blackwell Ultra GPU（GB300 和 B300）與 Blackwell GPU（GB200 和 B200）是不同的芯片。

下一代架構(gòu) Vera Rubin

既然算力在通貨膨脹，那這還遠遠不夠。在今天的 Keynote 中，英偉達很快就介紹完了 Blackwell Ultra，轉(zhuǎn)而展示了其下一代架構(gòu) Vera Rubin—— 其全機架性能應是同類 Blackwell Ultra 的 3.3 倍。

Vera Rubin 將是英偉達的下一個平臺，將于 2026 年下半年推出。Vera Rubin 具有 NVLink144，更強大的 Rubin Ultra 則具有 NVLink576，將于 2027 年下半年推出。在具體性能上，其將具有 3.6 EF 的 FP4 推理性能和 1.2 EF 的 FP8 訓練性能，整體可達到 GB300 NVL72 的 3.3 倍，同時在其它指標上也有 2 倍左右的提升。

其 Ultra 版則計劃在 2027 年下半年推出，其性能更是有望達到 GB300 NVL72 的 14 倍！

除了 GPU 芯片的迭代，Rubin 還將標志著從 HBM3/HBM3e 向 HBM4 的轉(zhuǎn)變。每 GPU 的內(nèi)存容量仍為 288GB，與 B300 相同，但帶寬將從 8 TB/s 提高到 13 TB/s。下代產(chǎn)品還將擁有更快的 NVLink，吞吐量翻倍至 260 TB/s，機架之間的新 CX9 鏈路速度為 28.8 TB/s（是 B300 和 CX8 的兩倍）。

如果將 4 組 Vera Rubin NVLink144 組成的 Vera Rubin NVLink576 來構(gòu)建 NVIDIA Rubin System，則這將是配備 576 個 Rubin GPU 的性能怪獸，能實現(xiàn) 15 EF 的 FP4 性能，同時內(nèi)存也將達到驚人的 150 TB。對比前代 Blackwell System 的性能，可以看到優(yōu)勢非常明顯。

黃仁勛特別強調(diào)：「你可以看到，Rubin 將大大降低成本?！?/p>

據(jù)了解，這一代 GPU 得名于科學家 Vera Rubin，她是一位美國天文學家，1928 年出生于費城。她的知名成就是發(fā)現(xiàn)了暗物質(zhì)存在的證據(jù)。

值得一提的是，自去年的 Blackwell 開始，命名就不再單指芯片架構(gòu)。黃仁勛就曾強調(diào)，Blackwell 并不是某塊芯片，而是一個技術平臺，英偉達也越來越多地開始使用「Blackwell」一詞來指代該公司所有最新一代 AI 產(chǎn)品，例如 GB200 芯片和 DGX 服務器機架。

黃仁勛還在演講中簡單提到了再后一代的 Feynman 架構(gòu) —— 很顯然這得名于著名物理學家理查德?費曼。不過這至少得等到 2028 年了。

此外，黃仁勛還宣布了 NVIDIA Photonics，這似乎是迄今為止最強大的 Spectrum-X 以太網(wǎng)互聯(lián)，以激光作為介質(zhì)，可以大幅提升 GPU 之間的傳輸速度，支持擁有數(shù)百萬塊 GPU 的集群。預計這款產(chǎn)品將于今年下半年上市，而新一代的 Quantum-X 將在明年下半年上市。

今天的新產(chǎn)品中相對來說接地氣的是 Blackwell RTX Pro 系列圖形產(chǎn)品。其面向的是筆記本電腦和臺式機，以及獨立 PC 和數(shù)據(jù)中心產(chǎn)品。具體規(guī)格和配置的細節(jié)尚未公布，已知頂級解決方案將使用與 GeForce RTX 5090 相同的 GB202 芯片（但顯存會更大）。

至此，英偉達看起來已經(jīng)為強推理 AI 大規(guī)模落地所需巨量的計算做好了準備。

下一波浪潮：物理世界的 AI

最后是對未來的展望。英偉達表示，AI 的下一波浪潮必然會延伸到物理世界，主要形式會是三種機器人：工業(yè)機器人、自動駕駛車輛以及狹義的人形機器人。

三種機器人都需要的算力包括預訓練、模擬環(huán)境和端側(cè)算力，這些算力英偉達都提供。物理世界的 AI 將會帶動數(shù)萬億美元的工業(yè)產(chǎn)值，數(shù)以十億計的機器人將會使用英偉達的計算平臺。

數(shù)據(jù)、架構(gòu)、Scaling Law，這些問題在機器人領域也同樣存在

對此，英偉達的預訓練模型平臺 Cosmos、GROOT N1 以及 NVIDIA Omniverse 將會幫助物理 AI 生態(tài)的構(gòu)建，推動技術的發(fā)展。

其中，GROOT N1 是通用的機器人基礎模型，英偉達宣布已經(jīng)把它開源了出來。模型采用雙系統(tǒng)架構(gòu)，靈感來自人類認知原理。在視覺語言模型的支持下，系統(tǒng) 2 可以推理其環(huán)境和收到的指令，從而規(guī)劃行動。然后，系統(tǒng) 1 將這些計劃轉(zhuǎn)化為精確、連續(xù)的機器人動作。

基于可通過少量人類演示生成指數(shù)級的大量合成動作數(shù)據(jù)的生成藍圖，他們在短短 11 小時內(nèi)生成了 78 萬條合成軌跡，相當于 6500 小時或連續(xù) 9 個月的人類演示數(shù)據(jù)。然后，通過將合成數(shù)據(jù)與真實數(shù)據(jù)相結(jié)合，與僅使用真實數(shù)據(jù)相比，GR00T N1 的性能提高了 40%。

黃仁勛展示了與迪斯尼和 DeepMind 聯(lián)合開發(fā)的機器人平臺 Newton，以及基于該平臺打造的《星球大戰(zhàn)》風格的機器人 Blue。

他表示，對于機器人，可驗證的獎勵就是物理定律。

利用 Omniverse 和 Cosmos 通過數(shù)字孿生虛擬訓練機器人的 AI，然后將其轉(zhuǎn)化為現(xiàn)實世界的動作 Token 輸出，這就是未來機器人大規(guī)模落地的方式嗎？

如果人形機器人會有恐怖谷效應的話，科幻電影里早已為我們準備了解決方案。

「每個人都應該關注機器人領域，它很可能會成為最大的產(chǎn)業(yè)，」黃仁勛說。

責任編輯：趙寧寧來源：機器之心

DeepSeek AI 大模型

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營