黃仁勛新年演講最全總結(jié):新推最強(qiáng)GPU,72塊連一起可以承載全球互聯(lián)網(wǎng)的流量!英偉達(dá)的三個(gè)野心 原創(chuàng)
編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
在1月6日拉斯維加斯的CES峰會上,黃仁勛終于現(xiàn)身了!
出場就讓直播間的評論區(qū)炸了,黃教主上身blingbling的新皮夾克引起了網(wǎng)友的好奇,這是鱷魚皮的嗎,有鏈接嗎,這得幾萬刀吧(狗頭)?
“大家喜歡我的新皮夾克嗎?”
圖片
黃仁勛:現(xiàn)在的AI到了“GeForce”編程應(yīng)用階段
黃仁勛開場用了10分鐘的時(shí)間介紹了英偉達(dá)的成長史,他回憶了GeForce顯卡和CUDA、AI的容器三個(gè)階段的標(biāo)志性里程碑。
我們的一切都是從1993年開始的,當(dāng)英偉達(dá)開始設(shè)計(jì)第一款游戲的GPU的時(shí)候,我們希望能夠讓整個(gè)的游戲機(jī)能做出普通游戲機(jī)不能實(shí)現(xiàn)的功能,因此我們在整個(gè)設(shè)計(jì)游戲的過程之中,我們的編程是采用了CUDA。后來的話,我們又把CUDA進(jìn)一步的設(shè)計(jì)成統(tǒng)一的游戲架構(gòu)。
最開始的時(shí)候,1999年,我們推出了“”GeForce”的顯卡。6年之后,我們重新設(shè)計(jì)了另外一款可以編程的GPU。2006年,我們真正的發(fā)明了CUDA,它能夠去以一種命令行、科學(xué)的方式去解釋、去分享和表達(dá)我們的GPU。
最開始的時(shí)候是很難被人理解的,實(shí)際上我們花了數(shù)年的時(shí)間,甚至是6年或更久的時(shí)間,讓人們?nèi)ダ斫釩UDA的這樣一個(gè)編程。
所有的一切,都是從過去20多年的努力開始的,我們一直在GPU處理器上處于領(lǐng)先的地位,GPU也是讓整個(gè)現(xiàn)代計(jì)算機(jī)的圖像成型的基礎(chǔ)處理器。
再后來就是2012年Alex和2018年的Transformer的誕生,以神經(jīng)網(wǎng)絡(luò)為代表的人工智能被落地在了GPU上。事實(shí)上GPU,在很多情況下都和AI的利益結(jié)合在一起,成為了AI的房屋,成為了AI的容器?,F(xiàn)在我覺得AI已經(jīng)到了類似GForce的這樣一個(gè)階段,人們可以像當(dāng)年基于GeForce顯卡一樣實(shí)現(xiàn)不一樣的游戲一樣,用AI可以做出很多很酷的產(chǎn)品或功能,比如大家現(xiàn)在看到的實(shí)時(shí)計(jì)算機(jī)渲染圖像的應(yīng)用。
Blackwell架構(gòu)最新GPU,黃仁勛:我要把顯卡價(jià)格打下來
情緒鋪墊到位后,黃仁勛冷不防就開始了“新品王炸”模式。
圖片
右手展示了自家最新的GPU——RTX 5090,左手則是用來對比的RTX 4090。
黃教主這次上來并沒有直接突出說性能如何,上來就直接說價(jià)格:
那對于RTX 4090級性能表現(xiàn)的話,我們決定把它降價(jià)到549美元(4000塊錢~)。如果沒有人工智能,這個(gè)價(jià)格都是不可能的。?
圖片
“對于RTX 4090,我知道大家都說它太貴了,它是1599美元。不過它也是大家目前為止能做出的最好的一個(gè)投資,對于1599美元,你帶回家了一個(gè)價(jià)值上萬的數(shù)字家庭影院,難道不是嗎?”
新發(fā)布的GPURTX50系列,總共有四款A(yù)I處理器,其中RTX5070就可以用$549的價(jià)格來實(shí)現(xiàn),4090級別的性能,直接省去了1000多刀。
圖片
這還沒完,大家都知道如何讓這些牛逼的GPU真正進(jìn)入到大家的使用場景中,才是老黃關(guān)注的,(當(dāng)然也是在CES這種場合必須要亮相實(shí)際AI產(chǎn)品),老黃直接拋出了英偉達(dá)新推出的基于RTX5070的筆記本,便于大家去使用和管理GPU,只需要4090機(jī)一半的能耗,定價(jià)1299美元(不到一萬塊錢,9500左右。)
圖片
這個(gè)是RTX5070電腦,1299美元,就可以有RTX4090的同樣的性能表現(xiàn)。給大家展示一下我們最新這款計(jì)算機(jī)。大家可以看一下這款計(jì)算機(jī)。
至于RTX5090有多強(qiáng)?這里列出幾個(gè)參數(shù):920億個(gè)晶體管、4000 AI TOPS(每秒萬億次操作)的性能,具備1.8 TB/s 的內(nèi)存帶寬,能夠快速地讀取和寫入數(shù)據(jù),能夠?qū)崿F(xiàn)380 RT TFLOPS(每秒萬億次浮點(diǎn)運(yùn)算)的光線追蹤性能,具有125 Shader TFLOPS 的著色器性能。
圖片
圖片
相信對于游戲開發(fā)者而言,更能品出來這意味著什么,3A大作的制作周期有望大大縮短了!
黃仁勛是這樣講的,相比上一代架構(gòu),Blackwell 在每瓦性能上提高了 4 倍,在 每美元性能 上提高了 3 倍。這意味著,在相同成本下,訓(xùn)練模型的規(guī)模可以增加 3 倍,而這些改進(jìn)背后的關(guān)鍵是生成 AI token 。這些 token 被廣泛應(yīng)用于 ChatGPT、Gemini 和各種 AI 服務(wù)中,是未來計(jì)算的基礎(chǔ)。
不過性能最強(qiáng)的RTX 5090也是賣出了高價(jià):1999美元(約14651元),大家看情況要不要嘗嘗鮮。
此外,仍然值得一提的是老黃在Blackwell架構(gòu)關(guān)鍵的互聯(lián)技術(shù)也來了波新的——NVLink72。老黃稱之為“整個(gè)處理中心的脊柱”。主要看下有哪些高光配置:
- 72個(gè)Blackwell GPU具備1.4 ExaFLOPS TE FP4計(jì)算能力
- 晶體管數(shù)量達(dá)到130萬億
- 擁有2592個(gè) Grace CPU核心
- 72個(gè)ConnectX - 8網(wǎng)絡(luò)接口卡
- 576個(gè)存儲芯片,總?cè)萘?4TB,帶寬1.2PB/s
- 18個(gè)NVLink交換機(jī),全連接帶寬130 TB/s
圖片
為了介紹這個(gè)新的互聯(lián)技術(shù)NVLink72,老黃甚至化身“美國隊(duì)長”手持盾牌道具,整起活來。
圖片
黃仁勛是這樣總結(jié)的新款GPU的——
Blackwell系統(tǒng)的奇跡在于其前所未有的規(guī)模,Blackwell芯片是人類歷史上最大的單芯片;該系統(tǒng)的最終目標(biāo)是增強(qiáng)我們在技術(shù)和創(chuàng)新方面的能力和體驗(yàn)。
而創(chuàng)建NVLink的根本目的是圍繞主動型人工智能(Agentic AI),它展現(xiàn)了延長測試時(shí)間和提升客戶互動的完美模型。
英偉達(dá)的目標(biāo)是創(chuàng)建一個(gè)巨型芯片,該芯片將使用72個(gè)Blackwell GPU或144個(gè)芯片,超越世界上最快的超級計(jì)算機(jī)的能力。
黃仁勛透露,英偉達(dá)擁有多種(計(jì)算)系統(tǒng),如NBLink 36x2和NBLink 72x1,能夠滿足全球幾乎所有數(shù)據(jù)中心的需求,目前在約45家工廠生產(chǎn)。
小編解釋一下:Blackwell 架構(gòu)下的 72 塊 GPU 組成了全球最大的單芯片系統(tǒng),提供了高達(dá) 1.4 ExaFLOPS 的 AI 浮點(diǎn)性能,其內(nèi)存帶寬達(dá)到驚人的 1.2 PB/s,相當(dāng)于全球所有互聯(lián)網(wǎng)流量的總和。這種超級計(jì)算能力,使得 AI 能夠處理更復(fù)雜的推理任務(wù),同時(shí)顯著降低成本,為更高效的計(jì)算奠定了基礎(chǔ)。
據(jù)現(xiàn)場消息,Blackwell目前已全面投入生產(chǎn),所有主要云服務(wù)提供商均已建立系統(tǒng),提供約200種不同型號和配置,來自約15家硬件制造商。Blackwell相比于前一代在性能上實(shí)現(xiàn)了四倍的提升。黃仁勛宣布,基于Llama推出完整系列模型,采用NVIDIA Llama Nemo Tron語言基礎(chǔ)模型。
這一年,黃仁勛還在忙著造AI Agent
那么除了造更強(qiáng)性能的芯片,英偉達(dá)這兩年,都在跟客戶忙那些新業(yè)務(wù)?
黃仁勛也不裝了,緊接著在闡述了自己對于大模型現(xiàn)在存在的三種Scaling Law:預(yù)訓(xùn)練、后訓(xùn)練、測試時(shí)間計(jì)算之后,就開始了自己對于2025之后Agent的一些進(jìn)展——
AI Agent 是新的數(shù)字勞動力,能夠協(xié)助或代替人類完成任務(wù)。英偉達(dá)的 Agentic AI 構(gòu)建模塊、NEM 預(yù)訓(xùn)練模型和 Nemo 框架,幫助組織輕松開發(fā)并部署 AI Agent 。這些 Agent 可被訓(xùn)練為領(lǐng)域特定的任務(wù)專家。
以下是四個(gè)示例:
研究助理 Agent :
能夠閱讀復(fù)雜文件,如講座、期刊、財(cái)務(wù)報(bào)告等,并生成交互式播客,便于學(xué)習(xí);
軟件安全 AI Agent :
幫助開發(fā)者持續(xù)掃描軟件漏洞,并提示采取相應(yīng)措施;
虛擬實(shí)驗(yàn)室 AI Agent :
加速化合物設(shè)計(jì)與篩選,快速找到潛在藥物候選者;
視頻分析 AI Agent :
基于 英偉達(dá)Metropolis 藍(lán)圖,分析來自數(shù)十億攝像頭的數(shù)據(jù),生成交互式搜索、摘要和報(bào)告。例如,監(jiān)控交通流量、設(shè)施流程,提供改進(jìn)建議等。
黃仁勛的AI終極野心:英偉達(dá)的三個(gè)戰(zhàn)略級計(jì)算系統(tǒng)
“最后,我還有一個(gè)重要的內(nèi)容想展示,所有這些都離不開我們十年前在公司內(nèi)部啟動的一個(gè)名為 Project Digits 的項(xiàng)目,完整名稱為 Deep Learning GPU Intelligence Training System(深度學(xué)習(xí) GPU 智能訓(xùn)練系統(tǒng)),簡稱 Digits?!?/p>
黃教主繼續(xù)強(qiáng)化這樣一種信號:英偉達(dá)不知是一家GPU公司,而是一個(gè)智能工廠!
在正式發(fā)布之前,我們對 DGX 進(jìn)行了調(diào)整,使其與公司內(nèi)部的 RTX、AGX、OVX 以及其他系列產(chǎn)品和諧一致。DGX1 的問世真正改變了 AI 的發(fā)展方向,而這也是英偉達(dá)對 AI 發(fā)展的一個(gè)里程碑。
圖片
DGX1 的初衷是為研究人員和初創(chuàng)企業(yè)提供開箱即用的 AI 超級計(jì)算機(jī)。想象一下,以往的超級計(jì)算機(jī)需要用戶建造專屬設(shè)施,設(shè)計(jì)和打造復(fù)雜的基礎(chǔ)設(shè)施,才能實(shí)現(xiàn)其存在。而 DGX1 則是一臺專門為 AI 開發(fā)設(shè)計(jì)的超級計(jì)算機(jī),無需復(fù)雜操作,開箱即可使用。
“我還記得,2016 年我將第一臺 DGX1 交付給一家初創(chuàng)公司—— OpenAI。當(dāng)時(shí),埃隆·馬斯克(Elon Musk)、伊利亞·蘇茨科維爾(Ilya Sutskever)以及 英偉達(dá)的許多工程師都在場,我們共同慶祝 DGX1 的到來。這臺設(shè)備顯著推動了 AI 計(jì)算的發(fā)展?!?/p>
不過,黃仁勛并沒有滿足于只服務(wù)于這些AI巨佬,黃仁勛想要讓普通用戶也能用得上這么強(qiáng)大的AI超級計(jì)算機(jī)。
“如今, AI 已經(jīng)無處不在。不僅限于研究機(jī)構(gòu)和初創(chuàng)企業(yè)實(shí)驗(yàn)室,正如我一開始提到的, AI 已經(jīng)成為一種全新的計(jì)算方式和軟件開發(fā)方式。每一位軟件工程師、創(chuàng)意藝術(shù)家,甚至是使用電腦工具的普通用戶,都需要一個(gè) AI 超級計(jì)算機(jī)。所以,我一直希望 DGX1 能夠更小一些?!?/p>
老黃順勢推出了英偉達(dá)最新的 AI 超級計(jì)算機(jī),不過他還沒有想好叫什么名字。
這款超級計(jì)算機(jī)可以運(yùn)行 英偉達(dá)的完整 AI 軟件棧,包括 DGX Cloud。它既可以用作云端超級計(jì)算機(jī),也可以作為一臺高性能的工作站,甚至是放在桌面上的分析工作站。最重要的是,它基于我們秘密開發(fā)的一款新芯片,代號 GB10,這是我們制造的最小型 Grace Blackwell。
圖片
我手里有一塊芯片,給大家展示一下它的內(nèi)部設(shè)計(jì)。這款芯片是與全球領(lǐng)先的 SoC 公司 聯(lián)發(fā)科(MediaTek) 合作開發(fā)的。該 CPU SoC 專為 英偉達(dá)定制,使用 NVLink 芯片對芯片互連技術(shù)連接到 Blackwell GPU。這個(gè)小型芯片現(xiàn)在已經(jīng)全面投產(chǎn)。我們預(yù)計(jì)這款超級計(jì)算機(jī)將在 5 月 左右正式上市。
圖片
該設(shè)備甚至提供了“雙倍算力”的配置,可以將這些設(shè)備通過 ConnectX 連接在一起,支持 GPU 直通(GPUDirect)技術(shù)。它是一套完整的超級計(jì)算解決方案,能夠滿足 AI 開發(fā)、分析工作和工業(yè)應(yīng)用的各種需求。
野心具象化:數(shù)字孿生工廠、通用機(jī)器人、自動駕駛
此外,還宣布了三款全新 Blackwell 系統(tǒng)的芯片量產(chǎn)、世界首個(gè)物理 AI 基礎(chǔ)模型以及三大機(jī)器人領(lǐng)域的突破 —— 自主 AI Agent 機(jī)器人、人形機(jī)器人和自動駕駛汽車。(老黃理解的機(jī)器人分為三種:生成式AI機(jī)器人、類人機(jī)器人、自動駕駛汽車)
黃教主給出了三種例子——
首先是工業(yè)可視化方面,數(shù)字孿生工廠。
目前,全球有數(shù)百萬工廠和數(shù)十萬個(gè)倉庫,它們構(gòu)成了價(jià)值 50 萬億美元制造業(yè)的骨干。未來,這一切都需要實(shí)現(xiàn)軟件定義和自動化,并融入機(jī)器人技術(shù)。我們與全球領(lǐng)先的倉庫自動化解決方案提供商 Keon,以及全球最大的專業(yè)服務(wù)提供商 Accenture 合作,專注于數(shù)字化制造,共同創(chuàng)造一些非常特別的解決方案。我們的市場推廣方式與其他軟件和技術(shù)平臺類似,通過開發(fā)者和生態(tài)系統(tǒng)合作伙伴進(jìn)行,并且越來越多的生態(tài)伙伴接入了 Omniverse 平臺。這是因?yàn)槊總€(gè)人都希望可視化工業(yè)的未來。在這 50 萬億美元的全球 GDP 中,有如此多的浪費(fèi),也有如此多的自動化機(jī)會。
來看 Keon 和 Accenture 與我們合作的這個(gè)示例:
Keon(供應(yīng)鏈解決方案公司)、Accenture(全球?qū)I(yè)服務(wù)領(lǐng)軍者)和 英偉達(dá)正將物理 AI 引入價(jià)值萬億美元的倉庫和配送中心市場。管理高效的倉庫物流需要應(yīng)對復(fù)雜的決策網(wǎng)絡(luò),這些決策受到不斷變化的變量影響,例如每日及季節(jié)性需求變化、空間限制、勞動力供應(yīng),以及多樣化機(jī)器人和自動化系統(tǒng)的整合。今天,要預(yù)測物理倉庫的運(yùn)營關(guān)鍵績效指標(biāo)(KPIs)幾乎是不可能的。
為了解決這些問題,Keon 正在采用 Mega(一個(gè) 英偉達(dá)Omniverse 藍(lán)圖)來構(gòu)建工業(yè)數(shù)字孿生,以測試和優(yōu)化機(jī)器人車隊(duì)。首先,Keon 的倉庫管理解決方案將任務(wù)分配給數(shù)字孿生中的工業(yè) AI 大腦,例如將貨物從緩沖區(qū)位置移動到穿梭存儲解決方案。機(jī)器人車隊(duì)在 Omniverse 中的物理倉庫模擬環(huán)境中,通過感知和推理執(zhí)行任務(wù),規(guī)劃下一步動作并采取行動。
數(shù)字孿生環(huán)境使用傳感器模擬,讓機(jī)器人大腦可以看到任務(wù)執(zhí)行后的狀態(tài),并決定接下來的動作。在 Mega 的精確追蹤下,整個(gè)循環(huán)持續(xù)進(jìn)行,同時(shí)測量操作 KPI,如吞吐量、效率和利用率,所有這些都在對物理倉庫進(jìn)行改動之前完成。
圖片
借助英偉達(dá)的合作,Keon 和 Accenture 正在重新定義工業(yè)自治的未來。
未來,每個(gè)工廠都將擁有一個(gè)數(shù)字孿生,這個(gè)數(shù)字孿生與實(shí)際工廠完全同步。您可以利用 Omniverse 和 Cosmos 生成大量未來場景,AI 將決定最優(yōu)的 KPI 場景,并將其作為實(shí)際工廠部署的約束條件和 AI 編程邏輯。
然后是,自動駕駛汽車。
自動駕駛革命已經(jīng)到來。經(jīng)過多年的發(fā)展,無論是 Waymo 還是 Tesla 的成功,都證明了自動駕駛技術(shù)的成熟。我們的解決方案為這一行業(yè)提供了三種計(jì)算機(jī)系統(tǒng):用于訓(xùn)練 AI 的系統(tǒng)(如 DGX 系統(tǒng))、用于模擬測試和生成合成數(shù)據(jù)的系統(tǒng)(如 Omniverse 和 Cosmos),以及車內(nèi)的計(jì)算機(jī)系統(tǒng)(如 AGX 系統(tǒng))。全球幾乎所有主要汽車公司都在與我們合作,包括 Waymo、Zoox、Tesla,以及世界最大的電動車公司 BYD。
黃仁勛算了一筆賬,每年有 1 億輛汽車制造,全球道路上有 10 億輛汽車行駛,每年行駛總里程高達(dá)萬億英里。這些將逐漸實(shí)現(xiàn)高度自動化或完全自動化。這一行業(yè)預(yù)計(jì)將成為首個(gè)價(jià)值數(shù)萬億美元的機(jī)器人行業(yè)。
還有即將推出創(chuàng)新車型的 Mercedes、Lucid、Rivian、小米和沃爾沃等公司。Aurora 則正在使用 英偉達(dá)技術(shù)開發(fā)自動駕駛卡車。
圖片
今天,我們宣布推出下一代車載計(jì)算機(jī) Thor。它是一個(gè)通用機(jī)器人計(jì)算機(jī),能夠處理攝像頭、高分辨率雷達(dá)、激光雷達(dá)等傳感器的大量數(shù)據(jù)。Thor 是目前行業(yè)標(biāo)準(zhǔn) Orin 的升級版,計(jì)算能力是其 20 倍,現(xiàn)已全面量產(chǎn)。同時(shí),英偉達(dá)的 Drive OS 是首個(gè)被認(rèn)證達(dá)到功能安全最高標(biāo)準(zhǔn)(ISO 26262 ASIL D)的 AI 計(jì)算機(jī)操作系統(tǒng)。
此外,這還沒完,自動駕駛數(shù)據(jù)工廠也是一個(gè)亮點(diǎn)。
英偉達(dá)利用 Omniverse AI 模型和 Cosmos 平臺創(chuàng)建自動駕駛數(shù)據(jù)工廠,通過合成駕駛場景大幅擴(kuò)展訓(xùn)練數(shù)據(jù)。這包括:
- OmniMap:融合地圖和地理空間數(shù)據(jù),構(gòu)建可駕駛的 3D 環(huán)境;
- 神經(jīng)重建引擎:利用傳感器日志生成高保真的 4D 仿真環(huán)境,并為訓(xùn)練數(shù)據(jù)生成場景變體;
- Edify 3DS:從資產(chǎn)庫搜索或生成新的資產(chǎn),創(chuàng)建用于仿真的場景。
通過這些技術(shù),我們將幾千次的駕駛場景擴(kuò)展為數(shù)十億英里的數(shù)據(jù),用于更安全、更先進(jìn)的自動駕駛系統(tǒng)的開發(fā)。
最后,則是讓人興奮的通用機(jī)器人。
圖片
通用機(jī)器人的時(shí)代即將到來。推動這一領(lǐng)域突破的關(guān)鍵在于訓(xùn)練。
對于人形機(jī)器人來說,模仿數(shù)據(jù)的獲取相對困難,但 英偉達(dá)的 Isaac Groot 提供了解決方案。它通過模擬生成海量數(shù)據(jù)集,并結(jié)合 Omniverse 和 Cosmos 的多宇宙仿真引擎,進(jìn)行政策訓(xùn)練、驗(yàn)證和部署。
圖片
例如,開發(fā)者可以通過 Apple Vision Pro 遠(yuǎn)程操作機(jī)器人,捕捉數(shù)據(jù)而無需實(shí)體機(jī)器人,并在無風(fēng)險(xiǎn)環(huán)境中教學(xué)任務(wù)動作。通過 Omniverse 的領(lǐng)域隨機(jī)化和 3D 到真實(shí)場景擴(kuò)展功能,生成指數(shù)級增長的數(shù)據(jù)集,為機(jī)器人學(xué)習(xí)提供海量資源。
老黃最后來了一句:“一切皆仿真!”(當(dāng)然是指在AI世界中。)
你看,無論是工業(yè)可視化、自動駕駛,還是通用機(jī)器人,黃仁勛都一個(gè)也不會放過,統(tǒng)統(tǒng)要用英偉達(dá)的技術(shù)去引領(lǐng)、去征服!
所以說,英偉達(dá)的3萬億美元市值絕對不只是靠GPU撐起來的,英偉達(dá)自己正在做類似于1999年12月推出GeForce顯卡同樣的事情,黃仁勛用了6年多的時(shí)間來教育市場,用CUDA完成了市場用戶的心智占領(lǐng),用可編程的生態(tài)工具,讓人們相信可以造出不一樣、更酷的游戲!
而這一次,英偉達(dá)用更強(qiáng)的Blackwell芯片和與之搭檔的三大張略級計(jì)算工具,
告訴世界:通過AI,英偉達(dá)的真正野心是——
引導(dǎo)這個(gè)世界進(jìn)“物理AI”時(shí)代!
圖片
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征
