剛剛,老黃攜GB300震撼登場!DeepSeek推理暴漲40倍加速全球最快,26年Rubin問世
全世界都錯(cuò)了,Scaling Law并沒有撞墻!
GTC大會上,老黃這樣向全世界這樣宣布。
更令人矚目的是,DeepSeek R1推動(dòng)的推理時(shí)Scaling,讓Scaling Law出現(xiàn)了全新的發(fā)展路線。
剛剛在圣何塞結(jié)束的GTC大會上,老黃聲稱沒有腳本、沒有提詞器,用兩個(gè)多小時(shí)向我們介紹了英偉達(dá)過去一年的進(jìn)展。
老黃表示,如果說從前的GTC說AI的伍德斯托克音樂節(jié),那今年搬進(jìn)體育場的GTC就是AI的超級碗,而唯一不同的說,每個(gè)人都是超級碗的贏家。
全場精彩亮點(diǎn)如下:
- Blackwell已全面投產(chǎn),而且進(jìn)展非???,客戶需求也非常大。這一切皆是因?yàn)锳I拐點(diǎn)已至,訓(xùn)練推理AI/智能體系統(tǒng)對計(jì)算量的需求大大增加。
- Blackwell NVL72結(jié)合Dynamo推理性能提升了40倍,相當(dāng)于一座Hopper AI工廠的性能。
- 英偉達(dá)未來三年路線圖已公開,GPU每年一更:Blackwell Ultra預(yù)計(jì)2025年下半年上市,下一代Rubin 2026年問世。
- 英偉達(dá)正在構(gòu)建3個(gè)AI基礎(chǔ)設(shè)施:云上AI基礎(chǔ)設(shè)施,企業(yè)AI基礎(chǔ)設(shè)施和機(jī)器人AI基礎(chǔ)設(shè)施。
英偉達(dá)預(yù)言:在未來,每個(gè)擁有工廠的公司將來都會有兩個(gè)工廠,一個(gè)是用來制造產(chǎn)品的實(shí)體工廠,另一個(gè)是用于數(shù)學(xué)運(yùn)算的AI工廠。為此,各類CUDA-X軟件庫已經(jīng)準(zhǔn)備好,引爆全行業(yè)的變革。
而這場革命的背后,就是英偉達(dá)的CUDA核心,以及為之配備的驚人算力。
AI芯片每年一更,下一代Rubin明年亮相
隨著Blackwell GPU的全面發(fā)貨,老黃也按照慣例發(fā)布了接下來幾款新產(chǎn)品的路線圖。
首先,是對訓(xùn)練和測試時(shí)推理能力進(jìn)行大幅提升,并將在今年下半年問世的Blackwell Ultra。
根據(jù)英偉達(dá)官方博客介紹,Blackwell已經(jīng)讓DeepSeek-R1打破了推理性能的世界紀(jì)錄。
而與Blackwell相比,Blackwell Ultra芯片還有超強(qiáng)進(jìn)化!
它的顯存從192GB提升到了288GB。而GB300 NVL72的AI性能,則比NVIDIA GB200 NVL72高出1.5倍。
接下來,是最為重磅的Vera Rubin,預(yù)計(jì)在2026年下半年發(fā)布。
這個(gè)命名致敬的是發(fā)現(xiàn)暗物質(zhì)的天文學(xué)家Vera Rubin。
Vera Rubin有兩個(gè)部分,一個(gè)稱為Vera的CPU和一個(gè)稱為Rubin的新GPU。
兩部分一同使用時(shí),Rubin可以在推理時(shí)實(shí)現(xiàn)每秒50千萬億次浮點(diǎn)運(yùn)算,比Blackwell速度高出一倍多。
顯存方面,Rubin將升級為HBM4,容量仍然為288GB。
不過,Rubin的帶寬將會有大幅升級,從原來的8TB/s提高到13TB/s,提高了1.6倍。
不僅如此,NVIDIA還會為Rubin擴(kuò)展NVLink,將其吞吐量提升到260TB/s,直接翻倍!
機(jī)架間的全新CX9鏈路達(dá)到了28.8TB/s。
不僅有標(biāo)準(zhǔn)版Rubin,老黃現(xiàn)場還推出了Rubin Ultra版本。
Rubin Ultra NVL576在FP4精度下進(jìn)行推理任務(wù)時(shí),性能達(dá)到了15 ExaFLOPS,在FP8精度下進(jìn)行訓(xùn)練任務(wù)時(shí),性能為5 ExaFLOPS。相比GB300 NVL72性能有14倍的提升。
配備HBM4e內(nèi)存,帶寬為4.6 PB/s,支持 NVLink 7,帶寬為1.5 PB/s,較上一代提升12倍。
Rubin Ultra NVL576機(jī)架支持CX9,帶寬為達(dá)到了115.2 TB/s,較上一代提升了8倍。
預(yù)計(jì)在2027年下半年推出。
Blackwell NVLink72和Rubin NVLink 576尺寸最直觀的對比,再一次證明了需要在scale up之前,先要完成scale out。
可以看到浮點(diǎn)運(yùn)算能力,Hopper架構(gòu)是1倍提升,Blackwell 68倍提升,到了Rubin直接躍升至900倍。
另外總擁有成本(TCO),也在隨著架構(gòu)迭代大幅降低。
那么,英偉達(dá)是如何實(shí)現(xiàn)scale up?
主要是通過網(wǎng)絡(luò)InfiniBand和Spectrum X。后者具備了低延遲和擁塞控制特性,并且成功scale up有史以來最大的單GPU集群。
不僅如此,英偉達(dá)還希望在Rubin時(shí)間框架內(nèi),將GPU的數(shù)量擴(kuò)展至數(shù)十萬個(gè)。而這一目標(biāo)實(shí)現(xiàn)的主要挑戰(zhàn)在于,大規(guī)模連接的問題。
值得一提的是,老黃官宣了英偉達(dá)首個(gè)共封裝硅光子系統(tǒng),也是世界上第一個(gè)每秒1.6T的CPO。
它基于一種「微環(huán)諧振器調(diào)制器」的技術(shù)(micro ring resonator modulator),并使用了臺積電工藝技術(shù)構(gòu)建。
現(xiàn)在,具備了將硅光子學(xué)與共封裝的結(jié)合,無需使用收發(fā)器,直接接入光線,并將其集成到512徑基數(shù)的交換機(jī)中。
這樣,便能夠輕輕動(dòng)動(dòng)擴(kuò)展至數(shù)十萬,甚至百萬GPU規(guī)模。
至于再下一代,則是將于2028年上市的Feynman(費(fèi)曼)。
該命名致敬了美國著名理論物理學(xué)家Richard Feynman。
桌面級「黃金超算」,AI算力20000 TFLOPS
蘋果這個(gè)月剛剛發(fā)布能跑6000億參數(shù)的Mac Studio,反身又要被英偉達(dá)超越了。
今天,老黃正式推出Blackwell RTX PRO工作站和服務(wù)器系列,專為開發(fā)者、創(chuàng)意工作者、數(shù)據(jù)科學(xué)家構(gòu)建和協(xié)作提供全方位的AI支持。
具體來說,它包括了數(shù)據(jù)中心GPU、桌面GPU,以及筆記本GPU。
這些GPU能夠提供卓越的性能、效率,解鎖生成式AI、智能體AI和物理AI的巨大潛力。
RTX PRO 6000 Blackwell采用了英偉達(dá)流式多處理器提供高達(dá)1.5倍吞吐量,第五代Tensor Core支持高達(dá)每秒4000萬億次AI運(yùn)算,第四代RT Core性能提升高達(dá)前一代的2倍。
不僅如此,老黃還帶來了兩款由Blackwell驅(qū)動(dòng)的DGX個(gè)人桌面AI超級計(jì)算機(jī)。
一個(gè)是DGX Spark(原名Project DIGITS),另一個(gè)是DGX Station。
老黃稱,「AI已經(jīng)改變了計(jì)算堆棧的每一層,理所當(dāng)然就會出新一類的計(jì)算機(jī)——專為AI原生開發(fā)者設(shè)計(jì),并運(yùn)行AI原生程序」。
這兩款桌面超級計(jì)算機(jī),便是這樣的存在。
DGX Spark可以稱得上,世界上最小的AI超級計(jì)算機(jī),配備128GB內(nèi)存。
核心是GB10 Grace Blackwell超級芯片,能夠提供每秒高達(dá)1000萬億次操作的AI計(jì)算能力,可以用于微調(diào)和推理模型。
DGX Station則將數(shù)據(jù)中心級別的性能,帶到每個(gè)人桌面用于AI開發(fā)。
作為首款采用GB300 Grace Blackwell Ultra桌面超級芯片構(gòu)建的系統(tǒng),DGX Station配備了高達(dá)784GB的統(tǒng)一內(nèi)存,以加速大規(guī)模訓(xùn)練和推理工作負(fù)載。
如下是Blackwell驅(qū)動(dòng)下,所有英偉達(dá)DGX家族。
Scaling Law沒撞墻,2028年數(shù)據(jù)中心將達(dá)一萬億!
開場時(shí),老黃手舉GeForce 5090,和4090做了對比,它的體積小了30%,性能的提升卻難以置信。
GeForce將CUDA帶給了全世界,而CUDA開啟了AI,而AI又反過來改變了計(jì)算機(jī)圖形學(xué)。
如今大火的則是智能體AI,它可以感知、理解、推理,還能計(jì)劃行動(dòng),使用工具,自己訪問網(wǎng)站去學(xué)習(xí)。
而接下來,就是物理AI,它將理解物理世界,理解摩擦、慣性、因果關(guān)系。它使機(jī)器人技術(shù)成為可能。
而這次大會上,Agentic AI和Physical AI將是全程的核心。
接下來,老黃重提了Scaling Law。
這涉及了三大問題:如何解決數(shù)據(jù)?如何訓(xùn)練模型?如何擴(kuò)展?
預(yù)訓(xùn)練要解決數(shù)據(jù)問題,后訓(xùn)練解決的是human-in-the-loop問題,而測試時(shí)Scaling,則提升了AI的推理。
老黃表示,去年整個(gè)世界都搞錯(cuò)了,Scaling并沒有撞墻!
從GPT開始,到如今的推理AI,它不再是僅僅預(yù)測下一個(gè)token,而是生成100多倍的token。
這樣,推理計(jì)算量就更高了,計(jì)算速度必須提高10倍,如今需要的計(jì)算量比去年這個(gè)時(shí)候我們認(rèn)為需要的多出100倍。
那么,數(shù)據(jù)應(yīng)該從哪里來?答案就是強(qiáng)化學(xué)習(xí)。
通過強(qiáng)化學(xué)習(xí),我們可以生成大量token,這就涉及到了合成數(shù)據(jù),給整個(gè)行業(yè)帶來巨大的計(jì)算挑戰(zhàn)。
比較一下Hopper的峰值年份和Blackwell的第一年,會發(fā)現(xiàn):AI正處于轉(zhuǎn)折點(diǎn)。
Blackwell發(fā)貨才一年,我們就見證了全球AI基礎(chǔ)設(shè)施的驚人增長。僅在2024年,全球TOP 4的云服務(wù)商買進(jìn)的Hopper架構(gòu)芯片就達(dá)到130萬塊。
老黃表示,未來數(shù)據(jù)中心建設(shè)將達(dá)到一萬億美元的規(guī)模,并且他確信,這個(gè)時(shí)間很快了!
根據(jù)預(yù)測,到2028年就能達(dá)到這個(gè)規(guī)模。
如今,通用計(jì)算已經(jīng)走到了盡頭,我們已經(jīng)到達(dá)加速計(jì)算臨界點(diǎn),需要一種新的計(jì)算方法。
世界正在經(jīng)歷一個(gè)平臺轉(zhuǎn)移,從在通用計(jì)算機(jī)上運(yùn)行的手寫軟件,轉(zhuǎn)向在加速器和GPU上運(yùn)行的機(jī)器學(xué)習(xí)軟件。
過去,我們編寫軟件并在計(jì)算機(jī)上運(yùn)行。未來,計(jì)算機(jī)將為軟件生成token。
計(jì)算機(jī)已經(jīng)成為生成token的工具,而不僅僅是文件的檢索工具,老黃稱之為「AI工廠」。
上面這張幻燈片,可以說是GTC最核心內(nèi)容的結(jié)晶。
英偉達(dá)通過由Grace Hopper和Grace Blackwell架構(gòu)支持的各種CUDA-X庫,為每一個(gè)科學(xué)領(lǐng)域提供了加速框架。
比如,解決涉及稀疏矩陣的大型工程仿真問題的cuDSS,模擬極其復(fù)雜的量子系統(tǒng)的cuQuantum等等。
而這些,僅僅是使加速計(jì)算成為可能的庫的樣本。
如今,通過英偉達(dá)的900多個(gè)CUDA-X庫和AI模型,所有人都可以加速科學(xué)研究,重塑行業(yè),賦予機(jī)器視覺、學(xué)習(xí)和推理能力。
老黃表示,從業(yè)三十年中,最令自己感動(dòng)的一件事,就是一位科學(xué)家對自己說:「Jensen,因?yàn)槟愕墓ぷ?,我可以在有生之年完成我的畢生事業(yè)」。
如今,每年有1000億美元的資本投入無線網(wǎng)絡(luò)和用于通信的數(shù)據(jù)中。
加速計(jì)算的趨勢已經(jīng)無法阻擋,AI將進(jìn)入每個(gè)行業(yè),比如改變無線電信號。
既要大量token思考,又要快速生成
如今,英偉達(dá)已經(jīng)完成了計(jì)算機(jī)架構(gòu)的基本轉(zhuǎn)型。
大約三年前,他們就展示過Grace Hopper(Ranger系統(tǒng)),但它太大了,需要解決規(guī)模擴(kuò)展的問題。
當(dāng)時(shí)的想法是,使用大量商用計(jì)算機(jī),將它們連接成一個(gè)大型網(wǎng)絡(luò),然而,這種方式會消耗太多電力和能力,根本無法實(shí)現(xiàn)深度學(xué)習(xí)。
而HGX系統(tǒng)架構(gòu),徹底解決了縱向擴(kuò)展的問題。
它包含8個(gè)GPU,通過MVLink 8連接到CPU架上,然后再通過PCI Express進(jìn)行連接,很多這樣的設(shè)備再用InfiniBand連接起來。
這,就英偉達(dá)在向外擴(kuò)展之前所能達(dá)到的最大規(guī)模了。
然后,他們又做出了世界上性能最高的交換機(jī)——NVLink交換機(jī),使得每個(gè)GPU能夠同時(shí)以全帶寬與其他所有GPU通信。
同時(shí),利用液冷將計(jì)算節(jié)點(diǎn)也壓縮到1u的托盤中,從而為行業(yè)帶來了巨變。
從此,集成NVLink轉(zhuǎn)向分散式NVLink,從空氣冷卻轉(zhuǎn)變?yōu)橐豪?,從每臺計(jì)算機(jī)約6萬個(gè)組件到每個(gè)機(jī)架60萬組件,120千瓦功率,全液冷設(shè)置。
于是,一個(gè)機(jī)架里,就有了一個(gè)Exaflops級別的超算。
英偉達(dá)的目標(biāo),就是構(gòu)建這塊芯片,此前沒有任何一種工藝能實(shí)現(xiàn)。
它包含130萬億個(gè)晶體管,其中20萬億用于計(jì)算,而解決方法,就是將其拆分到Grace Blackwell NVLink 72機(jī)架中。
最終的結(jié)果,就是英偉達(dá)實(shí)現(xiàn)了Scaling,可以說,這是全世界實(shí)現(xiàn)過最極端的Scaling。
這個(gè)過程中的計(jì)算量,可能已經(jīng)達(dá)到了內(nèi)存帶寬每秒570TB。而這臺機(jī)器,已經(jīng)達(dá)到了每秒百萬萬億次浮點(diǎn)運(yùn)算。
實(shí)際上,推理Scaling是一個(gè)「終極計(jì)算」問題。
推理是工廠生成token的過程,只有具備極高性能,才會提升服務(wù)質(zhì)量,以及收入和盈利的能力。
生成的token越多,AI就越智能。但問題是,吞吐時(shí)間太長且速率慢,客戶也不愿意買賬。
因此,在計(jì)算工廠中,響應(yīng)時(shí)間和吞吐量中間,存在著基本的矛盾關(guān)系。
老黃展示這張圖中,x軸代表了生成的token,y軸代表著每秒token吞吐效率,理想情況下,圖中黃色曲線應(yīng)該是一個(gè)方形,即在工廠能力極限之內(nèi),非常快速生成token。
然而, 現(xiàn)實(shí)沒有哪個(gè)工廠可以做到這點(diǎn)。
曲線才是最符合現(xiàn)實(shí)的一種,工廠的目標(biāo)是最大化曲線下方的面積,越是向外推,代表著建造的工廠越優(yōu)秀。
另一個(gè)維度,則需要巨大的帶寬、最大的浮點(diǎn)運(yùn)算能力。
現(xiàn)場,老黃展示了一個(gè)傳統(tǒng)大模型和推理模型,基于同一段提示通過思考token解決問題的關(guān)鍵區(qū)別。
一邊是Llama 3.3 70B,另一邊是DeepSeek R1。
這段提示詞的大意是要求在遵循傳統(tǒng)、拍照角度和家族爭端等約束條件下,在婚禮宴會上安排賓客入座。
I need to seat 7 people around a table at my wedding reception, but my parents andin-laws should not sit next to each other. Also, my wife insists we look better in pictures when she's on my left, but l need to sit next to my best man. How do l seat us on a roundtable? But then, what happens if we invite our pastor to sit with us?
結(jié)果,傳統(tǒng)LLM只需不到500個(gè)token就能快速回答,但結(jié)果是錯(cuò)誤的。
而推理模型則需要超過8000個(gè)token來推理這個(gè)比較簡單的問題。
推理模型需要消耗超過20倍的token量完成問題,計(jì)算量也隨之增加了150倍。
而下一代模型,參數(shù)可能會達(dá)到萬億級別。
解決方案,就是將這些萬億級的參數(shù)分布在多個(gè)GPU上,通過管線并行、張量并行和專家并行的組合來解決。
8000多個(gè)token,就意味著數(shù)萬億字節(jié)的信息被輸入到GPU中,逐個(gè)生成token。
這,就是我們需要NVlink到根本原因——它讓我們能把這些GPU組成一個(gè)巨大的GPU,實(shí)現(xiàn)規(guī)模的終極Scaling。
終極摩爾定律:買越多,賺越多
接下來,黃仁勛發(fā)布了NVIDIA Dynamo,這是一款開源推理軟件,旨在以最低成本和最高效率加速和擴(kuò)展AI工廠中的推理模型。
他將其稱之為「AI工廠的操作系統(tǒng)」。
「正如發(fā)電機(jī)(Dynamo)推動(dòng)了工業(yè)革命,NVIDIA Dynamo將會革新AI工廠」。
隨著AI推理變得越來越主流,AI模型在每次提示下都會生成成千上萬的token來進(jìn)行「思考」。
如何在提高推理性能的同時(shí),還能不斷降低推理成本?
這便是NVIDIA Dynamo推出的意義。
NVIDIA Dynamo是NVIDIA Triton Inference Server的下一代產(chǎn)品,它能協(xié)調(diào)并加速數(shù)千個(gè)GPU之間的推理通信,并使用分布式服務(wù)把LLM的處理和生成階段分配到不同的GPU上。
這樣每個(gè)階段都能根據(jù)自己的需求單獨(dú)優(yōu)化,確保GPU資源被充分利用。
在同樣的GPU數(shù)量下,Dynamo能讓運(yùn)行Llama模型的AI工廠在Hopper架構(gòu)上性能和收入雙雙翻倍。
在GB200 NVL72集群上運(yùn)行DeepSeek-R1模型時(shí),NVIDIA Dynamo的智能推理優(yōu)化還能讓每個(gè)GPU生成的token數(shù)量提升超過30倍!
為了實(shí)現(xiàn)這些推理性能的提升,NVIDIA Dynamo能根據(jù)請求量和類型的變化,動(dòng)態(tài)添加、移除或重新分配GPU,還能在大型集群中精準(zhǔn)找到特定GPU來減少響應(yīng)計(jì)算和路由查詢。
它還能把推理數(shù)據(jù)卸載到更便宜的內(nèi)存和存儲設(shè)備上,需要時(shí)再快速取回,盡量降低推理成本。
老黃在現(xiàn)場宣布NVIDIA Dynamo完全開源,支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM。
下圖中,橫軸代表為用戶每秒處理的token數(shù)量,縱軸是工廠每秒處理的token吞吐量。
比如,Hopper平臺用8個(gè)GPU連上InfiniBand,可以為每個(gè)用戶提供100 token/秒的處理速度。
老黃開始算了起來,「有了這個(gè)坐標(biāo),我們就可以用token/秒和能耗來衡量收益了?!?/span>
比如,250萬token/秒按每百萬token 10美元算,就能帶來每秒2500美元的收入;而如果降到10萬token/秒,那也就是250美元。
而一年有3000多萬秒,這直接關(guān)系到1兆瓦數(shù)據(jù)中心的年收入。
所以,目標(biāo)是找到token處理速度和AI智能之間的平衡點(diǎn):速度快能做聰明AI,客戶愿意多付錢,但越聰明,批量生產(chǎn)就越難。
相比之下,新的Blackwell架構(gòu)比Hopper強(qiáng)多了,尤其在能耗固定的情況下,性能提升了25倍,甚至在推理模型上直接比Hopper高40倍。
更厲害的是,Blackwell用MVLink 8技術(shù)加速,還引入了4位浮點(diǎn)數(shù)優(yōu)化,減少能耗提升效率。
老黃表示,未來數(shù)據(jù)中心都會受限于電力,收入也跟電力掛鉤,所以能效高的架構(gòu)最重要。
接下來,Blackwell將擴(kuò)展到MVLink 72,再加上Dynamo軟件,效果將更上一層樓。
老黃表示下圖里的彩虹線非常驚艷,展示了各種配置下的最佳表現(xiàn)。
從頂部3000批大小到底部的2批大小,配置靈活應(yīng)變。
這些優(yōu)化讓數(shù)據(jù)中心能適應(yīng)不同工作負(fù)載,證明了架構(gòu)的重要性。
說到這,老黃舉了個(gè)例子,在推理模型上,Blackwell的性能直接比Hopper高了40倍,真的很了不起!
「一旦Blackwell開始大規(guī)模出貨,Hopper可能連送人都沒人要了。」老黃在現(xiàn)場打趣道。
黃仁勛說,銷售團(tuán)隊(duì)聽到他這話估計(jì)要急了,擔(dān)心影響會Hopper的銷量。
但老黃認(rèn)為,技術(shù)進(jìn)步太快,工作負(fù)載又重,像AI工廠這樣的大型項(xiàng)目,最好投資在最新版本的技術(shù)上,比如Blackwell,這樣才能跟上潮流,避免落后。
接著,他拿出一個(gè)具體的例子來對比:一個(gè)100兆瓦的AI工廠用Hopper技術(shù)需要45000個(gè)芯片、1400個(gè)機(jī)架,每秒能產(chǎn)出3億個(gè)token。
而同樣的工廠如果用Blackwell,雖然芯片數(shù)量減少,但效率更高,整體性能更強(qiáng)。
老黃再次調(diào)侃道,銷售團(tuán)隊(duì)可能覺得這是在「少賣貨」,但實(shí)際上還是之前那個(gè)觀點(diǎn),「 the more you buy, the more you save」(買得越多,省得越多)。
甚至,現(xiàn)在還要更進(jìn)一步:「the more you buy, the more you make」(買得越多,賺得越多)。
首個(gè)通用機(jī)器人模型開源,規(guī)模僅2B
正如老黃所言,Physical AI也是今年行業(yè)的重點(diǎn)。
他表示,「預(yù)計(jì)本世紀(jì)末,世界勞動(dòng)力短缺人數(shù)將超過5000萬,而通用機(jī)器人的時(shí)代已經(jīng)到來」。
具身智能也遵循著三大Scaling Law。
數(shù)據(jù)短缺成為Scaling一大難題,英偉達(dá)Omniverse和Cosmos能夠同時(shí)為具身智能的訓(xùn)練,生成大量多樣化、高質(zhì)量的數(shù)據(jù)。
然后開發(fā)者利用Isaac Lab通過增強(qiáng)數(shù)據(jù)集后訓(xùn)練機(jī)器人策略,并通過模仿學(xué)習(xí)讓機(jī)器人通過克隆行為來學(xué)習(xí)新技能,或者通過試錯(cuò)和強(qiáng)化學(xué)習(xí)AI反饋進(jìn)行學(xué)習(xí)。
這一次,英偉達(dá)正式官宣了世界首個(gè)開源、完全可定制的通用人形機(jī)器人模型——GROOT N1。
這款模型的設(shè)計(jì)從人類認(rèn)知過程汲取靈感,采用了「雙系統(tǒng)架構(gòu)」,分別可以進(jìn)行快思考和慢思考。
技術(shù)報(bào)告:https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T%20N1%20Whitepaper.pdf
在視覺語言模型驅(qū)動(dòng)下,慢思考系統(tǒng)(System 2)能夠?qū)Νh(huán)境和指令進(jìn)行推理,然后規(guī)劃出正確的行動(dòng)。
快思考系統(tǒng)(System 1),可以將上述計(jì)劃轉(zhuǎn)化為機(jī)器人精確、連續(xù)的動(dòng)作,包括操縱物體、執(zhí)行多步驟序列的能力。
值得一提的是,System 1是基于人類演示數(shù)據(jù)和Omniverse生成大量的合成數(shù)據(jù)進(jìn)行訓(xùn)練的。
GROOT N1可以輕松在上見任務(wù)中進(jìn)行泛化,或執(zhí)行需要長上下文和多種通用技能組合的多步驟任務(wù)。
比如,抓取、用一只手臂/兩只手臂移動(dòng)物體,以及在兩個(gè)手臂之間傳遞物品。
此外,英偉達(dá)還與DeepMind、迪士尼研究一起開發(fā)下一代開源的Newton物理引擎,能夠讓機(jī)器人學(xué)習(xí)如何更精確處理復(fù)雜任務(wù)。
隨后,以星球大戰(zhàn)BDX機(jī)器人為靈感,裝上Newton引擎的Blue上臺和老黃來了一波有趣的互動(dòng)。
最后,老黃預(yù)言:在未來,機(jī)器人領(lǐng)域?qū)⒊蔀樽畲蟮漠a(chǎn)業(yè)。
毫無疑問,英偉達(dá)又一次成為了贏家。