在北京,英偉達(dá)透露了人形機器人的未來:50年發(fā)展路縮至5年,靠“三臺計算機”
2025,人形機器人量產(chǎn)元年。
CES上老黃帶著14臺機器人亮相這一幕剛過去不久,SemiAnalysis分析師的一條預(yù)測再次引起熱議。
英偉達(dá)最終將成為一家機器人公司,而不僅僅是半導(dǎo)體公司。
只有少數(shù)人理解他們最底層的布局,從制造到軟件。
這樣的觀點從何而來?英偉達(dá)在機器人上究竟有哪些布局?又為什么明確不直接下場制造機器人?
在英偉達(dá)北京辦公室,英偉達(dá)機器人與邊緣計算副總裁Deepu Talla回答了一切。
三臺計算機,迎來機器人的ChatGPT時刻
(以下為Deepu Talla演講內(nèi)容整理)
對我來說,有三個主要原因使機器人技術(shù)變得不可或缺:
危險工種。比如礦工或者在危險環(huán)境中工作的人員,機器人可以替代人類承擔(dān)這些危險任務(wù)。
勞動力短缺。每一代人選擇的職業(yè)都與上一代不同。比如,我的祖父母是農(nóng)民,但我的父母離開了農(nóng)業(yè),而我甚至從未從事過農(nóng)業(yè)。工作在不斷演變,勞動力短缺問題也隨之加劇。
養(yǎng)老需求。人類的壽命越來越長。如今,全球平均預(yù)期壽命已超過75歲,而25年前僅為67歲,50年前則只有57到58歲。再過25年,或許壽命會超過100歲,也許以后甚至能達(dá)到150歲。但如果人類活到200歲呢?你希望由75歲的孩子來照顧你嗎?大概不會。所以我們需要“社會伴侶”——機器人,來幫助解決護理和陪伴的問題。
這些并不是什么新信息,但情況確實發(fā)生了變化。從2024年到2025年,對機器人技術(shù)的興趣顯著增長。
各國的企業(yè)都在探索如何開發(fā)人形機器人。為什么是現(xiàn)在,而不是兩年前?發(fā)生了什么改變?
有兩個主要原因:
技術(shù)進步,特別是在生成式AI(GenAI)領(lǐng)域。
大約兩年前,大型語言模型(LLMs)顛覆了數(shù)字應(yīng)用領(lǐng)域。現(xiàn)在,這些技術(shù)也開始應(yīng)用于機器人技術(shù),打破了數(shù)字應(yīng)用與物理應(yīng)用之間的界限。
仿真環(huán)境的改進,制造一個機器人非常昂貴,因為它們并未實現(xiàn)大規(guī)模量產(chǎn),這使得成本高昂。
在物理世界中取得進展同樣需要大量時間,因為一切都遵循“真實時間”(即我們所說的“墻鐘時間”)。以前,機器人技術(shù)的測試主要依賴于物理環(huán)境,這導(dǎo)致進展非常緩慢。那么過去12個月中發(fā)生了什么變化呢?
過去一年中,NVIDIA開發(fā)了一項名為Omniverse的技術(shù)。你可以將其看作一種仿真環(huán)境,一個“綠色”環(huán)境。這項技術(shù)已經(jīng)取得了顯著成熟——盡管還未完全解決所有問題,但其發(fā)展水平已相當(dāng)于生成式AI在仿真領(lǐng)域的應(yīng)用水平?,F(xiàn)在,想象一下,借助這些技術(shù)進步,機器人開發(fā)流程可以變得快得多。
因此,在接下來的5到10年里,我們將在機器人領(lǐng)域看到顯著的差異。這就是為什么現(xiàn)在每家公司都在專注于推動這一領(lǐng)域的發(fā)展。我與許多公司討論過,他們都在研究與機器人相關(guān)的問題以及通用型機器人“大腦”模型的開發(fā)。這就是未來——一個能夠幫助解決危險工作、勞動力短缺以及企業(yè)運營挑戰(zhàn)的未來。
這一進展令人無比激動。一年前,這一方向是否能成功還并不明朗。雖然之前已經(jīng)有不少努力,但過去6到12個月的突破性發(fā)展改變了一切。
現(xiàn)在,當(dāng)人們談?wù)摍C器人時,大多數(shù)人會想到物理機器人——那些像人或工業(yè)工具的具體機器。這種物理形態(tài)是目標(biāo),最終的成果。但通向這個目標(biāo)的道路非常復(fù)雜。為了真正解決機器人領(lǐng)域的挑戰(zhàn),我們需要三臺計算機:
第一臺計算機用于訓(xùn)練:這是用于訓(xùn)練AI模型的系統(tǒng)。訓(xùn)練通常在云端、數(shù)據(jù)中心或像NVIDIA DGX這樣的強大系統(tǒng)上進行。這是構(gòu)建機器人“大腦”的關(guān)鍵步驟。
第二臺計算機用于仿真:一旦訓(xùn)練完成,就需要進行測試。以往的標(biāo)準(zhǔn)是物理測試,但這種方式既慢又昂貴,還存在風(fēng)險。更好的解決方案是引入一個“仿真層”,即“數(shù)字孿生”,在虛擬環(huán)境中完成測試。仿真允許在大規(guī)模、快速且安全的條件下運行數(shù)千種場景測試,無需受到真實世界時間或成本的限制。
第三臺計算機用于部署:第三種系統(tǒng)安裝在機器人內(nèi)部,它就是操作物理機器人的“大腦”。對NVIDIA來說,這可以通過像Jetson或AGX這樣的系統(tǒng)來實現(xiàn)。
通過整合這三種系統(tǒng),我們可以顯著縮短開發(fā)時間。在現(xiàn)實世界部署之前,通過仿真進行成千上萬次測試,加速整個流程。如果某個設(shè)計在現(xiàn)實中表現(xiàn)不佳,可以回到仿真環(huán)境中優(yōu)化模型并再次測試。這個循環(huán)過程(訓(xùn)練、仿真、測試)使得機器人技術(shù)的進步能夠在5年內(nèi)完成,而不是50年。
這種方法也解釋了為什么機器人技術(shù)比自動駕駛更難。對于自動駕駛來說,主要是避免障礙并確保安全,而無需與物理物體交互。而在機器人領(lǐng)域,涉及到的是與物體的接觸、碰撞和復(fù)雜的物理交互,這些都更難測試和優(yōu)化。
仿真并不是一個新概念。例如,在芯片設(shè)計領(lǐng)域,100%的芯片在制造之前都需要進行仿真,以確保其功能完美無缺,因為芯片設(shè)計中的錯誤可能導(dǎo)致數(shù)月的延誤,并耗費數(shù)百萬甚至數(shù)十億美元。
在機器人領(lǐng)域,主要的挑戰(zhàn)在于“仿真與現(xiàn)實的差距”(sim-to-real gap)——也就是仿真結(jié)果與實際表現(xiàn)之間的差異。直到最近,仿真技術(shù)的精度還不足,因此未被廣泛采用。然而,像Omniverse這樣的技術(shù)進步顯著縮小了這一差距。雖然這一差距尚未完全彌合,但改進已經(jīng)足夠大,使仿真成為機器人開發(fā)中的一種可行且有效的工具。
在英偉達(dá),我們并不直接制造機器人,而是與所有從事機器人制造或機器人解決方案開發(fā)的人員合作。我們正在構(gòu)建一個包含三種計算系統(tǒng)以及相關(guān)軟件工具和工作流程的平臺,幫助機器人專家、研究人員、機械工程師和測試人員更輕松地開發(fā)機器人解決方案。這一平臺旨在簡化和加速整個過程。
現(xiàn)在,讓我們聚焦于機器人開發(fā)中的三個主要步驟:訓(xùn)練、測試和部署。
以AI模型訓(xùn)練為例。像ChatGPT這樣的流行模型是在大型GPU和來自互聯(lián)網(wǎng)的海量文本數(shù)據(jù)上訓(xùn)練出來的。但機器人模型的訓(xùn)練需要完全不同的數(shù)據(jù)。機器人需要執(zhí)行動作,比如拾取物體、移動、交互或完成任務(wù)。而遺憾的是,目前這種數(shù)據(jù)在規(guī)模上根本不存在。
數(shù)據(jù)收集與解決方案中有以下挑戰(zhàn):
現(xiàn)實世界數(shù)據(jù)的局限性
與自動駕駛汽車可以依賴現(xiàn)有車輛通過傳感器收集數(shù)據(jù)不同,目前機器人的數(shù)量還遠(yuǎn)遠(yuǎn)不足以產(chǎn)生可比的數(shù)據(jù)量。
當(dāng)前的方法包括使用Apple Vision Pro或動作捕捉套裝來記錄人類動作的示范。這些方法雖能提供有用的數(shù)據(jù),但規(guī)模太小,無法完全滿足機器人模型的訓(xùn)練需求。
合成數(shù)據(jù)生成的重要性
為了解決這一問題,合成數(shù)據(jù)生成變得至關(guān)重要。通過合成數(shù)據(jù),我們可以生成特定動作(例如抓取物體)的無數(shù)種變化,或者構(gòu)建完整的虛擬環(huán)境。
NVIDIA Cosmos是一個“世界基礎(chǔ)模型”,可以生成高度逼真、類似視頻游戲的環(huán)境,用于機器人訓(xùn)練。在這里,“世界”指的并不是地球,而是機器人交互的環(huán)境,例如機器人操作的房間內(nèi)可見區(qū)域。
結(jié)合真實與合成數(shù)據(jù)
通過將少量的現(xiàn)實世界數(shù)據(jù)與使用像NVIDIA Cosmos這樣的工具生成的大規(guī)模合成數(shù)據(jù)相結(jié)合,我們可以克服機器人技術(shù)中數(shù)據(jù)稀缺的問題。這種新工作流已經(jīng)宣布并部分上線,我們正在與全球合作伙伴共同實施這一解決方案,以解決機器人領(lǐng)域的基礎(chǔ)數(shù)據(jù)挑戰(zhàn)。
沒有足夠的數(shù)據(jù),機器人模型無法進行有效的訓(xùn)練、測試或部署。這使得數(shù)據(jù)的收集和生成成為解決機器人開發(fā)挑戰(zhàn)的關(guān)鍵第一步。通過采用這種結(jié)合現(xiàn)實與合成數(shù)據(jù)的創(chuàng)新工作流,英偉達(dá)正為機器人領(lǐng)域的重大進步鋪平道路。
One More Thing
那么這套方案在實際應(yīng)用中,效果如何?
銀河通用創(chuàng)始人、CTO王鶴介紹了他們是如何與英偉達(dá)合作的,以及取得了哪些成果。
銀河通用使用NVIDIA Isaac系列以及Omniverse技術(shù),使用仿真器合成大量的機器人操作數(shù)據(jù),并將其轉(zhuǎn)化為機器人的模型。
將各種3D固體資產(chǎn)、環(huán)境以及各類材質(zhì)和紋理素材相互融合,模擬機器人的運行場景,探討機器人如何操作物體。
在此過程中,仿真器和渲染引擎發(fā)揮關(guān)鍵作用,需要檢查合成的場景在物理層面是否正確。若場景正確,我們就可以使用并行渲染器將數(shù)據(jù)渲染出來,并將機器人訓(xùn)練的數(shù)據(jù)存儲下來,最終得到以10億計的海量合成數(shù)據(jù)。
銀河通用基于自研的10億級別的合成大數(shù)據(jù),訓(xùn)練出了全球最大機器人基礎(chǔ)模型,滿足七大泛化的“金標(biāo)準(zhǔn)”:光照泛化、背景泛化、平面位置泛化、空間高度泛化、動作策略泛化、動態(tài)干擾泛化、物體類別泛化。
總的來看,英偉達(dá)的“三臺計算機”解決方案,可以說是系統(tǒng)性地解決了機器人開發(fā)難題。
一方面通過虛擬仿真突破了物理時間的限制,將可能需要50年的發(fā)展周期縮短至5年。
另一方面不直接制造機器人,而是打造開放平臺,為合作伙伴提供完整的軟硬件工具鏈的做法,也有助于整個行業(yè)生態(tài)。