英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元 精華
近日,英偉達(dá)發(fā)布 NVIDIA Isaac GR00T N1。
在人工智能與機(jī)器人技術(shù)的交匯處,NVIDIA Isaac GR00T N1的誕生標(biāo)志著人形機(jī)器人領(lǐng)域的一次重大突破。作為全球首個開放的通用人形機(jī)器人推理與技能基礎(chǔ)模型,GR00T N1不僅能夠處理包括語言和圖像在內(nèi)的多模態(tài)輸入,還能在多樣化的環(huán)境中執(zhí)行復(fù)雜的操控任務(wù)。這一模型的訓(xùn)練基于龐大的人形機(jī)器人數(shù)據(jù)集,結(jié)合了真實(shí)捕捉數(shù)據(jù)、合成數(shù)據(jù)以及互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù),使其具備了強(qiáng)大的適應(yīng)性和可定制性。無論是研究人員還是專業(yè)開發(fā)者,GR00T N1都提供了一個強(qiáng)大的平臺,以最小的數(shù)據(jù)量實(shí)現(xiàn)特定任務(wù)的模型微調(diào),并最終部署到實(shí)際硬件中執(zhí)行。
白皮書鏈接:??https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T_1_Whitepaper.pdf??
項目鏈接:??https://github.com/NVIDIA/Isaac-GR00T/?tab=readme-ov-file??
網(wǎng)站鏈接:??https://developer.nvidia.com/isaac/gr00t?? Huggingface
鏈接:?https://huggingface.co/nvidia/GR00T-N1-2B??
NVIDIA Isaac GR00T N1
NVIDIA Isaac GR00T N1 是世界上第一個用于通用人形機(jī)器人推理和技能的開放基礎(chǔ)模型。該跨實(shí)體模型采用多模態(tài)輸入(包括語言和圖像)來在不同環(huán)境中執(zhí)行操作任務(wù)。
GR00T N1 是在廣泛的人形數(shù)據(jù)集上進(jìn)行訓(xùn)練的,該數(shù)據(jù)集包括真實(shí)捕獲的數(shù)據(jù)、使用 NVIDIA Isaac GR00T Blueprint 組件生成的合成數(shù)據(jù)以及互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)。它可通過后期訓(xùn)練適應(yīng)特定的實(shí)施例、任務(wù)和環(huán)境。
GR00T N1 的神經(jīng)網(wǎng)絡(luò)架構(gòu)是視覺語言基礎(chǔ)模型和擴(kuò)散 Transformer 頭的組合,可對連續(xù)動作進(jìn)行去噪。以下是架構(gòu)示意圖:
以下是使用 GR00T N1 的一般步驟:
- 假設(shè)用戶已經(jīng)以(視頻、狀態(tài)、動作)三元組的形式收集了機(jī)器人演示的數(shù)據(jù)集。
- 用戶首先將演示數(shù)據(jù)轉(zhuǎn)換為 LeRobot 兼容的數(shù)據(jù)模式(更多信息見),該模式與上游Huggingface LeRobotgetting_started/LeRobot_compatible_data_schema.md兼容。
- 我們的 repo 提供了配置不同配置的示例,用于使用不同的機(jī)器人實(shí)施例進(jìn)行訓(xùn)練。
- 我們的 repo 提供了方便的腳本,用于根據(jù)用戶數(shù)據(jù)微調(diào)預(yù)先訓(xùn)練的 GR00T N1 模型并運(yùn)行推理。
- 用戶將連接Gr00tPolicy到機(jī)器人控制器以在目標(biāo)硬件上執(zhí)行操作。
目標(biāo)受眾
GR00T N1 適用于人形機(jī)器人研究人員和專業(yè)人士。此存儲庫提供以下工具:
- 利用預(yù)先訓(xùn)練的基礎(chǔ)模型進(jìn)行機(jī)器人控制
- 對小型自定義數(shù)據(jù)集進(jìn)行微調(diào)
- 使用最少的數(shù)據(jù)使模型適應(yīng)特定的機(jī)器人任務(wù)
- 部署模型進(jìn)行推理
重點(diǎn)是通過微調(diào)實(shí)現(xiàn)機(jī)器人行為的定制。
先決條件
- 我們已經(jīng)在 Ubuntu 20.04 和 22.04、GPU:H100、L40、RTX 4090 和 A6000 上測試了代碼以進(jìn)行微調(diào),并且 Pythnotallow==3.10、CUDA 版本 12.4。
- 為了進(jìn)行推理,我們在 Ubuntu 20.04 和 22.04 上進(jìn)行了測試,GPU:RTX 4090 和 A6000
- 如果您尚未安裝 CUDA 12.4,請按照此處的說明(https://docs.nvidia.com/cuda/cuda-installation-guide-linux/)進(jìn)行安裝。
- 請確保您的系統(tǒng)中安裝了以下依賴項:ffmpeg,libsm6,libxext6
安裝指南
克隆倉庫:
創(chuàng)建新的 conda 環(huán)境并安裝依賴項。我們建議使用 Python 3.10:
請注意,請確保您的 CUDA 版本為 12.4。否則,您可能無法正確配置 flash-attn 模塊。
開始使用此 repo
我們在文件夾中提供了可訪問的 Jupyter 筆記本和詳細(xì)文檔./getting_started。實(shí)用程序腳本可在文件夾中找到./scripts。
數(shù)據(jù)格式及加載
- 為了加載和處理數(shù)據(jù),我們使用Huggingface LeRobot 數(shù)據(jù)(https://github.com/huggingface/lerobot),但具有更詳細(xì)的元數(shù)據(jù)和注釋模式(我們稱之為“LeRobot 兼容數(shù)據(jù)模式”)。
- 此模式要求數(shù)據(jù)在特定的目錄結(jié)構(gòu)中格式化才能夠加載。
- 這是此處存儲的模式的示例:./demo_data/robot_sim.PickNPlace
- 數(shù)據(jù)組織指南可在getting_started/LeRobot_compatible_data_schema.md
- 一旦您的數(shù)據(jù)以這種格式組織起來,您就可以使用類加載數(shù)據(jù)LeRobotSingleDataset。
- getting_started/0_load_dataset.ipynb是一個關(guān)于如何加載數(shù)據(jù)并處理數(shù)據(jù)以便與 GR00T N1 模型交互的交互式教程。
- scripts/load_dataset.py是一個可執(zhí)行腳本,內(nèi)容與筆記本相同。
推理
- GR00T N1 模型托管在Huggingface(https://huggingface.co/nvidia/GR00T-N1-2B)上。
- 示例交叉實(shí)施數(shù)據(jù)集可在 demo_data/robot_sim.PickNPlace 獲得。
- getting_started/1_gr00t_inference.ipynb 是一個用于構(gòu)建推理管道的交互式 Jupyter 筆記本教程。
用戶還可以使用提供的腳本運(yùn)行推理服務(wù)。推理服務(wù)可以在服務(wù)器模式或客戶端模式下運(yùn)行。
在不同的終端上,運(yùn)行客戶端模式向服務(wù)器發(fā)送請求。
微調(diào)
用戶可以運(yùn)行下面的微調(diào)腳本,使用示例數(shù)據(jù)集對模型進(jìn)行微調(diào)。教程可在 中找到getting_started/2_finetuning.ipynb。
然后運(yùn)行微調(diào)腳本:
您還可以從我們的 huggingface sim 數(shù)據(jù)發(fā)布中下載示例數(shù)據(jù)集
建議的微調(diào)配置是將批量大小增加到最大,并進(jìn)行 20k 步的訓(xùn)練。
硬件性能考慮因素
- 微調(diào)性能:我們使用 1 個 H100 節(jié)點(diǎn)或 L40 節(jié)點(diǎn)進(jìn)行最佳微調(diào)。其他硬件配置(例如 A6000、RTX 4090)也可以使用,但可能需要更長時間才能收斂。確切的批次大小取決于硬件以及正在調(diào)整模型的哪個組件。
- 推理性能:對于實(shí)時推理,大多數(shù)現(xiàn)代 GPU 在處理單個樣本時的表現(xiàn)都差不多。我們的基準(zhǔn)測試顯示 L40 和 RTX 4090 之間的推理速度差異很小。
對于新實(shí)施例的微調(diào),請查看getting_started/3_new_embodiment_finetuning.ipynb。
評估
為了對模型進(jìn)行離線評估,我們提供了一個腳本,該腳本可以在數(shù)據(jù)集上評估模型并將其繪制出來。
運(yùn)行新訓(xùn)練的模型
運(yùn)行離線評估腳本
然后,您將看到真實(shí)值與預(yù)測值動作的圖表,以及動作的非規(guī)范 MSE。這將指示該策略在數(shù)據(jù)集上是否表現(xiàn)良好。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/Ak3iOji0q9x0BdgDBB6P3Q??
