自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元 精華

發(fā)布于 2025-3-21 11:17
瀏覽
0收藏

近日,英偉達(dá)發(fā)布 NVIDIA Isaac GR00T N1。


在人工智能與機(jī)器人技術(shù)的交匯處,NVIDIA Isaac GR00T N1的誕生標(biāo)志著人形機(jī)器人領(lǐng)域的一次重大突破。作為全球首個開放的通用人形機(jī)器人推理與技能基礎(chǔ)模型,GR00T N1不僅能夠處理包括語言和圖像在內(nèi)的多模態(tài)輸入,還能在多樣化的環(huán)境中執(zhí)行復(fù)雜的操控任務(wù)。這一模型的訓(xùn)練基于龐大的人形機(jī)器人數(shù)據(jù)集,結(jié)合了真實(shí)捕捉數(shù)據(jù)、合成數(shù)據(jù)以及互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù),使其具備了強(qiáng)大的適應(yīng)性和可定制性。無論是研究人員還是專業(yè)開發(fā)者,GR00T N1都提供了一個強(qiáng)大的平臺,以最小的數(shù)據(jù)量實(shí)現(xiàn)特定任務(wù)的模型微調(diào),并最終部署到實(shí)際硬件中執(zhí)行。

白皮書鏈接:??https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T_1_Whitepaper.pdf??

項目鏈接:??https://github.com/NVIDIA/Isaac-GR00T/?tab=readme-ov-file??

網(wǎng)站鏈接:??https://developer.nvidia.com/isaac/gr00t?? Huggingface

鏈接:?https://huggingface.co/nvidia/GR00T-N1-2B??

NVIDIA Isaac GR00T N1

NVIDIA Isaac GR00T N1 是世界上第一個用于通用人形機(jī)器人推理和技能的開放基礎(chǔ)模型。該跨實(shí)體模型采用多模態(tài)輸入(包括語言和圖像)來在不同環(huán)境中執(zhí)行操作任務(wù)。

GR00T N1 是在廣泛的人形數(shù)據(jù)集上進(jìn)行訓(xùn)練的,該數(shù)據(jù)集包括真實(shí)捕獲的數(shù)據(jù)、使用 NVIDIA Isaac GR00T Blueprint 組件生成的合成數(shù)據(jù)以及互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)。它可通過后期訓(xùn)練適應(yīng)特定的實(shí)施例、任務(wù)和環(huán)境。

GR00T N1 的神經(jīng)網(wǎng)絡(luò)架構(gòu)是視覺語言基礎(chǔ)模型和擴(kuò)散 Transformer 頭的組合,可對連續(xù)動作進(jìn)行去噪。以下是架構(gòu)示意圖:

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

以下是使用 GR00T N1 的一般步驟:

  • 假設(shè)用戶已經(jīng)以(視頻、狀態(tài)、動作)三元組的形式收集了機(jī)器人演示的數(shù)據(jù)集。
  • 用戶首先將演示數(shù)據(jù)轉(zhuǎn)換為 LeRobot 兼容的數(shù)據(jù)模式(更多信息見),該模式與上游Huggingface LeRobotgetting_started/LeRobot_compatible_data_schema.md兼容。
  • 我們的 repo 提供了配置不同配置的示例,用于使用不同的機(jī)器人實(shí)施例進(jìn)行訓(xùn)練。
  • 我們的 repo 提供了方便的腳本,用于根據(jù)用戶數(shù)據(jù)微調(diào)預(yù)先訓(xùn)練的 GR00T N1 模型并運(yùn)行推理。
  • 用戶將連接Gr00tPolicy到機(jī)器人控制器以在目標(biāo)硬件上執(zhí)行操作。

目標(biāo)受眾

GR00T N1 適用于人形機(jī)器人研究人員和專業(yè)人士。此存儲庫提供以下工具:

  • 利用預(yù)先訓(xùn)練的基礎(chǔ)模型進(jìn)行機(jī)器人控制
  • 對小型自定義數(shù)據(jù)集進(jìn)行微調(diào)
  • 使用最少的數(shù)據(jù)使模型適應(yīng)特定的機(jī)器人任務(wù)
  • 部署模型進(jìn)行推理

重點(diǎn)是通過微調(diào)實(shí)現(xiàn)機(jī)器人行為的定制。

先決條件

  • 我們已經(jīng)在 Ubuntu 20.04 和 22.04、GPU:H100、L40、RTX 4090 和 A6000 上測試了代碼以進(jìn)行微調(diào),并且 Pythnotallow==3.10、CUDA 版本 12.4。
  • 為了進(jìn)行推理,我們在 Ubuntu 20.04 和 22.04 上進(jìn)行了測試,GPU:RTX 4090 和 A6000
  • 如果您尚未安裝 CUDA 12.4,請按照此處的說明(https://docs.nvidia.com/cuda/cuda-installation-guide-linux/)進(jìn)行安裝。
  • 請確保您的系統(tǒng)中安裝了以下依賴項:ffmpeg,libsm6,libxext6

安裝指南

克隆倉庫:

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

創(chuàng)建新的 conda 環(huán)境并安裝依賴項。我們建議使用 Python 3.10:

請注意,請確保您的 CUDA 版本為 12.4。否則,您可能無法正確配置 flash-attn 模塊。

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

開始使用此 repo

我們在文件夾中提供了可訪問的 Jupyter 筆記本和詳細(xì)文檔./getting_started。實(shí)用程序腳本可在文件夾中找到./scripts。

數(shù)據(jù)格式及加載

  • 為了加載和處理數(shù)據(jù),我們使用Huggingface LeRobot 數(shù)據(jù)(https://github.com/huggingface/lerobot),但具有更詳細(xì)的元數(shù)據(jù)和注釋模式(我們稱之為“LeRobot 兼容數(shù)據(jù)模式”)。
  • 此模式要求數(shù)據(jù)在特定的目錄結(jié)構(gòu)中格式化才能夠加載。
  • 這是此處存儲的模式的示例:./demo_data/robot_sim.PickNPlace

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

  • 數(shù)據(jù)組織指南可在getting_started/LeRobot_compatible_data_schema.md
  • 一旦您的數(shù)據(jù)以這種格式組織起來,您就可以使用類加載數(shù)據(jù)LeRobotSingleDataset。

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

  • getting_started/0_load_dataset.ipynb是一個關(guān)于如何加載數(shù)據(jù)并處理數(shù)據(jù)以便與 GR00T N1 模型交互的交互式教程。
  • scripts/load_dataset.py是一個可執(zhí)行腳本,內(nèi)容與筆記本相同。

推理

  • GR00T N1 模型托管在Huggingface(https://huggingface.co/nvidia/GR00T-N1-2B)上。
  • 示例交叉實(shí)施數(shù)據(jù)集可在 demo_data/robot_sim.PickNPlace 獲得。

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

  • getting_started/1_gr00t_inference.ipynb 是一個用于構(gòu)建推理管道的交互式 Jupyter 筆記本教程。

用戶還可以使用提供的腳本運(yùn)行推理服務(wù)。推理服務(wù)可以在服務(wù)器模式或客戶端模式下運(yùn)行。

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

在不同的終端上,運(yùn)行客戶端模式向服務(wù)器發(fā)送請求。

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

微調(diào)

用戶可以運(yùn)行下面的微調(diào)腳本,使用示例數(shù)據(jù)集對模型進(jìn)行微調(diào)。教程可在 中找到getting_started/2_finetuning.ipynb。

然后運(yùn)行微調(diào)腳本:

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

您還可以從我們的 huggingface sim 數(shù)據(jù)發(fā)布中下載示例數(shù)據(jù)集

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

建議的微調(diào)配置是將批量大小增加到最大,并進(jìn)行 20k 步的訓(xùn)練。

硬件性能考慮因素

  • 微調(diào)性能:我們使用 1 個 H100 節(jié)點(diǎn)或 L40 節(jié)點(diǎn)進(jìn)行最佳微調(diào)。其他硬件配置(例如 A6000、RTX 4090)也可以使用,但可能需要更長時間才能收斂。確切的批次大小取決于硬件以及正在調(diào)整模型的哪個組件。
  • 推理性能:對于實(shí)時推理,大多數(shù)現(xiàn)代 GPU 在處理單個樣本時的表現(xiàn)都差不多。我們的基準(zhǔn)測試顯示 L40 和 RTX 4090 之間的推理速度差異很小。

對于新實(shí)施例的微調(diào),請查看getting_started/3_new_embodiment_finetuning.ipynb。

評估

為了對模型進(jìn)行離線評估,我們提供了一個腳本,該腳本可以在數(shù)據(jù)集上評估模型并將其繪制出來。

運(yùn)行新訓(xùn)練的模型

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

運(yùn)行離線評估腳本

英偉達(dá)震撼發(fā)布GR00T N1,全球首個開放通用人形機(jī)器人模型,顛覆多模態(tài)操控,開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

然后,您將看到真實(shí)值與預(yù)測值動作的圖表,以及動作的非規(guī)范 MSE。這將指示該策略在數(shù)據(jù)集上是否表現(xiàn)良好。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/Ak3iOji0q9x0BdgDBB6P3Q??


已于2025-3-21 11:22:55修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦