自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ln0cv"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元精華

發(fā)布于 2025-3-21 11:17

瀏覽

0收藏

近日，英偉達(dá)發(fā)布 NVIDIA Isaac GR00T N1。

在人工智能與機(jī)器人技術(shù)的交匯處，NVIDIA Isaac GR00T N1的誕生標(biāo)志著人形機(jī)器人領(lǐng)域的一次重大突破。作為全球首個開放的通用人形機(jī)器人推理與技能基礎(chǔ)模型，GR00T N1不僅能夠處理包括語言和圖像在內(nèi)的多模態(tài)輸入，還能在多樣化的環(huán)境中執(zhí)行復(fù)雜的操控任務(wù)。這一模型的訓(xùn)練基于龐大的人形機(jī)器人數(shù)據(jù)集，結(jié)合了真實(shí)捕捉數(shù)據(jù)、合成數(shù)據(jù)以及互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)，使其具備了強(qiáng)大的適應(yīng)性和可定制性。無論是研究人員還是專業(yè)開發(fā)者，GR00T N1都提供了一個強(qiáng)大的平臺，以最小的數(shù)據(jù)量實(shí)現(xiàn)特定任務(wù)的模型微調(diào)，并最終部署到實(shí)際硬件中執(zhí)行。

白皮書鏈接：??https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T_1_Whitepaper.pdf??

項目鏈接：??https://github.com/NVIDIA/Isaac-GR00T/?tab=readme-ov-file??

網(wǎng)站鏈接：??https://developer.nvidia.com/isaac/gr00t?? Huggingface

鏈接：?https://huggingface.co/nvidia/GR00T-N1-2B??

NVIDIA Isaac GR00T N1

NVIDIA Isaac GR00T N1 是世界上第一個用于通用人形機(jī)器人推理和技能的開放基礎(chǔ)模型。該跨實(shí)體模型采用多模態(tài)輸入（包括語言和圖像）來在不同環(huán)境中執(zhí)行操作任務(wù)。

GR00T N1 是在廣泛的人形數(shù)據(jù)集上進(jìn)行訓(xùn)練的，該數(shù)據(jù)集包括真實(shí)捕獲的數(shù)據(jù)、使用 NVIDIA Isaac GR00T Blueprint 組件生成的合成數(shù)據(jù)以及互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)。它可通過后期訓(xùn)練適應(yīng)特定的實(shí)施例、任務(wù)和環(huán)境。

GR00T N1 的神經(jīng)網(wǎng)絡(luò)架構(gòu)是視覺語言基礎(chǔ)模型和擴(kuò)散 Transformer 頭的組合，可對連續(xù)動作進(jìn)行去噪。以下是架構(gòu)示意圖：

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

以下是使用 GR00T N1 的一般步驟：

假設(shè)用戶已經(jīng)以（視頻、狀態(tài)、動作）三元組的形式收集了機(jī)器人演示的數(shù)據(jù)集。
用戶首先將演示數(shù)據(jù)轉(zhuǎn)換為 LeRobot 兼容的數(shù)據(jù)模式（更多信息見），該模式與上游Huggingface LeRobotgetting_started/LeRobot_compatible_data_schema.md兼容。
我們的 repo 提供了配置不同配置的示例，用于使用不同的機(jī)器人實(shí)施例進(jìn)行訓(xùn)練。
我們的 repo 提供了方便的腳本，用于根據(jù)用戶數(shù)據(jù)微調(diào)預(yù)先訓(xùn)練的 GR00T N1 模型并運(yùn)行推理。
用戶將連接Gr00tPolicy到機(jī)器人控制器以在目標(biāo)硬件上執(zhí)行操作。

目標(biāo)受眾

GR00T N1 適用于人形機(jī)器人研究人員和專業(yè)人士。此存儲庫提供以下工具：

利用預(yù)先訓(xùn)練的基礎(chǔ)模型進(jìn)行機(jī)器人控制
對小型自定義數(shù)據(jù)集進(jìn)行微調(diào)
使用最少的數(shù)據(jù)使模型適應(yīng)特定的機(jī)器人任務(wù)
部署模型進(jìn)行推理

重點(diǎn)是通過微調(diào)實(shí)現(xiàn)機(jī)器人行為的定制。

先決條件

我們已經(jīng)在 Ubuntu 20.04 和 22.04、GPU：H100、L40、RTX 4090 和 A6000 上測試了代碼以進(jìn)行微調(diào)，并且 Pythnotallow==3.10、CUDA 版本 12.4。
為了進(jìn)行推理，我們在 Ubuntu 20.04 和 22.04 上進(jìn)行了測試，GPU：RTX 4090 和 A6000
如果您尚未安裝 CUDA 12.4，請按照此處的說明（https://docs.nvidia.com/cuda/cuda-installation-guide-linux/）進(jìn)行安裝。
請確保您的系統(tǒng)中安裝了以下依賴項：ffmpeg，libsm6,libxext6

安裝指南

克隆倉庫：

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

創(chuàng)建新的 conda 環(huán)境并安裝依賴項。我們建議使用 Python 3.10：

請注意，請確保您的 CUDA 版本為 12.4。否則，您可能無法正確配置 flash-attn 模塊。

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

開始使用此 repo

我們在文件夾中提供了可訪問的 Jupyter 筆記本和詳細(xì)文檔./getting_started。實(shí)用程序腳本可在文件夾中找到./scripts。

數(shù)據(jù)格式及加載

為了加載和處理數(shù)據(jù)，我們使用Huggingface LeRobot 數(shù)據(jù)(https://github.com/huggingface/lerobot)，但具有更詳細(xì)的元數(shù)據(jù)和注釋模式（我們稱之為“LeRobot 兼容數(shù)據(jù)模式”）。
此模式要求數(shù)據(jù)在特定的目錄結(jié)構(gòu)中格式化才能夠加載。
這是此處存儲的模式的示例：./demo_data/robot_sim.PickNPlace

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

數(shù)據(jù)組織指南可在getting_started/LeRobot_compatible_data_schema.md
一旦您的數(shù)據(jù)以這種格式組織起來，您就可以使用類加載數(shù)據(jù)LeRobotSingleDataset。

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

getting_started/0_load_dataset.ipynb是一個關(guān)于如何加載數(shù)據(jù)并處理數(shù)據(jù)以便與 GR00T N1 模型交互的交互式教程。
scripts/load_dataset.py是一個可執(zhí)行腳本，內(nèi)容與筆記本相同。

推理

GR00T N1 模型托管在Huggingface（https://huggingface.co/nvidia/GR00T-N1-2B）上。
示例交叉實(shí)施數(shù)據(jù)集可在 demo_data/robot_sim.PickNPlace 獲得。

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

getting_started/1_gr00t_inference.ipynb 是一個用于構(gòu)建推理管道的交互式 Jupyter 筆記本教程。

用戶還可以使用提供的腳本運(yùn)行推理服務(wù)。推理服務(wù)可以在服務(wù)器模式或客戶端模式下運(yùn)行。

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

在不同的終端上，運(yùn)行客戶端模式向服務(wù)器發(fā)送請求。

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

微調(diào)

用戶可以運(yùn)行下面的微調(diào)腳本，使用示例數(shù)據(jù)集對模型進(jìn)行微調(diào)。教程可在中找到getting_started/2_finetuning.ipynb。

然后運(yùn)行微調(diào)腳本：

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

您還可以從我們的 huggingface sim 數(shù)據(jù)發(fā)布中下載示例數(shù)據(jù)集

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

建議的微調(diào)配置是將批量大小增加到最大，并進(jìn)行 20k 步的訓(xùn)練。

硬件性能考慮因素

微調(diào)性能：我們使用 1 個 H100 節(jié)點(diǎn)或 L40 節(jié)點(diǎn)進(jìn)行最佳微調(diào)。其他硬件配置（例如 A6000、RTX 4090）也可以使用，但可能需要更長時間才能收斂。確切的批次大小取決于硬件以及正在調(diào)整模型的哪個組件。
推理性能：對于實(shí)時推理，大多數(shù)現(xiàn)代 GPU 在處理單個樣本時的表現(xiàn)都差不多。我們的基準(zhǔn)測試顯示 L40 和 RTX 4090 之間的推理速度差異很小。

對于新實(shí)施例的微調(diào)，請查看getting_started/3_new_embodiment_finetuning.ipynb。

評估

為了對模型進(jìn)行離線評估，我們提供了一個腳本，該腳本可以在數(shù)據(jù)集上評估模型并將其繪制出來。

運(yùn)行新訓(xùn)練的模型

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

運(yùn)行離線評估腳本

英偉達(dá)震撼發(fā)布GR00T N1，全球首個開放通用人形機(jī)器人模型，顛覆多模態(tài)操控，開啟機(jī)器人智能新紀(jì)元-AI.x社區(qū)

然后，您將看到真實(shí)值與預(yù)測值動作的圖表，以及動作的非規(guī)范 MSE。這將指示該策略在數(shù)據(jù)集上是否表現(xiàn)良好。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/Ak3iOji0q9x0BdgDBB6P3Q??

標(biāo)簽

數(shù)據(jù)

已于2025-3-21 11:22:55修改

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

谷歌 DeepMind CEO Hassabis 暢談 Gemini、Scalin Law、通用機(jī)器人、大模型開源、超級人工智能

lintoms ? 2485瀏覽 ? 0回復(fù)
人形機(jī)器人進(jìn)廠打工

echo_ning ? 2811瀏覽 ? 0回復(fù)
Sergey Levine教授解讀機(jī)器人AI的演進(jìn)

lintoms ? 2701瀏覽 ? 0回復(fù)
搬磚機(jī)器人？淺談RPA技術(shù)及其應(yīng)用

zhcs333 ? 2833瀏覽 ? 0回復(fù)
世界上第一個聊天機(jī)器人并非旨在成為聊天機(jī)器人

xuxiangda ? 4398瀏覽 ? 0回復(fù)
大型語言模型與智能機(jī)器人集成的調(diào)查研究

AIRoobt ? 2892瀏覽 ? 0回復(fù)
LLM+P：賦予大語言模型最佳機(jī)器人規(guī)劃能力

AIRoobt ? 2663瀏覽 ? 0回復(fù)
大模型在機(jī)器人領(lǐng)域的應(yīng)用：機(jī)遇、挑戰(zhàn)與前景

AIRoobt ? 3843瀏覽 ? 0回復(fù)
訓(xùn)練模擬人形機(jī)器人的五種強(qiáng)化學(xué)習(xí)技術(shù)大PK

51CTO內(nèi)容精選 ? 3323瀏覽 ? 0回復(fù)
用Python打造加密貨幣算法交易機(jī)器人

開發(fā)者阿橙 ? 4706瀏覽 ? 0回復(fù)
發(fā)布會上特斯拉Optimus竟是人扮演的？時薪高達(dá)48美元！馬斯克人形機(jī)器人的預(yù)言會想星艦一樣成功嗎？

51CTO技術(shù)棧 ? 2119瀏覽 ? 0回復(fù)
英偉達(dá)&斯坦福大學(xué)發(fā)布GRS：從真實(shí)世界觀測中生成機(jī)器人仿真任務(wù)

angel ? 2661瀏覽 ? 0回復(fù)
機(jī)器人ChatGPT時刻！英偉達(dá)開源世界大模型，完美模擬物理世界！

Aceryt ? 2462瀏覽 ? 0回復(fù)
人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）

angel ? 1959瀏覽 ? 0回復(fù)
上交&上海AI lab發(fā)布HUGWBC，實(shí)現(xiàn)人形機(jī)器人多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控

angel ? 2072瀏覽 ? 0回復(fù)
英偉達(dá)開源通用機(jī)器人大模型—GR00T N1

Aceryt ? 1347瀏覽 ? 0回復(fù)
英偉達(dá) GTC 2025：從芯片到機(jī)器人，AI 未來已來，市場為何不買賬？

Halo咯咯 ? 1370瀏覽 ? 0回復(fù)
英偉達(dá)開源15T數(shù)據(jù)集：32萬個機(jī)器人訓(xùn)練軌跡

Aceryt ? 1205瀏覽 ? 0回復(fù)
全球首場人形機(jī)器人格斗大賽要來了！宇樹科技炸場，人形機(jī)器人風(fēng)口來了？

算家計算 ? 535瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： CVPR 2025 | 電商退貨率或?qū)⒀鼣?！VTON 360突破3D虛擬試衣天花板：無死角虛擬換裝

下一篇：一份4D生成領(lǐng)域超全景圖譜！（對象建模、場景生成、數(shù)字人、4D編輯和自動駕駛）

社區(qū)精華內(nèi)容

目錄

<tfoot id="q1wt0"></tfoot>