12個(gè)真實(shí)世界機(jī)器人任務(wù)成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態(tài)動(dòng)作模型 精華
文章鏈接:https://arxiv.org/pdf/2412.11974
代碼鏈接:https://github.com/declare-lab/Emma-X
Huggingface鏈接:https://huggingface.co/declare-lab/Emma-X
亮點(diǎn)直擊
- 提出了一個(gè)具有70億參數(shù)的具身多模態(tài)動(dòng)作模型 EMMA-X,通過在有根據(jù)的鏈?zhǔn)剿季S(CoT)推理數(shù)據(jù)上微調(diào) OpenVLA 創(chuàng)建而成。
- 通過合成構(gòu)建了一個(gè)層次化的具身數(shù)據(jù)集,該數(shù)據(jù)集來自現(xiàn)有的機(jī)器人操作數(shù)據(jù)集,包含了3D空間運(yùn)動(dòng)、2D夾爪位置和有根據(jù)的推理。
- 提出了一種新穎的軌跡分割策略,利用夾爪的開合狀態(tài)和機(jī)器人手臂的運(yùn)動(dòng)軌跡,促進(jìn)了有根據(jù)的任務(wù)推理和前瞻性空間推理。
- 提出的 EMMA-X 在各種實(shí)際機(jī)器人任務(wù)中,特別是在需要空間推理的任務(wù)中,相比現(xiàn)有的競爭基準(zhǔn),取得了顯著的性能提升。
總結(jié)速覽
解決的問題
傳統(tǒng)的基于強(qiáng)化學(xué)習(xí)的機(jī)器人控制方法通常是任務(wù)特定的,無法在不同環(huán)境或未見過的物體和指令中進(jìn)行有效推廣。盡管視覺語言模型(VLMs)在場景理解和任務(wù)規(guī)劃上表現(xiàn)出色,但它們?nèi)狈ι蛇m用于特定機(jī)器人形態(tài)的可操作策略的能力。此外,現(xiàn)有的視覺語言行動(dòng)(VLA)模型在長時(shí)間跨度的空間推理和基于實(shí)際任務(wù)的規(guī)劃中存在挑戰(zhàn),尤其是在處理復(fù)雜任務(wù)和模糊指令時(shí)。
提出的方案
本文提出了EMMA-X(Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning) 模型。該模型通過引入基于層次化具身數(shù)據(jù)集(BridgeV2)來增強(qiáng)機(jī)器人任務(wù)推理和空間引導(dǎo),生成更加精準(zhǔn)的多任務(wù)通用機(jī)器人動(dòng)作。EMMA-X結(jié)合了基于視覺和任務(wù)推理的鏈?zhǔn)剿季S,并且引入了前瞻性空間推理能力,以確保機(jī)器人能夠生成高效且適應(yīng)環(huán)境的長期任務(wù)規(guī)劃。
應(yīng)用的技術(shù)
- 層次化具身數(shù)據(jù)集(BridgeV2):EMMA-X基于此數(shù)據(jù)集,包含了60,000條機(jī)器人操作軌跡,每條軌跡都附有詳細(xì)的空間推理和任務(wù)推理。
- 前瞻性空間推理(Look-ahead Spatial Reasoning):通過預(yù)測夾爪未來位置(2D位置)和三維運(yùn)動(dòng)計(jì)劃,優(yōu)化機(jī)器人行動(dòng)的長期規(guī)劃。
- 軌跡分割策略:基于夾爪的開合狀態(tài)和機(jī)器人手臂的運(yùn)動(dòng)軌跡,動(dòng)態(tài)地將狀態(tài)序列分割成獨(dú)立段,從而減輕了因不充分的視覺理解所導(dǎo)致的任務(wù)推理中的幻覺問題。
- Gemini生成任務(wù)推理:與ECoT方法不同,EMMA-X結(jié)合了視覺輸入和任務(wù)推理,避免了僅依賴文本描述所產(chǎn)生的推理沖突。
達(dá)到的效果
- 減少幻覺現(xiàn)象:通過結(jié)合視覺圖像和任務(wù)推理,EMMA-X顯著減少了任務(wù)推理過程中的幻覺問題,提供了更為準(zhǔn)確的子任務(wù)定義。
- 提高機(jī)器人任務(wù)執(zhí)行效果:實(shí)驗(yàn)結(jié)果表明,EMMA-X在實(shí)際的機(jī)器人任務(wù)中,尤其是需要長時(shí)間跨度空間推理的任務(wù)中,表現(xiàn)優(yōu)于現(xiàn)有的競爭基準(zhǔn)。
- 增強(qiáng)的任務(wù)規(guī)劃能力:通過長時(shí)間跨度的空間推理,EMMA-X能夠生成更精確的高層次運(yùn)動(dòng)規(guī)劃,幫助機(jī)器人在復(fù)雜和動(dòng)態(tài)環(huán)境中執(zhí)行任務(wù)。
方法
EMMA-X 包括三個(gè)關(guān)鍵設(shè)計(jì):
- 基于夾爪狀態(tài)和機(jī)器人手臂運(yùn)動(dòng)軌跡對軌跡進(jìn)行分割。
- 生成層次化的規(guī)劃,包括有根據(jù)的任務(wù)推理、2D夾爪位置和3D空間運(yùn)動(dòng)。
- 基于我們構(gòu)建的數(shù)據(jù)集,基于OpenVLA訓(xùn)練EMMA-X。
軌跡分割
為什么要分割軌跡? 本文的總體目標(biāo)是通過有根據(jù)的鏈?zhǔn)剿季S(CoT)推理,增強(qiáng)視覺語言行動(dòng)(VLA)模型?,F(xiàn)有 VLA 模型存在兩個(gè)主要的局限性:
- 雖然現(xiàn)有的 VLA 通過將任務(wù)分解為子任務(wù)并使用 CoT 解決每個(gè)子任務(wù)來改善任務(wù)分解(Zawalski et al., 2024),但它們的 CoT 推理完全依賴于文本場景描述。這限制了它們在現(xiàn)實(shí)場景中的推理能力。
- 它們?nèi)狈?qiáng)大的空間推理能力,而空間推理對有效的任務(wù)規(guī)劃和執(zhí)行至關(guān)重要。
為了解決這些局限性,本文提出了兩個(gè)關(guān)鍵的解決方案:
- 結(jié)合視覺場景信息:除了文本提示外,將視覺輸入集成到Gemini中,使任務(wù)分解可以同時(shí)基于視覺和文本上下文生成高層次的規(guī)劃。
- 細(xì)粒度的運(yùn)動(dòng)規(guī)劃:訓(xùn)練機(jī)器人確定去哪里以及如何到達(dá)完成子任務(wù)所需的潛在未來狀態(tài)。
為了實(shí)現(xiàn)這些解決方案,每個(gè)狀態(tài)都必須標(biāo)記機(jī)器人正在執(zhí)行的子任務(wù)。然而,實(shí)驗(yàn)表明,通過Gemini 直接標(biāo)注每個(gè)幀會(huì)導(dǎo)致標(biāo)簽噪聲,可能是因?yàn)樯舷挛男畔⒉蛔恪榱丝朔@個(gè)問題,將軌跡分割成連續(xù)的狀態(tài)序列,其中機(jī)器人執(zhí)行語義上相似的動(dòng)作。通過這種分割,提供了更豐富的上下文,使Gemini 更有效地為子任務(wù)分配標(biāo)簽。
分割方法
如下圖 2(a) 和2(b) 所示,通過結(jié)合末端執(zhí)行器的運(yùn)動(dòng)軌跡和夾爪狀態(tài)對觀察序列進(jìn)行分割。為了實(shí)現(xiàn)這一目標(biāo),使用了基于密度的空間聚類算法(HDBSCAN),該算法能夠有效處理由于人類示范中的不完美性引起的小波動(dòng)所帶來的噪聲。HDBSCAN 的靈活性使得它能夠發(fā)現(xiàn)數(shù)據(jù)中多樣的軌跡模式。
數(shù)據(jù)生成
在獲得分段后,為每個(gè)示范生成層次化的具身規(guī)劃數(shù)據(jù),如前圖 2 所示。對于每個(gè)示范的分段,生成當(dāng)前分段完成狀態(tài)的 2D 末端執(zhí)行器位置和 3D 運(yùn)動(dòng)。此外,為相應(yīng)的子任務(wù)生成有根據(jù)的推理。
為什么進(jìn)行前瞻空間推理?
如果沒有能力基于未來狀態(tài)設(shè)立地標(biāo)或檢查點(diǎn)并根據(jù)它們規(guī)劃路線,配送員只能依賴于反應(yīng)性決策,這會(huì)導(dǎo)致低效或錯(cuò)誤的路徑選擇。通過整合高層計(jì)劃和即時(shí)反饋,配送員能夠確保有目的且自適應(yīng)地朝目標(biāo)前進(jìn)。
類比,計(jì)算出前瞻夾爪位置和運(yùn)動(dòng)計(jì)劃,預(yù)測如何到達(dá)未來的狀態(tài)。
前瞻夾爪位置生成參考(Zawalski 等,2024),同樣使用 OWLv2和 SAM來檢測 2D 夾爪位置,如前圖 2(e)所示。不同之處在于,訓(xùn)練模型僅輸出當(dāng)前輸入狀態(tài)的夾爪位置,而在數(shù)據(jù)構(gòu)建過程中,使用當(dāng)前夾爪位置作為輸入,預(yù)測下一個(gè)分段第一個(gè)狀態(tài)的夾爪位置。
基于推理的鏈?zhǔn)剿季S
如前圖 2(f) 和 (g) 所示,利用 Gemini 3 來推導(dǎo)出每個(gè)分段對應(yīng)的子任務(wù),以及執(zhí)行該子任務(wù)所需的場景理解和推理。具體來說,我們將分段圖像序列和任務(wù)描述作為輸入,指導(dǎo) Gemini 生成每個(gè)分段的子任務(wù)和有根據(jù)的推理。與(Zawalski 等,2024)僅從文本信息推導(dǎo)子任務(wù)及其狀態(tài)映射不同,本文的方法首先根據(jù)機(jī)器人運(yùn)動(dòng)軌跡和夾爪狀態(tài)對序列進(jìn)行分割。然后,基于給定的多模態(tài)信息,我們生成相應(yīng)的子任務(wù)和每個(gè)子任務(wù)的推理。需要注意的是,每個(gè)子任務(wù)可以包含多個(gè)分段。對于第i條軌跡,從 Gemini 獲得有根據(jù)的推理,定義為:
EMMA-X
本節(jié)介紹EMMA-X 的架構(gòu),這是一種基于 7B 參數(shù)的視覺語言行動(dòng)(VLA)模型,經(jīng)過在分層具身數(shù)據(jù)上微調(diào)OpenVLA得到。如下圖 3 所示,調(diào)整了文本提示,加入了當(dāng)前夾持器位置,并通過鏈?zhǔn)剿季S(CoT)訓(xùn)練來增強(qiáng)空間推理和場景理解能力,以預(yù)測下一步機(jī)器人的行動(dòng)策略。
在實(shí)際機(jī)器人測試過程中,EMMA-X 接收以下幾種輸入:
- 任務(wù)描述:描述機(jī)器人需要執(zhí)行的任務(wù)的文本。
- 當(dāng)前觀察圖像:來自機(jī)器人視角的當(dāng)前場景圖像。
- 2D 夾持器位置:夾持器的當(dāng)前位置信息,由OWLv2和SAM實(shí)時(shí)檢測。
EMMA-X 接下來會(huì)經(jīng)歷以下幾個(gè)步驟:
- 子任務(wù)和場景描述生成:
- 基于任務(wù)描述和實(shí)時(shí)觀察,模型首先預(yù)測要執(zhí)行的子任務(wù)。
- 它還會(huì)生成當(dāng)前場景的描述,詳細(xì)描述圖像中目標(biāo)物體與機(jī)器人臂之間的空間關(guān)系。這包括夾持器如何移動(dòng)以實(shí)現(xiàn)當(dāng)前子任務(wù)的操作指令。
- 目標(biāo)位置預(yù)測:
- 圖像中的2D 位置(視覺平面中的位置)。
- 機(jī)器人物理環(huán)境中的3D 空間移動(dòng)(所需的實(shí)際空間運(yùn)動(dòng))。
- EMMA-X 預(yù)測完成子任務(wù)后夾持器需要到達(dá)的目標(biāo)位置,包括:
- 下一步機(jī)器人動(dòng)作預(yù)測:
- 最終,模型輸出7維機(jī)器人動(dòng)作策略,指導(dǎo)機(jī)器人執(zhí)行后續(xù)的操作任務(wù)。
實(shí)驗(yàn)
實(shí)現(xiàn)細(xì)節(jié)
為了創(chuàng)建分層推理數(shù)據(jù)集,使用了我們的數(shù)據(jù)創(chuàng)建管道對BridgeData-v2 進(jìn)行處理,該數(shù)據(jù)集包含約60,000 條軌跡,每條軌跡都配有任務(wù)指令。這個(gè)數(shù)據(jù)集為訓(xùn)練 VLA 模型提供了基礎(chǔ)。
在訓(xùn)練VLA 模型 時(shí),使用了OpenVLA,這是一個(gè)基于Prismatic 視覺語言框架 的 7B 視覺語言行動(dòng)模型。OpenVLA 在Open X-Embodiment 數(shù)據(jù)集 上進(jìn)行了預(yù)訓(xùn)練,數(shù)據(jù)集包含了一系列多模態(tài)任務(wù)演示及其關(guān)聯(lián)指令。
對于自回歸訓(xùn)練,將 7 維度的動(dòng)作策略標(biāo)記化為離散的策略標(biāo)記,符合 OpenVLA 的既定方法。訓(xùn)練過程遵循 OpenVLA 的標(biāo)準(zhǔn)協(xié)議,我們在我們的增強(qiáng)數(shù)據(jù)集上對基礎(chǔ)模型進(jìn)行了3 個(gè)周期 的微調(diào),直到收斂。
機(jī)器人設(shè)置和評估指標(biāo)
使用6自由度的WidowX機(jī)器人臂來評估我們的方法,該機(jī)器人臂在Bridge V2論文中被介紹,是評估通用機(jī)器人策略的標(biāo)準(zhǔn)基準(zhǔn)。該策略以單個(gè)第三人稱攝像頭的輸入圖像和自然語言指令為輸入,預(yù)測末端執(zhí)行器的速度動(dòng)作以控制機(jī)器人。
為了嚴(yán)格測試策略的泛化能力,開發(fā)了一套具有挑戰(zhàn)性的評估任務(wù),涵蓋多個(gè)方面:域內(nèi)場景、域外(OOD)物體、空間關(guān)系和域外指令。所有策略在相同的現(xiàn)實(shí)世界設(shè)置上進(jìn)行評估,以確保攝像頭角度、照明條件和背景的一致性。每個(gè)任務(wù)執(zhí)行10次,遵循OpenVLA建立的方法。如果機(jī)器人成功完成任務(wù),得分為1(成功),否則得分為0(失?。?。根據(jù)OpenVLA的方法,我們還引入了一個(gè)“半成功”(h-succ)指標(biāo),考慮任務(wù)目標(biāo)和難度,并且僅當(dāng)滿足半成功標(biāo)準(zhǔn)時(shí)才給出0.5分。
基準(zhǔn)對比
為了全面評估EMMA-X的性能,在12個(gè)不同的任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),并與幾種競爭方法進(jìn)行了比較。
OpenVLA:基于大規(guī)模VLM Prismatic-7b的VLA模型,且在Open-X-Embodiment數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。OpenVLA w/ FT:為了進(jìn)行公平比較,在BridgeV2數(shù)據(jù)集上對OpenVLA模型進(jìn)行了微調(diào),并遵循本文方法中相同的訓(xùn)練設(shè)置,訓(xùn)練了相同的輪次。ECoT:基于BridgeV2數(shù)據(jù)集微調(diào)的OpenVLA VLA模型,使用他們生成的鏈?zhǔn)剿季S(CoT)推理數(shù)據(jù)進(jìn)行訓(xùn)練。
EMMA-X提升策略的泛化能力
本節(jié)將EMMA-X與幾種基準(zhǔn)方法進(jìn)行了比較,評估了其在12個(gè)真實(shí)世界機(jī)器人任務(wù)中的表現(xiàn)。如下表1所示,EMMA-X在任務(wù)成功率上比強(qiáng)基準(zhǔn)OpenVLA提高了24.17%,在半成功率上提高了26.25%。這證明了我們構(gòu)建的分層具身數(shù)據(jù)集的有效性。
此外,與ECoT相比,EMMA-X表現(xiàn)出顯著的提升,可能由以下原因造成:
- ECoT在訓(xùn)練數(shù)據(jù)上存在噪聲,這在面對域外指令或不熟悉的物體時(shí)會(huì)引發(fā)幻覺,導(dǎo)致任務(wù)失敗。有趣的是,即使在域內(nèi)任務(wù)中,它也比其他模型表現(xiàn)較差,突顯了其有限的推理能力?;谌蝿?wù)推理的方法通過結(jié)合分段的視覺圖像來解決這一問題,從而確保任務(wù)理解更加準(zhǔn)確。
- EMMA-X通過預(yù)測當(dāng)前段落的結(jié)束狀態(tài)的2D夾持器位置和3D空間運(yùn)動(dòng),再預(yù)測下一步機(jī)器人動(dòng)作策略,增強(qiáng)了空間推理能力。
如下圖4所示,對各種類別的機(jī)器人任務(wù)進(jìn)行了平均表現(xiàn)比較。值得注意的是,在空間關(guān)系任務(wù)中,方法取得了最顯著的性能提升,成功率相比OpenVLA提高了35%,相比ECoT提高了29%。這些結(jié)果有力地驗(yàn)證了本文預(yù)測的3D空間運(yùn)動(dòng)的有效性。此外,本文的方法在域外指令任務(wù)中也表現(xiàn)出了顯著的性能提升,突出顯示了基于任務(wù)推理的有效性。
分析
訓(xùn)練了多個(gè)EMMA-X的變體,以評估分段、提前空間推理和基于任務(wù)的思維鏈(CoT)推理的作用,它們共同構(gòu)成了EMMA-X的核心。為了進(jìn)行評估,從空間關(guān)系(SPATIAL RELATION)、域外物體(OOD OBJECT)和域外指令(OOD INSTRUCTION)中選擇了6個(gè)提示(提示在C節(jié)中以品紅色標(biāo)出)。對于每個(gè)提示,我們在與主要實(shí)驗(yàn)相同的實(shí)驗(yàn)設(shè)置下進(jìn)行了10次實(shí)驗(yàn)。
分段對策略的巨大幫助為了評估本文的分段技術(shù)的有效性,進(jìn)行了一項(xiàng)實(shí)驗(yàn),其中序列僅根據(jù)夾持器(末端效應(yīng)器)的開合位置進(jìn)行分段。結(jié)果,如下表2所示,在“w/o HDBSCAN”條件下,一般性能下降了10%到50%。特別是空間推理性能下降最為顯著,下降幅度為50%。這些發(fā)現(xiàn)表明,公式1中引入的距離度量對分段過程至關(guān)重要。
提前空間推理的影響
為了評估提前空間推理的重要性,進(jìn)行了兩個(gè)實(shí)驗(yàn):
- EMMA-X在沒有顯式預(yù)測下一個(gè)段落夾持器位置的情況下進(jìn)行訓(xùn)練,僅依賴預(yù)測的運(yùn)動(dòng)計(jì)劃來達(dá)到該段落的未來夾持器位置(在上表2中表示為“w/o gt”)。這假設(shè)EMMA-X隱式推斷未來的夾持器位置。
- 訓(xùn)練了EMMA-X來預(yù)測未來末端效應(yīng)器的位置,但沒有進(jìn)行運(yùn)動(dòng)計(jì)劃的滾動(dòng)來達(dá)到該位置(在表2中表示為“w/o mt”)。結(jié)果顯示,這兩種情況下的性能都有顯著下降(“w/o mt”下降了25%-40%,而“w/o gt”下降了30%到45%),空間推理任務(wù)的下降尤為顯著(“w/o mt”下降了35%,而“w/o gt”下降了45%)。
此外,結(jié)果表明,預(yù)測未來末端效應(yīng)器的位置更為關(guān)鍵,因?yàn)樵跊]有3D空間運(yùn)動(dòng)到下一個(gè)段落的情況下,性能下降較輕。推測這可能是由于OpenVLA固有的空間推理能力,使其更容易在位置之間過渡。
基于任務(wù)的思維鏈(CoT)推理的重要性基于任務(wù)的思維鏈(CoT)推理是EMMA-X的基礎(chǔ)元素。為了評估其影響,訓(xùn)練了一個(gè)沒有基于任務(wù)的推理的EMMA-X變體,同時(shí)保留了數(shù)據(jù)中的提前空間推理。結(jié)果顯示,性能下降了43%-55%,突顯了僅靠空間推理不足以完成任務(wù)。有趣的是,缺乏基于任務(wù)的CoT推理導(dǎo)致空間推理性能下降更為嚴(yán)重,相比于那些明確去除空間推理能力的模型。這凸顯了基于任務(wù)的CoT在處理復(fù)雜推理任務(wù)中的關(guān)鍵作用,包括空間推理。因此推測,為了增強(qiáng)視覺-語言-動(dòng)作(VLA)模型的泛化策略,改善其廣泛的推理能力是必要的,涵蓋物體識別、顏色理解、抽象、常識知識等。
微調(diào)不會(huì)改善OpenVLA本文試圖找出是否可以通過在BridgeV2上微調(diào)OpenVLA來與EMMA-X的表現(xiàn)相匹配。結(jié)果(見上表2)顯示,OpenVLA經(jīng)過微調(diào)后,性能下降了5%-30%,最差的表現(xiàn)出現(xiàn)在域外指令任務(wù)上。推測這一下降是由于過擬合,因?yàn)锽ridgeV2本身已經(jīng)是OpenVLA預(yù)訓(xùn)練數(shù)據(jù)集的一部分。
真實(shí)世界機(jī)器人任務(wù)的定性分析為了定性地評估本文的空間和任務(wù)推理在引導(dǎo)機(jī)器人動(dòng)作中的有效性,展示了兩個(gè)成功的軌跡和一個(gè)失敗的軌跡(見下圖5)。從左側(cè)的案例中,發(fā)現(xiàn)預(yù)測的夾持器位置對應(yīng)于子任務(wù)“抓取藍(lán)色立方體”的結(jié)束狀態(tài)。3D運(yùn)動(dòng)提供了詳細(xì)的路徑,清晰地指向“藍(lán)色立方體”。還包括了一個(gè)失敗的軌跡,其中“熱狗”錯(cuò)誤地被識別為“菠蘿”。這一錯(cuò)誤傳播開來,影響了夾持器未來位置的預(yù)測,導(dǎo)致它無法準(zhǔn)確抓取“熱狗”。
結(jié)論
EMMA-X,一個(gè)7B參數(shù)的具身多模態(tài)動(dòng)作模型,旨在增強(qiáng)空間推理和任務(wù)規(guī)劃,以生成機(jī)器人策略。構(gòu)建了一個(gè)包含基于任務(wù)推理的層次化具身數(shù)據(jù)集,包括2D夾持器位置和3D空間運(yùn)動(dòng)。此外,提出的軌跡分段策略通過將推理與視覺圖像結(jié)合,減少了任務(wù)推理中的幻覺現(xiàn)象。實(shí)驗(yàn)結(jié)果證明了EMMA-X的有效性,在需要長時(shí)間跨度空間推理的任務(wù)中,相比現(xiàn)有基線模型表現(xiàn)出顯著的改進(jìn)。
局限性
盡管EMMA-X表現(xiàn)出有前景的性能,但與OpenVLA相比,其延遲仍然較高。這種推理時(shí)間增加主要來源于推理過程中新生成的額外tokens。具體來說,EMMA-X生成的tokens數(shù)量大約是OpenVLA的10倍。為了解決這個(gè)問題,一種潛在的策略是預(yù)測一個(gè)段落內(nèi)的所有策略,并僅在預(yù)測的策略與預(yù)期的運(yùn)動(dòng)計(jì)劃有顯著偏差時(shí)重新生成策略。
另一個(gè)局限性是EMMA-X的泛化能力。通過將訓(xùn)練過程擴(kuò)展到包含更大子集的OXE數(shù)據(jù)集,可能會(huì)增強(qiáng)模型處理更廣泛任務(wù)和機(jī)器人系統(tǒng)的能力。最后,使用SAM檢測夾持器位置可能會(huì)導(dǎo)致不準(zhǔn)確的情況。當(dāng)夾持器部分被物體遮擋或位于圖像框架外時(shí),可能會(huì)發(fā)生這些錯(cuò)誤。使用更強(qiáng)大的模型來檢測和分割機(jī)器人手部可能會(huì)解決這些挑戰(zhàn)并提高可靠性。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
