自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如你所說的抓?。夯谡Z言指導的靈巧抓取生成 原創(chuàng) 精華

發(fā)布于 2024-7-4 07:54
瀏覽
0收藏

摘要:本文探討了一項新穎任務“如你所說的靈巧抓取”(DexGYS),使機器人能夠根據(jù)以自然語言表達的人類指令執(zhí)行靈巧抓取。然而,這一領域的發(fā)展因缺乏具有自然人類指導的數(shù)據(jù)集而受到阻礙;因此,我們提出了一個基于語言指導的靈巧抓取數(shù)據(jù)集,名為DexGYSNet,提供高質量的靈巧抓取注釋以及靈活和細致的人類語言指導。我們的數(shù)據(jù)集構建具有成本效益,采用精心設計的手-物體交互重定向策略和大語言模型輔助的語言指導注釋系統(tǒng)。借助該數(shù)據(jù)集,我們引入了DexGYSGrasp框架,用于基于人類語言指令生成靈巧抓取,具有生成意圖對齊、高質量和多樣性的抓取能力。為了實現(xiàn)這一能力,我們的框架將復雜的學習過程分解為兩個可管理的漸進目標,并引入兩個組件來實現(xiàn)它們。第一個組件學習抓取分布,側重于意圖對齊和生成多樣性。第二個組件在保持意圖一致性的同時優(yōu)化抓取質量。我們在DexGYSNet和真實環(huán)境中進行了廣泛的實驗以進行驗證。

1.引言

使機器人能夠根據(jù)人類語言指令執(zhí)行靈巧抓取在機器人和深度學習領域具有重要意義,提供了在工業(yè)生產(chǎn)和家庭協(xié)作場景中具有前景的應用。隨著數(shù)據(jù)驅動的深度學習的發(fā)展和大規(guī)模數(shù)據(jù)集的可用性,機器人靈巧抓取方法取得了令人印象深刻的性能。然而,以前的方法側重于抓取的穩(wěn)定性,尚未充分利用靈巧手進行意圖明確、類似人類的抓取。最近的研究,稱為任務導向和功能性靈巧抓取,旨在根據(jù)特定任務或物體的功能生成抓取。然而,這些方法通常依賴于預定義的、固定且有限的任務或功能,限制了它們的靈活性并阻礙了自然的人機交互。

在本文中,我們探討了一項新穎的任務“如你所說的靈巧抓取”,簡稱DexGYS,如圖1所示。我們可以看到,在該任務中提供了自然的人類指導,可以用來驅動靈巧抓取生成,從而促進更加用戶友好的人機交互。然而,這項新任務也帶來了新的挑戰(zhàn)。首先,標注靈巧姿勢及相應語言指導的高成本,構成了開發(fā)和擴展靈巧數(shù)據(jù)集的障礙。其次,生成確保意圖一致性、高質量和多樣性的靈巧抓取的需求,對模型學習提出了相當大的挑戰(zhàn)。


如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)

圖1:我們的語言指導任務與傳統(tǒng)靈巧抓取任務的對比。傳統(tǒng)方法要么僅關注抓取質量,要么專注于固定和有限的功能。我們的方法通過基于人類語言生成靈巧抓取,增強了自然的人機交互。

為了解決第一個挑戰(zhàn),我們提出了一個大規(guī)模語言指導的靈巧抓取數(shù)據(jù)集DexGYSNet。DexGYSNet通過利用人類抓取行為和大語言模型的廣泛能力,以一種具有成本效益的方式構建。具體而言,我們引入了手-物體交互重定向(HOIR)策略,將易于獲得的人類手-物體交互轉移到機器人靈巧手,以保持接觸一致性和高質量的抓取姿勢。隨后,我們開發(fā)了LLM輔助的語言指導注釋系統(tǒng),在LLM的支持下,為靈巧抓取數(shù)據(jù)生成靈活和細致的語言指導。DexGYS數(shù)據(jù)集包含了50,000對高質量的靈巧抓取及其對應的語言指導,涵蓋了1,800種常見家庭物品。

在數(shù)據(jù)集的支持下,我們開始克服第二個挑戰(zhàn)。我們提出了用于靈巧抓取生成的DexGYSGrasp框架,該框架對齊意圖,確保高質量,并保持多樣性。起初,我們驚訝地發(fā)現(xiàn)同時掌握所有目標的難度源于常用的穿透損失,該損失用于避免手-物體穿透。正如圖2所示,穿透損失大大阻礙了抓取分布的學習,導致意圖不一致和多樣性降低。相反,盡管具有高多樣性和對齊的意圖,移除穿透損失導致了不可接受的物體穿透,使抓取不可行?;谶@一發(fā)現(xiàn),我們以漸進策略設計了DexGYSGrasp框架,將復雜的學習任務分解為兩個由漸進組件管理的順序目標。最初,第一個組件學習抓取分布,專注于意圖一致性和多樣性,有效地在沒有穿透損失約束的情況下進行優(yōu)化。隨后,第二個組件對初步粗略的抓取進行優(yōu)化,使其在保持相同意圖和多樣性的同時達到高質量。我們的框架允許每個組件專注于特定且可管理的優(yōu)化目標,顯著提升了生成抓取的整體性能。

如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)


圖2:穿透損失(圖中為Pen.)對抓取性能影響的可視化:意圖對齊、質量和多樣性。(a) 說明了穿透損失導致意圖不一致,而沒有穿透損失會導致嚴重的物體穿透。(b) 展示了在相同條件下的三個采樣結果,表明穿透損失導致多樣性降低。

我們在DexGYSNet數(shù)據(jù)集和現(xiàn)實世界場景中進行了廣泛的實驗。結果表明,我們的方法能夠為各種物體生成意圖一致、高多樣性和高質量的抓取姿勢。

2.相關工作

2.1 靈巧抓取生成

靈巧手賦予機器人以類似人類的方式操控物體的能力。先前的方法通過分析方法和深度學習方法在確保抓取穩(wěn)定性方面取得了令人印象深刻的結果。然而,這些方法尚未完全開發(fā)出靈巧手在意圖明確和類似人類抓取方面的全部潛力。最近,一些工作專注于功能性靈巧抓取,旨在實現(xiàn)超越抓取穩(wěn)定性的類似人類能力,但仍然缺乏靈活性和泛化能力。在這項工作中,我們探討了“如你所說的靈巧抓取”這一新穎任務,充分利用機器人手的靈巧性,使機器人能夠根據(jù)人類自然語言執(zhí)行靈巧抓取。

2.2 抓取數(shù)據(jù)集

大規(guī)模數(shù)據(jù)集的發(fā)展顯著促進了數(shù)據(jù)驅動抓取方法的進步,包括平行抓取、人類抓取和靈巧抓取方法。盡管取得了這些進展,數(shù)據(jù)收集的高成本仍然是一個重大挑戰(zhàn),特別是在靈巧手領域。先前的靈巧抓取數(shù)據(jù)集主要依賴于物理分析方法來緩解這一問題。然而,這些方法通常缺乏構建我們的語言指導靈巧任務所需的特定語義上下文或相應的語言指導。在本文中,我們提出了DexGYSNet數(shù)據(jù)集,以具有成本效益的方式構建,提供高質量的靈巧抓取注釋以及靈活和細致的人類語言指導。

2.3 語言指導的機器人抓取

語言指導的機器人抓取在機器人領域中非常重要。先前專注于平行夾持器的工作在實現(xiàn)任務導向抓取、語言指導抓取和語言指導的操作方面取得了進展。與平行夾持器相比,靈巧手具有更高的自由度(例如,Shadow Hand有28個自由度),從而提供了更廣泛的靈巧性。然而,這種高自由度也給模型學習帶來了挑戰(zhàn)。在本文中,我們提出了DexGYSGrasp框架,能夠生成意圖對齊、高質量和多樣性的靈巧抓取。

3.DexGYSNet 數(shù)據(jù)集

3.1 數(shù)據(jù)集概述

DexGYSNet 數(shù)據(jù)集采用了一種具有成本效益的策略構建,如圖3所示。我們首先從現(xiàn)有數(shù)據(jù)集中收集對象網(wǎng)格和人類抓取數(shù)據(jù)。隨后,我們開發(fā)了手-物體交互重定向(HOIR)策略,將人類抓取轉換為具有高質量和手-物體交互一致性的靈巧抓取。最后,我們實施了一個LLM輔助的語言指導注釋系統(tǒng),利用大語言模型(LLM)的知識,為語言指導生成靈活和細致的注釋。


如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)

圖3:DexGYSNet 數(shù)據(jù)集的構建過程。(a) HOIR 策略通過三步將人類手重定向到靈巧手,保持手-物體交互的一致性并避免物理不可行性(黑色圓圈中所示)。(b) 注釋系統(tǒng)在 LLM 的幫助下自動為手-物體對注釋語言指導。

3.2 手-物體交互重定向

我們的手-物體交互重定向(HOIR)旨在將人類手-物體交互轉移到靈巧手-物體交互,如圖3所示。源MANO手參數(shù)表示為 Gm∈R61。目標靈巧手參數(shù)表示為 Gdex = (r, t, q),其中 r ∈SO(3) 表示全局旋轉,t∈R3 是世界坐標中的平移,q∈RJ 是具有 J 自由度的靈巧手的關節(jié)角,例如,Shadow Hand 的 J = 22。HOIR 包含三個步驟:姿勢初始化、指尖對齊和交互優(yōu)化。

在第一步中,通過從相似的人類姿勢復制參數(shù)來初始化靈巧手姿勢,以建立更好的初始值。在第二步中,在參數(shù)空間中優(yōu)化靈巧手姿勢,使指尖位置 pdex,ftk 與人類的 pmano,ftk對齊。這個過程實現(xiàn)了重定向的一致性,優(yōu)化目標可以表示為:

如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)


為了在保持一致性的同時提高物理交互的可行性,在第三步中,通過手-物體交互和物理約束損失進一步優(yōu)化靈巧手姿勢。設計了兩個關鍵點以保持一致性:保持優(yōu)化后姿勢的接觸區(qū)域與第二步輸出一致,并在此階段保持平移固定。優(yōu)化目標可以表示為:


如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)

其中,物體穿透損失 Lpen 用于懲罰手-物體穿透深度。自我穿透損失 Lspen 用于懲罰自我穿透。關節(jié)角損失 Ljoint 用于懲罰超出限制的關節(jié)角度。接觸圖損失 Lcmap確保物體上的接觸圖與第二階段的輸出一致。

3.3 LLM輔助的語言指導注釋

為了以低成本為靈巧手-物體對注釋靈活和細致的語言指導,我們設計了一個由LLM輔助的粗到細自動化語言指導注釋系統(tǒng),如圖3所示,靈感來自于 [40, 28]。具體來說,我們最初基于對象類別和簡要的人類意圖(例如“使用乳液泵”)生成簡短的指導,這些意圖由人類數(shù)據(jù)集 [26] 收集。隨后,我們通過計算手上接觸錨點到物體不同部分的距離來編寫每個手指的接觸信息。然后,我們將接觸信息組織成語言描述符(例如“食指觸碰泵頭,其他手指觸碰瓶身”)。最后,我們將簡要指導和詳細的接觸信息輸入到 GPT-3.5 中,生成自然的注釋指導(例如“要使用乳液泵,請用食指按下泵頭,同時用其他手指握住瓶子”)。

4.DexGYSGrasp 框架

給定完整的對象點云 O 和語言指導 L 作為輸入,我們的目標是生成與意圖對齊、高多樣性和高質量的靈巧抓取 Gdex。

4.1 漸進抓取目標

DexGYS 中的學習挑戰(zhàn)。DexGYS 對意圖對齊(例如,準確地用食指按壓扳機來使用噴霧器)、高多樣性(例如,用不同的姿勢握住瓶子)和高質量(例如,確保抓取穩(wěn)定且避免物體穿透)提出了高要求。然而,我們發(fā)現(xiàn)單一模型難以同時滿足這些要求,因為常用的物體穿透損失帶來的優(yōu)化挑戰(zhàn),如圖2和圖4所示,增加穿透損失的權重會減少物體穿透,但會對意圖對齊和生成多樣性產(chǎn)生不利影響。


如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)

圖4:不同物體穿透損失權重 λpen 的定量實驗結果。意圖通過預測與目標之間的 Chamfer 距離(CD)量化。多樣性通過手部平移的標準差δt 評估。物體穿透通過從對象點云到手網(wǎng)格的穿透深度(Pen.)進行評估。我們的方法在意圖一致性、多樣性和避免穿透方面獨特地實現(xiàn)了高性能。

漸進抓取目標。為了解決這些挑戰(zhàn),我們提出將復雜的學習目標分解為兩個更易管理的目標。第一個目標是生成的:它專注于學習抓取分布,不優(yōu)先考慮質量,而是專注于學習具有意圖對齊和生成多樣性的抓取分布。第二個目標是回歸的:它旨在將粗略的抓取優(yōu)化為具有相同意圖的高質量抓取。通過分解復雜的目標,我們降低了生成目標的學習難度,因為它不專注于質量,避免使用可能干擾學習過程的穿透損失。此外,回歸學習比分布學習復雜度低,因為它僅需要在小空間內(nèi)調(diào)整姿勢到特定目標。因此,我們可以使用穿透損失來確保優(yōu)化后的靈巧手避免穿透物體并具有高質量。

4.2 漸進抓取組件

受益于第4.1節(jié)中的漸進抓取目標,我們設計了以下兩個簡單的漸進抓取組件,可以實現(xiàn)意圖對齊、高多樣性和高質量的語言指導靈巧生成。


如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)

圖5:我們框架的概述。(a) 在只有回歸損失的情況下,意圖和多樣性抓取組件根據(jù)語言和對象條件,從噪聲姿勢中重建原始手姿勢進行訓練。(b) 在回歸損失和穿透損失的情況下,質量抓取組件通過訓練優(yōu)化粗略姿勢,提高抓取質量,同時保持意圖一致性。

意圖和多樣性抓取組件。我們引入意圖和多樣性抓取組件,以高效地學習抓取分布,實現(xiàn)意圖對齊和多樣性生成。由于分布建模的目標,IDGC 構建在條件擴散模型之上,以預測從噪聲化的 GTdex 到靈巧姿勢 G0dex。輸入的對象點云 O由 Pointnet++ 編碼,語言 L 由預訓練的 CLIP 模型作為條件進行編碼。我們采用 DDPM 作為采樣過程,公式如下:


如你所說的抓取:基于語言指導的靈巧抓取生成 -AI.x社區(qū)

質量抓取組件。第一個組件生成的抓取具有良好的意圖對齊和高多樣性,但由于顯著的物體穿透而質量較差。因此,我們引入質量抓取組件以回歸方式優(yōu)化抓取質量,同時保持意圖一致性。特別地,它以粗略姿勢 G^dex、粗略手點云 H(G^dex) 和對象點云 O 作為輸入,并輸出姿勢△Gdex。優(yōu)化后的抓取為 G~dex= G^dex +△Gdex。訓練對通過收集第一個組件生成的粗略抓取及其具有相似意圖的最相似的真實抓取構建。這確保了訓練目標與語言意圖對齊,從而保證優(yōu)化后的抓取與預期操作保持一致。特別地,QGC 以粗略姿勢 G^dex、粗略手點云 H(G^dex) 和對象點云 O 作為輸入,并輸出姿勢 △Gdex。優(yōu)化后的抓取為 G~dex= G^dex +△Gdex。

4.3 漸進抓取損失

意圖和多樣性抓取損失。我們策略性地使用回歸損失并排除物體穿透損失,以提高意圖和多樣性抓取組件的訓練效果。通過專注于回歸學習,該組件促進了更有效的優(yōu)化過程,實現(xiàn)意圖一致性和抓取多樣性的提升。具體而言,我們利用 L2 損失進行姿勢參數(shù)回歸,并結合手型 Chamfer 損失以顯式輔助手型。意圖和多樣性抓取組件的損失函數(shù)定義為:

如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)

其中,H 是相應姿勢的靈巧手點云。

質量抓取損失。受益于簡化的訓練目標,質量抓取組件專注于在相對有限的空間內(nèi)將粗略抓取優(yōu)化為特定目標,從而減少物體穿透的負面影響。因此,我們采用包括物體穿透在內(nèi)的精心設計的損失函數(shù)。質量抓取組件的損失函數(shù)可以表示為: 

如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)

5.實驗

5.1 數(shù)據(jù)集和評估指標

我們在對象實例級別上劃分了 DexDYSNet 數(shù)據(jù)集;在每個類別中,80% 的對象用于訓練,20% 用于評估。從意圖一致性、抓取質量和抓取多樣性的角度,采用三種類型的指標進行評估。1)對于意圖一致性,使用 Chamfer 距離(CD)來衡量預測的手點云與目標之間的距離。此外,我們使用接觸距離(Con.)來衡量預測與目標之間的對象接觸圖的 L2 距離。2)對于抓取質量,Q1 衡量抓取的穩(wěn)定性,并按照 1 cm 的接觸閾值和 5 mm 的穿透閾值。最大穿透深度(Pen.)反映了從對象點云到手網(wǎng)格的最大穿透深度。3)對于多樣性,我們采用在相同條件下八個樣本的平移δt、旋轉 δr 和關節(jié)角δq 的標準差。

5.2 實現(xiàn)細節(jié)

對于 DexDYSNet 的構建,步驟 2 和 3 分別優(yōu)化了 20 和 300 次迭代,學習率分別為 0.01 和 0.0001。我們將 λ1pen=100,將 λ1pen、λ1joint、λ1cmap分別設置為 10。對于訓練我們的框架,意圖和多樣性抓取組件的訓練周期設為 100,質量抓取組件設為 20。損失權重配置如下:

如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)

在所有訓練過程中,使用 Adam 優(yōu)化器進行優(yōu)化,批量大小為 64,權重衰減率為 5.0 ×10-6。初始學習率為 2.0×10-4,并使用余弦學習率調(diào)度器衰減到 2.0×10-5。所有實驗都在單個 RTX 4090 GPU 上使用 PyTorch 實現(xiàn)。

5.3 與 SOTA 方法的比較

比較結果如表 1 所示。我們重現(xiàn)了 SOTA 方法以適應我們的任務,將語言條件與點云特征連接起來。正如表中所見,我們的 DexGYSGrasp 框架在意圖一致性和抓取多樣性方面顯著優(yōu)于所有先前的方法,同時在抓取質量上也取得了可比的性能。由于第 4.1 節(jié)中概述的優(yōu)化挑戰(zhàn),先前的方法在學習強健的語言條件抓取分布方面存在困難。它們通常會產(chǎn)生未對齊但高質量的抓取,導致抓取質量相當,但意圖不一致和多樣性有限,而我們的框架在意圖對齊、高質量和多樣性方面達到了 SOTA 性能。圖 6 中,我們可視化了生成的抓取,以定性展示我們框架的抓取生成能力。底部圖展示了四個樣本的結果,左下角強調(diào)了我們框架在確定性指導下生成精確和一致抓取的能力(例如,使用扳機噴霧器的方式是確定性的)。右下角展示了在提供模糊指導時(例如,握住瓶子的方式是多樣的)生成抓取的多樣性。


如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)

如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)


5.4 漸進組件和損失的必要性

表 2 中的結果驗證了我們框架的核心觀點:將復雜任務分解為漸進目標,采用漸進組件,并使用漸進損失進行學習。結果的前四行表明,單一組件在沒有漸進目標的情況下,無法平衡所有目標。此外,單一組件,即使有漸進目標,在幾個訓練周期后將 λ2pen 從 0 調(diào)整到 100,也不會提升性能。當使用沒有相應漸進損失的漸進組件時(IDGC(λ2pen= 100) + QGC),結果也類似。此外,常用的質量優(yōu)化策略測試時適應(TTA),雖然提高了抓取質量,但導致意圖一致性極差??傮w而言,只有我們 DexGYSGrasp 框架的漸進設計才能確保意圖對齊、高質量和多樣性的卓越表現(xiàn)。


如你所說的抓?。夯谡Z言指導的靈巧抓取生成 -AI.x社區(qū)

如你所說的抓取:基于語言指導的靈巧抓取生成 -AI.x社區(qū)


5.5 即插即用實驗

我們進行了實驗,以評估我們的見解對其他 SOTA 方法的適用性。具體來說,我們在沒有物體穿透損失的情況下訓練了 GraspCAVE 和 SceneDiffuser。結果表明,移除物體穿透損失可以提高意圖一致性,這與第 4.1 節(jié)討論的發(fā)現(xiàn)一致。此外,我們的質量抓取組件可以顯著提高抓取質量,同時保持意圖一致性。

5.6 手-物體交互重定向的有效性

我們進行了消融研究,以評估我們在構建 DexDYSNet 數(shù)據(jù)集時的手-物體交互重定向(HOIR)策略。如表 3 所示,我們的三步 HOIR 顯著提高了質量和意圖一致性。我們觀察到,將所有損失在一個步驟中優(yōu)化(所有在一個階段),會導致接觸一致性變差,而抓取質量變好。當在第三步中不固定根平移(不固定平移)時,結果也類似。我們認為這種權衡是由于手-物體交互數(shù)據(jù)中的固有噪聲和人類抓取與靈巧手之間的結構差異,使得在所有方面表現(xiàn)出色具有挑戰(zhàn)性??傮w而言,我們認為三步 HOIR 策略在手物接觸一致性這個最重要方面達到了更全面的結果。


如你所說的抓取:基于語言指導的靈巧抓取生成 -AI.x社區(qū)

5.7 現(xiàn)實世界中的實驗

我們進行了現(xiàn)實世界的抓取實驗,以驗證我們方法的實際應用,如圖 7 所示。實驗在 Allegro 手、Flexiv Rizon 4 手臂和 Intel Realsense D415 相機上進行。盡管我們的框架是為完整的對象點云設計的,我們集成了幾種現(xiàn)成的方法以增強其實用性。具體來說,通過視覺定位和 SAM 獲得部分對象點云,然后輸入到點云補全網(wǎng)絡以獲得完整的點云。在執(zhí)行中,我們首先將手臂移動到靈巧手根節(jié)點的 6-DOF 姿勢,然后將靈巧手關節(jié)角度控制到預測的姿勢?,F(xiàn)實世界的實驗進一步驗證了我們方法的有效性。

6.結論

我們認為,使機器人能夠執(zhí)行與人類語言對齊的高質量靈巧抓取在深度學習和機器人領域至關重要。在本文中,我們探討了這一新穎任務,稱為“如你所說的靈巧抓取”。這一任務并不簡單,我們提出了 DexGYSNet 數(shù)據(jù)集和 DexGYSGrasp 框架來完成它。DexGYSNet 數(shù)據(jù)集通過對象-手交互重定向策略和 LLM 輔助的語言指導注釋系統(tǒng),以具有成本效益的方式構建。在 DexGYSNet 的基礎上,DexGYSGrasp 框架由兩個漸進組件組成,可以實現(xiàn)意圖對齊、高多樣性和高質量的靈巧抓取生成。DexDYSNet 和現(xiàn)實世界設置中的廣泛實驗表明,我們的框架顯著優(yōu)于所有 SOTA 方法,證實了我們方法的潛力和有效性。

Wei Y L, Jiang J J, Xing C, et al. Grasp as You Say: Language-guided Dexterous Grasp Generation[J]. arXiv preprint arXiv:2405.19291, 2024.

1 Sun Yat-sen University

2 Stanford University

3 Wuhan University


本文轉載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/vxOl-P1Xxn8-9g_FkC1hDg??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦