自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

北大全新「機械手」算法：輔助花式抓杯子，GTX 1650實現(xiàn)150fps推斷

作者：新智元 2023-11-15 14:55:00

人工智能新聞

新方法結(jié)合擴散模型和強化學(xué)習(xí)，將抓取問題分解為「如何抓」以及「何時抓」，平價顯卡即可實現(xiàn)實時交互。

手是人類與世界交互的重要部分，手的缺失（如上肢殘障）會大大影響人類的正常生活。

北京大學(xué)董豪團(tuán)隊通過將擴散模型和強化學(xué)習(xí)結(jié)合，使機械手能根據(jù)人手腕部的移動軌跡，自適應(yīng)的抓取物體的不同部位，滿足人類多樣化的抓取需求，目前該工作已被NeurIPS 2023接收。

論文地址：https://arxiv.org/abs/2309.06038

項目主頁：https://sites.google.com/view/graspgf

有了這個機械手，只要動動手腕，機械手就能按照人類想要的方式抓起物體，比如抓取杯身和杯壁。

由于人類行為的復(fù)雜與多變性和真實世界物體的多樣性，僅僅根據(jù)人手腕部的移動軌跡來不斷預(yù)測人類想法是一件非常困難的事情。

新方法真正實現(xiàn)了靈巧的抓取，能在真實世界中對于不同的物體，不同的抓取姿態(tài)，不同的抓取軌跡進(jìn)行泛化。

機械手如何明白人類的想法？

北大董豪團(tuán)隊提出將人類的想法分解成兩個部分：

1. 如何抓: 考慮到人類和物體當(dāng)前的相對姿勢，機械手應(yīng)該如何抓取物體？

2. 何時抓: 機械手應(yīng)該根據(jù)用戶歷史運動軌在何時、以什么速度執(zhí)行抓取動作？

如何抓？

首先，如上圖所示，新方法將學(xué)習(xí)人類想要「如何抓取物體」，定義為從一個包含各種抓取姿態(tài)的數(shù)據(jù)集中，學(xué)習(xí)抓取梯度場Grasping Gradient Field（GraspGF）。

基于當(dāng)前人手腕部和物體的相對關(guān)系，GraspGF會輸出一個梯度，這個梯度代表最快提高「抓取可能性」的方向。這個梯度可以轉(zhuǎn)化為對每個手指關(guān)節(jié)的原始控制，使手指能夠通過不斷迭代達(dá)到適當(dāng)?shù)淖ト∽藨B(tài)。

這樣的梯度場可以隨著人手腕部和物體的關(guān)系的變化，而不斷的輸出新的梯度指示當(dāng)前人類的抓取意圖，即意向抓取的物體區(qū)域及抓取姿態(tài)。

GraspGF隨著手腕的旋轉(zhuǎn)，不斷調(diào)整抓取姿態(tài)

何時抓？

GraspGF的動作會導(dǎo)致提前合攏

然而，只知道「如何抓」并不夠完備，如果不知道要「何時抓」（如上圖所示），雖然最終的抓取姿態(tài)是合理的，但是在達(dá)到抓取姿態(tài)的過程中會和物體發(fā)生碰撞。

如上所示，為了解決「何時抓取」的問題，新方法還訓(xùn)練了一個基于強化學(xué)習(xí)的殘差策略，它首先會輸出一個「縮放動作」，根據(jù)手腕軌跡的歷史，決定手指關(guān)節(jié)應(yīng)該以多快的速度沿著原始動作的方向移動。

此外，因為原始策略是基于最終抓取姿態(tài)數(shù)據(jù)集離線訓(xùn)練得到的，原始策略并不了解環(huán)境的物理約束，殘差策略還會輸出一個「殘差動作」來進(jìn)一步校正原始動作。

通過結(jié)合殘差策略，模型能夠通過殘差策略學(xué)習(xí)到的「何時抓」更好地實現(xiàn)原始策略學(xué)習(xí)到的「如何抓」。

簡單的獎勵函數(shù)

該方法在獎勵函數(shù)的設(shè)置上不需要過多的human design，因為原始動作已經(jīng)提供了一個比較好的「如何抓」的引導(dǎo)，在訓(xùn)練強化學(xué)習(xí)模型時，除了給定成功抓取和抓取后的高度變化獎勵，僅僅只需要一個獎勵函數(shù)去鼓勵機械手跟隨原始動作即可。

該方法的優(yōu)勢

該方法僅需要成功抓取的抓取姿態(tài)數(shù)據(jù)集用于訓(xùn)練，與需要專家演示的方法相比，不需要大量的人工標(biāo)注或者工程工作。
GraspGF借助了擴散模型強大的條件生成建模能力，這使它能夠根據(jù)新穎的用戶意圖輸出有效的原始動作。
殘差學(xué)習(xí)的設(shè)計改善了強化學(xué)習(xí)探索效率低下的問題，提升了強化學(xué)習(xí)模型在未見過物體和軌跡上的泛化能力。

結(jié)果

最終在4900多個物體，200條不同的人類移動軌跡上，新方法都優(yōu)于基準(zhǔn)。

該方法的最終的抓取姿態(tài)相比于基線更符合人類的抓取意圖。

此外，該方法在抓取過程中對物體造成的擾動要小于其他基準(zhǔn)。

經(jīng)過測試，該模型在GTX1650的顯卡上，能達(dá)到150fps的推斷速度，能做到與人類的實時交互，也許未來能真正用于輔助手部缺失的人更好地進(jìn)行日常生活。

本次研究的通訊作者董豪是北京大學(xué)的助理教授、博導(dǎo)、博雅青年學(xué)者、智源學(xué)者，其創(chuàng)立并領(lǐng)導(dǎo)北大超平面實驗室（Hyperplane Lab）。

董老師在NeurIPS、ICLR、CVPR、ICCV、ECCV、ICRA、IROS等國際頂尖會議/期刊上發(fā)表論文40余篇，Google Scholar引用4700余次，多次擔(dān)任國際頂尖會議如NeurIPS、CVPR、AAAI、ICRA的領(lǐng)域主席和副編委。

其領(lǐng)導(dǎo)了多個開源項目，例如TensorLayer和OpenMLsys，出版書籍獲得15萬次下載，開源軟件獲得上萬Github Star，獲ACM Multimedia 最佳開源軟件獎、OpenI杰出項目獎。

論文一作吳天昊，現(xiàn)為北京大學(xué)博士生，導(dǎo)師為董豪老師，研究方向為靈巧手操縱算法。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營