Google X開源抓取機械臂,無需人工標注就能一眼找到目標零件
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
機械臂常見,但你見過這么聰明的嗎?
從工作臺上一眼找到合適的螺母、穩(wěn)穩(wěn)拿住。
再送到目標螺桿上,整個動作一氣呵成:
即使是相似度極高的兩個部件,也能準確區(qū)分并“揪”出正確的那個:
要知道,平時我們自己做實驗、或是拼裝沒見過的機械零件時,面對各個相似的零件都可能拿錯,更何況機器人。
(想象一下拼裝樂高零件的痛苦)
但這只機械臂沒有使用過任何人工標注,就能從模擬器立刻遷移到真實世界,同時泛化到機器人沒見過的新物體上,準確率能達到87.8%。
這就是谷歌X最近開源的類別級機械臂CaTGrasp。
論文一作為華人博士Bowen Wen,現(xiàn)就讀于羅格斯大學計算機系,本科畢業(yè)于西安交通大學。
目前,這項研究已經(jīng)登上機器人領域頂會ICRA 2022。
讓機械臂自己總結(jié)抓取經(jīng)驗
這項研究的提出,主要是想要解決普通工業(yè)場景中,對不同機械零件進行分類的問題。
實際情況下,機械臂難免會遇到自己不認識的新零件,如果只依靠數(shù)據(jù)集、不會舉一反三可不太行。
為了不依賴數(shù)據(jù)集和人工標注,研究人員想到了在模擬器內(nèi)進行訓練的辦法。
通過在模擬器內(nèi)不斷訓練試錯,機械臂就能自己總結(jié)出一套經(jīng)驗,并將它歸結(jié)成熱力圖表征。
在這里,研究團隊提出了一種新的表示方法:Non-Uniform Normalized Object Coordinate Space (NUNOCS)。
統(tǒng)一的NUNOCS表征能夠讓同一類物體的信息整合到一起。
給定一個物體模型,這種方法能讓所有的點沿著每個維度都歸一化。
歸一化讓不同維度之間的特征在數(shù)值具有一定比較性,從而可以對不同物體分類。
最終NUNOCS能夠?qū)⒉煌矬w按照類別劃分,并能夠給出一個代表模板。
在這個過程中,它是把距離所有其他模型的倒角距離最小的物體,設定為模板。
(倒角距離:是一種對于圖像的距離變換,對于一個有特征點和非特征點的二值圖像,此距離變換就是求解每一個點到最近特征點的距離)
這些模板將成為之后整合熱力圖表征、存儲抓取姿態(tài)分部的密碼本。
給出點云輸入后,NUNOCS Net就能預測點云在NUNOCS空間中的位置,這一網(wǎng)絡基于pointnet設計。
(點云:逆向工程中通過測量儀器得到的產(chǎn)品外觀表面的點數(shù)據(jù)合集)
根據(jù)確定點云和預測到的點云,二者最終可以求解得到類別級的6D轉(zhuǎn)換和3D的維度變換,從而得到更為準確的密集點云對匹配。
比如下圖中,相同顏色表示相互匹配,NUNOCS方法優(yōu)于此前的NOCS方法。
在掌握了抓取秘籍后,還要保證每次抓取都能穩(wěn)定釋放“功力”。
因此,研究人員對每個抓取姿態(tài)進行50次隨機的微小擾動,并記下了成功的次數(shù),得到連續(xù)的概率分布。
然后根據(jù)上一步整理好的不同模型模板,將抓取姿態(tài)也進行分類整合。
測試時,一旦遇到了沒接觸過的情況,就可以將之前歸結(jié)好的抓取姿態(tài)分布遷移到新穎的物體空間里,從而得到更為全面的抓取姿態(tài)采樣。
抓取姿態(tài)和模擬器中得到的概率分布,可以分別作為輸入和標簽,用來訓練神經(jīng)網(wǎng)絡。
最后,通過自監(jiān)督訓練學習,在進行過足夠多的抓取姿態(tài)模擬后,機械爪和物體的接觸經(jīng)驗累計就能得到如下這樣的熱力圖。
而且過程中所有模塊都能從合成數(shù)據(jù)集上訓練,之后能直接遷移到真實世界的場景中。
從實驗結(jié)果來看,模擬情況下這一方法的平均成功率有93.1%,抓取次數(shù)大概為600次。
實際情況下的成功率為87.8%。
團隊介紹
本項研究的一作為羅格斯大學計算機專業(yè)博士生Bowen Wen,目前正在GoogleX實習。
他師從Kostas Bekris教授,研究方向包括機器人感知,計算機視覺。
此前他還在Facebook Reality、Amazon Lab 126和商湯實習過。
本科畢業(yè)于西安交通大學,碩士畢業(yè)于俄亥俄州立大學。
目前該項目的所有模擬器環(huán)境、數(shù)據(jù)集生成、訓練和實驗均已開源。
GitHub地址:
??https://github.com/wenbowen123/catgrasp
論文地址:
??https://arxiv.org/abs/2109.09163