李飛飛團(tuán)隊(duì)新作:腦控機(jī)器人做家務(wù),讓腦機(jī)接口具備少樣本學(xué)習(xí)能力
未來(lái)也許只需動(dòng)動(dòng)念頭,就能讓機(jī)器人幫你做好家務(wù)。斯坦福大學(xué)的吳佳俊和李飛飛團(tuán)隊(duì)近日提出的 NOIR 系統(tǒng)能讓用戶通過(guò)非侵入式腦電圖裝置控制機(jī)器人完成日常任務(wù)。
NOIR 能將你的腦電圖信號(hào)解碼為機(jī)器人技能庫(kù)。它現(xiàn)在已能完成例如烹飪壽喜燒、熨衣服、磨奶酪、玩井字游戲,甚至撫摸機(jī)器狗等任務(wù)。這個(gè)模塊化的系統(tǒng)具備強(qiáng)大的學(xué)習(xí)能力,可以應(yīng)對(duì)日常生活中復(fù)雜多變的任務(wù)。
大腦與機(jī)器人接口(BRI)堪稱是人類藝術(shù)、科學(xué)和工程的集大成之作。我們已經(jīng)在不勝枚舉的科幻作品和創(chuàng)意藝術(shù)中見到它,但真正實(shí)現(xiàn) BRI 卻非易事,需要突破性的科學(xué)研究,創(chuàng)造出能與人類完美協(xié)同運(yùn)作的機(jī)器人系統(tǒng)。
對(duì)于這樣的系統(tǒng),一大關(guān)鍵組件是機(jī)器與人類通信的能力。在人機(jī)協(xié)作和機(jī)器人學(xué)習(xí)過(guò)程中,人類傳達(dá)意圖的方式包括動(dòng)作、按按鈕、注視、面部表情、語(yǔ)言等等。而通過(guò)神經(jīng)信號(hào)直接與機(jī)器人通信則是最激動(dòng)人心卻也最具挑戰(zhàn)性的前景。
近日,斯坦福大學(xué)吳佳俊和李飛飛領(lǐng)導(dǎo)的一個(gè)多學(xué)科聯(lián)合團(tuán)隊(duì)提出了一種通用型的智能 BRI 系統(tǒng) NOIR(Neural Signal Operated Intelligent Robots / 神經(jīng)信號(hào)操控的智能機(jī)器人)。
論文地址:https://openreview.net/pdf?id=eyykI3UIHa
項(xiàng)目網(wǎng)站:https://noir-corl.github.io/
該系統(tǒng)基于非侵入式的腦電圖(EEG)技術(shù)。據(jù)介紹,該系統(tǒng)依據(jù)的主要原理是分層式共享自治(hierarchical shared autonomy),即人類定義高層級(jí)目標(biāo),而機(jī)器人通過(guò)執(zhí)行低層級(jí)運(yùn)動(dòng)指令來(lái)實(shí)現(xiàn)目標(biāo)。該系統(tǒng)納入了神經(jīng)科學(xué)、機(jī)器人學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的新進(jìn)展,取得了優(yōu)于之前方法的進(jìn)步。該團(tuán)隊(duì)總結(jié)了所做出的貢獻(xiàn)。
首先,NOIR 是通用型的,可用于多樣化的任務(wù),也易于不同社區(qū)使用。研究表明,NOIR 可以完成多達(dá) 20 種日?;顒?dòng);相較之下,之前的 BRI 系統(tǒng)通常是針對(duì)一項(xiàng)或少數(shù)幾項(xiàng)任務(wù)設(shè)計(jì)的,或者就僅僅是模擬系統(tǒng)。此外,只需少量培訓(xùn),普通人群也能使用 NOIR 系統(tǒng)。
其次,NOIR 中的 I 表示這個(gè)機(jī)器人系統(tǒng)是智能的(intelligent),具備自適應(yīng)能力。該機(jī)器人配備了一個(gè)多樣化的技能庫(kù),讓其無(wú)需密集的人類監(jiān)督也能執(zhí)行低層級(jí)動(dòng)作。使用參數(shù)化的技能原語(yǔ),比如 Pick (obj-A) 或 MoveTo (x,y),機(jī)器人可以很自然地取得、解讀和執(zhí)行人類的行為目標(biāo)。
此外,NOIR 系統(tǒng)還有能力在協(xié)作過(guò)程中學(xué)習(xí)人類想達(dá)成的目標(biāo)。研究表明,通過(guò)利用基礎(chǔ)模型的最新進(jìn)展,該系統(tǒng)甚至能適應(yīng)很有限的數(shù)據(jù)。這能顯著提升系統(tǒng)的效率。
NOIR 的關(guān)鍵技術(shù)貢獻(xiàn)包括一個(gè)模塊化的解碼神經(jīng)信號(hào)以獲知人類意圖的工作流程。要知道,從神經(jīng)信號(hào)解碼出人類意圖目標(biāo)是極具挑戰(zhàn)性的。為此,該團(tuán)隊(duì)的做法是將人類意圖分解為三大組分:要操控的物體(What)、與該物體交互的方式(How)、交互的位置(Where)。他們的研究表明可以從不同類型的神經(jīng)數(shù)據(jù)中解碼出這些信號(hào)。這些分解后的信號(hào)可以自然地對(duì)應(yīng)于參數(shù)化的機(jī)器人技能,并且可以有效地傳達(dá)給機(jī)器人。
在 20 項(xiàng)涉及桌面或移動(dòng)操作的家庭活動(dòng)(包括制作壽喜燒、熨燙衣物、玩井字棋、摸機(jī)器狗狗等)中,三名人類受試者成功地使用了 NOIR 系統(tǒng),即通過(guò)他們的大腦信號(hào)完成了這些任務(wù)!
實(shí)驗(yàn)表明,通過(guò)以人類為師進(jìn)行少樣本機(jī)器人學(xué)習(xí),可以顯著提升 NOIR 系統(tǒng)的效率。這種使用人腦信號(hào)協(xié)作來(lái)構(gòu)建智能機(jī)器人系統(tǒng)的方法潛力巨大,可用于為人們(尤其是殘障人士)開發(fā)至關(guān)重要的輔助技術(shù),提升他們的生活品質(zhì)。
NOIR 系統(tǒng)
這項(xiàng)研究力圖解決的挑戰(zhàn)包括:1. 如何構(gòu)建適用于各種任務(wù)的通用 BRI 系統(tǒng)?2. 如何解碼來(lái)自人腦的相關(guān)通信信號(hào)?3. 如何提升機(jī)器人的智能和適應(yīng)能力,從而實(shí)現(xiàn)更高效的協(xié)作?圖 2 給出了該系統(tǒng)的概況。
在這個(gè)系統(tǒng)中,人類作為規(guī)劃智能體,做的是感知、規(guī)劃以及向機(jī)器人傳達(dá)行為目標(biāo);而機(jī)器人則要使用預(yù)定義的原語(yǔ)技能實(shí)現(xiàn)這些目標(biāo)。
為了實(shí)現(xiàn)打造通用 BRI 系統(tǒng)的總體目標(biāo),需要將這兩種設(shè)計(jì)協(xié)同集成到一起。為此,該團(tuán)隊(duì)提出了一種全新的大腦信號(hào)解碼工作流程,并為機(jī)器人配備了一套參數(shù)化的原始技能庫(kù)。最后,該團(tuán)隊(duì)使用少樣本模仿學(xué)習(xí)技術(shù)讓機(jī)器人具備了更高效的學(xué)習(xí)能力。
大腦:模塊化的解碼工作流程
如圖 3 所示,人類意圖會(huì)被分解成三個(gè)組分:要操控的物體(What)、與該物體交互的方式(How)、交互的位置(Where)。
要從腦電圖信號(hào)解碼出具體的用戶意圖,難度可不小,但可以通過(guò)穩(wěn)態(tài)視覺(jué)誘發(fā)電位(SSVEP)和運(yùn)動(dòng)意象(motor imagery)來(lái)完成。簡(jiǎn)單來(lái)說(shuō),這個(gè)過(guò)程包括:
- 選取具有穩(wěn)態(tài)視覺(jué)誘發(fā)電位(SSVEP)的物體
- 通過(guò)運(yùn)動(dòng)意象(MI)選擇技能和參數(shù)
- 通過(guò)肌肉收緊來(lái)選擇確認(rèn)或中斷
機(jī)器人:參數(shù)化的原語(yǔ)技能
參數(shù)化的原語(yǔ)技能可以針對(duì)不同的任務(wù)進(jìn)行組合和復(fù)用,從而實(shí)現(xiàn)復(fù)雜多樣的操作。此外,對(duì)人類而言,這些技能非常直觀。人類和智能體都無(wú)需了解這些技能的控制機(jī)制,因此人們可以通過(guò)任何方法實(shí)現(xiàn)這些技能,只要它們是穩(wěn)健的且能適應(yīng)多樣化的任務(wù)。
該團(tuán)隊(duì)在實(shí)驗(yàn)中使用了兩臺(tái)機(jī)器人:一臺(tái)是用于桌面操作任務(wù)的 Franka Emika Panda 機(jī)械臂,另一臺(tái)是用于移動(dòng)操作任務(wù)的 PAL Tiago 機(jī)器人。下表給出了這兩臺(tái)機(jī)器人的原語(yǔ)技能。
使用機(jī)器人學(xué)習(xí)實(shí)現(xiàn)高效的 BRI
上述的模塊化解碼工作流程和原語(yǔ)技能庫(kù)為 NOIR 奠定了基礎(chǔ)。但是,這種系統(tǒng)的效率還能進(jìn)一步提升。機(jī)器人應(yīng)當(dāng)能在協(xié)作過(guò)程中學(xué)習(xí)用戶的物品、技能和參數(shù)選擇偏好,從而在未來(lái)能預(yù)測(cè)用戶希望達(dá)成的目標(biāo),實(shí)現(xiàn)更好的自動(dòng)化,也讓解碼更簡(jiǎn)單容易。由于每一次執(zhí)行時(shí),物品的位置、姿態(tài)、排列和實(shí)例可能會(huì)有所不同,因此就需要學(xué)習(xí)和泛化能力。另外,學(xué)習(xí)算法應(yīng)當(dāng)具有較高的樣本效率,因?yàn)槭占祟悢?shù)據(jù)的成本很高。
該團(tuán)隊(duì)為此采用了兩種方法:基于檢索的少樣本物品和技能選取、單樣本技能參數(shù)學(xué)習(xí)。
基于檢索的少樣本物品和技能選取。該方法可以學(xué)習(xí)所觀察狀態(tài)的隱含表征。給定一個(gè)觀察到的新狀態(tài),它會(huì)在隱藏空間中找到最相似的狀態(tài)以及對(duì)應(yīng)的動(dòng)作。圖 4 給出了該方法的概況。
在任務(wù)執(zhí)行期間,由圖像和人類選擇的「物品 - 技能」對(duì)構(gòu)成的數(shù)據(jù)點(diǎn)會(huì)被記錄下來(lái)。這些圖像首先會(huì)被一個(gè)預(yù)訓(xùn)練的 R3M 模型編碼,以提取出對(duì)機(jī)器人操控任務(wù)有用的特征,然后再讓它們通過(guò)一些可訓(xùn)練的全連接層。這些層的訓(xùn)練使用了帶三元組損失的對(duì)比學(xué)習(xí),這會(huì)鼓勵(lì)帶有同樣「物品 - 技能」標(biāo)簽的圖像在隱藏空間中處于更相近的位置。所學(xué)習(xí)到的圖像嵌入和「物品 - 技能」標(biāo)簽會(huì)被存儲(chǔ)到內(nèi)存中。
在測(cè)試期間,模型會(huì)檢索隱藏空間中最近的數(shù)據(jù)點(diǎn),然后將與該數(shù)據(jù)點(diǎn)關(guān)聯(lián)的「物品 - 技能」對(duì)建議給人類。
單樣本技能參數(shù)學(xué)習(xí)。參數(shù)選取需要人類大量參與,因?yàn)檫@個(gè)過(guò)程需要通過(guò)運(yùn)動(dòng)意象(MI)進(jìn)行精準(zhǔn)的光標(biāo)操作。為了減少人類的工作量,該團(tuán)隊(duì)提出了一種學(xué)習(xí)算法,可以根據(jù)給定的用作光標(biāo)控制起始點(diǎn)的「物品 - 技能」對(duì)來(lái)預(yù)測(cè)參數(shù)。假設(shè)用戶已經(jīng)成功定位了拿起一個(gè)杯子把手的精確關(guān)鍵點(diǎn),那么未來(lái)還需要再次指定這個(gè)參數(shù)嗎?最近 DINOv2 等基礎(chǔ)模型取得了不少進(jìn)展,已經(jīng)可以找到相應(yīng)的語(yǔ)義關(guān)鍵點(diǎn),從而無(wú)需再次指定參數(shù)。
相比于之前的工作,這里提出的新算法是單樣本的并且預(yù)測(cè)的是具體的 2D 點(diǎn),而非語(yǔ)義片段。如圖 4 所示,給定一張訓(xùn)練圖像(360 × 240)和參數(shù)選擇 (x, y),模型預(yù)測(cè)不同的測(cè)試圖像中語(yǔ)義上對(duì)應(yīng)的點(diǎn)。該團(tuán)隊(duì)具體使用的是預(yù)訓(xùn)練的 DINOv2 模型來(lái)獲取語(yǔ)義特征。
實(shí)驗(yàn)和結(jié)果
任務(wù)。實(shí)驗(yàn)選取的任務(wù)來(lái)自 BEHAVIOR 和 Activities of Daily Living 基準(zhǔn),這兩個(gè)基準(zhǔn)能在一定程度上體現(xiàn)人類的日常需求。圖 1 展示了實(shí)驗(yàn)任務(wù),其中包含 16 個(gè)桌面任務(wù)和 4 個(gè)移動(dòng)操作任務(wù)。
下面展示了制作三明治和護(hù)理新冠病人的實(shí)驗(yàn)過(guò)程示例。
實(shí)驗(yàn)流程。實(shí)驗(yàn)過(guò)程中,用戶待在一個(gè)隔離房間中,保持靜止,在屏幕上觀看機(jī)器人,單純依靠大腦信號(hào)與機(jī)器人溝通。
系統(tǒng)性能。表 1 總結(jié)了兩個(gè)指標(biāo)下的系統(tǒng)性能:成功之前的嘗試次數(shù)和成功時(shí)完成任務(wù)的時(shí)間。
盡管這些任務(wù)跨度長(zhǎng),難度大,但 NOIR 還是得到了非常鼓舞人心的結(jié)果:平均而言,只需嘗試 1.83 次就能完成任務(wù)。
解碼準(zhǔn)確度。解碼大腦信號(hào)的準(zhǔn)確度是 NOIR 系統(tǒng)成功的一大關(guān)鍵。表 2 總結(jié)了不同階段的解碼準(zhǔn)確度??梢钥吹?,基于 SSVEP 的 CCA(典型相關(guān)分析)能達(dá)到 81.2% 的高準(zhǔn)確度,也就是說(shuō)物品選取大體上是準(zhǔn)確的。
物品和技能選取結(jié)果。那么,新提出的機(jī)器人學(xué)習(xí)算法能否提升 NOIR 的效率呢?研究者首先對(duì)物品和技能選取學(xué)習(xí)進(jìn)行了評(píng)估。為此,他們?yōu)?MakePasta 任務(wù)收集了一個(gè)離線數(shù)據(jù)集,其中每一對(duì)「物品 - 技能」都有 15 個(gè)訓(xùn)練樣本。給定一張圖像,當(dāng)同時(shí)預(yù)測(cè)出了正確的物品和技能時(shí),就認(rèn)為該預(yù)測(cè)是正確的。結(jié)果見表 3。
使用 ResNet 的簡(jiǎn)單圖像分類模型能實(shí)現(xiàn) 0.31 的平均準(zhǔn)確度,而基于預(yù)訓(xùn)練 ResNet 骨干網(wǎng)絡(luò)使用新方法時(shí)卻能達(dá)到顯著更高的 0.73,這凸顯出了對(duì)比學(xué)習(xí)和基于檢索的學(xué)習(xí)的重要性。
單樣本參數(shù)學(xué)習(xí)的結(jié)果。研究者基于預(yù)先收集的數(shù)據(jù)集將新算法與多個(gè)基準(zhǔn)進(jìn)行了比較。表 4 給出了預(yù)測(cè)結(jié)果的 MSE 值。
他們還在 SetTable 任務(wù)上展現(xiàn)了參數(shù)學(xué)習(xí)算法在實(shí)際任務(wù)執(zhí)行中的有效性。圖 5 給出了控制光標(biāo)移動(dòng)方面所節(jié)省的人類工作量。