讓智能體像孩子一樣觀察別人學(xué)習(xí)動(dòng)作,跨視角技能學(xué)習(xí)數(shù)據(jù)集EgoExoLearn來(lái)了
在探索人工智能邊界時(shí),我們時(shí)常驚嘆于人類孩童的學(xué)習(xí)能力 —— 可以輕易地將他人的動(dòng)作映射到自己的視角,進(jìn)而模仿并創(chuàng)新。當(dāng)我們追求更高階的人工智能的時(shí)候,無(wú)非是希望賦予機(jī)器這種與生俱來(lái)的天賦。
由上海人工智能實(shí)驗(yàn)室,南京大學(xué),中科院深圳先進(jìn)技術(shù)研究院牽頭,聯(lián)合東京大學(xué),復(fù)旦大學(xué),浙江大學(xué),中國(guó)科學(xué)技術(shù)大學(xué)等高校的學(xué)生和研究者,共同公布了跨視角技能學(xué)習(xí)數(shù)據(jù)集EgoExoLearn,為機(jī)器人賦予了通過(guò)觀察他人學(xué)習(xí)新動(dòng)作的能力。
- 論文鏈接:https://arxiv.org/abs/2403.16182
- 代碼與數(shù)據(jù)集鏈接:https://github.com/OpenGVLab/EgoExoLearn
EgoExoLearn 數(shù)據(jù)集獨(dú)辟蹊徑,采集了第一視角與第三視角的視頻素材。第一視角視頻捕捉了人們學(xué)習(xí)第三視角演示動(dòng)作的全過(guò)程,這種視角的轉(zhuǎn)換與融合,為機(jī)器模擬人類學(xué)習(xí)模式提供了寶貴的數(shù)據(jù)資源。
數(shù)據(jù)集的構(gòu)建不僅涵蓋了日常生活的瑣碎場(chǎng)景,更延伸到了專業(yè)實(shí)驗(yàn)室的復(fù)雜操作。EgoExoLearn 精心收錄了總計(jì) 120 小時(shí)的視角與示范視頻,旨在讓機(jī)器在多種環(huán)境下都能有效學(xué)習(xí)。
除視頻外,研究者還記錄了高質(zhì)量的注視數(shù)據(jù),并輔以詳盡的多模態(tài)標(biāo)注。這些數(shù)據(jù)與標(biāo)注的結(jié)合,構(gòu)建了一個(gè)全面模擬人類學(xué)習(xí)過(guò)程的平臺(tái),有助于解決機(jī)器在不同視角下對(duì)異步動(dòng)作過(guò)程的建模難題。
為了全面評(píng)估 EgoExoLearn 數(shù)據(jù)集的價(jià)值,研究者提出了一系列基準(zhǔn)測(cè)試,如跨視角關(guān)聯(lián)、跨視角行動(dòng)規(guī)劃及跨視角參考技能評(píng)估等,并進(jìn)行了深入的分析。展望未來(lái),EgoExoLearn 將成為跨視角行動(dòng)橋接的重要基石,為機(jī)器人無(wú)縫學(xué)習(xí)真實(shí)世界中的人類行為提供堅(jiān)實(shí)支撐。
期待 EgoExoLearn 數(shù)據(jù)集能助力 AI 技術(shù)的進(jìn)一步突破,推動(dòng)機(jī)器人從單純的模仿走向真正的智能,實(shí)現(xiàn)與人類社會(huì)的和諧共存與共同發(fā)展。
研究背景
從孩童時(shí)期開(kāi)始,人類就具備觀察他人行為并將其映射到自己視角的能力,這種能力在進(jìn)行高試錯(cuò)成本的實(shí)際操作(如危險(xiǎn)化學(xué)實(shí)驗(yàn))時(shí)尤為有益。隨著人工智能系統(tǒng)的最新進(jìn)展,下一代 AI 智能體將會(huì)在更通用的場(chǎng)景中執(zhí)行任務(wù)。
然而,與人類不同,訓(xùn)練這些 AI 智能體通常需要在類似環(huán)境中拍攝的演示視頻作為訓(xùn)練數(shù)據(jù),這些視頻的視角還必須與 AI 智能體一致(例如,第一視角)。盡管有很多工作嘗試了在不同場(chǎng)景中收集此類數(shù)據(jù),對(duì)于 AI 智能體來(lái)說(shuō),直接從不同地點(diǎn)和不同視角拍攝的演示視頻中學(xué)習(xí)仍然至關(guān)重要。實(shí)現(xiàn)這一能力可以充分利用大規(guī)模公開(kāi)教學(xué)視頻數(shù)據(jù)的潛力,并且在人機(jī)合作場(chǎng)景中尤其是在新環(huán)境中有巨大作用。
目前朝這個(gè)目標(biāo)努力的工作大致可以分為兩個(gè)方向。一種是在模擬環(huán)境中學(xué)習(xí)模型,但這些模型在現(xiàn)實(shí)世界中的泛化仍然很困難。另一個(gè)方向是從現(xiàn)實(shí)世界中的人類活動(dòng)中學(xué)習(xí)。然而,直接結(jié)合現(xiàn)有的多視角數(shù)據(jù)集的嘗試通常會(huì)產(chǎn)生質(zhì)量或規(guī)模較差的數(shù)據(jù)集。同時(shí),目前這個(gè)方向的少數(shù)現(xiàn)有數(shù)據(jù)集只記錄了在同一環(huán)境和時(shí)間同步方式下拍攝的自我中心和外部中心視角視頻。在現(xiàn)實(shí)中,跟隨演示時(shí),通常需要橋接在不同地點(diǎn)和不同時(shí)間執(zhí)行的一系列程序性動(dòng)作。目前還沒(méi)有可用于探索如何在現(xiàn)實(shí)的自我中心和外部中心視角中橋接異步程序性活動(dòng)的數(shù)據(jù)集。
為了解決數(shù)據(jù)集缺乏問(wèn)題,研究者提出了 EgoExoLearn,這是一個(gè)大規(guī)模數(shù)據(jù)集,包含演示視頻和相應(yīng)的第一視角跟做視頻。其中攝像機(jī)佩戴者跟隨演示視頻中的動(dòng)作,并在不同環(huán)境中執(zhí)行相同任務(wù)。針對(duì)日常生活輔助和專業(yè)技能輔助這兩個(gè)潛在應(yīng)用,EgoExoLearn 包含了 747 個(gè)視頻序列,總時(shí)長(zhǎng)達(dá) 120 小時(shí),涵蓋場(chǎng)景包括日常食物制作和專業(yè)實(shí)驗(yàn)室實(shí)驗(yàn)。值得注意的是,EgoExoLearn 中的第一視角視頻包含了顯示人類執(zhí)行任務(wù)時(shí)視覺(jué)注意力的眼動(dòng)信號(hào)。這為更好地連接第一視角和第三視角中的行動(dòng)提供了寶貴的線索。
更進(jìn)一步,研究者分析了人類的跨視角理解能力,并相應(yīng)地引入了新的任務(wù)和基準(zhǔn),希望這些可以對(duì)開(kāi)發(fā)具有類似能力的下一代具身 AI 智能體起到重要幫助。當(dāng)人類執(zhí)行一個(gè)動(dòng)作時(shí),他 / 她可以將自我中心視角中正在進(jìn)行的動(dòng)作與演示中相應(yīng)的動(dòng)作聯(lián)系起來(lái)并進(jìn)行描述。通過(guò)演示視頻中的知識(shí),人類可以知道所需的動(dòng)作步驟,并預(yù)測(cè)下一步應(yīng)該是什么。此外,通過(guò)與演示的比較,人類還可以評(píng)估自己的技能水平。
基于上述分析,研究者設(shè)計(jì)了以下新任務(wù):1) 跨視角關(guān)聯(lián),2) 跨視角動(dòng)作理解,3) 跨視角參考技能評(píng)估,以及 4) 跨視角參考視頻字幕。每個(gè)基準(zhǔn)都經(jīng)過(guò)精心定義、標(biāo)注,并具體實(shí)現(xiàn)了相應(yīng)模型。此外,研究者還首次探索了眼動(dòng)在這些任務(wù)中的作用。研究者希望這個(gè)數(shù)據(jù)集能夠?yàn)槲磥?lái)鏈接不同視角中的異步程序性動(dòng)作的工作提供資源,從而激發(fā)設(shè)計(jì)擅長(zhǎng)從現(xiàn)實(shí)世界人類演示中學(xué)習(xí)并將程序性動(dòng)作映射到機(jī)器人中心視角的 AI 智能體。
數(shù)據(jù)集介紹
場(chǎng)景和任務(wù)
研究者考慮了程序性的目標(biāo)導(dǎo)向任務(wù),這些任務(wù)涵蓋了從日常的食物制作到專業(yè)的實(shí)驗(yàn)室實(shí)驗(yàn)。這種選擇基于它們所體現(xiàn)的兩個(gè)未來(lái)體現(xiàn)性 AI 代理需要能夠橋接自我 - 外部活動(dòng)的潛在領(lǐng)域:日常生活輔助和專業(yè)支持。
具體來(lái)說(shuō),EgoExoLearn 包含了 5 種日常任務(wù)(例如烹飪)和 3 種專業(yè)實(shí)驗(yàn)室任務(wù)(例如固相肽合成)。研究者在 4 個(gè)不同的廚房和 3 個(gè)不同的實(shí)驗(yàn)室中錄制了自我中心視角的視頻。下表顯示了每個(gè)任務(wù)的視頻數(shù)量以及平均視頻長(zhǎng)度。
數(shù)據(jù)收集流程
在每次收集開(kāi)始之前,參與者需要完成一份問(wèn)卷,收集基本的人口統(tǒng)計(jì)信息以及他們自我評(píng)估的執(zhí)行指定任務(wù)的專長(zhǎng)。然后在每次錄制中,參與者將被要求從提供的列表中選擇一個(gè)或幾個(gè)外部中心視角的演示視頻,并仔細(xì)學(xué)習(xí)詳細(xì)的程序。一旦準(zhǔn)備好了,他們將戴上 Pupil Invisible Glasses,完成眼動(dòng)校準(zhǔn),并開(kāi)始復(fù)制演示視頻中執(zhí)行的任務(wù)。雖然不鼓勵(lì),但參與者在錄制過(guò)程中被允許重新觀看演示視頻。在每次錄制之后,參與者被要求重新進(jìn)行眼動(dòng)校準(zhǔn),以確保眼動(dòng)數(shù)據(jù)的準(zhǔn)確性。對(duì)于 5 個(gè)日常任務(wù),外部中心演示視頻是手動(dòng)從 YouTube 等在線視頻平臺(tái)策劃的。對(duì)于實(shí)驗(yàn)室實(shí)驗(yàn),外部中心演示視頻是由資深實(shí)驗(yàn)室成員錄制的教程。
數(shù)據(jù)集標(biāo)注與統(tǒng)計(jì)
為了促進(jìn)本文數(shù)據(jù)集在開(kāi)發(fā)能夠有效彌合自我和外部視角之間差距的算法方面,研究者提供了詳細(xì)的多模態(tài)人類標(biāo)注。粗略級(jí)別的語(yǔ)言標(biāo)注、細(xì)致級(jí)別的語(yǔ)言標(biāo)注、翻譯與解析、技能水平標(biāo)注。據(jù)了解,目前還沒(méi)有與本文設(shè)置相同、可以直接比較的數(shù)據(jù)集。因此,研究者在下表中列舉了本文數(shù)據(jù)集的各個(gè)方面,并與相關(guān)數(shù)據(jù)集進(jìn)行了比較分析。EgoExoLearn 以其「視覺(jué)演示跟隨」設(shè)置獨(dú)特地豐富了該領(lǐng)域。除了這一獨(dú)特設(shè)置之外,它還是第一個(gè)包括時(shí)間限定的語(yǔ)言字幕、標(biāo)注的跨視角關(guān)聯(lián)和多標(biāo)簽視頻片段的自我中心數(shù)據(jù)集。同其他第一視角視頻數(shù)據(jù)集的對(duì)比如下:
新基準(zhǔn) Benchmarks
為了評(píng)估連接異步的第一視角 - 第三視角程序性動(dòng)作的能力,研究者引入了 4 個(gè)新的基準(zhǔn) benchmark,如下圖所示:
1) 跨視角關(guān)聯(lián) (cross-view association),探究模型有沒(méi)有將不同視角的相同動(dòng)作聯(lián)系起來(lái)的能力,分為 Ego2Exo 和 Exo2Ego 兩個(gè)設(shè)定。在(ego2exo)的情況下,給定一個(gè)自我中心視頻,模型需要從一組候選的外部中心樣本中預(yù)測(cè)出執(zhí)行相同動(dòng)作的相應(yīng)外部中心視頻。這里考驗(yàn)了模型對(duì)單一視角動(dòng)作的理解能力,還考驗(yàn)了模型在跨視角情境下的泛化能力和預(yù)測(cè)準(zhǔn)確性?;€模型與結(jié)果如下:
2) 跨視角動(dòng)作理解 (cross-view action understanding),細(xì)分為三個(gè)子任務(wù):跨視角動(dòng)作預(yù)測(cè)、跨視角動(dòng)作規(guī)劃和跨視角動(dòng)作分割。此外,研究者還探索了注視點(diǎn)(gaze)在協(xié)助這些任務(wù)中的作用。下圖是四種訓(xùn)練設(shè)定與基線模型性能:
3) 跨視角參考技能評(píng)估 (cross-view referenced skill assessment) 主要目標(biāo)是評(píng)估第一視角操作者的技能水準(zhǔn)。研究者引入了第三視角的專家操作視頻作為參考,通過(guò)與參考視頻的對(duì)比,技能評(píng)估可以變得更加準(zhǔn)確?;€模型與結(jié)果如下圖所示:
4) 跨視角參考視頻描述 (cross-view referenced captioning)。使用另一個(gè)視角的視頻作為參考,此項(xiàng)任務(wù)旨在提高模型利用跨視角參考而更好的進(jìn)行視頻描述的能力。模型設(shè)計(jì)和基線性能如下:
結(jié)論
對(duì)于下一代具身智能在現(xiàn)實(shí)世界中執(zhí)行復(fù)雜任務(wù)而言,能夠連接第一和第三視角中的異步程序性動(dòng)作的能力是必不可少的。作為一個(gè)基礎(chǔ)步驟,EgoExoLearn 包含了豐富的第一視角視頻,其中每個(gè)視頻都是在跟隨第三視角演示視頻的程序時(shí)拍攝的。這種現(xiàn)實(shí)的設(shè)置,結(jié)合多模態(tài)人工高質(zhì)量標(biāo)注,能夠構(gòu)建 4 個(gè)新穎的基準(zhǔn)測(cè)試。而這些基準(zhǔn)作為一個(gè)多功能的平臺(tái),可以被用于研究如何橋接跨視角的異步活動(dòng)。EgoExoLearn 還可以促進(jìn)新的研究方向,例如如何更好地利用注視和與手相關(guān)的標(biāo)注。基準(zhǔn)測(cè)試的結(jié)果表明,當(dāng)前模型在連接第一和第三視角的異步活動(dòng)方面尚有不足,未來(lái)還有顯著的改進(jìn)空間。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
