讓機器準(zhǔn)確「看懂」手物交互動作,清華大學(xué)等提出GeneOH Diffusion方法 精華
在機器學(xué)習(xí)和計算機視覺中,讓機器準(zhǔn)確地識別和理解手和物體之間的交互動作,那是相當(dāng)費勁。
要么拿個杯子半天抓不到杯把:
要么打開一個盒子手部跟觸電了似的:
抑或是各種稀奇古怪的手部「畸變」:
這都是因為手物交互動作中噪聲干擾,比如手和物體的遮擋等,導(dǎo)致機器難以獲得準(zhǔn)確的信息。那么,如何解決這些「討厭」的噪聲呢?
近日,清華大學(xué)、上海人工智能實驗室和上海期智研究院發(fā)布了一篇名為《 GeneOH Diffusion:Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion》的論文,提出了一種新的去噪方法 ——GeneOH Diffusion。該研究已被ICLR 2024接收。
- 論文:
???https://arxiv.org/abs/2402.14810?? - 代碼地址:
???https://github.com/Meowuu7/GeneOH-Diffusion?? - 項目網(wǎng)站:
???https://meowuu7.github.io/GeneOH-Diffusion/?? - YouTube 視頻:
???https://youtu.be/ySwkFPJVhHY?? - Hugging Face Demo:
???https://huggingface.co/spaces/xymeow7/gene-hoi-denoising??
GeneOH Diffusion 主要用于改善手和物體交互(Hand-Object Interaction, HOI)過程中的噪聲問題。簡單來說,就是當(dāng)機器或者計算機視覺系統(tǒng)嘗試追蹤和理解手和物體之間的交互時,經(jīng)常會因為各種原因(比如遮擋、光線變化等)出現(xiàn)誤差。這篇論文提出的技術(shù)就是用來減少這些誤差,使得機器能夠更準(zhǔn)確地理解和模擬手與物體之間的交互。
研究動機
干凈的手物交互數(shù)據(jù)在很多下游任務(wù),如 AR、VR 和 Robotics 中都有廣闊的應(yīng)用前景,但如何以一種可擴展的方式獲取自然真實的手物交互數(shù)據(jù)是一個極具挑戰(zhàn)性的問題。研究者無論是采用數(shù)據(jù)采集的策略,設(shè)計算法從其他數(shù)據(jù)模態(tài)中獲得手物交互序列,還是借助生成模型的強大生成能力,所得到的數(shù)據(jù)都不可避免地被各種各樣無法預(yù)測的噪聲干擾(圖 1)。這些噪聲可能來源于采集設(shè)備有限的精度或者相關(guān)算法的誤差。
一種能夠從含有噪聲的數(shù)據(jù)中恢復(fù)出清晰、真實手物交互序列的方法,構(gòu)成了連接低成本手物交互數(shù)據(jù)源和高質(zhì)、實用數(shù)據(jù)之間的橋梁。正是在這一過程中,手物交互去噪模型的獨特價值和重要性得以凸顯。
圖 1:手物交互序列中多樣且復(fù)雜的噪聲類型
從含有噪聲的交互序列中恢復(fù)出真實的數(shù)據(jù),這是一個本質(zhì)上困難的重構(gòu)問題。在實際的去噪應(yīng)用場景中,由于輸入數(shù)據(jù)的物體、交互動作和噪聲特征都具有不可預(yù)測性,同時去噪模型的訓(xùn)練數(shù)據(jù)又受到限制,因此模型的泛化能力變得尤為關(guān)鍵,同時也是設(shè)計去噪模型時最具挑戰(zhàn)性的地方。
盡管交互序列去噪問題并非一個全新的研究領(lǐng)域,但在以往的工作中,無論是采用基于規(guī)則的方法還是數(shù)據(jù)驅(qū)動的方法,「如何在訓(xùn)練數(shù)據(jù)有限的情況下,構(gòu)建一個具有高度泛化能力的模型」這一問題并未得到充分的重視和深入研究。而正是在這樣的背景下,GeneOH Diffusion(如圖 2 所示)旨在探索和實現(xiàn)可泛化的手物交互去噪技術(shù)。
圖 2:通過在有限的數(shù)據(jù)上進行訓(xùn)練,GeneOH Diffusion 可以很好地泛化到新穎的帶有復(fù)雜噪聲特征的交互序列上(圖 a),并可以從一段輸入中恢復(fù)出多樣且自然的交互序列(圖 b),且是一個實用的工具(圖 c)。
GeneOH Diffusion:可泛化的手物交互序列去噪方法
GeneOH Diffusion 重新思考了設(shè)計數(shù)據(jù)驅(qū)動的去噪模型的兩個關(guān)鍵問題 ——「什么是易于泛化的手物交互序列表示方法」和 「什么是對噪聲特征不敏感,且易于在不同類型噪聲數(shù)據(jù)上泛化的去噪方法」,并通過兩個關(guān)鍵性的設(shè)計來增強去噪模型的泛化性。
首先,為了有效增加模型對新穎物體和手物交互動作的可泛化性,GeneOH Diffusion 通過在局部接觸區(qū)域參數(shù)化交互信息,來對齊各種各樣的手物交互序列。
具體來講,GeneOH Diffusion 設(shè)計了一套以廣義接觸點為中心的、包含手物時空交互信息的序列表征,名為 GeneOH。GeneOH 包括 位姿標(biāo)準(zhǔn)化后的手物軌跡、以廣義接觸點為中心的手物空間關(guān)系表征、以及以廣義接觸點為中心的手物時間關(guān)系表征。(圖 3)
圖 3:可泛化的手物交互序列表征 GeneOH
為了增加去噪模型泛化到新噪聲分布上的能力,GeneOH Diffusion 摒棄了前人確定性映射的去噪方法,提出使用擴散模型刻畫手物交互信息的分布,并通過先擴散 — 后去噪的方式,極大地提高了模型對具有沒見過的復(fù)雜噪聲特征的數(shù)據(jù)的泛化能力。
具體而言,GeneOH Diffusion 先將輸入的有噪聲的數(shù)據(jù)通過前向擴散的方式對齊到一個統(tǒng)一的噪聲空間,之后對擴散的數(shù)據(jù)進行去噪。最后,為了去除復(fù)雜多樣的手物交互序列中的噪聲,GeneOH Diffusion 設(shè)計了一種有效的層級式去噪方法,通過對不自然的手型、有噪聲的手物空間關(guān)系和有噪聲的手物時間關(guān)系進行逐步去噪,最終恢復(fù)出一段自然真實的手物交互序列(圖 4)。
圖 4:層級式去噪和易于在不同噪聲類型之間泛化的先擴散 - 后去噪的去噪范式
可泛化去噪結(jié)果展示
GeneOH Diffusion 僅在有限的 GRAB 數(shù)據(jù)集上進行訓(xùn)練,盡管它只接觸過有限的交互序列和簡單的擴散模型中的高斯噪聲,但它仍然能夠有效地泛化到新的交互序列上。這些新序列不僅包含了未見過的物體,還涵蓋了創(chuàng)新的交互動作,并且?guī)в袕?fù)雜的、真實世界中的噪聲特征(見圖 5)
圖 5:在 GRAB,GRAB(Beta),HOI4D 和 ARCTIC 上的去噪結(jié)果部分展示
最令人驚訝的是,GeneOH Diffusion 僅僅在包含剛性物體交互數(shù)據(jù)上進行了訓(xùn)練,但它依然能夠近乎完美地復(fù)原出一段自然真實的人打開剪刀的序列(見圖 6)。即便輸入數(shù)據(jù)未能提供有效的接觸信息,并且包含了由視覺算法錯誤導(dǎo)致的異常噪聲,經(jīng)過 GeneOH Diffusion 去噪處理后的序列仍然展現(xiàn)出了合理的接觸點、自然的手部運動軌跡,以及手物運動一致的操控動作。
圖 6:泛化到非常困難的、具有復(fù)雜的真實的噪聲特征序列上的動畫示例
基于生成模型,GeneOH Diffusion 具備隨機去噪的能力,這與去噪過程中所面臨的一對多的問題特質(zhì)相吻合(見圖 7)。
圖 7:隨機去噪結(jié)果展示
同時 GeneOH Diffusion 具有廣闊的應(yīng)用價值。它可以修正從視頻中預(yù)測的手物交互序列,去除運動重定向所產(chǎn)生的噪聲,并可以提高生成模型所生成的數(shù)據(jù)的質(zhì)量(圖 8)。
本文轉(zhuǎn)自 機器之心 ,作者:機器之心
