CVPR'24 Highlight|一個(gè)框架搞定人物動(dòng)作生成,精細(xì)到手部運(yùn)動(dòng)
本文作者蔣楠是北京大學(xué)智能學(xué)院二年級(jí)博士生,指導(dǎo)教師朱毅鑫教授,與北京通用人工智能研究院黃思遠(yuǎn)博士聯(lián)合開展研究工作。他的研究重點(diǎn)是人-物交互理解和數(shù)字人的動(dòng)作生成,并于ICCV,CVPR和ECCV等頂會(huì)發(fā)表多篇論文。
近年來(lái),人物動(dòng)作生成的研究取得了顯著的進(jìn)展,在眾多領(lǐng)域,如計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)、機(jī)器人技術(shù)以及人機(jī)交互等方面獲得廣泛的關(guān)注。然而,現(xiàn)有工作大多只關(guān)注動(dòng)作本身,以場(chǎng)景和動(dòng)作類別同時(shí)作為約束條件的研究依然處于起步階段。
為了解決這一問(wèn)題,北京通用人工智能研究院聯(lián)合北京大學(xué)、北京理工大學(xué)的研究員提出了一種使用自回歸條件擴(kuò)散模型的動(dòng)作生成框架,實(shí)現(xiàn)真實(shí)、帶有語(yǔ)義、符合場(chǎng)景且無(wú)長(zhǎng)度限制的動(dòng)作生成。此外,文章發(fā)布了大規(guī)模人物 - 場(chǎng)景交互數(shù)據(jù)集 TRUMANS,包含準(zhǔn)確且豐富的針對(duì)人物動(dòng)作以及三維場(chǎng)景的標(biāo)注信息。
- 論文鏈接:https://arxiv.org/pdf/2403.08629
- 項(xiàng)目主頁(yè):https://jnnan.github.io/trumans/
- 代碼、數(shù)據(jù)鏈接:https://github.com/jnnan/trumans_utils
研究概述
圖 1. 人物 - 場(chǎng)景交互動(dòng)作生成方法和 TRUMANS 數(shù)據(jù)集
與場(chǎng)景物體的交互是人們?nèi)粘;顒?dòng)的重要組成部分,例如坐在椅子上、拿起瓶子或打開抽屜等動(dòng)作。如今,仿真人類肢體動(dòng)作已成為計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)、機(jī)器人技術(shù)和人機(jī)交互等領(lǐng)域的一項(xiàng)重要任務(wù)。生成人體動(dòng)作的核心目標(biāo)在于創(chuàng)造自然、逼真且多樣化的動(dòng)態(tài)模式。深度學(xué)習(xí)技術(shù)的興起使人體動(dòng)作生成方法得到飛速發(fā)展。人體建模技術(shù)的重大突破也使構(gòu)建龐大的人體動(dòng)作數(shù)據(jù)庫(kù)變得更為便捷?;谶@些進(jìn)展,近年來(lái)以數(shù)據(jù)為驅(qū)動(dòng)的人體動(dòng)作生成技術(shù)越來(lái)越受到研究界的重視。
目前,多數(shù)動(dòng)作生成的方法以語(yǔ)義作為控制變量,在給定交互物體 [1] 和場(chǎng)景 [2] 的條件下生成動(dòng)作的研究仍處于起步階段,這主要由于缺乏高質(zhì)量人體動(dòng)作與場(chǎng)景交互數(shù)據(jù)集?,F(xiàn)有的真實(shí)場(chǎng)景數(shù)據(jù)集在人體動(dòng)作捕捉質(zhì)量方面仍有不足。盡管通過(guò) VICON 等設(shè)備錄制的動(dòng)作捕捉數(shù)據(jù)集能夠帶來(lái)質(zhì)量的提升,但這些數(shù)據(jù)集缺乏多樣化的 3D 場(chǎng)景中人與物體的交互。最近,使用虛擬仿真技術(shù)的合成數(shù)據(jù)集因其低成本和高適應(yīng)性而引起研究者們的關(guān)注。
針對(duì)現(xiàn)有方法的不足,本文提出了一種融合場(chǎng)景和語(yǔ)義信息的動(dòng)作生成框架,由自回歸的擴(kuò)散模型作為驅(qū)動(dòng),能夠在給定動(dòng)作類別和路徑點(diǎn)的條件下,生成符合場(chǎng)景約束的人物動(dòng)作。為了獲取場(chǎng)景中的動(dòng)作數(shù)據(jù),本工作發(fā)布了一個(gè)全新的人物 - 場(chǎng)景交互數(shù)據(jù)集 TRUMANS,包含在真實(shí)世界捕捉的 15 小時(shí)動(dòng)作數(shù)據(jù),并合成到 3D 虛擬場(chǎng)景中,覆蓋了臥室、餐廳和辦公室等 100 個(gè)場(chǎng)景配置。TRUMANS 包含尋路、物體操作、及與剛性和鉸接物體的交互等全面的日常行為。
動(dòng)作生成框架
圖 2. 本文提出的動(dòng)作生成框架使用自回歸機(jī)制,將場(chǎng)景和動(dòng)作類別作為條件控制動(dòng)作的生成。
本研究提出的方法采用自回歸的方式逐段生成動(dòng)作。段內(nèi)的起始動(dòng)作源于上一段末尾,后續(xù)動(dòng)作由擴(kuò)散模型生成。為了使生成的動(dòng)作符合場(chǎng)景約束,作者基于空間占有網(wǎng)格提出一個(gè)局部場(chǎng)景感知器,將每段動(dòng)作終點(diǎn)附近環(huán)境的特征編碼,并納入動(dòng)作生成模型的條件。為了將逐幀的動(dòng)作標(biāo)簽作為可控條件納入,動(dòng)作信息編碼器將時(shí)間信息整合到動(dòng)作片段中,使得模型可以在任意時(shí)刻接受指令,并生成符合給定動(dòng)作標(biāo)簽的運(yùn)動(dòng)。
本文提出的方法可以支持路徑軌跡約束以及精確的關(guān)節(jié)位置控制。由于本文方法采用了自回歸逐段生成的機(jī)制,路徑和關(guān)節(jié)約束可以通過(guò)為每段動(dòng)作生成設(shè)定子目標(biāo)的方式實(shí)現(xiàn)。對(duì)于行走動(dòng)作控制,每個(gè)子目標(biāo)描述了當(dāng)前段末尾人物骨盆在水平面的預(yù)設(shè)位置。根據(jù)當(dāng)前段的起始和終止位置之間的場(chǎng)景信息,模型生成包含骨盆運(yùn)動(dòng)軌跡在內(nèi)的全身動(dòng)作。例如,當(dāng)子目標(biāo)位于椅子上時(shí),需要讓角色坐下。對(duì)于涉及物體抓握的動(dòng)作,手部的位置控制也使用相同的技術(shù)。例如生成抓取瓶子或推門等動(dòng)作時(shí),將手部關(guān)節(jié)位置設(shè)為子目標(biāo),并由用戶設(shè)置在物體上的期望位置。模型將關(guān)節(jié)上的噪聲歸零并補(bǔ)全其余部分的人體動(dòng)作。進(jìn)一步的精細(xì)接觸通過(guò)優(yōu)化手與物體的相對(duì)位置的方式實(shí)現(xiàn)。
本地場(chǎng)景感知器用于獲取本地場(chǎng)景幾何信息,并將其作為運(yùn)動(dòng)生成的條件。具體來(lái)說(shuō),給定一個(gè)場(chǎng)景,首先生成一個(gè)全局占用網(wǎng)格,每個(gè)單元格被分配一個(gè)布爾值表示其是否可達(dá),1 表示可達(dá),0 表示不可達(dá)。本地占用網(wǎng)格是以當(dāng)前循環(huán)節(jié)的子目標(biāo)為中心的三維網(wǎng)格,垂直范圍內(nèi)從 0 米到 1.8 米,方向與第一幀中角色骨盆的偏航方向?qū)R。本地占用網(wǎng)格的值通過(guò)查詢?nèi)终加镁W(wǎng)格獲取。本文提出使用 Vision Transformer (ViT) 對(duì)體素網(wǎng)格進(jìn)行編碼。通過(guò)沿 xy 平面劃分本地占用網(wǎng)格,將 z 軸視為特征通道來(lái)構(gòu)建 Token,并將這些 Token 輸入到 ViT 模型中。場(chǎng)景經(jīng)過(guò) ViT 編碼后的輸出被用作動(dòng)作生成模型的條件。
與之前基于單一動(dòng)作描述生成完整動(dòng)作序列的方法不同,本文在生成長(zhǎng)期動(dòng)作時(shí)逐幀使用動(dòng)作標(biāo)簽作為條件。在這個(gè)模型中,一個(gè)特定動(dòng)作可能會(huì)超過(guò)一個(gè)循環(huán)節(jié),并在多個(gè)循環(huán)節(jié)中繼續(xù)。因此模型需要理解動(dòng)作執(zhí)行的進(jìn)程。為了解決這個(gè)問(wèn)題,本研究引入了一個(gè)進(jìn)度標(biāo)識(shí)符,用于支持逐幀的動(dòng)作類別標(biāo)簽。具體實(shí)現(xiàn)方式為在原始 multi-hot 動(dòng)作標(biāo)簽上,對(duì)每段完整的交互添加一個(gè) 0 到 1 之間隨時(shí)間線性增長(zhǎng)的數(shù)。這樣的操作使得模型能夠應(yīng)對(duì)跨多個(gè)循環(huán)節(jié)的動(dòng)作,增強(qiáng)生成動(dòng)作序列的語(yǔ)義完整性和連續(xù)性。
數(shù)據(jù)集
數(shù)據(jù)方面,本文發(fā)布了全新的人物 - 場(chǎng)景交互數(shù)據(jù)集 TRUMANS,精確地復(fù)制了 3D 合成場(chǎng)景到物理環(huán)境中,兼具數(shù)據(jù)質(zhì)量與規(guī)模;包括 15 小時(shí)的長(zhǎng)序列人體動(dòng)作捕捉,配套 100 個(gè)室內(nèi)場(chǎng)景,類別包含臥室,客廳和辦公室等。盡管場(chǎng)景是合成的,作者通過(guò)對(duì)每個(gè)合成場(chǎng)景的細(xì)致還原,確保了人與物體之間的交互保持自然且精確。TRUMANS 動(dòng)作涵蓋日常人物行為,包括尋路、抓取,以及與剛性和鉸接物體的交互。為了進(jìn)一步提高數(shù)據(jù)的可擴(kuò)展性,本文應(yīng)用了一種基于現(xiàn)有數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)方式,使得數(shù)據(jù)集中的物體可以在一定范圍內(nèi)改變位置和尺寸,并自動(dòng)更新人物動(dòng)作以匹配變化。
圖 3. TRUMANS 動(dòng)作捕捉數(shù)據(jù)集
圖 4. 根據(jù)變化的物體尺寸自動(dòng)調(diào)整動(dòng)作,高效擴(kuò)展數(shù)據(jù)規(guī)模
實(shí)驗(yàn)結(jié)果
下面是本文所提出的動(dòng)作生成方法的應(yīng)用場(chǎng)景示例。
(1)基于給定的路徑關(guān)鍵點(diǎn),本文方法能夠生成多樣的場(chǎng)景中行走動(dòng)作,且人物對(duì)場(chǎng)景中的障礙物有自然的反饋。
(2)本文方法適用于手持小物體的抓取和交互動(dòng)作生成。例如走近并抓取放置于桌子上的水瓶,并做出喝水的動(dòng)作。完成過(guò)程中需要根據(jù)場(chǎng)景布局調(diào)整動(dòng)作。
(3)基于給定手部運(yùn)動(dòng)軌跡,生成滿足該軌跡的全身動(dòng)作,且不與場(chǎng)景中的物體發(fā)生沖突。
圖 5. 動(dòng)作生成的多樣性展示
圖 6. 給定手部運(yùn)動(dòng)軌跡和場(chǎng)景的全身動(dòng)作生成
圖 7. 手持小物體的交互動(dòng)作生成
為了量化本文方法的性能,作者根據(jù)交互物體可動(dòng)與否構(gòu)建了兩套評(píng)價(jià)體系。對(duì)于靜態(tài)交互物體,本文評(píng)測(cè)的動(dòng)作包含坐,躺,以及在場(chǎng)景中的走動(dòng)。評(píng)測(cè)指標(biāo)主要針對(duì)動(dòng)作是否與場(chǎng)景發(fā)生穿模,腳部滑動(dòng),以及被試對(duì)生成質(zhì)量的主觀評(píng)價(jià)。而對(duì)于動(dòng)態(tài)交互物體,本文關(guān)注抓握的過(guò)程以及后續(xù)的交互動(dòng)作。評(píng)價(jià)指標(biāo)量化了動(dòng)作是否符合給定的類別,動(dòng)作的多樣性,穿模程度,以及被試主觀評(píng)價(jià)。此外,研究還對(duì)比了使用 TRUMANS 以及現(xiàn)有的 PROX 和 GRAB 數(shù)據(jù)集訓(xùn)練得到的動(dòng)作生成質(zhì)量。實(shí)驗(yàn)結(jié)果證實(shí)了本文所提方法的優(yōu)越性,以及 TRUMANS 數(shù)據(jù)對(duì)人物 - 場(chǎng)景交互生成任務(wù)帶來(lái)的全面質(zhì)量提升。
表 1-2. 動(dòng)態(tài)與靜態(tài)物體交互動(dòng)作生成結(jié)果在不同方法和數(shù)據(jù)集訓(xùn)練結(jié)果的比較
