自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024|多模態(tài)場景感知,小紅書高保真人體運動預測方法來了!

人工智能
在本研究中,我們提出了一個開創(chuàng)性的多模態(tài)感知信息框架 SIF3D,用于在真實世界的 3D 場景中進行人體運動預測。通過結合外部客觀的 3D 場景點云和主觀的人眼凝視點,SIF3D 能夠通過 TIA 與 SCA 注意力機制感知場景和理解人類意圖的。

設想一下,你在家中準備起身,前往櫥柜取東西。一個集成 SIF3D 技術的智能家居系統(tǒng),已經預測出你的行動路線(路線通暢,避開桌椅障礙物)。當你接近櫥柜時,系統(tǒng)已經理解了你的意圖,柜門在你達到之前就已自動打開,無需手動操作。

圖片

視頻中,左邊為 3D 場景和預測結果(紅色人體表示真實序列,藍色人體表示預測結果)中間為運動序列最有可能和場景發(fā)生交互的點云,右邊為每一個人體 pose 最有可能和場景發(fā)生交互的點云(紅交互可能性大,藍色交互可能性?。?/span>

SIF3D(Sense-Informed Forcasting of 3D human motion),即場景感知運動預測技術,由小紅書創(chuàng)作發(fā)布團隊提出,目前已被計算機視覺頂會 CVPR2024 收錄。SIF3D 的先進之處在于其多模態(tài)感知能力。它結合人過去的動作序列、真實 3D 場景信息以及人的視線三個方面,預測未來的人體運動。

這項技術特別擅長于理解和預測在復雜環(huán)境中的動作,如避開障礙物,這對于自動駕駛、機器人導航、游戲開發(fā)和虛擬現(xiàn)實等領域至關重要。比如使得汽車能夠更準確地提前預測馬路上的行人、車輛未來可能的運動趨勢,或是應用于醫(yī)療康復診療,提前對病人可能發(fā)生的不安全運動行為進行預警等。

SIF3D 的工作原理是:通過兩種創(chuàng)新的注意力機制——三元意圖感知注意力(TIA)和場景語義一致性感知注意力(SCA)——來識別場景中的顯著點云,并輔助運動軌跡和姿態(tài)的預測。TIA 專注于預測人的意圖和全局動作軌跡,而 SCA 則專注于局部場景細節(jié),確保每一幀的姿態(tài)預測都與環(huán)境保持連貫性。

實驗結果表明,SIF3D 在多個大規(guī)模場景感知運動預測的數據集上的卓越性能(SOTA),預測時長突破目前算法邊界,達到 5 秒時長。它能夠有效地識別場景中那些可能與人的運動相關聯(lián)、相耦合的部分(顯著性區(qū)域),并通過場景中顯著性區(qū)域的特征輔助運動預測。這一開創(chuàng)性的方法,不僅推動了人體運動預測技術的發(fā)展,也為未來在更多場景下應用場景感知人體運動提供了新的方向和可能性。

一、背景

人體動作預測(Human Motion Forecasting),即根據觀測到的人體運動序列預測其將來的動作,這是機器智能(MI)、自動駕駛汽車(AD)和人機協(xié)作(HRI)等領域的關鍵技術。在現(xiàn)實生活中,人類的動作是與周圍環(huán)境緊密相連的,比如我們會因為障礙物而改變行走路徑。然而在現(xiàn)有的運動預測研究中,場景信息卻常常被忽略,大大制約了技術在真實 3D 場景下的應用。

在機器人技術中,場景信息通常被表達為 3D 點云?,F(xiàn)有的場景感知運動預測的方法,通常會將整個 3D 點云進行編碼,而后通過全局嵌入或索引、插值等手段將其作為條件引入至運動預測任務當中。盡管該方法可行,但我們注意到:并非點云中的所有信息都與運動預測任務同等相關,相反,往往只有小部分的場景點云會對我們當前序列的運動預測起到作用,我們稱其為顯著點云(salient point clouds)。

此外,人眼的凝視點(與場景的交匯點)也是一種能夠體現(xiàn)人的運動意圖的表現(xiàn)。我們期望通過聯(lián)合分析 3D 場景和人眼凝視點,可以捕捉人類向特定位置的運動行為,從而更準確地預測其運動序列。

圖片

3D 場景(左),傳統(tǒng)運動預測(中)與本文提出的場景感知預測(右)的對比

為了解決上述挑戰(zhàn),我們提出了一種全新的多模態(tài)場景感知的運動預測方法 SIF3D(Multimodal Sense-Informed Forecasting of 3D Human Motions)。SIF3D 主要包含以下兩個核心組件:

  • 三元意圖感知注意力機制(ternary intention-aware attention,TIA):通過觀測序列、場景點云、人眼凝視的三元多模態(tài)聯(lián)合分析,預測人的意圖并區(qū)分全局顯著點云(global salient points),用于輔助人體運動軌跡預測
  • 場景語義一致性感知注意力機制(semantic cohenrence-aware attention,SCA):逐幀分析運動序列與場景語義的連貫性與一致性,區(qū)別得到逐幀的局部顯著點云(local salient points),用于輔助人體姿態(tài)預測

通過在新引入的大型數據集上的廣泛實驗,SIF3D 在真實場景下的 3D 人體運動預測方面取得了最優(yōu)越的性能,證明了其捕獲顯著點云的準確性,以及通過顯著點云輔助運動預測的有效性。此外,這些發(fā)現(xiàn)同樣為將來基于真實場景的高保真運動預測、人機交互等領域的應用提供了新的視角和可能性。

二、方法

圖片

SIF3D 算法流程圖

如圖所示,SIF3D 主要涉及以下三個核心步驟:

  • Encoding:通過點云網絡(PointNet)和 Transformer 分別提取 3D 場景的空間信息與運動序列的時間、空間信息,并將其編碼為高維隱藏特征;
  • Crossmodal Attention:通過提出的三元意圖感知注意力機制(TIA)與場景語義一致性感知注意力機制(SCA)提取 3D 場景中的全局與局部顯著點云,并通過跨模態(tài)注意力機制分別輔助運動軌跡與姿態(tài)的預測;
  • Decoding:融合 TIA 與 SCA 預測的軌跡與姿態(tài),并使用真?zhèn)闻袆e器進一步監(jiān)督預測序列的保真度。

2.1 多模態(tài)編碼(Multimodal Encoding)

由于 SIF3D 使用到了三種模態(tài)的信息(運動序列、3D 場景點云、人眼凝視點),在對它們進行聯(lián)合分析之前,我們首先需要將運動序列與 3D 場景點云編碼并映射至同一空間,而人眼凝視點則作為索引,用于獲取凝視點的 3D 場景特征。具體操作如下:

圖片

圖片


2.2 三元意圖感知注意力機制(TIA)

三元意圖感知注意力機制(ternary intention-aware attention,TIA)通過分析觀測序列與場景之間的關系,同時基于“人們大多數時候總是會走向看著的地方“這一先驗來分析這三種模態(tài)間的關聯(lián),并通過以下步驟輔助路徑規(guī)劃:

a. 運動特征編碼與聚合:短期內,人的意圖在運動序列中具有唯一性且不會隨著運動的持續(xù)進行而發(fā)生變化,因此我們首先對運動特征進行進一步編碼,并將整個序列的運動特征聚合為一個向量:

圖片

b. 全局顯著性點云識別:將聚合得到的運動特征與場景特征進行跨模態(tài)注意力分析,尋找出場景中那些響應當前觀測序列的點云,作為全局顯著點云,我們僅會利用全局顯著點云用于提取跨模態(tài)意圖特征,并用于輔助軌跡預測:

圖片

圖片

d. 全局特征特征融合:通過三元多模態(tài)感知,我們試圖從多個維度來分析人的運動意圖,最后我們通過標準的多層感知機(MLP)來融合這些全局特征,作為 TIA 的輸出:

圖片

2.3 場景語義一致性感知注意力機制(SCA)

不同于 TIA 關注全局特征與人的運動意圖,場景語義一致性感知注意力機制(SCA)則更加關注每一幀的局部顯著性場景細節(jié),用來更好地指導每一幀局部姿態(tài)的預測:

a. 局部點云顯著度:我們首先對運動特征進一步編碼,得到每一幀的姿態(tài)特征,并將它們分別與場景特征進行跨模態(tài)注意力分析,來找到場景中響應每一幀運動姿態(tài)的局部顯著性點云。

圖片

b. 空間顯著度偏置:由于 SCA 會更關注場景中的一些可能影響人體姿態(tài)的細粒度信息,且正對著人的朝向且距離更近的場景點往往更可能會影響人體姿態(tài),我們基于每個場景點相對于每一幀中人體的距離與方向額外對于局部點云顯著性引入了一項空間顯著度偏置 Sspatial

圖片

c. 局部特征特征融合:結合了局部點云顯著度與空間顯著度偏置,我們同樣只利用局部顯著性點云來輔助姿態(tài)預測:

圖片

而后利用多層感知機(MLP)來融合局部特征,作為 SCA 的輸出:

圖片


2.4 運動序列解碼與生成

預測未來的運動序列需要同時考慮軌跡和姿勢。TIA 通過識別全局顯著點云分析了人的意圖,而 SCA 則識別局部點云以維持每一幀人體與環(huán)境的連貫性與一致性,因此我們利用 TIA 的特征預測軌跡,而用 SCA 的特征預測人體姿態(tài):

圖片

由于分別預測得到的軌跡與姿態(tài)可能存在不一致,因此我們利用一個基于圖網絡(GCN)的解碼器來融合它們并得到最終結果:

圖片

三、實驗

3.1 實驗設置

本文基于 GIMO 與 GTA-1M 兩個近期發(fā)布的包含 3D 場景點云的人體運動數據集,將 SIF3D 與包含經典方法、最新最優(yōu)方法在內的 4 個方法進行了對比:基于圖網絡的 LTD、SPGSN,基于 Transformer 的 AuxFormer,以及考慮了場景信息的 BiFu。

本文從軌跡與姿態(tài)兩個維度對 SIF3D 與對比方法進行了評估,軌跡評估計算了預測軌跡與真實軌跡之間的偏差,姿態(tài)評估了則計算了每個關節(jié)點的位置與真實位置的平均偏差。

對于所有的指標我們都從所有的預測幀與最終的預測幀兩個方面來評估,包括:

  •  Traj-path:衡量了整個預測序列中平均的軌跡偏差; 
  • Traj-dest:衡量了最終預測幀的軌跡偏差; 
  • MPJPE-path:衡量了整個預測序列中的平均姿態(tài)關節(jié)點偏差; 
  • MPJPE-dest:衡量了最終預測幀的平均姿態(tài)關節(jié)點偏差。

3.2 實驗結果

我們首先統(tǒng)計了引入不同多模態(tài)信息時(3D 場景點云 Scene,人眼凝視點 Gaze),各個方法的預測性能(表 1),而后詳細展開統(tǒng)計了不同場景以及不同時間點下各個方法的預測性能(表 2)

圖片

表 1:考慮了不同模態(tài)時(3D 場景點云 Scene,人眼凝視點 Gaze)各個方法的預測結果

圖片

表 2:不同場景以及不同時間點下各個方法的詳細預測性能

3.3 可視化對比結果

可視化結果提供了一種更為直觀的方法將 SIF3D 與傳統(tǒng)方法進行了對比。

圖片

通過識別場景中的全局與局部顯著點云,我們可以更高效地利用場景信息輔助運動預測,得到更為精準與真實的預測序列。我們可以清楚地看到,SIF3D 不但能更好地識別場景元素,還能感知人的意圖,其預測結果不但更接近真實序列,也具有更高的保真度。

圖片

3.4 消融實驗

消融實驗(Ablation Study)旨在評價 SIF3D 中不同組件的重要度以及對最終預測性能的影響,即通過移除或修改某些部分來評估模型性能的變化。主要包括:

a. 移除主要組件:

包括 TIA,SCA,運動解碼器,真?zhèn)闻袆e器與場景編碼器 PointNet++。它們是構成 SIF3D 最主要的五個部件,通過比較移除這些組件前后的預測誤差,可以評估它們在提高預測準確性方面的重要性,如下表所示。可以看出本文提出的組件均不同程度地有主提高最終的預測效果,尤其是意圖注意力模組和場景編碼模塊。

圖片

b. 調整場景點云大?。?/span>

原始的 LiDAR 傳感器采樣得到的場景點云可能包含 50 萬以上的頂點數量,為了更高效地利用點云數據,我們對其進行了下采樣。然而過度下采樣可能影響點云對于場景的表征能力,因此我們需要權衡下采樣的點云大小,如下表所示。本文實驗采用了 4096 作為場景點云的大小??梢钥吹?,在點云數量為4096時,算法在內存開銷、推理速度、最終性能等方面取得了最佳平衡。

圖片

c. TIA 中的運動特征聚合方法:

在 TIA 中,我們將編碼得到的運動特征聚合為一個向量用于計算與場景點云間的全局顯著性,這里我們研究了不同聚合方式對于性能的影響,包括:

Last,采用最后一幀的運動特征;Mean,采用所有幀運動特征的均值;Max,采用幀間最大池化;Conv,利用三層卷積網絡進行下采樣;Transformer,引入單層 Transformer 解碼器用于聚合。結果如下表所示。可以看出,使用運動特征的最后一個時間維度的特征作為計算場景相關性的key-query取得了最佳的性能,這也意味著:

(1)最后一幀的運動特征可能包含了之前所有時間的上下文信息;

(2)最后時刻的運動信息對于人類未來軌跡起到的作用最大。

圖片


四、結語

在本研究中,我們提出了一個開創(chuàng)性的多模態(tài)感知信息框架 SIF3D,用于在真實世界的 3D 場景中進行人體運動預測。通過結合外部客觀的 3D 場景點云和主觀的人眼凝視點,SIF3D 能夠通過 TIA 與 SCA 注意力機制感知場景和理解人類意圖的。在 GIMO 與 GTA-1M 兩個數據集中,SIF3D 均取得了目前最佳的預測性能。與此同時,我們的發(fā)現(xiàn)強調了 3D 場景與人眼凝視點在場景感知的運動預測中的重要性。此外,我們認為,在現(xiàn)實世界的 3D 場景中深入研究高保真度的不同人體運動生成任務,有望成為未來探索的一條引人注目的途徑。

項目地址:https://sites.google.com/view/cvpr2024sif3d 

五、作者簡介

  • 樓震宇 
    本科畢業(yè)于浙江大學,目前為浙江大學博士生。發(fā)表多篇期刊和會議論文,主要研究方向為人體運動預測,3D 計算機視覺。
  • 崔瓊杰 
    博士畢業(yè)于南京理工大學。在 CVPR、ICCV、ECCV、IJCAI、AAAI 等國際會議上發(fā)表多篇論文,擔任多個國際頂級計算機視覺,人工智能會議的審稿人。目前主要研究方向為人體運動分析與合成。
  • 王浩帆 
    小紅書創(chuàng)作發(fā)布組- AIGC 方向算法工程師,碩士畢業(yè)于卡內基梅隆大學,在 CVPR、ICCV、NeurIPS、3DV、AAAI、TPAMI 等國際會議和學術期刊上發(fā)表多篇論文。目前主要研究方向為圖像、視頻、3D 生成。
責任編輯:龐桂玉 來源: 小紅書技術REDtech
相關推薦

2024-12-23 15:46:59

2025-01-07 09:20:00

2024-09-25 16:08:52

2021-01-06 10:51:56

量子互聯(lián)網網絡安全

2024-11-25 08:50:00

2023-09-11 13:12:54

模型數據

2023-04-14 14:02:40

視覺AI

2025-02-13 09:40:00

2023-02-05 13:06:07

ChatGPT看圖方法

2022-04-01 08:02:44

云成本服務器互聯(lián)網

2024-03-19 13:29:19

2025-01-03 10:00:00

3D自動駕駛生成

2024-03-19 13:15:23

EAI 框架人體動作預測

2024-08-12 07:30:00

模型訓練

2019-10-14 10:21:47

代碼通用架構

2019-09-30 10:46:46

代碼架構Architect

2024-12-12 00:25:09

2024-10-23 20:09:47

2023-10-13 09:49:33

模型智能
點贊
收藏

51CTO技術棧公眾號