自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025|南洋理工大學AvatarGO,探索4D人與物體交互生成新方法

人工智能 新聞
南洋理工大學 S-Lab 的研究者們提出了一種全新的方法:AvatarGO。該方法不僅能夠生成流暢的人體 - 物體組合內容,還在有效解決穿模問題方面展現(xiàn)了更強的魯棒性,為以人為核心的 4D 內容創(chuàng)作開辟了全新的前景。

近年來,隨著擴散模型和 Transformer 技術的快速發(fā)展,4D 人體 - 物體交互(HOI)的生成與驅動效果取得了顯著進展。然而,當前主流方法仍依賴 SMPL [1] 這一人體先驗模型來生成動作。盡管這些方法已取得令人矚目的成果,但由于 SMPL 在衣物表現(xiàn)上的局限性,以及缺乏大規(guī)模真實交互數(shù)據(jù)的支持,它們依然難以生成日常生活中的復雜交互場景。     

相比之下,在 2D 生成模型中,由于大語言模型和海量文字 - 圖片數(shù)據(jù)的支持,這一問題得到了有效的解決。2D 生成模型如今能夠快速生成高度逼真的二維場景。而且,隨著這些技術被引入到 3D 和 4D 生成模型中,它們成功地將二維預訓練知識遷移到更高維度,推動了更精細的生成能力。然而,在處理 4D 人體 - 物體交互時,這些 3D/4D 生成的方法依然面臨兩個關鍵挑戰(zhàn):(1)物體與人體的接觸發(fā)生在何處?又是如何產生的?(2)如何在人體與物體的動態(tài)運動過程中,保持它們之間交互的合理性?     

為了解決這一問題,南洋理工大學 S-Lab 的研究者們提出了一種全新的方法:AvatarGO。該方法不僅能夠生成流暢的人體 - 物體組合內容,還在有效解決穿模問題方面展現(xiàn)了更強的魯棒性,為以人為核心的 4D 內容創(chuàng)作開辟了全新的前景。      

想深入了解 AvatarGO 的技術細節(jié)?我們已經為你準備好了完整的論文、項目主頁和代碼倉庫!


  • 論文地址:https://arxiv.org/abs/2410.07164
  • Project Page:https://yukangcao.github.io/AvatarGO/
  • GitHub:https://github.com/yukangcao/AvatarGO     

引言    

近年來,隨著人體 - 物體(HOI)交互數(shù)據(jù)集(如 CHAIRS [2], BEHAVE [3])的采集,以及擴散模型和 transformer 技術的迅速發(fā)展,基于文本輸入生成 4D 人體動作和物體交互的技術已經展現(xiàn)出了巨大的潛力。然而,目前的技術大多集中于基于 SMPL 的人體動作生成,但它們難以真實呈現(xiàn)日常生活中人物與物體交互的外觀。盡管 InterDreamer [4] 提出了零樣本生成方法,能夠生成與文本對齊的 4D HOI 動作序列,但其輸出仍然受到 SMPL 模型的局限,無法完全突破這一瓶頸。     

在另一方面,隨著 3D 生成方法和大語言模型(LLM)的快速發(fā)展,基于文本的 3D 組合生成技術逐漸引起了廣泛關注。這些技術能夠深度理解復雜對象之間的關系,并生成包含多個主體的復雜 3D 場景。例如,GraphDreamer [5] 通過 LLM 構建圖結構,其中節(jié)點代表對象,邊表示它們之間的關系,實現(xiàn)了復雜場景的解耦;ComboVerse [6] 則提出空間感知評分蒸餾采樣技術(SSDS),強化了空間的關聯(lián)性。隨后,其他研究 [13, 14] 進一步探索了聯(lián)合優(yōu)化布局以組合不同組件的潛力。但它們在生成 4D HOI 場景時,依然面臨著兩個核心挑戰(zhàn):

  • 觸區(qū)域定義不準確:雖然 LLM 擅長捕捉物體間的關系,但在與擴散模型結合時,如何準確定義物體間的接觸區(qū)域,特別是復雜的關節(jié)結構如人體,仍然是一個難題。盡管 InterFusion [13] 構建了 2D 人體 - 物體交互數(shù)據(jù)集,旨在從文本提示中提取人體姿勢,但它們仍在訓練集之外的情況下,無法準確識別人體與物體的最佳接觸部位。
  • 4D 組合驅動的局限性:盡管 DreamGaussian4D [7] 和 TC4D [8] 利用視頻擴散模型對 3D 靜態(tài)場景進行動作驅動,但這些方法通常將整個場景視為一個統(tǒng)一主體進行優(yōu)化,從而導致不自然的動畫效果。盡管像 Comp4D [9] 這類項目通過軌跡為每個 3D 對象單獨生成動畫,但物體之間的接觸建模仍然是一個巨大挑戰(zhàn)。

為了解決這些挑戰(zhàn),AvatarGO 提出了兩項關鍵創(chuàng)新,以解決物體與人體應 “如何交互” 以及 “在哪里交互” 的問題:

  • LLM 引導的接觸區(qū)域重定向(LLM-guided contact retargeting):該方法通過利用 Lang-SAM [10] 從文本中識別出大致的接觸部位,并將其作為優(yōu)化過程的初始化,從而解決了擴散模型在估計接觸區(qū)域時的難題。
  • 對應關系感知的動作優(yōu)化(Correspondence-aware motion optimization):基于對靜態(tài)合成模型中穿模現(xiàn)象較少發(fā)生的觀察,AvatarGO 提出了對應關系感知的運動優(yōu)化方法。該方法將物體的運動分為主動和從動部分,并利用 SMPL-X 作為中介,確保人體和物體在交互過程中保持一致的對應關系。這一創(chuàng)新顯著提高了在運動過程中對穿模問題的魯棒性。      

AvatarGO: 4D 人體 - 物體生成框架

AvatarGO 以文本提示為輸入,生成具有物體交互的 4D 虛擬人物。其框架核心包括:(1)文本驅動的 3D 人體與物體組合(text-driven 3D human and object composition):該部分利用大型語言模型(LLM)從文本中重定向接觸區(qū)域,并結合空間感知的 SDS(空間感知評分蒸餾采樣)來合成 3D 模型。(2)對應關系感知的動作優(yōu)化(Correspondence-aware motion optimization):該優(yōu)化方法聯(lián)合優(yōu)化人體和物體的動畫,能夠在動畫過程中有效維持空間對應關系,從而提升對穿模問題的魯棒性。     

文本驅動的 3D 人體與物體組合    

現(xiàn)在已有的方法已經可以很快捷高效的生成三維人物和物體,但 AvatarGO 的研究人員發(fā)現(xiàn),即使進行手動調整,如重新縮放和旋轉 3D 物體,仍然難以精確地綁定生成的 3D 人體和物體模型。為此,他們首先利用文本提示將人物和物體進行組合,通過優(yōu)化其高斯屬性來實現(xiàn)這一目標。同時,他們還優(yōu)化了物體的三個可訓練全局參數(shù),包括旋轉旋轉、縮放因子和平移矩陣:     

其中是組成物體的高斯點云。     

空間感知評分蒸餾采樣(spatial-aware score distillation sampling):沿襲 ComboVerse [6] 的方法,我們采用 SSDS 來促進人體和物體之間的 3D 組合生成。具體而言,SSDS 通過用一個常數(shù)因子??(其中??>1)縮放指定標記 < token?>的注意力圖,從而增強 SDS 與人體和物體之間的空間關系。      

在這里,<token?>對應于編碼人體 - 物體交互項的標記,如 <‘holding’>,這些標記可以通過大型語言模型(LLMs)識別,也可以由用戶指定。     

LLM 引導的接觸區(qū)域重定向(LLM-guided contact retargeting):雖然空間感知評分蒸餾采樣有助于理解空間關系,但在識別人與物體最合適的接觸區(qū)域時仍然面臨困難,而接觸區(qū)域卻又是人體 - 物體交互的關鍵組成部分。為了解決這個問題,AvatarGO 提出利用 Lang-SAM [10] 從文本提示中識別接觸區(qū)域。具體而言,從 3D 人體模型出發(fā),AvatarGO 從正面視角渲染該模型生成圖像??。然后,將此圖像與文本輸入一起,輸入到 Lang-SAM 模型中,以推導出 2D 分割掩碼

其中,<body-part>表示描述人體部位的文本,例如 <‘hand’>。     

隨后,他們通過逆向渲染將 2D 分割標簽反投影到 3D 高斯上。具體來說,對于分割圖上的每個像素??,他們將掩模值(0或 1)更新回到高斯點云上: 

其中,表示第??個高斯點的權重,是可以投影到像素 ??上的高斯點的集合。分別表示不透明度、透射率和分割掩碼值。在權重更新后,他們通過將高斯點的權重與預定義的閾值??進行比較,來判斷一個高斯點是否對應于人體部位的分割區(qū)域。然后,AvatarGO 根據(jù)以下公式初始化平移參數(shù):  

其中,,??是人體模型中高斯點的數(shù)量。     

對應關系感知的動作場    

在生成了 3D 人體與物體的組合之后,同步驅動他們帶來了額外的挑戰(zhàn),其主要是由于潛在的穿模問題。這個問題源于物體缺乏一個明確定義的運動場。為此,AvatarGO 通過使用 SMPL-X 的線性混合蒙皮函數(shù)(Linear-blend Skinning)為人體和物體模型建立了運動場,并提出了一種對應關系感知的運動優(yōu)化方法,旨在優(yōu)化物體模型的可訓練全局參數(shù),即旋轉()和平移(),以提高人體與物體之間穿模問題的魯棒性。首先,SMPL-X 的線性混合蒙皮函數(shù)(??????)可表達為:     

其中,分別表示 SMPL-X 在標準空間和觀察空間下的頂點。是蒙皮權重,是仿射變形,可將第??個關節(jié)從標準空間映射到觀察空間,表示鄰近關節(jié)的數(shù)量。     

人體驅動:當給定一個基于 SMPL-X 的人體運動序列之后,AvatarGO 會首先構建一個變形場,該變形場由兩部分組成:(1)利用 SMPL-X 線性混合蒙皮函數(shù)??????(?)的關節(jié)變形,以及(2)基于 HexPlane 特征學習的非剛性運動 [11]。該變形場可以將點從標準空間變形到觀察空間中的:  

其中,表示基于 HexPlane 的特征提取網(wǎng)絡, ??表示時間戳。則通過離最近的標準 SMPL-X 的頂點推導得到。     

物體驅動:與人體驅動類似,AvatarGO 首先將物體定義為剛體,并類似的通過計算物體模型內的每個高斯點??與其最近的標準 SMPL-X 頂點的變形矩陣。物體的變形場則可初步被定義為:     

其中,,中的高斯點總數(shù)。     

盡管直接使用 SMPL-X 線性混合蒙皮進行物體動畫可能看起來是一個簡單的解決方案,但它可能導致人體與物體之間的穿模問題。這一問題主要來自于缺乏適當?shù)募s束來保持這兩個模型之間的對應關系。     

對應關系感知運動優(yōu)化:通過觀察,作者發(fā)現(xiàn) AvatarGO 在處理不同場景下的靜態(tài)合成模型穿模問題時表現(xiàn)出較好的魯棒性。基于這一觀察,作者提出了一種對應關系感知的運動優(yōu)化方法,以保持人體與物體之間的對應關系,從而一定程度上減少穿模問題的出現(xiàn)頻率。具體而言,AvatarGO 將上述運動場進行擴展,加入兩個額外的可訓練參數(shù):      

其中是原有運動場的輸出。     

在通過 SDS 來優(yōu)化這些參數(shù)之外,AvatarGO 提出了一種新穎的對應關系感知訓練目標,該目標利用 SMPL-X 作為中介,在人體和物體被驅動轉換到新姿勢時,保持它們之間的對應關系:     

其中,分別基于及其對應的 SMPL-X 模型得出。     除了應用 AvatarGO 提出的對應關系感知優(yōu)化方法之外,作者還結合了空間感知 SDS 以及來自 HumanGaussian [12] 的紋理 - 結構聯(lián)合 SDS,以增強整體質量:  

其中,是超參數(shù),用于平衡結構損失和紋理損失的影響,而??表示深度信息。     

整體上,優(yōu)化人物和物體運動場的損失函數(shù)可表達為:

其中,分別表示用于平衡各自損失的權重。     

實驗    

與其他 3D 生成方法的比較:下方視頻對比了 AvatarGO 與 HumanGaussian [12]、GraphDreamer [5]、和 AvatarGO 的一個變種(僅通過 SSDS 優(yōu)化人體和物體之間的關系)。結果表明,1)在沒有大語言模型(LLMs)輔助的情況下,HumanGaussian 難以確定人類與物體之間的空間關聯(lián);2)盡管使用圖結構建立關系,GraphDreamer 仍然在處理有效接觸時存在困惑,導致結果不盡如人意;3)僅通過 SSDS 優(yōu)化不足以將物體移動到正確的位置。相比之下,AvatarGO 始終能夠精確地實現(xiàn)人類與物體的交互,表現(xiàn)優(yōu)于其他方法。 

與其他 4D 生成方法的比較:下方視頻展示了 AvatarGO 與現(xiàn)有 4D 生成方法(包括 DreamGaussian4D [7],HumanGaussian [12],TC4D [8])的對比。結果表明,1)即使有了人體 - 物體交互圖像作為輸入,DreamGaussian4D(采用視頻擴散模型)在 4D 驅動時仍然面臨困難;2)HumanGaussian 直接通過 SMPL LBS 函數(shù)直接進行的動畫,往往會產生不流暢的效果,特別是對手臂的處理;3)TC4D 面臨與 DreamGaussian4D 類似的問題,同時,它將整個場景視為一個整體,缺乏對單個物體的局部和大規(guī)模運動的處理。相比之下,AvatarGO 能夠持續(xù)提供優(yōu)越的結果,確保正確的關系并具有更好的穿模魯棒性。 

總結    

本文介紹了 AvatarGO,這是首次嘗試基于文本引導生成具有物體交互的 4D 虛擬形象。在 AvatarGO 中,作者提出了利用大語言模型來理解人類與物體之間最合適的接觸區(qū)域。同時,作者還提出了一種新穎的對應關系感知運動優(yōu)化方法,利用 SMPL-X 作為中介,增強了模型在將 3D 人體和物體驅動到新姿勢時,抵抗穿模問題的能力。通過大量的評估實驗,結果表明 AvatarGO 在多個 3D 人體 - 物體對和不同姿勢下,成功實現(xiàn)了高保真度的 4D 動畫,并顯著超越了當前的最先進技術。     

局限性:在為以人為中心的 4D 內容生成開辟新途徑的同時,作者同時也認識到 AvatarGO 存在一定的局限性:     

1. AvatarGO 的流程基于 “物體是剛性體” 的假設,因此不適用于為非剛性內容(如旗幟)生成動畫;      

2. AvatarGO 的方法假設物體與人體之間持續(xù)接觸,這使得像 “運籃球” 這樣的任務難以處理,因為在某些時刻人與物體不可避免地會斷開連接。   

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-11 13:13:28

2023-02-20 14:56:14

圖像

2010-09-09 14:56:45

信息化建設郵件安全263企業(yè)郵箱

2025-04-09 13:16:26

2016-07-15 16:59:42

江西云平臺

2023-05-11 11:53:35

模型評測

2023-10-15 12:57:38

數(shù)據(jù)訓練

2013-07-24 15:35:30

思杰

2023-07-22 13:30:02

模型視覺

2025-04-07 08:35:00

3DAI生成

2025-02-21 09:35:00

3DAI生成

2021-09-23 10:26:36

人臉識別人工智能數(shù)據(jù)

2023-10-29 22:25:23

模型AI

2023-06-12 15:34:08

工具圖片

2015-12-14 10:31:45

安全信息系統(tǒng)Tor網(wǎng)絡

2024-12-19 14:30:00

訓練模型研究

2023-09-04 12:59:03

AI數(shù)據(jù)

2025-03-10 07:00:00

模型數(shù)據(jù)訓練

2024-01-26 10:19:00

AI模型
點贊
收藏

51CTO技術棧公眾號