自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「人與場景交互生成」新突破!天大、清華發(fā)布Narrator:文本驅動,自然可控|ICCV 2023

人工智能
Narrator可以從文本描述中自然可控地生成人與場景交互,適用于各類情況:由空間關系指導的交互、由多動作指導的交互、多人場景交互,以及上述類型的自由組合。

自然可控的人與場景交互(Human Scene Interaction, HSI)生成在虛擬現(xiàn)實/增強現(xiàn)實(VR/AR)內容創(chuàng)作和以人為中心的人工智能等多個領域發(fā)揮著重要作用。

然而,現(xiàn)有方法的可控能力有限、交互種類有限、生成結果不自然,嚴重限制了其在現(xiàn)實中的應用場景。

針對這一問題,天津大學團隊聯(lián)合清華大學在ICCV 2023的工作中提出Narrator,將重點放在一項具有挑戰(zhàn)性的任務上,即從文本描述中自然可控地生成逼真且多樣的人與場景交互。

圖片圖片

項目主頁:http://cic.tju.edu.cn/faculty/likun/projects/Narrator

代碼:https://github.com/HaibiaoXuan/Narrator

從人類認知角度來看,理想的生成模型應能正確推理空間關系并探索交互的自由度。

因此,作者提出了一個基于關系推理的生成模型,通過場景圖分別對場景和描述中的空間關系進行建模,并引入一種將交互動作表示為原子身體部位狀態(tài)的部位級交互機制。

特別是,受益于關系推理,作者進一步提出了一種簡單但有效的多人生成策略,這是當時對可控的多人場景交互生成的首次探索。

最后,作者進行了大量實驗和用戶調研,證明了Narrator能夠可控地生成多樣化的交互,其效果明顯優(yōu)于現(xiàn)有工作。

方法動機

現(xiàn)有的人與場景交互生成方法大多關注在交互的物理幾何關系,但缺乏對生成的語義控制,也局限于單人生成。

因此,作者著眼于一項具有挑戰(zhàn)性的任務,即從自然語言描述中可控生成真實且多樣的人與場景交互。作者觀察到人類通常會通過空間感知和動作識別來自然描述在不同地點進行各種互動的人。

圖片圖片

圖1 Narrator可以自然可控地生成語義一致且物理合理的人與場景交互,適用于以下各種情況:(a)由空間關系引導的交互,(b)由多動作引導的交互,(c)多人場景交互,以及(d)結合上述交互類型的人與場景交互。

具體來說,空間關系可以表示為場景或局部區(qū)域中不同物體之間的相互關系,而交互動作則由原子身體部位狀態(tài)指定,如人的腳踩地、軀干靠著、右手輕拍和低著頭等。

以此為出發(fā)點,作者采用場景圖來表示空間關系,提出了聯(lián)合全局和局部場景圖 (Joint Global and Local Scene Graph, JGLSG) 機制,為隨后的生成提供了全局位置感知。

同時,考慮到身體部位狀態(tài)是模擬符合文本的逼真交互的關鍵,作者引入了部位級動作(Part-Level Action, PLA)機制來建立人體部位與動作之間的對應關系。

受益于有效的觀察認知以及所提出的關系推理的靈活性和復用性,作者進一步提出一種簡單而有效的多人生成策略,這是當時第一個自然可控且用戶友好的多人場景交互(Multi-Human Scene Interaction, MHSI)生成方案。

方法思路

Narrator框架總覽

Narrator的目的是自然可控地生成人與場景交互,這種交互在語義上與文本描述一致且在物理上與三維場景匹配。

圖片圖片

圖2 Narrator框架總覽

如圖2所示,該方法采用基于Transformer的條件變分自編碼器 (cVAE),主要包括:

1)與孤立考慮場景或物體的現(xiàn)有研究相比,設計了一種聯(lián)合全局和局部場景圖機制,來推理復雜空間關系和實現(xiàn)全局定位感知;

2)針對人們會同時通過不同的身體部位完成交互動作的觀察,引入了部件級動作機制,以實現(xiàn)逼真和多樣化的交互;

3)在場景感知優(yōu)化過程中額外引入了交互二分面損失,以便獲得更好的生成結果;

4)進一步擴展到多人交互生成,并最終促進了多人場景交互的第一步。

聯(lián)合全局和局部場景圖機制

空間關系的推理可以為模型提供特定場景的線索,對于實現(xiàn)人與場景交互的自然可控性具有重要作用。

因此,作者設計了一種全局和局部場景圖聯(lián)合機制,通過以下三個步驟來實現(xiàn):

1. 全局場景圖生成:給定場景,用預訓練好的場景圖模型生成全局場景圖,即圖片 ,其中圖片,圖片是帶有類別標簽的對象,圖片圖片圖片之間的關系,n是物體數量,m是關系數量;

2. 局部場景圖生成:采用語義解析工具來識別描述的句式結構并提取生成局部場景圖片,其中圖片定義了主語-謂語-對象的三元組;

3. 場景圖匹配:模型根據相同的對象語義標簽將全局與局部場景圖中的節(jié)點對應起來,并通過擴展邊關系來自動增加一個虛擬人節(jié)點以提供位置信息。

部件級動作(PLA)機制

場景中人的交互是由原子身體部位狀態(tài)組成的,因此作者提出了一種細粒度部位級動作機制,使得模型能從給定交互中注意重要部位而忽略無關部位。

具體來說,作者探索了豐富且多樣的交互動作,并將這些可能的動作對應到人體的五個主要部位:頭部、軀干、左/右臂、左/右手和左/右下半身。

同時,分別使用獨熱編碼(One-Hot)代表這些動作和身體部位,并根據對應關系將它們連接起來以便后續(xù)編碼。

對于多動作的交互生成,作者采用注意力機制來學習身體結構的不同部位狀態(tài)。

在給定的交互動作組合中,每個動作對應的身體部位與所有其他動作之間的注意力都會被自動屏蔽。

以「一個人使用柜子蹲在地上」為例,蹲下對應的是下半身狀態(tài),因此其他部位標記的注意力將被屏蔽為零。

場景感知優(yōu)化

作者利用幾何和物理約束進行場景感知優(yōu)化,以改善生成結果。在整個優(yōu)化過程中,該方法確保生成的姿勢不會出現(xiàn)偏差,同時鼓勵與場景接觸,并約束身體以避免與場景相互穿透。

給定三維場景S和生成的SMPL-X參數后,優(yōu)化損失為:

圖片

其中,圖片鼓勵身體頂點與場景接觸;圖片是基于符號距離的碰撞項;圖片是相比現(xiàn)有工作額外引入的交互二分面(IBS)損失,其為取樣于場景和人體之間的等距點集合;圖片是一個正則因子,用于懲罰偏離初始化的參數。

多人場景交互(MHSI)

在現(xiàn)實世界的場景中,很多情況下并非只有一個人與場景交互,而是多人以獨立或關聯(lián)的方式進行交互。

然而,由于缺乏MHSI數據集,現(xiàn)有方法通常需要額外的人工努力,無法以可控和自動的方式處理這項任務。

為此,作者僅利用現(xiàn)有的單人數據集,為多人生成方向提出了一種簡單而有效的策略。

給定多人相關的文本描述后,作者首先將其解析為多個局部場景圖圖片和交互動作圖片,并定義候選集為圖片,其中l(wèi)為人數。

對于候選集中的每一項,首先將其與場景圖片和對應全局場景圖圖片一起輸入Narrator,然后執(zhí)行優(yōu)化過程。

為了處理人與人之間的碰撞,在優(yōu)化過程中額外引入了損失圖片,其中圖片為人與人符號距離。

然后,當優(yōu)化損失低于根據實驗經驗確定的閾值時,接受這一生成結果,同時通過添加人類節(jié)點更新圖片;否則認為生成結果不可信,并通過屏蔽對應的物體節(jié)點來更新圖片。

值得注意的是,這種更新方式建立了每一代結果與前一代結果之間的關系,避免了一定程度的擁擠,并且與簡單的多次生成相比空間分布更合理和交互更逼真。

以上過程可以表述為:

圖片

實驗結果

由于目前現(xiàn)存的方法無法直接從文本描述中自然可控地生成人與場景交互,作者將PiGraph [1]、POSA [2]、COINS [3] 合理擴展為適用于文本描述的方式,并使用相同的數據集訓練它們的官方模型,修改后的方法定義為PiGraph-Text、POSA-Text和COINS-Text。

圖片圖片

圖3 不同方法的定性對比結果

圖3展示了Narrator與三種基線的定性比較結果。PiGraph-Text由于其自身表現(xiàn)形式的限制,存在更嚴重的穿透問題。

POSA-Text在優(yōu)化過程中往往會陷入局部最小值,從而產生不良的交互接觸。COINS-Text將動作綁定到特定物體上,缺乏對場景的全局感知,從而導致與未指定物體的穿透,并且難以處理復雜的空間關系。

相比之下,Narrator可以根據不同層次的文字描述,正確推理空間關系,剖析多動作下的身體狀態(tài),從而獲得更好的生成效果。

在定量比較方面,如表1所示,Narrator在五個指標上均優(yōu)于其他方法,顯示出該方法生成的結果具有更準確的文本一致性和更優(yōu)秀的物理合理性。

表1 不同方法的定量對比結果表1 不同方法的定量對比結果

除此之外,作者也提供了詳細的比較與分析來更好了解所提出的MHSI策略的有效性。

考慮到目前還沒有針對MHSI的工作,他們選擇了一種直接的方法作為基線,即與用COINS按順序生成和優(yōu)化的方法。

為了進行公平比較,同樣為其引入了人為碰撞損失。圖4和表2分別展示了定性和定量結果,都有力證明了作者所提出的策略在MHSI上語義一致和物理合理的優(yōu)勢。 

圖4 與用 COINS 按順序生成和優(yōu)化的方法進行的MHSI定性比較圖4 與用 COINS 按順序生成和優(yōu)化的方法進行的MHSI定性比較

表2 與用 COINS 按順序生成和優(yōu)化的方法進行的MHSI定量比較

作者簡介

宣海彪,天津大學21級碩士研究生

主要研究方向:三維視覺、計算機視覺、人與場景交互生成

李雄政,天津大學19級博士研究生

主要研究方向:三維視覺、計算機視覺、人體與衣物重建

張勁松,天津大學21級博士研究生

主要研究方向:三維視覺、計算機視覺、圖像生成

張鴻文,清華大學博士后

主要研究方向:以人為中心的計算機視覺和圖形學

劉燁斌,清華大學教授

主要研究方向:計算機圖形學,三維視覺與計算攝像

個人主頁:https://liuyebin.com/

李坤(通訊作者),天津大學教授、博導

主要研究方向:三維視覺、智能重建與生成

個人主頁:http://cic.tju.edu.cn/faculty/likun

參考資料:

[1] Savva M, Chang A X, Hanrahan P, et al. Pigraphs: learning interaction snapshots from observations[J]. ACM Transactions on Graphics (TOG), 2016, 35(4): 1-12. 

[2] Hassan M, Ghosh P, Tesch J, et al. Populating 3D scenes by learning human-scene interaction[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14708-14718. 

[3] Zhao K, Wang S, Zhang Y, et al. Compositional human-scene interaction synthesis with semantic control[C]. European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 311-327.

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-09-21 12:33:31

3DAI

2025-02-24 10:20:00

模型訓練數據

2024-12-12 11:58:29

模型YOLO跨層

2024-09-30 09:04:20

2024-02-26 13:51:00

框架Talk2Drive云端

2024-10-12 14:10:00

智能應用

2024-01-10 17:25:00

AI數據

2025-03-11 03:00:02

MoCap數據運動

2018-03-23 08:36:47

微軟數據機器人

2023-08-07 13:46:52

模型訓練

2019-04-28 13:28:25

Siri自然語言交互工具

2023-03-20 15:31:46

AI模型

2024-08-14 16:30:00

3D AIGC

2023-11-24 12:10:43

AI模型

2010-05-19 15:23:51

Linux 2.6.3Ceph分布式文件系統(tǒng)

2020-03-27 11:17:58

AI 數據人工智能

2020-08-13 10:00:56

AI 數據人工智能

2011-03-23 16:00:43

紅帽企業(yè)級LinuxRHEL 6

2023-09-11 12:04:20

2025-04-09 13:25:34

點贊
收藏

51CTO技術棧公眾號