自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛團(tuán)隊統(tǒng)一動作與語言,新的多模態(tài)模型不僅超懂指令,還能讀懂隱含情緒

人工智能 新聞
近日,斯坦福大學(xué)李飛飛、Gordon Wetzstein 和 Ehsan Adeli 領(lǐng)導(dǎo)的一個團(tuán)隊也在這方面做出了貢獻(xiàn),探索了語音 - 文本 - 動作生成任務(wù)。

人類的溝通交流充滿了多模態(tài)的信息。為了與他人進(jìn)行有效溝通,我們既使用言語語言,也使用身體語言,比如手勢、面部表情、身體姿勢和情緒表達(dá)。因此,為了理解和生成人類動作,理解這些多模態(tài)的行為至關(guān)重要,而且這一研究方向最近受到的關(guān)注也越來越多。

而多模態(tài)語言模型看起來頗具潛力,可將多種模態(tài)的不同任務(wù)統(tǒng)一在一個框架下。

近日,斯坦福大學(xué)李飛飛、Gordon Wetzstein 和 Ehsan Adeli  領(lǐng)導(dǎo)的一個團(tuán)隊也在這方面做出了貢獻(xiàn),探索了語音 - 文本 - 動作生成任務(wù)。并且他們還提出了一個全新的多模態(tài)語言模型,可以實現(xiàn)富有表現(xiàn)力的動作生成和理解。

這個模型可以同時接受音頻和文本輸入來生成動作。比如你指定這個人下半身的動作是繞圈走,并根據(jù)語音生成上半身動作,它就會配合你生成對應(yīng)的動作。

更重要的是,它支持動作編輯,可以將原本的繞圈走動更換為其他動作序列(如后退、跳躍、前跑、后跑等)。更換了動作指令,模型生成的動作依然自然流暢,并與語音內(nèi)容保持良好的協(xié)調(diào)性。

很顯然,這項研究對于李飛飛的長遠(yuǎn)「空間智能」目標(biāo)大有裨益。這項研究有三位共同一作:Changan Chen(陳昌安)、Juze Zhang 和 Shrinidhi K. Lakshmikanth。

圖片


  • 論文標(biāo)題:The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
  • 論文地址:https://arxiv.org/abs/2412.10523v1
  • 項目頁面:https://languageofmotion.github.io/

論文概覽

首先,該團(tuán)隊指出,為了統(tǒng)一人類動作的言語和非言語語言,語言模型是至關(guān)重要的。他們給出了三點原因:

  • 語言模型能自然地與其它模態(tài)連接起來;
  • 語音富含語義,而「建模因笑話而發(fā)出的笑聲」這樣的任務(wù)需要強(qiáng)大的語義推理能力;
  • 經(jīng)過大量預(yù)訓(xùn)練之后,語言模型能夠具備強(qiáng)大的語義理解能力。

基于這樣的理解,該團(tuán)隊打造出了一種全新的多模態(tài)語言模型,如圖 1 所示。

圖片

為了使用語言模型來建模動作,首先自然要想辦法將動作變成 token。該團(tuán)隊的做法是針對不同的身體部位(臉、手、上身、下身)來實現(xiàn)動作的 token 化。事實上,之前已有研究表明,這種劃分策略在建模人臉表情方面確實很有效。

之后,再搭配上現(xiàn)成可用的文本和語音 token 化策略,就可以將任何模態(tài)的輸入都表示成 token 了。

為了訓(xùn)練這個使用多種模態(tài)的 token 的語言模型,該團(tuán)隊設(shè)計了一個兩階段式訓(xùn)練流程:

  • 首先,進(jìn)行預(yù)訓(xùn)練,目標(biāo)是通過身體組合動作對齊與音頻 - 文本對齊來對齊各種不同的模態(tài)。
  • 預(yù)訓(xùn)練完成后,將下游任務(wù)編譯成指令,并根據(jù)這些指令訓(xùn)練模型,使模型能夠遵循各種任務(wù)指令。

該團(tuán)隊自然也進(jìn)行了實驗驗證,結(jié)果發(fā)現(xiàn)新方法得到的多模態(tài)語言模型確實比其它 SOTA 模型更優(yōu)。不僅如此,他們還發(fā)現(xiàn),在嚴(yán)重缺乏數(shù)據(jù)的情況下,這種預(yù)訓(xùn)練策略的優(yōu)勢更為明顯。

與其他伴語手勢生成模型的效果對比

與其他文生動作模型的效果對比

盡管該模型在預(yù)訓(xùn)練期間從未見過語音 - 動作數(shù)據(jù),但在用于數(shù)據(jù)相對較少的全新說話人時,它依然達(dá)到了頗具競爭力的性能,表現(xiàn)出了顯著的泛化能力。

該團(tuán)隊表示:「就我們所知,這是首個構(gòu)建多模態(tài)語言模型來統(tǒng)一 3D 人體動作的言語和非語言語言的工作?!?/span>

用于動作生成和理解的多模態(tài)語言模型

模型的整體結(jié)構(gòu)如下圖 2 所示。

圖片

作者使用針對特定模態(tài)的 tokenizer 來處理各種輸入模態(tài)。具體來說,他們訓(xùn)練了一個組合式的身體動作 VQ-VAE,將面部、手部、上半身和下半身的動作 token 化為離散的 token,并將這些針對特定模態(tài)的詞匯表(音頻和文本)合并成一個統(tǒng)一的多模態(tài)詞匯表。

在訓(xùn)練過程中,他們使用來自不同模態(tài)的混合 token 作為輸入,并通過編碼器 - 解碼器語言模型生成輸出?;旌?token 被送入 transformer 編碼器,而解碼器則在每一步以自回歸的方式預(yù)測下一個 token 的概率分布。

模態(tài)對齊預(yù)訓(xùn)練

現(xiàn)有的動作生成模型在針對下游任務(wù)訓(xùn)練時嚴(yán)重依賴成對數(shù)據(jù)。然而,收集高質(zhì)量的成對動作數(shù)據(jù)既昂貴又耗時。與此同時,還有大量未配對的每種模態(tài)的數(shù)據(jù)可供探索。受此啟發(fā),作者引入了一個生成式預(yù)訓(xùn)練策略,如圖 3 所示。具體來說,他們在預(yù)訓(xùn)練階段實施了兩種類型的模態(tài)對齊:組合動作對齊和音頻 - 文本對齊。

圖片

1、組合動作對齊

我們的身體動作本質(zhì)上是組合性的,即不同的身體部位是相互協(xié)調(diào)動作的。例如,當(dāng)我們高興時,我們的面部會展現(xiàn)出微笑,我們的手勢也傾向于變得更加積極。不同身體部位動作之間的相關(guān)性是普遍的,超越了文化界限。這種共享的先驗知識構(gòu)成了論文所提方法的基礎(chǔ)。為了探索這種對應(yīng)關(guān)系,作者考慮了兩種類型的動作對齊任務(wù):空間和時間。

  • 空間

為了建模這些不同身體部位之間的相關(guān)性,作者訓(xùn)練模型接收隨機(jī)選擇的身體部位組合(例如,上半身或上半身 + 面部)并預(yù)測另一個隨機(jī)選擇的其他身體部位組合(例如,下半身或下半身 + 手部)。這有助于模型學(xué)習(xí)身體部位之間的空間關(guān)系。下面是一個定義任務(wù)提示、條件和答案的示例模板。模型接收提示和條件作為輸入,并按預(yù)期輸出答案。

圖片

  • 時間

預(yù)測動作如何隨時間變化也是一個重要的自監(jiān)督任務(wù),它使模型能夠捕捉動作的時間演變。作者通過隨機(jī)遮蓋(mask)某些動作幀來建模這一點,以幫助模型學(xué)習(xí)動作的時間先驗。

圖片

2、音頻 - 文本對齊

除了動作模態(tài),作者還設(shè)計了音頻和文本模態(tài)之間的翻譯任務(wù),以利用大量可用的數(shù)據(jù)。這些任務(wù)遵循「從模態(tài) X 預(yù)測模態(tài) Y」的格式。例如,「從音頻預(yù)測文本」應(yīng)該通過將音頻嵌入映射到預(yù)訓(xùn)練良好的文本嵌入空間,來幫助模型提升「從音頻預(yù)測動作」方面的性能。

指令遵循后訓(xùn)練

預(yù)訓(xùn)練之后,模型獲得了對動作模態(tài)詞匯中潛在的語法和句法的理解,以及音頻和文本模態(tài)之間的良好對齊。然后他們使用成對數(shù)據(jù)在下游任務(wù)上對模型進(jìn)行微調(diào),例如伴語手勢(co-speech gesture)生成或文本到動作生成。為了使模型在遵循自然人類指令的同時執(zhí)行所需的下游任務(wù),作者構(gòu)建了一個多任務(wù)指令跟隨模板,將幾個關(guān)鍵任務(wù)(如音頻到動作、文本到動作和情感到動作)格式化為指令。

具體來說,對于每個任務(wù),他們編寫了數(shù)十種不同的指令模板,結(jié)果產(chǎn)生了超過一千個不同的任務(wù),每個任務(wù)都有其獨特的指令提示。下面展示了一個指令模板示例。

圖片

圖片

實驗結(jié)果

伴語手勢生成

該團(tuán)隊在 BEATv2 數(shù)據(jù)集上評估模型的音頻到動作生成能力。他們使用了 BEATv2 和 Librispeech 兩個數(shù)據(jù)集(總共包含 1000 小時音頻 - 文本數(shù)據(jù)和 60 小時動作數(shù)據(jù))來訓(xùn)練模型(在預(yù)訓(xùn)練中,他們確保模型不會看到任何音頻到動作的數(shù)據(jù)),并在特定說話者的數(shù)據(jù)上進(jìn)行測試。他們通過三個指標(biāo)來評估模型效果:手勢的真實性(FGD)、與語音的同步性(BC)以及動作的多樣性(Diversity),以全面衡量模型的表現(xiàn)。

實驗結(jié)果顯示,該模型在所有指標(biāo)上均優(yōu)于現(xiàn)有方法。得益于預(yù)訓(xùn)練語言模型的語義理解能力,無需額外特征輔助即可達(dá)到良好效果。實驗證明,語言預(yù)訓(xùn)練和多模態(tài)預(yù)訓(xùn)練對模型性能至關(guān)重要,移除任一環(huán)節(jié)都會導(dǎo)致性能顯著下降。圖 4 展示的定性結(jié)果表明,模型能生成與語音同步的自然手勢動作。

圖片

生成式預(yù)訓(xùn)練的效果

由于為說話者收集動作數(shù)據(jù)既耗時又依賴專業(yè)設(shè)備,研究團(tuán)隊首先驗證了各個預(yù)訓(xùn)練任務(wù)的重要性,然后探究生成式預(yù)訓(xùn)練能否提升模型在新說話者上的泛化能力,從而減少所需的訓(xùn)練數(shù)據(jù)量。

為此,他們分別移除了音頻 - 文本對齊任務(wù) (w/o A2T)、空間身體動作對齊任務(wù) (w/o spatial)、時序身體動作對齊任務(wù) (w/o temporal) 以及整體身體對齊任務(wù) (w/o motion)。

表 1 展示了實驗結(jié)果。(w/o A2T) 降低了模型性能,說明音頻與文本嵌入空間的對齊有助于語義理解和手勢生成任務(wù)。移除空間動作預(yù)測、時序動作預(yù)測或同時移除兩者都會損害模型的性能。這表明在預(yù)訓(xùn)練階段,學(xué)習(xí)時空動作先驗對下游任務(wù)很重要。

圖片

基于這些發(fā)現(xiàn),該團(tuán)隊假設(shè)預(yù)訓(xùn)練策略可以捕獲強(qiáng)大的多模態(tài)關(guān)聯(lián)和動作先驗,從而減少下游任務(wù)對配對數(shù)據(jù)的依賴。

為驗證這一假設(shè),研究團(tuán)隊遵循上一節(jié)中的設(shè)置,在預(yù)訓(xùn)練階段限制模型可用的訓(xùn)練數(shù)據(jù)量。值得注意的是,在模型的預(yù)訓(xùn)練階段,研究團(tuán)隊沒有使用任何音頻和對應(yīng)動作的配對數(shù)據(jù)(即音頻 - 動作對)來訓(xùn)練模型。研究團(tuán)隊將數(shù)據(jù)量設(shè)為 1/2^n (n∈[1...5]),并在每種設(shè)置下訓(xùn)練完整模型、無預(yù)訓(xùn)練模型和 EMAGE 基線直至收斂,并在相同測試集上評估。

實驗結(jié)果如圖 5 所示。僅使用 1/32 的配對訓(xùn)練數(shù)據(jù),該團(tuán)隊的完整模型相比無預(yù)訓(xùn)練模型,F(xiàn)GD 分?jǐn)?shù)更低。隨著配對微調(diào)數(shù)據(jù)量增加,性能差距雖有所減小,但完整模型始終優(yōu)于無預(yù)訓(xùn)練模型和 EMAGE 基線。這證明了預(yù)訓(xùn)練的價值以及模型在極度缺乏數(shù)據(jù)時的出色泛化能力。

圖片

統(tǒng)一音頻和文本的可編輯動作生成

這個模型可以同時接受音頻和文本輸入來生成動作。首先,在 BEATv2 和 AMASS 兩個動作數(shù)據(jù)集上訓(xùn)練動作分詞器。預(yù)訓(xùn)練和后訓(xùn)練階段分別采用統(tǒng)一的任務(wù)設(shè)置,后訓(xùn)練階段整合了音頻到動作和文本到動作的指令,文本部分使用 HumanML3D 的標(biāo)注數(shù)據(jù)。

這種雙重輸入的設(shè)計讓模型具備了可編輯動作生成的能力。模型可以根據(jù)語音內(nèi)容和文本指令生成全身動作,比如生成一個邊走邊說話的人物動作。研究團(tuán)隊還實現(xiàn)了分別控制不同身體部位的動作,并能將它們自然地組合在一起。這項技術(shù)對游戲和 VR 等應(yīng)用有重要價值。圖 6 展示了幾個實際 demo,說明模型能夠準(zhǔn)確響應(yīng)音頻和文本的雙重指令。

圖片

根據(jù)動作預(yù)測情緒

憑借靈活的輸入 / 輸出模態(tài),這種新的多模態(tài)語言模型還在一些新任務(wù)上展現(xiàn)出了出色的能力,比如不同身體部位或模態(tài)之間的轉(zhuǎn)譯。

該團(tuán)隊提出了一個新任務(wù)來考驗這個新模型:根據(jù)動作預(yù)測情緒,也就是閱讀人的肢體語言。

為此,他們提取了 BEATv2 的情緒標(biāo)簽(中性、憤怒、快樂、恐懼、厭惡、悲傷、輕蔑和驚訝),并將其轉(zhuǎn)換為了訓(xùn)練指令。結(jié)果見表 3。

圖片

在這項任務(wù)上,MotionGPT 完全失敗,其表現(xiàn)與隨機(jī)亂猜差不多,因為它的訓(xùn)練目標(biāo)就只是描述一般動作,而不是細(xì)微的手勢動作和肢體語言。新模型的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于隨機(jī)和 MotionGPT,這表明其能夠根據(jù)動作預(yù)測情緒。以下動圖展示了一個示例。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2018-10-20 15:20:10

2025-02-10 07:10:00

多模態(tài)embeddingsAI

2024-12-23 12:37:34

2025-04-10 09:10:00

模型AI評測

2023-10-07 09:29:09

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2023-06-06 14:09:32

模型開源

2024-11-22 08:22:58

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語言

2025-02-08 09:30:00

2023-09-19 13:48:02

2025-04-07 00:00:00

多模態(tài)大模型

2017-06-22 09:30:40

深度學(xué)習(xí)機(jī)器閱讀數(shù)據(jù)集

2020-04-07 15:22:56

李飛飛AI人工智能

2024-05-17 16:02:00

2022-07-26 00:00:03

語言模型人工智能

2024-09-03 14:30:00

機(jī)器人模型

2025-01-08 08:21:16

2024-07-23 10:34:57

2024-10-22 18:42:58

點贊
收藏

51CTO技術(shù)棧公眾號