自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI預(yù)判了你的預(yù)判！人大高瓴團隊發(fā)布TTR，教會AI一眼看穿你的下一步

作者：機器之心 2025-03-20 10:03:44

人工智能新聞

來自人大高瓴的研究團隊提出了一種新的框架 ——Think-Then-React (TTR)，采用預(yù)訓(xùn)練大語言模型（LLM）+ 運動編碼器的策略，使模型能夠先「思考」輸入動作的意義，再推理出適合的反應(yīng)，最后生成連貫的反應(yīng)動作。

本文作者均來自中國人民大學(xué)高瓴人工智能學(xué)院。其中，第一作者譚文輝是人大高瓴博士生（導(dǎo)師：宋睿華長聘副教授），他的研究興趣主要在多模態(tài)與具身智能。本文通訊作者為宋睿華長聘副教授，她的團隊 AIMind 主要研究方向為多模態(tài)感知、生成與交互。

對面有個人向你緩緩抬起手，你會怎么回應(yīng)呢？握手，還是揮手致意？

在生活中，我們每天都在和別人互動，但這些互動很多時候都不太確定，很難直接猜到對方動作意圖，以及應(yīng)該作何反應(yīng)。

為此，來自人大高瓴的研究團隊提出了一種新的框架 ——Think-Then-React (TTR)，采用預(yù)訓(xùn)練大語言模型（LLM）+ 運動編碼器的策略，使模型能夠先「思考」輸入動作的意義，再推理出適合的反應(yīng)，最后生成連貫的反應(yīng)動作。該論文已被 ICLR 2025 接收。

論文標(biāo)題：Think-Then-React: Towards Unconstrained Human Action-to-Reaction Generation
論文鏈接：https://openreview.net/pdf?id=UxzKcIZedp
項目鏈接：Think-Then-React.github.io

圖1 ：Think-Then-React (TTR) 模型總覽圖。TTR 通過動作編碼器將人類動作編碼為大語言模型可讀的標(biāo)記，進而在預(yù)測人類反應(yīng)過程中使用大語言模型識別動作，推理出合適的反應(yīng)動作。推理過程中，模型不間斷地進行重新思考，以避免動作的錯誤識別以及累計誤差。

方法

統(tǒng)一運動編碼器

TTR 方法的第一步是通過統(tǒng)一運動編碼器處理輸入的動作數(shù)據(jù)。過去的工作通常將人類動作起始姿態(tài)在空間上規(guī)范化至坐標(biāo)軸原點，以保證編碼器的高效利用。然而這種方式忽略了人類交互場景中的相對位置關(guān)系。

為此，作者團隊提出解耦空間 - 位姿編碼，將人類動作的全局信息（空間中的位置與身體朝向）與局部信息（運動位姿）分別編碼并組合使用，同時保證了編碼系統(tǒng)的高效利用與交互過程中兩人相對位置信息保留。

圖2 ：空間 - 位姿解耦編碼器與傳統(tǒng)編碼器架構(gòu)對比。

運動 - 文本聯(lián)合預(yù)訓(xùn)練

為了提升模型對運動數(shù)據(jù)和語言的理解能力，作者設(shè)計了一系列運動與文本相關(guān)的預(yù)訓(xùn)練任務(wù)。這些任務(wù)的目標(biāo)是讓大語言模型能夠同時處理文本和運動數(shù)據(jù)，從而在多模態(tài)的環(huán)境中進行知識遷移和任務(wù)執(zhí)行。

在這個階段，模型通過將運動數(shù)據(jù)與文本數(shù)據(jù)結(jié)合，學(xué)習(xí)到兩者之間的對應(yīng)關(guān)系，以便在后續(xù)的反應(yīng)生成過程中能夠更好地理解和生成與動作相關(guān)的反應(yīng)。

圖3 ：TTR 預(yù)訓(xùn)練與微調(diào)階段任務(wù)示意圖。

思考 - 反應(yīng)生成（Thinking-Reacting）

TTR 方法的核心是分階段生成反應(yīng)動作。具體來說，模型首先進入「思考」階段（Think），在此階段中，模型理解輸入動作的含義，并判斷出什么樣的反應(yīng)是合適的。

接下來，進入「反應(yīng)」階段（React），模型根據(jù)思考結(jié)果生成與輸入動作相關(guān)的反應(yīng)動作。這一過程類似于人類的決策和行動流程，在某種程度上模擬了人類對外界刺激的反應(yīng)機制。

實驗

反應(yīng)動作生成質(zhì)量測評

TTR 在不同的任務(wù)上，包括 R-Precision、分類準(zhǔn)確率（Acc.）、Frechet Inception Distance (FID)、多模態(tài)距離（MMDist.）等方面，均取得了優(yōu)異的性能。

TTR 的 FID 僅為 1.942，相較于次優(yōu)方法 ReGenNet (3.988) 顯著降低。此外，在 R-Precision 和分類準(zhǔn)確率方面，TTR 也取得了更高的分?jǐn)?shù)，表明其生成的反應(yīng)動作更加符合輸入動作的語義。

同樣，在對比 TTR 與 ReGenNet 的用戶研究中，受試者更偏好 TTR 生成的動作，特別是在較長時間序列的場景中，TTR 以 76.2% 的勝率勝出。

圖4 ：TTR 思考與預(yù)測反應(yīng)（綠色）可視化樣例。在樣例 (a) 至 (c) 中，TTR 思考過程正確識別并推理出了相應(yīng)動作，進而預(yù)測了正確的反應(yīng)。在樣例 (d) 中，TTR 錯誤地將對方動作（藍色）識別為「摔跤」（正確動作為「擁抱」），預(yù)測了錯誤的反應(yīng)。

消融實驗

為了更進一步驗證文中所提方法的有效性，作者團隊進行了多項消融實驗：

去除思考（w/o Think）：FID 從 1.942 上升到 3.828，證明了思考階段對反應(yīng)生成的重要性。
去除預(yù)訓(xùn)練（w/o All PT.）：模型性能大幅下降，表明預(yù)訓(xùn)練對于適應(yīng)運動 - 語言模態(tài)至關(guān)重要。
去除不同預(yù)訓(xùn)練任務(wù)：三種預(yù)訓(xùn)練任務(wù)（動作 - 動作、空間 - 位姿、動作 - 文本）均有正向貢獻，互為補充。
去除單人數(shù)據(jù)（w/o SP Data）：僅依賴多人的數(shù)據(jù)仍可取得較好結(jié)果，單人數(shù)據(jù)的補充對模型表現(xiàn)提升不顯著。

圖五：多人交互數(shù)據(jù)集 Inter-X Action/Reaction 以及單人動作數(shù)據(jù)集 HumanML3D 動作特征示意圖。

系統(tǒng)分析

單人動作數(shù)據(jù)有效性

為了進一步分析單人數(shù)據(jù)貢獻較小的原因，作者在同一空間中可視化了單人運動（HumanML3D）、交互動作（Inter-X Action）和交互反應(yīng)（Inter-X Reaction）的運動序列，如上圖所示。

具體而言，該團隊使用 t-SNE 工具將運動分詞序列的特征投影到二維空間。從上圖可以看出，單人運動與兩人運動序列幾乎沒有重疊。

在案例分析中，作者發(fā)現(xiàn)大多數(shù)交互運動是獨特的，例如按摩、被拉拽等，而這些動作不會出現(xiàn)在單人運動數(shù)據(jù)中。同樣，大多數(shù)單人運動也是獨特的，例如 T 字姿勢，很少出現(xiàn)在多人交互中。兩者只有少量重疊的運動，如靜止站立。

重新思考時間間隔

TTR 的重新思考（re-thinking）機制可以動態(tài)調(diào)整生成的反應(yīng)描述，從而減少累積誤差，同時在計算成本上保持高效。

實驗表明，過高與過低的重新思考頻率均會導(dǎo)致性能下降。在保證高性能的情況下，TTR 的平均推理時間可以在單張 Tesla V100 上實現(xiàn)實時推理（延遲低于 50 毫秒）。

動作描述質(zhì)量

作者還在運動描述任務(wù)上對 TTR 模型進行了評估，結(jié)果下表所示?；€方法的結(jié)果來源于 Inter-X 論文的附錄 A.1。由于基線方法均使用動作和反應(yīng)作為輸入，而 TTR 的思考過程僅能訪問真實的動作，因此作者首先調(diào)整 TTR 的設(shè)置，使其與基線方法一致，記作 TTR?。

從結(jié)果可以看出，得益于作者的細(xì)粒度訓(xùn)練和高效的運動表示，TTR? 在所有指標(biāo)上都取得了最佳的運動描述性能。

隨后在真實場景下評估 TTR，即僅能看到部分輸入動作。作者分別使用 25%、50% 和完整的輸入動作，讓 TTR 進行動作到文本的生成。

結(jié)果表明，即使僅提供四分之一的輸入動作，TTR 仍然能夠準(zhǔn)確預(yù)測對應(yīng)的動作和反應(yīng)描述，展現(xiàn)出較強的泛化能力。

思考 / 動作描述

為了探究思考過程的必要性，作者比較了不同的提示對反應(yīng)生成的影響。

首先，將真實提示 (w/ GT Prompt) 輸入到思考過程中，結(jié)果表明，預(yù)測的反應(yīng)質(zhì)量顯著提升。

然后，作者采用了一個增強版的思考模型 (w/ Thinking*)，結(jié)果 FID 從 1.94 降至 1.88，這證明了更好的思考過程能夠有效提升后續(xù)的反應(yīng)生成能力。

此外，當(dāng)完全去除思考過程時，模型的反應(yīng)生成質(zhì)量大幅下降，這表明思考與重新思考（re-thinking）過程在指導(dǎo)反應(yīng)生成和減少累積誤差方面至關(guān)重要。

總結(jié)

綜上所述，該團隊借用大語言模型的推理能力，設(shè)計了「先思考，后反應(yīng)」的人類反應(yīng)動作預(yù)測框架 Think-Then-React (TTR)，并且通過解耦空間 - 位姿編碼系統(tǒng)實現(xiàn)了人類動作高效編碼，提升了預(yù)測反應(yīng)動作質(zhì)量。

與過往工作相比，TTR 模型在 Inter-X 數(shù)據(jù)集多個指標(biāo)上均有明顯提升，同時作者通過大量消融實驗與分析實驗驗證了方法的有效性。

在未來，作者團隊計劃探索更高效的跨類別數(shù)據(jù)集利用，包括單人與多人動作數(shù)據(jù)，以實現(xiàn)更高的泛化性能。

責(zé)任編輯：張燕妮來源：機器之心

模型訓(xùn)練 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="2sdbc"><track id="2sdbc"></track></legend>