首個視頻思維鏈推理框架Video-of-Thought來了:像人一樣從感知到認知全面推理視頻
本文作者來自于新加坡國立大學(xué)、南洋理工大學(xué)以及哈工深。其中,費豪的研究方向為多模態(tài)學(xué)習(xí)、多模態(tài)大語言模型。吳勝瓊,新加坡國立大學(xué)博士生,主要研究方向為多模態(tài)大語言模型。吉煒的主要研究方向為多模態(tài)學(xué)習(xí),多模態(tài)內(nèi)容生成。張含望教授的研究興趣包含計算機視覺、因果推斷。張梅山教授的研究方向包括代碼智能,自然語言處理,多模態(tài)生成與理解。Mong-Li Lee和Wynne Hsu教授的研究方向為社交媒體分析,協(xié)同機器學(xué)習(xí)等等。
最近,新加坡國立大學(xué)聯(lián)合南洋理工大學(xué)和哈工深的研究人員共同提出了一個全新的視頻推理框架,這也是首次大模型推理社區(qū)提出的面向視頻的思維鏈框架(Video-of-Thought, VoT)。視頻思維鏈VoT讓視頻多模態(tài)大語言模型在復(fù)雜視頻的理解和推理性能上大幅提升。該工作已被ICML 2024錄用為Oral paper。
- 論文鏈接: https://openreview.net/pdf?id=fO31YAyNbI
- 項目鏈接: http://haofei.vip/VoT/
從感知到認知的飛躍
相比于理解和推理靜態(tài)的圖片,在視覺處理社區(qū),推理視頻的難度要復(fù)雜困難很多,因為視頻天然地存在更具挑戰(zhàn)的動態(tài)時序特性,以及存在更多冗余的視覺內(nèi)容。過去的視頻理解研究多集中于視頻的淺層感知,如視頻動作識別、動態(tài)識別和視頻描述生成。然而,這些方法對復(fù)雜視頻的深入理解和推理仍存在顯著不足。相較于淺層的視頻感知,復(fù)雜視頻的推理不僅需要對視頻的時空特性有復(fù)雜的理解,還需深刻把握像素背后的內(nèi)在高階常識。為了徹底解決這一問題,VoT應(yīng)運而生。
對于人類而言,理解視頻就像吃飯喝水一樣簡單。那么我們?nèi)祟愂侨绾芜M行視頻理解推理的呢?我們不妨考慮以下一個案例。以下的這段視頻展示了一個場景:一輛高速行駛的汽車與一輛紅色油罐卡車在公路上相撞。對應(yīng)的問題是:“這輛紅色油罐卡車會發(fā)生什么?”
當人類拿到這個題目的視頻,首先,我們會根據(jù)問題確定感興趣的目標,即紅色油罐卡車。然后,我們會仔細觀看視頻,跟蹤目標對象在視頻中的動作語義。接著,我們會進行一些深入和高層次的推理,可能會結(jié)合一些常識知識。最后,我們給出推理答案:“可能會著火甚至爆炸?!?/span>
雙重能力:感知與認知的完美結(jié)合
從以上的人類的認知模式和模式汲取靈感,研究團隊指出,要實現(xiàn)復(fù)雜視頻推理,需要具備兩個關(guān)鍵能力:像素理解的感知能力和語義理解的認知能力。并且最重要的是,視頻推理可能不是一個瞬時一步到位的過程,而是一個由低級感知到高級認知的多跳過程。
感知能力:為了實現(xiàn)精確的內(nèi)容感知,必須對視頻運動進行細致的像素級理解。這個過程可能需要深入結(jié)合給定的視頻內(nèi)容,并且具備精細的內(nèi)容定位。
然而,大多數(shù)現(xiàn)有視頻理解方法局限于實例分析,缺乏精細的控制和準確的對象級識別或跟蹤,更不用說深入的視頻理解了。
認知能力:深入的推理需要認知能力,允許模型提供合理的解釋甚至因果想象。這個層次需要結(jié)合一定的世界常識知識。例如理解「從高處跳下可能導(dǎo)致骨折」,或者「與油罐車相撞可能引發(fā)爆炸」。
全新推理框架:視頻思維鏈的誕生
為了實現(xiàn)這一目標,研究團隊提出了一個全新的推理框架——“視頻思維鏈”。該思維鏈將復(fù)雜的視頻推理問題分解為從底層視覺感知到上層常識認知的一系列子問題。
與此同時,為了協(xié)助實現(xiàn)上述的細粒度視頻感知能力,作者還提出利用時空場景圖(Spatial-Temporal Scene Graph, STSG)表征協(xié)助推理過程,幫助生成的細粒度感知中間結(jié)果,從而實現(xiàn)精細的時空特征理解。
并與視頻多模態(tài)大模型相結(jié)合,最終提出了一個全新的視頻MLLM, MotionEmpic。
實驗結(jié)果表明,作者提出的全新推理框架可顯著提升模型在各類視頻QA上的性能,超越了當前所有傳統(tǒng)視頻MLLM以及CoT方法的表現(xiàn)。
A.視頻思維鏈VoT推理框架
VoT推理框架一共包含5個步驟:
Step-1:任務(wù)定義與目標識別
首先,給定輸入視頻和問題,VoT會識別問題中涉及的所有可能目標。這個過程確保系統(tǒng)明確了解需要分析的對象和相關(guān)任務(wù)。
Step-2:目標追蹤
接下來,VoT分析視頻內(nèi)容,追蹤問題所涉及的目標行為軌跡,輸出感知層面的時空場景圖 (STSG)。生成的關(guān)于目標軌跡STSG將為下一步行為分析的感知證據(jù)。
Step-3:行為分析
在這一步中,VoT通過整合STSG中的目標跟蹤結(jié)果,進一步提示模型考慮更多潛在相關(guān)的常識知識,使模型能夠?qū)⒁曨l像素觀察與現(xiàn)實世界聯(lián)系起來,實現(xiàn)對視頻的更深入理解。
Step-4:排名機制回答問題
在深入理解了視頻中目標行為之后,現(xiàn)在開始回答原始問題。首先,本系統(tǒng)將所有QA問題統(tǒng)一為多項題,即從提供的多個候選答案中選出最終答案。進一步,受人類解答多選題的模式啟發(fā),本系統(tǒng)還采用了排名機制來確定最終答案。具體來說,對于每個候選答案,VoT將提示模型根據(jù)常識知識評估其可能性(從1到10),并提供相應(yīng)的理由。最終根據(jù),排名高的候選則為最終回答。
Step-5:答案驗證
鑒于復(fù)雜視頻任務(wù)通常涉及復(fù)雜的問題和答案,并且整個推理過程包含了多個環(huán)節(jié),因此核實上一步提供的答案至關(guān)重要。本系統(tǒng)的基本核驗思路是,假設(shè)答案A是正確的,我們將從兩個方面回顧性評估答案是否與輸入問題和視頻內(nèi)容相矛盾:
- 感知驗證:檢查像素定位信息是否與視頻中從感知角度呈現(xiàn)的事實一致。
- 認知驗證:從認知角度提示模型,確定答案中固有的常識性知識是否與第三步推理中推斷出的主要觀察結(jié)果相矛盾。
最終,確保VoT能夠輸出最正確的結(jié)果。
VoT推理框架的五個步驟,從任務(wù)定義與目標識別,到最終的答案驗證,全面提升了視頻理解和推理的精確性和可靠性,為復(fù)雜視頻任務(wù)提供了強有力的解決方案
B.實驗驗證
1. 主實驗比較
作者首先在多個復(fù)雜VideoQA的數(shù)據(jù)集上進行了測試。實驗結(jié)果證明VoT在所有的測試集上獲得了持續(xù)的強于SoTA基線模型的表現(xiàn),甚至超越傳統(tǒng)CoT的性能。
2. Zero-shot結(jié)果
接下來,作者比較了不同模型在zero-shot下的性能。值得注意的是,相比較與傳統(tǒng)的CoT,VoT性能提升更大、更明顯。并且,在兩個復(fù)雜的視頻問答任務(wù)上的增強效果比在相對簡單的任務(wù)(例如,MSR-VTT和ActivityNet)上的增強更為明顯。這主要是因為后者的數(shù)據(jù)集更傾向于感知推理(例如,描述視頻中的內(nèi)容),而不是認知推理(例如,解釋、預(yù)見)。
3. 推理能力詳細分析
首先,作者進行了人類評估。如圖7上表所示,使用VoT推理框架的MotionEpic取得了相當出色的結(jié)果,甚至可以與人類表現(xiàn)相媲美。進一步,作者總結(jié)了六種常見的錯誤案例,并分析六種最常見錯誤類別的差異。如圖下部分所示,MotionEpic(使用VoT)顯著降低了VideoLLaVA(使用CoT)的錯誤率,特別是在動作語義和常識理解方面。
4. 推理過程可視化分析
最后,作者通過一個案例分析直觀地展示了VoT的優(yōu)越性。如圖8所示,視頻內(nèi)容顯示了“訓(xùn)導(dǎo)員帶著小狗跨越各類障礙比賽”的復(fù)雜場景,而給定的問題是抽象且復(fù)雜,需要結(jié)合常識,而不能簡單地通過視頻本身的感知直接回答。實驗結(jié)果發(fā)現(xiàn),只有本系統(tǒng)給出了正確的答案。具體地,在內(nèi)容感知層面,VoT通過基于STSG的視頻定位確保了準確且穩(wěn)健的理解,防止了幻覺,即正確地解釋了動物是一只狗,然后從常識推斷場景涉及訓(xùn)練者正在訓(xùn)練狗。然后,在認知層面,它分析每個選項以確定最佳答案。通過進一步驗證,結(jié)果與視頻內(nèi)容和事實常識理解一致??傮w而言,通過問題分解,整個推理在每個步驟上大大提高了準確性,同時確保了一個可解釋的過程決策理由。
作者還提供了更多的可視化分析: