超越CoT!微軟劍橋中科院提出MVoT,直接可視化多模態(tài)推理過程
大模型也學會了「空間想象力」?還可以自己解釋自己?
在大語言模型(LLMs)和多模態(tài)大語言模型(MLLMs)中,思維鏈(CoT)在復雜推理方面非常有效。
然而,對于復雜的空間推理,CoT表現(xiàn)不佳。
但人類的認知能力不僅限于語言,還能夠同時用詞語和圖像推理。
受這一機制的啟發(fā),來自微軟研究院、劍橋大學和中科院的研究人員,在思維鏈提示的基礎上,提出了空間推理(spatial reasoning)新范式:多模態(tài)思維可視化(MVoT)。
論文地址:https://arxiv.org/pdf/2501.07542
將思維鏈(CoT)擴展到多模態(tài)模型,已有的方法盡管能夠處理文本和圖像,但或者嚴重依賴于獨立的視覺模塊或外部工具,難以適應更復雜的空間推理任務;或者可視化太過簡化,推理過程難以理解。
論文作者Chengzu Li在X上解釋MVoT的核心設計理念:「MVoT超越了思維鏈(CoT),可以讓AI利用生成的視覺圖像去想象它的思考。通過融合語言和視覺推理,MVoT使復雜問題的解決變得更加直觀、可更具解釋性、更加強大?!?/span>
具體而言,MVoT要微調自回歸多模態(tài)大語言模型(MLLM)。為了提升推理過程的可視化質量,引入了token差異損失,彌補了分別訓練的分詞器(tokenizer)的差距。
文章亮點:
- 多模態(tài)思維可視化(MVoT)將文本與視覺統(tǒng)一在推理過程中,將自然生成視覺思維作為推理過程的一部分。
- 在Chameleon-7B中實現(xiàn)了MVoT,并在自回歸多模態(tài)大語言模型(MLLM)中引入了token差異損失(token discrepancy loss),以彌補分別訓練的文本分詞器和圖像分詞器之間的差距。
- 實驗結果表明,MVoT在復雜場景中比思維鏈(CoT)更優(yōu)的適應性和穩(wěn)健性。
- MVoT和CoT組合可以進一步提高性能上限。
架構
給定一個多模態(tài)輸入序列,模型需要生成交織的多模態(tài)思維,作為推理過程的組成部分,并最終生成最終答案。
設表示一個預訓練的多模態(tài)大語言模型(MLLM),其參數(shù)為θ,x表示多模態(tài)輸入序列,z和v分別表示語言思維序列和圖像思維序列。
在多跳(multi-hop)空間推理任務中,給定輸入x,思維鏈(CoT)提示生成中間步驟 其中每個樣本基于輸入和之前生成的步驟順序采樣。最終的輸出基于所有先前的步驟得出。
MVoT通過為每個中間步驟添加圖像v^i可視化來增強這一過程,然后根據(jù)先前的步驟和可視化
采樣后續(xù)步驟,如圖1所示。
圖1:多模態(tài)思維可視化(MVoT)推理過程與其他方法的對比
多模態(tài)思維可視化(MVoT)讓多模態(tài)大語言模型(MLLMs)能在不同模態(tài)之間生成交織的推理軌跡。
傳統(tǒng)的CoT僅依賴于語言思維,而MVoT則通過促進視覺思維來可視化推理軌跡。
這個推理范式類似于人類的認知方式,能夠無縫地在文字和圖像之間進行思維。
訓練
多模態(tài)序列建模如圖3所示,使用Chameleon的架構,利用統(tǒng)一的Transformer來處理圖像和文本token。
該架構集成了兩個tokenizer:圖像tokenizer使用離散的碼本(codebook)將輸入圖像編碼為一系列圖像token;文本tokenizer則將文本數(shù)據(jù)映射為相應的token序列。
這些token序列被連接在一起并由因果Transformer模型處理。
損失函數(shù)
因果Transformer模型利用下一個token預測目標進行微調,同時兩個tokenizer在整個過程中保持凍結狀態(tài)。
訓練的損失函數(shù)要同時考慮圖像token差異損失,以及文本token和圖像token的交叉熵損失
,定義如下。
其中token差異損失要對與真實標簽顯著偏離的token施加懲罰,彌合了語言建模與視覺嵌入空間之間的差距,同時確保梯度的連續(xù)性。
實驗結果
有效性實驗
作者在三個動態(tài)空間推理任務中進行大量實驗,驗證了MVoT的有效性。
MAZE和MINIBEHAVIOR聚焦于與空間布局的交互,而FROZENLAKE強調在動態(tài)環(huán)境中的細粒度模式識別。
實驗結果表明,MVoT在任務中的表現(xiàn)具有競爭力,在高難度的FROZENLAKE場景中,MVoT的表現(xiàn)比傳統(tǒng)的思維鏈(CoT)高出了20%多。
不同系統(tǒng)變體在任務中的實驗結果。
三個模擬任務的實驗結果表明,Direct存在過擬合問題,準確率約為70%。GPT-4o的表現(xiàn)更差。相比之下,MVoT展現(xiàn)出不斷的改進。
在MAZE和MINIBEHAVIOR上,MVoT的準確率超過90%,可與CoT相媲美。
而在FROZENLAKE上,MVoT的準確率為85.60%,優(yōu)于Direct和CoT。
這表明MVoT比CoT擁有更好的穩(wěn)定性和穩(wěn)健性。
此外,MVoT還提供了語言和視覺形式的中間推理狀態(tài),可以更清晰、更直觀地理解推理過程。
定性分析
圖4展示了FROZENLAKE中生成圖像的正確與錯誤示例。
可視化生成的錯誤分類如下:
(1)錯誤可視化(Wrong Visualization):生成的可視化內容不準確。
(2)多余圖形(Redundant Patterns):在預期修改區(qū)域外可視化了不必要或無關的圖形。
圖4:定性分析示意圖。
此外,與MAZE和MINIBEHAVIOR相比,在FROZENLAKE任務中,觀察到隨著模式復雜度的增加,生成圖像的細節(jié)經常會變得模糊。
在重建的圖像與原始圖像之間也觀察到類似的差異。
這種變異性經常導致細粒度細節(jié)的丟失或擾動,反映了MLLM在表達能力上的局限性。
定量分析
為了評估生成的視覺推理的質量,基于已識別的錯誤類型定義了自動化評估指標:
- 可視化準確率(V-Acc.):衡量在網格中對應于下一步操作的預期修改是否被準確可視化。
- 可視化模式冗余度(V-Red.):評估目標修改區(qū)域之外是否存在非預期的視覺模式。
- 可視化正確步驟(V-Steps):操作序列中前k個連續(xù)正確可視化的平均長度。
- 可視化正確比率(V-Ratio):操作序列中前k個連續(xù)正確可視化的平均比例。
作者報告了MAZE和MINIBEHAVIOR中可視化位置的定量結果,如下所示。
表3:token差異損失對MVoT視覺思維定量指標的影響
上圖中,最佳結果以加粗形式標出。帶有↑的指標表示值越高性能越好,反之亦然。
Token差異損失函數(shù)分析
Token差異損失提高了可視化的準確性并減少了冗余。
如表3所示,token差異損失增強的MVoT能夠生成高度準確且模式冗余最小的可視化內容。
即使在遞歸生成場景中,在推理過程中依然實現(xiàn)了95%的平均正確和連續(xù)可視化。
相比之下,缺少token差異損失會顯著降低生成質量:沒有的MVoT經常會生成多余圖形,且未能準確捕捉狀態(tài)轉換。
這些結果與圖像編輯場景中的發(fā)現(xiàn)一致,如圖5所示,圖中展示了MAZE在不同訓練周期的定量指標。
圖5:MAZE在不同訓練周期的定量指標
MVoT和CoT的組合
MVoT在推理中與CoT的能力可以互相補充。
正如作者Chengzu Li所言:「MVoT不會取代CoT,而是提升了CoT。通過組合MVoT和CoT,多模態(tài)推理和語言推理的協(xié)同作用解鎖了性能上限,證明兩種推理范式可能比一種更好!」
在兩種方法的組合中,如果MVoT或CoT中的任一方法生成了正確的預測,則認為該數(shù)據(jù)點正確。
如表4所示,在MAZE和MINIBEHAVIOR上,上限性能達到了接近100%的準確率;在FROZENLAKE上,達到了92%的準確率。
表4:通過組合CoT和MVoT在三個任務中的預測所達到的性能上限。
文中也討論了消融實驗,并在附錄中給出了更多的實驗細節(jié)。
當然,這項研究也有局限性,作者建議借鑒擴散模型中的圖像生成技術,作為未來改進的方向。
此外,在推理過程中,顯式生成可視化會引入計算開銷。
為了解決這一問題,作者倡導進一步研究使用更少token的緊湊的圖像表示,以降低可視化生成的計算成本。
作者介紹
共一作者Chengzu Li在微軟研究院實習時參與了全程工作。目前,他是劍橋大學語言技術實驗室的計算、認知與語言學博士生。在攻讀博士學位之前,他在劍橋大學計算機科學系獲得了高級計算機科學碩士學位。他本科就讀于西安交通大學自動化專業(yè)。
共一作者Wenshan Wu, 目前是微軟亞洲研究院(MSRA)的高級研究軟件開發(fā)工程師。之前,曾在騰訊擔任軟件工程師。她從中國科學院獲得了碩士學位。