自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越CoT!微軟劍橋中科院提出MVoT,直接可視化多模態(tài)推理過程

人工智能 新聞
近日,微軟和劍橋大學公布推理新方法:多模態(tài)思維可視化MVoT。新方法可以邊推理,邊「想象」,同時利用文本和圖像信息學習,在實驗中比CoT擁有更好的可解釋性和穩(wěn)健性,復雜情況下甚至比CoT強20%。還可以與CoT組合,進一步提升模型性能。

大模型也學會了「空間想象力」?還可以自己解釋自己?

在大語言模型(LLMs)和多模態(tài)大語言模型(MLLMs)中,思維鏈(CoT)在復雜推理方面非常有效。

然而,對于復雜的空間推理,CoT表現(xiàn)不佳。

但人類的認知能力不僅限于語言,還能夠同時用詞語和圖像推理。

受這一機制的啟發(fā),來自微軟研究院、劍橋大學和中科院的研究人員,在思維鏈提示的基礎上,提出了空間推理(spatial reasoning)新范式:多模態(tài)思維可視化(MVoT)。


論文地址:https://arxiv.org/pdf/2501.07542

將思維鏈(CoT)擴展到多模態(tài)模型,已有的方法盡管能夠處理文本和圖像,但或者嚴重依賴于獨立的視覺模塊或外部工具,難以適應更復雜的空間推理任務;或者可視化太過簡化,推理過程難以理解。

論文作者Chengzu Li在X上解釋MVoT的核心設計理念:「MVoT超越了思維鏈(CoT),可以讓AI利用生成的視覺圖像去想象它的思考。通過融合語言和視覺推理,MVoT使復雜問題的解決變得更加直觀、可更具解釋性、更加強大?!?/span>

具體而言,MVoT要微調自回歸多模態(tài)大語言模型(MLLM)。為了提升推理過程的可視化質量,引入了token差異損失,彌補了分別訓練的分詞器(tokenizer)的差距。

文章亮點:

  • 多模態(tài)思維可視化(MVoT)將文本與視覺統(tǒng)一在推理過程中,將自然生成視覺思維作為推理過程的一部分。
  • 在Chameleon-7B中實現(xiàn)了MVoT,并在自回歸多模態(tài)大語言模型(MLLM)中引入了token差異損失(token discrepancy loss),以彌補分別訓練的文本分詞器和圖像分詞器之間的差距。
  • 實驗結果表明,MVoT在復雜場景中比思維鏈(CoT)更優(yōu)的適應性和穩(wěn)健性。
  • MVoT和CoT組合可以進一步提高性能上限。

架構

給定一個多模態(tài)輸入序列,模型需要生成交織的多模態(tài)思維,作為推理過程的組成部分,并最終生成最終答案。

表示一個預訓練的多模態(tài)大語言模型(MLLM),其參數(shù)為θ,x表示多模態(tài)輸入序列,z和v分別表示語言思維序列和圖像思維序列。

在多跳(multi-hop)空間推理任務中,給定輸入x,思維鏈(CoT)提示生成中間步驟 其中每個樣本基于輸入和之前生成的步驟順序采樣。最終的輸出基于所有先前的步驟得出。

MVoT通過為每個中間步驟添加圖像v^i可視化來增強這一過程,然后根據(jù)先前的步驟和可視化采樣后續(xù)步驟,如圖1所示。

圖1:多模態(tài)思維可視化(MVoT)推理過程與其他方法的對比

多模態(tài)思維可視化(MVoT)讓多模態(tài)大語言模型(MLLMs)能在不同模態(tài)之間生成交織的推理軌跡。

傳統(tǒng)的CoT僅依賴于語言思維,而MVoT則通過促進視覺思維來可視化推理軌跡。

這個推理范式類似于人類的認知方式,能夠無縫地在文字和圖像之間進行思維。

訓練

多模態(tài)序列建模如圖3所示,使用Chameleon的架構,利用統(tǒng)一的Transformer來處理圖像和文本token。

該架構集成了兩個tokenizer:圖像tokenizer使用離散的碼本(codebook)將輸入圖像編碼為一系列圖像token;文本tokenizer則將文本數(shù)據(jù)映射為相應的token序列。

這些token序列被連接在一起并由因果Transformer模型處理。

損失函數(shù)

因果Transformer模型利用下一個token預測目標進行微調,同時兩個tokenizer在整個過程中保持凍結狀態(tài)。

訓練的損失函數(shù)要同時考慮圖像token差異損失,以及文本token和圖像token的交叉熵損失,定義如下。

其中token差異損失要對與真實標簽顯著偏離的token施加懲罰,彌合了語言建模與視覺嵌入空間之間的差距,同時確保梯度的連續(xù)性。

實驗結果

有效性實驗

作者在三個動態(tài)空間推理任務中進行大量實驗,驗證了MVoT的有效性。

MAZE和MINIBEHAVIOR聚焦于與空間布局的交互,而FROZENLAKE強調在動態(tài)環(huán)境中的細粒度模式識別。

實驗結果表明,MVoT在任務中的表現(xiàn)具有競爭力,在高難度的FROZENLAKE場景中,MVoT的表現(xiàn)比傳統(tǒng)的思維鏈(CoT)高出了20%多

不同系統(tǒng)變體在任務中的實驗結果。

三個模擬任務的實驗結果表明,Direct存在過擬合問題,準確率約為70%。GPT-4o的表現(xiàn)更差。相比之下,MVoT展現(xiàn)出不斷的改進。

在MAZE和MINIBEHAVIOR上,MVoT的準確率超過90%,可與CoT相媲美。

而在FROZENLAKE上,MVoT的準確率為85.60%,優(yōu)于Direct和CoT。

這表明MVoT比CoT擁有更好的穩(wěn)定性和穩(wěn)健性。

此外,MVoT還提供了語言和視覺形式的中間推理狀態(tài),可以更清晰、更直觀地理解推理過程。

定性分析

圖4展示了FROZENLAKE中生成圖像的正確與錯誤示例。

可視化生成的錯誤分類如下:

(1)錯誤可視化(Wrong Visualization):生成的可視化內容不準確。

(2)多余圖形(Redundant Patterns):在預期修改區(qū)域外可視化了不必要或無關的圖形。

圖4:定性分析示意圖。

此外,與MAZE和MINIBEHAVIOR相比,在FROZENLAKE任務中,觀察到隨著模式復雜度的增加,生成圖像的細節(jié)經常會變得模糊。

在重建的圖像與原始圖像之間也觀察到類似的差異。

這種變異性經常導致細粒度細節(jié)的丟失或擾動,反映了MLLM在表達能力上的局限性。

定量分析

為了評估生成的視覺推理的質量,基于已識別的錯誤類型定義了自動化評估指標:

  • 可視化準確率(V-Acc.):衡量在網格中對應于下一步操作的預期修改是否被準確可視化。
  • 可視化模式冗余度(V-Red.):評估目標修改區(qū)域之外是否存在非預期的視覺模式。
  • 可視化正確步驟(V-Steps):操作序列中前k個連續(xù)正確可視化的平均長度。
  • 可視化正確比率(V-Ratio):操作序列中前k個連續(xù)正確可視化的平均比例。

作者報告了MAZE和MINIBEHAVIOR中可視化位置的定量結果,如下所示。

表3:token差異損失對MVoT視覺思維定量指標的影響

上圖中,最佳結果以加粗形式標出。帶有↑的指標表示值越高性能越好,反之亦然。

Token差異損失函數(shù)分析

Token差異損失提高了可視化的準確性并減少了冗余。

如表3所示,token差異損失增強的MVoT能夠生成高度準確且模式冗余最小的可視化內容。

即使在遞歸生成場景中,在推理過程中依然實現(xiàn)了95%的平均正確和連續(xù)可視化。

相比之下,缺少token差異損失會顯著降低生成質量:沒有的MVoT經常會生成多余圖形,且未能準確捕捉狀態(tài)轉換。

這些結果與圖像編輯場景中的發(fā)現(xiàn)一致,如圖5所示,圖中展示了MAZE在不同訓練周期的定量指標。

圖5:MAZE在不同訓練周期的定量指標

MVoT和CoT的組合

MVoT在推理中與CoT的能力可以互相補充

正如作者Chengzu Li所言:「MVoT不會取代CoT,而是提升了CoT。通過組合MVoT和CoT,多模態(tài)推理和語言推理的協(xié)同作用解鎖了性能上限,證明兩種推理范式可能比一種更好!」

在兩種方法的組合中,如果MVoT或CoT中的任一方法生成了正確的預測,則認為該數(shù)據(jù)點正確。

如表4所示,在MAZE和MINIBEHAVIOR上,上限性能達到了接近100%的準確率;在FROZENLAKE上,達到了92%的準確率。

表4:通過組合CoT和MVoT在三個任務中的預測所達到的性能上限。

文中也討論了消融實驗,并在附錄中給出了更多的實驗細節(jié)。

當然,這項研究也有局限性,作者建議借鑒擴散模型中的圖像生成技術,作為未來改進的方向。

此外,在推理過程中,顯式生成可視化會引入計算開銷。

為了解決這一問題,作者倡導進一步研究使用更少token的緊湊的圖像表示,以降低可視化生成的計算成本。

作者介紹

共一作者Chengzu Li在微軟研究院實習時參與了全程工作。目前,他是劍橋大學語言技術實驗室的計算、認知與語言學博士生。在攻讀博士學位之前,他在劍橋大學計算機科學系獲得了高級計算機科學碩士學位。他本科就讀于西安交通大學自動化專業(yè)。

共一作者Wenshan Wu, 目前是微軟亞洲研究院(MSRA)的高級研究軟件開發(fā)工程師。之前,曾在騰訊擔任軟件工程師。她從中國科學院獲得了碩士學位。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-15 12:14:02

ChatGPT語音模型

2024-08-08 13:04:28

2023-04-18 10:12:06

模型解碼

2025-03-11 13:49:20

2024-06-05 09:22:43

2018-02-28 16:20:57

中科睿芯

2025-03-31 09:22:00

強化學習模型AI

2022-10-31 09:36:47

深度學習數(shù)據(jù)集

2024-12-31 09:10:00

2017-05-15 15:07:36

納米材料農藥

2025-02-26 13:00:00

2023-05-30 10:23:45

模型研究

2025-04-15 09:22:00

AI訓練模型

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫

2025-04-30 09:00:00

模型推理AI

2024-11-04 13:30:00

模型AI

2024-09-14 09:29:37

2022-03-28 13:14:50

機器學習語言訓練AI

2009-09-18 09:40:57

浪潮中科院合肥

2009-10-11 01:04:43

曙光中科院計算中心
點贊
收藏

51CTO技術棧公眾號