自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="zf643"></sub><p id="zf643"><li id="zf643"></li></p>

<blockquote id="zf643"><p id="zf643"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

超越CoT！微軟劍橋中科院提出MVoT，直接可視化多模態(tài)推理過程

作者：新智元 2025-02-08 13:30:00

人工智能新聞

近日，微軟和劍橋大學公布推理新方法：多模態(tài)思維可視化MVoT。新方法可以邊推理，邊「想象」，同時利用文本和圖像信息學習，在實驗中比CoT擁有更好的可解釋性和穩(wěn)健性，復雜情況下甚至比CoT強20%。還可以與CoT組合，進一步提升模型性能。

大模型也學會了「空間想象力」？還可以自己解釋自己？

在大語言模型（LLMs）和多模態(tài)大語言模型（MLLMs）中，思維鏈（CoT）在復雜推理方面非常有效。

然而，對于復雜的空間推理，CoT表現(xiàn)不佳。

但人類的認知能力不僅限于語言，還能夠同時用詞語和圖像推理。

受這一機制的啟發(fā)，來自微軟研究院、劍橋大學和中科院的研究人員，在思維鏈提示的基礎上，提出了空間推理（spatial reasoning）新范式：多模態(tài)思維可視化（MVoT）。

論文地址：https://arxiv.org/pdf/2501.07542

將思維鏈（CoT）擴展到多模態(tài)模型，已有的方法盡管能夠處理文本和圖像，但或者嚴重依賴于獨立的視覺模塊或外部工具，難以適應更復雜的空間推理任務；或者可視化太過簡化，推理過程難以理解。

論文作者Chengzu Li在X上解釋MVoT的核心設計理念：「MVoT超越了思維鏈(CoT)，可以讓AI利用生成的視覺圖像去想象它的思考。通過融合語言和視覺推理，MVoT使復雜問題的解決變得更加直觀、可更具解釋性、更加強大?！?/span>

具體而言，MVoT要微調自回歸多模態(tài)大語言模型（MLLM）。為了提升推理過程的可視化質量，引入了token差異損失，彌補了分別訓練的分詞器（tokenizer）的差距。

文章亮點：

多模態(tài)思維可視化（MVoT）將文本與視覺統(tǒng)一在推理過程中，將自然生成視覺思維作為推理過程的一部分。
在Chameleon-7B中實現(xiàn)了MVoT，并在自回歸多模態(tài)大語言模型（MLLM）中引入了token差異損失（token discrepancy loss），以彌補分別訓練的文本分詞器和圖像分詞器之間的差距。
實驗結果表明，MVoT在復雜場景中比思維鏈（CoT）更優(yōu)的適應性和穩(wěn)健性。
MVoT和CoT組合可以進一步提高性能上限。

架構

給定一個多模態(tài)輸入序列，模型需要生成交織的多模態(tài)思維，作為推理過程的組成部分，并最終生成最終答案。

設表示一個預訓練的多模態(tài)大語言模型（MLLM），其參數(shù)為θ，x表示多模態(tài)輸入序列，z和v分別表示語言思維序列和圖像思維序列。

在多跳（multi-hop）空間推理任務中，給定輸入x，思維鏈（CoT）提示生成中間步驟其中每個樣本基于輸入和之前生成的步驟順序采樣。最終的輸出基于所有先前的步驟得出。

MVoT通過為每個中間步驟添加圖像v^i可視化來增強這一過程，然后根據(jù)先前的步驟和可視化采樣后續(xù)步驟，如圖1所示。

圖1：多模態(tài)思維可視化（MVoT）推理過程與其他方法的對比

多模態(tài)思維可視化（MVoT）讓多模態(tài)大語言模型（MLLMs）能在不同模態(tài)之間生成交織的推理軌跡。

傳統(tǒng)的CoT僅依賴于語言思維，而MVoT則通過促進視覺思維來可視化推理軌跡。

這個推理范式類似于人類的認知方式，能夠無縫地在文字和圖像之間進行思維。

訓練

多模態(tài)序列建模如圖3所示，使用Chameleon的架構，利用統(tǒng)一的Transformer來處理圖像和文本token。

該架構集成了兩個tokenizer：圖像tokenizer使用離散的碼本（codebook）將輸入圖像編碼為一系列圖像token；文本tokenizer則將文本數(shù)據(jù)映射為相應的token序列。

這些token序列被連接在一起并由因果Transformer模型處理。

損失函數(shù)

因果Transformer模型利用下一個token預測目標進行微調，同時兩個tokenizer在整個過程中保持凍結狀態(tài)。

訓練的損失函數(shù)要同時考慮圖像token差異損失，以及文本token和圖像token的交叉熵損失，定義如下。

其中token差異損失要對與真實標簽顯著偏離的token施加懲罰，彌合了語言建模與視覺嵌入空間之間的差距，同時確保梯度的連續(xù)性。

實驗結果

有效性實驗

作者在三個動態(tài)空間推理任務中進行大量實驗，驗證了MVoT的有效性。

MAZE和MINIBEHAVIOR聚焦于與空間布局的交互，而FROZENLAKE強調在動態(tài)環(huán)境中的細粒度模式識別。

實驗結果表明，MVoT在任務中的表現(xiàn)具有競爭力，在高難度的FROZENLAKE場景中，MVoT的表現(xiàn)比傳統(tǒng)的思維鏈（CoT）高出了20%多。

不同系統(tǒng)變體在任務中的實驗結果。

三個模擬任務的實驗結果表明，Direct存在過擬合問題，準確率約為70%。GPT-4o的表現(xiàn)更差。相比之下，MVoT展現(xiàn)出不斷的改進。

在MAZE和MINIBEHAVIOR上，MVoT的準確率超過90%，可與CoT相媲美。

而在FROZENLAKE上，MVoT的準確率為85.60%，優(yōu)于Direct和CoT。

這表明MVoT比CoT擁有更好的穩(wěn)定性和穩(wěn)健性。

此外，MVoT還提供了語言和視覺形式的中間推理狀態(tài)，可以更清晰、更直觀地理解推理過程。

定性分析

圖4展示了FROZENLAKE中生成圖像的正確與錯誤示例。

可視化生成的錯誤分類如下：

(1)錯誤可視化（Wrong Visualization）：生成的可視化內容不準確。

(2)多余圖形（Redundant Patterns）：在預期修改區(qū)域外可視化了不必要或無關的圖形。

圖4：定性分析示意圖。

此外，與MAZE和MINIBEHAVIOR相比，在FROZENLAKE任務中，觀察到隨著模式復雜度的增加，生成圖像的細節(jié)經常會變得模糊。

在重建的圖像與原始圖像之間也觀察到類似的差異。

這種變異性經常導致細粒度細節(jié)的丟失或擾動，反映了MLLM在表達能力上的局限性。

定量分析

為了評估生成的視覺推理的質量，基于已識別的錯誤類型定義了自動化評估指標：

可視化準確率（V-Acc.）：衡量在網格中對應于下一步操作的預期修改是否被準確可視化。
可視化模式冗余度（V-Red.）：評估目標修改區(qū)域之外是否存在非預期的視覺模式。
可視化正確步驟（V-Steps）：操作序列中前k個連續(xù)正確可視化的平均長度。
可視化正確比率（V-Ratio）：操作序列中前k個連續(xù)正確可視化的平均比例。

作者報告了MAZE和MINIBEHAVIOR中可視化位置的定量結果，如下所示。

表3：token差異損失對MVoT視覺思維定量指標的影響

上圖中，最佳結果以加粗形式標出。帶有↑的指標表示值越高性能越好，反之亦然。

Token差異損失函數(shù)分析

Token差異損失提高了可視化的準確性并減少了冗余。

如表3所示，token差異損失增強的MVoT能夠生成高度準確且模式冗余最小的可視化內容。

即使在遞歸生成場景中，在推理過程中依然實現(xiàn)了95%的平均正確和連續(xù)可視化。

相比之下，缺少token差異損失會顯著降低生成質量：沒有的MVoT經常會生成多余圖形，且未能準確捕捉狀態(tài)轉換。

這些結果與圖像編輯場景中的發(fā)現(xiàn)一致，如圖5所示，圖中展示了MAZE在不同訓練周期的定量指標。

圖5：MAZE在不同訓練周期的定量指標

MVoT和CoT的組合

MVoT在推理中與CoT的能力可以互相補充。

正如作者Chengzu Li所言：「MVoT不會取代CoT，而是提升了CoT。通過組合MVoT和CoT，多模態(tài)推理和語言推理的協(xié)同作用解鎖了性能上限，證明兩種推理范式可能比一種更好！」

在兩種方法的組合中，如果MVoT或CoT中的任一方法生成了正確的預測，則認為該數(shù)據(jù)點正確。

如表4所示，在MAZE和MINIBEHAVIOR上，上限性能達到了接近100%的準確率；在FROZENLAKE上，達到了92%的準確率。

表4：通過組合CoT和MVoT在三個任務中的預測所達到的性能上限。

文中也討論了消融實驗，并在附錄中給出了更多的實驗細節(jié)。

當然，這項研究也有局限性，作者建議借鑒擴散模型中的圖像生成技術，作為未來改進的方向。

此外，在推理過程中，顯式生成可視化會引入計算開銷。

為了解決這一問題，作者倡導進一步研究使用更少token的緊湊的圖像表示，以降低可視化生成的計算成本。

作者介紹

共一作者Chengzu Li在微軟研究院實習時參與了全程工作。目前，他是劍橋大學語言技術實驗室的計算、認知與語言學博士生。在攻讀博士學位之前，他在劍橋大學計算機科學系獲得了高級計算機科學碩士學位。他本科就讀于西安交通大學自動化專業(yè)。

共一作者Wenshan Wu，目前是微軟亞洲研究院（MSRA）的高級研究軟件開發(fā)工程師。之前，曾在騰訊擔任軟件工程師。她從中國科學院獲得了碩士學位。

責任編輯：張燕妮來源：新智元

模型信息 AI

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="yatsp"></blockquote>

<cite id="yatsp"></cite>

<style id="yatsp"></style>

<cite id="yatsp"></cite>