自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿

發(fā)布于 2025-3-3 09:54
瀏覽
0收藏

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

論文:https://arxiv.org/pdf/2502.09621
主頁(yè):https://mmecot.github.io
代碼:https://github.com/CaraJ7/MME-CoT
數(shù)據(jù)集:https://huggingface.co/datasets/CaraJ/MME-CoT

亮點(diǎn)直擊

  • 精心策劃了 MME-CoT 基準(zhǔn),涵蓋了六種多模態(tài)推理場(chǎng)景的綜合范圍。數(shù)據(jù)收集和標(biāo)注過(guò)程經(jīng)過(guò)嚴(yán)格的人為驗(yàn)證,旨在為社區(qū)提供高質(zhì)量的多模態(tài)推理評(píng)估數(shù)據(jù)集。
  • 識(shí)別了現(xiàn)有基準(zhǔn)中的關(guān)鍵問(wèn)題,并引入了專門針對(duì)多模態(tài) CoT 推理的全面評(píng)估套件,該套件仔細(xì)檢查了推理的質(zhì)量、魯棒性和效率。
  • 對(duì)具有推理能力的最先進(jìn)的多模態(tài)模型進(jìn)行了廣泛的實(shí)驗(yàn)和分析??偨Y(jié)了我們的觀察和見解,希望能激發(fā)未來(lái)在推理性能方面的進(jìn)步。

背景

大語(yǔ)言模型(LLMs)中鏈?zhǔn)剿季S(Chain-of-Thought, CoT)的出現(xiàn)展示了超強(qiáng)的推理能力,這一點(diǎn)在最近的OpenAI o1和DeepSeek-R1中都得到了充分體現(xiàn)。然而,這一能力能多大程度地幫助視覺推理,并且我們又應(yīng)該如何細(xì)粒度地評(píng)估視覺推理呢?


為此,來(lái)自港中文MMLab的研究者們提出了MME-CoT。這是一個(gè)全面且專門用于評(píng)估LMMs中視覺推理能力的Benchmark,包括了數(shù)學(xué)、科學(xué)、OCR、邏輯、時(shí)空和通用場(chǎng)景。MME-CoT與之前的LMM的Benchmark最大的區(qū)別在于,提出了一個(gè)嚴(yán)格且多方面的評(píng)估框架,細(xì)粒度地研究視覺CoT的不同方面,評(píng)估其推理的質(zhì)量、魯棒性和效率。

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

各種最新推出的LMM,包括Kimi k1.5, GPT-4o, QVQ等等都在MME-CoT上進(jìn)行了測(cè)試。同時(shí),研究者們還把圖片轉(zhuǎn)成caption之后測(cè)試了最近爆火的DeepSeek-R1以及o3-mini。

根據(jù)實(shí)驗(yàn)結(jié)果,文章中得到了如下有價(jià)值的結(jié)論:

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

  1. CoT質(zhì)量:Kimi k1.5 > DeepSeek-R1 >> o3-mini CoT魯棒性:o3-mini > Kimi k1.5 > DeepSeek-R1 CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1 值得一提的是,DeepSeek-R1的文本推理能力非常出眾。僅僅使用圖片的caption就可以在precision上超過(guò)真實(shí)看到圖片的GPT-4o。最后的CoT質(zhì)量也與GPT-4o僅有1.9%之差。
  2. 其次,反思能力的引入顯著提升了CoT質(zhì)量,所有具備反思能力的LMM都實(shí)現(xiàn)了較高的CoT質(zhì)量表現(xiàn)。例如QVQ達(dá)到了62.0%的F1分?jǐn)?shù),大幅超過(guò)Qwen2-VL-72B 6.8%。而Kimi k1.5更是超越GPT-4o達(dá)到最佳質(zhì)量。
  3. 在魯棒性方面,我們發(fā)現(xiàn)大多數(shù)早期模型在感知任務(wù)中都受到CoT的負(fù)面影響,表現(xiàn)出有害的過(guò)度思考行為,其中最顯著的案例是InternVL2.5-8B,在感知任務(wù)中應(yīng)用CoT后性能下降了6.8%,這嚴(yán)重制約了將CoT推理作為默認(rèn)操作的可行性。
  4. 最后,關(guān)于CoT效率,我們觀察到輸出長(zhǎng)CoT的模型普遍存在步驟的相關(guān)性不足的問(wèn)題。模型容易被圖像內(nèi)容分散注意力,過(guò)度關(guān)注圖像而忽視了對(duì)題目的解答,尤其是在處理通用場(chǎng)景、時(shí)空和OCR任務(wù)時(shí)。實(shí)驗(yàn)結(jié)果顯示,約30%到40%的反思步驟未能有效協(xié)助問(wèn)題解答,這暴露出當(dāng)前模型反思能力的重要缺陷。

測(cè)評(píng)指標(biāo)設(shè)計(jì)與數(shù)據(jù)組成

目前絕大多數(shù)的LMM的Benchmark都只評(píng)估最終答案的正確性,忽視了LMM整個(gè)的CoT的推理過(guò)程。為了能全面地了解視覺CoT的各個(gè)屬性,研究者們提出了三個(gè)不同的評(píng)估方向,每個(gè)方向致力于回答一個(gè)關(guān)鍵的問(wèn)題:

CoT的質(zhì)量:每個(gè)CoT步驟是否有用且準(zhǔn)確,不存在幻覺?

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

只評(píng)估回答的結(jié)果忽略了模型通過(guò)錯(cuò)誤的邏輯或隨機(jī)猜測(cè)得出正確答案的情況。這往往造成了模型推理能力被夸大的假象。為了深入研究推理過(guò)程,研究者們引入了兩個(gè)可解釋的指標(biāo)來(lái)評(píng)估CoT的質(zhì)量:

  • 召回率 (Recall):評(píng)估模型的回答有多少能與正確解題的必要步驟匹配。這個(gè)指標(biāo)是用來(lái)量化推理的步驟是否能對(duì)于得到正確答案有幫助,以及推理鏈?zhǔn)欠裢暾?。匹配的過(guò)程由GPT-4o完成。
  • 精確率 (Precision):評(píng)估模型回答的每一步的準(zhǔn)確程度來(lái)考查模型的幻覺以及邏輯的準(zhǔn)確性。為了評(píng)估這一指標(biāo),研究者們首先使用GPT-4o將模型的回復(fù)切分成不同類型的步驟:背景知識(shí)、圖片描述以及邏輯推理。然后繼續(xù)對(duì)圖片描述以及邏輯推理步驟判定每步是否正確。

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

CoT的魯棒性:CoT是否干擾感知任務(wù),它在多大程度上增強(qiáng)了推理任務(wù)?

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

現(xiàn)有研究主要關(guān)注CoT對(duì)推理任務(wù)帶來(lái)的性能改進(jìn),卻往往忽視了CoT是否會(huì)無(wú)意中破壞模型對(duì)于僅需要感知的任務(wù)的能力。隨著o1以及R1的爆火,CoT逐漸已成為模型的默認(rèn)的推理策略。然而,模型無(wú)法提前預(yù)知用戶提出的問(wèn)題類型,也不確定使用CoT來(lái)回答是否比直接給出答案會(huì)有更高的準(zhǔn)確率。因此,在目前的時(shí)間點(diǎn)上,CoT在不同類型任務(wù)下的魯棒性變得格外重要。為了衡量魯棒性,MME-CoT包括了兩個(gè)任務(wù)類別:感知任務(wù)和推理任務(wù),以及兩種不同的Prompt形式:要求模型直接回答(answer directly)以及CoT回答(think step by step)。

  • 穩(wěn)定性 (Stability):檢查CoT是否對(duì)模型在感知任務(wù)上的表現(xiàn)產(chǎn)生負(fù)面影響
  • 有效性 (Efficacy):檢查CoT是否真的幫助模型提高在復(fù)雜推理任務(wù)上的表現(xiàn)

CoT的效率:使用CoT的推理效率是怎么樣的?

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

最近的o1類模型通過(guò)采用超長(zhǎng)的CoT和反思步驟而取得了非常好的效果。這提出了一個(gè)關(guān)鍵的權(quán)衡問(wèn)題:這種方法是否在準(zhǔn)確性和計(jì)算成本之間取得了最佳平衡?為了研究這一點(diǎn),研究者們首次對(duì)LMMs中CoT的效率進(jìn)行研究,使用了兩個(gè)關(guān)鍵指標(biāo)評(píng)估效率:

  • 相關(guān)比例 (Relevance Rate):評(píng)估模型回答中與解決問(wèn)題有關(guān)的比例。
  • 反思質(zhì)量 (Reflection Quality):分析每個(gè)反思步驟是否更正了推理中的錯(cuò)誤或者從新的角度驗(yàn)證了目前結(jié)論的正確性。

MME-CoT測(cè)試集

與純文本推理問(wèn)題不同,額外的視覺輸入顯著豐富了視覺推理問(wèn)題的范圍。有了圖像輸入,模型需要根據(jù)當(dāng)前的推理進(jìn)度頻繁查看圖像以獲取相關(guān)信息。描述感興趣的圖像區(qū)域成為了思維鏈(CoT)過(guò)程中的關(guān)鍵部分。因此,除了需要嚴(yán)格邏輯的復(fù)雜問(wèn)題外,通用場(chǎng)景中的許多問(wèn)題也構(gòu)成了具有挑戰(zhàn)性的推理問(wèn)題。


考慮到這一點(diǎn),MME-CoT測(cè)試集構(gòu)建起了一個(gè)覆蓋專業(yè)領(lǐng)域與常識(shí)場(chǎng)景的全景視覺推理評(píng)估體系,共包括6大領(lǐng)域以及17個(gè)子類。為了保持對(duì)推理過(guò)程的關(guān)注,研究者們排除了需要復(fù)雜領(lǐng)域特定定理或?qū)I(yè)知識(shí)的問(wèn)題。


MME-CoT中分為感知任務(wù)以及推理任務(wù),現(xiàn)有的Benchmark往往混淆這兩類任務(wù),使得這兩類經(jīng)常出現(xiàn)在相同類別中。為了解決這個(gè)問(wèn)題,研究者們首先使用GPT-4o以及Qwen2-VL來(lái)進(jìn)行預(yù)判,通過(guò)對(duì)比直接作答與CoT作答的表現(xiàn)差異,初步劃分這兩種不同類型的任務(wù)。接著,專業(yè)的標(biāo)注團(tuán)隊(duì)逐題審核,確保分類的準(zhǔn)確性。


為了便于CoT的評(píng)估,標(biāo)注團(tuán)隊(duì)為所有推理問(wèn)題都給出了必要的推理步驟的Ground  Truth標(biāo)注。對(duì)于多解的問(wèn)題,標(biāo)注者被要求給出了每種可能的解法。最后,MME-CoT得到了1130道精選的問(wèn)題以及3865個(gè)關(guān)鍵步驟標(biāo)注。

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

實(shí)驗(yàn)分析與結(jié)論

研究者們?cè)贛ME-CoT Benchmark上測(cè)評(píng)了13個(gè)現(xiàn)有的LMM以及2個(gè)最先進(jìn)的具有超強(qiáng)推理能力的LLM:DeepSeek-R1以及o3-mini。對(duì)于LLM,研究者們將圖片轉(zhuǎn)化為詳細(xì)的caption之后再輸入到模型。

實(shí)驗(yàn)結(jié)果如下:

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

基于測(cè)評(píng),還得到了如下的發(fā)現(xiàn)與結(jié)論:

  • 長(zhǎng)CoT不一定涵蓋關(guān)鍵步驟

盡管長(zhǎng)思維鏈模型具有更高的精確率,但每個(gè)步驟的信息量并不能得到保證。我們觀察到GPT-4o、QVQ和Virgo之間的召回率的趨勢(shì)和它們最終能否正確解答推理任務(wù)的表現(xiàn)(即在使用CoT的prompt時(shí),模型在推理任務(wù)的最終答案準(zhǔn)確率,對(duì)應(yīng)表格中的CoT Reasoning列)不一致。具體來(lái)說(shuō),雖然Virgo和QVQ在僅評(píng)估最終答案的正確性上都優(yōu)于GPT-4o,但它們?cè)谡倩芈噬下浜?。這表明長(zhǎng)CoT模型有時(shí)會(huì)在跳過(guò)中間步驟的情況下得出正確答案,這與CoT本身奉行的Think step by step的原則相矛盾,值得進(jìn)一步研究。

  • 更多參數(shù)使模型更好地掌握推理能力

我們發(fā)現(xiàn)參數(shù)量更大的模型往往獲得更高的有效性(Efficacy)分?jǐn)?shù)。這種模式在LLaVA-OV、InternVL2.5-MPO和Qwen2-VL中都很明顯。例如,雖然Qwen2-VL-7B在將CoT應(yīng)用于推理任務(wù)時(shí)顯示出4.8%的性能下降,但其更大的對(duì)應(yīng)模型Qwen2-VL-72B展示出2.4%的改進(jìn)。這種差異表明,在相同的訓(xùn)練范式下,具有更多參數(shù)的模型能夠更好地掌握推理能力。

  • 模型的反思的錯(cuò)誤涵蓋多種類型

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

四種主要錯(cuò)誤類型是:

  • 無(wú)效反思:模型得出錯(cuò)誤結(jié)論,在反思時(shí),繼續(xù)做出錯(cuò)誤的調(diào)整。這是最常見的錯(cuò)誤類型,也是最頻繁出現(xiàn)的。
  • 不完整:模型提出新的分析方法但未執(zhí)行它們,僅停留在初始想法階段。模型的反思只是在空想。
  • 重復(fù):模型重述先前的內(nèi)容或方法,沒有引入新的見解。
  • 干擾:模型最初達(dá)到正確結(jié)論,但反思卻引入了錯(cuò)誤。

顛覆認(rèn)知!多模態(tài)模型思維鏈評(píng)估白皮書:反思機(jī)制成勝負(fù)手,感知任務(wù)竟被CoT拖后腿-AI.x社區(qū)

理解和消除反思中的這些錯(cuò)誤對(duì)于提高LMM的推理效率以及可靠性是至關(guān)重要的。


展望未來(lái),MME-CoT不僅為評(píng)估LMM的推理能力提供了系統(tǒng)化的基準(zhǔn),更為該領(lǐng)域的研究指明了關(guān)鍵發(fā)展方向。通過(guò)揭示現(xiàn)有模型在推理質(zhì)量、魯棒性和計(jì)算效率等方面的不足,這項(xiàng)工作為后續(xù)研究奠定了重要基礎(chǔ)。這些發(fā)現(xiàn)將推動(dòng)LMM實(shí)現(xiàn)更強(qiáng)大以及可靠的視覺推理能力。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/4GeRmjJ3JvwCs--xlCYdFg??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦