自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MLLM真能看懂?dāng)?shù)學(xué)嗎?MathVerse來了次摸底測評,放出當(dāng)天登熱榜

發(fā)布于 2024-4-19 14:43
瀏覽
0收藏

1、背景

在大算力的數(shù)字化時代下,大語言模型(LLM)以其令人矚目的發(fā)展速度,正引領(lǐng)著技術(shù)的潮流。基于它們強(qiáng)大的文本理解和生成能力,各大研究機(jī)構(gòu)正在探索如何將這些能力擴(kuò)展至視覺領(lǐng)域,構(gòu)建一個能夠理解和生成多模態(tài)內(nèi)容的超級智能體 —— 多模態(tài)大語言模型(MLLMs)。


在追求通用視覺性能的道路上,社區(qū)內(nèi)已經(jīng)涌現(xiàn)出眾多精心設(shè)計的測評 benchmark。它們通常使用貼近日常生活的自然圖片作為樣例,為 MLLMs 的視覺能力提供全面的評估,如 MME、MMBench 等。然而,要深入了解 MLLMs 的 “思維” 和 “推理” 能力,僅憑通用視覺性能的測評遠(yuǎn)遠(yuǎn)不夠。多模態(tài)數(shù)學(xué)題求解能力,才是衡量它們深度認(rèn)知和邏輯推理能力的真正試金石。


盡管如此,目前領(lǐng)域內(nèi)依然缺少針對 MLLM 數(shù)學(xué)解題能力的測評 benchmark?,F(xiàn)有的少數(shù)嘗試,如 GeoQA、MathVista 和 MMMU,通過深入分析,仍然存在一定的問題和偏差。鑒于此,我們推出一個全新的測評 benchmark——MathVerse,旨在深入探究 MLLMs 是否真正具備解讀和解答多模態(tài)數(shù)學(xué)題的能力,為未來的技術(shù)發(fā)展提供獨特的見解。


MLLM真能看懂?dāng)?shù)學(xué)嗎?MathVerse來了次摸底測評,放出當(dāng)天登熱榜-AI.x社區(qū)



  • 論文:https://arxiv.org/pdf/2403.14624.pdf
  • 主頁:https://mathverse-cuhk.github.io/
  • 代碼:https://github.com/ZrrSkywalker/MathVerse
  • 數(shù)據(jù)集:https://huggingface.co/datasets/AI4Math/MathVerse
  • 題目:MATHVERSE: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems??


值得一提的是,這項研究在當(dāng)日的 HuggingFace Daily Paper 中排名第一,并在推特上引發(fā)了廣泛的討論,瀏覽量高大 10K+。

2、關(guān)鍵發(fā)現(xiàn)

然而,通過全面觀察和分析,我們發(fā)現(xiàn)當(dāng)前多模態(tài)數(shù)學(xué) benchmark 中存在的三個關(guān)鍵問題:


MLLM

?

在測評中是否真正 “看到” 了數(shù)學(xué)圖像?這是關(guān)于準(zhǔn)確評估視覺數(shù)學(xué)問題解決能力最基本的問題。圖 1(a)展示了當(dāng)前 benchmark 中的三個示例。我們觀察到,它們的題目文本中包含了大量與圖像內(nèi)容重復(fù)的信息(以紅色高亮顯示)。這種冗余可能無意中為 MLLM 提供了一條捷徑,使它們在解決問題時主要通過閱讀文本,而不是解讀圖表。我們假設(shè)從圖 1(b)的實驗中得到了支持。我們對每個 benchmark 隨機(jī)抽樣的 40 個問題,移除了這種冗余文本,挑戰(zhàn) MLLM 僅從視覺輸入中捕獲相應(yīng)的信息。結(jié)果顯示,大多數(shù) MLLM 的準(zhǔn)確率顯著下降(藍(lán)色柱子),甚至低于不將圖表作為輸入時的得分(灰色柱子)。這一結(jié)果表明,MLLM 在解決這些問題時,主要依賴于文本線索,而非真正去理解視覺圖像本身,并且,在不輸入圖像的情況下,甚至可以得到更高的評分。鑒于此,我們展示了當(dāng)前的視覺數(shù)學(xué) benchmark 可能不足以全面評估 MLLM 的真正多模態(tài)數(shù)學(xué)推理能力。


MLLM真能看懂?dāng)?shù)學(xué)嗎?MathVerse來了次摸底測評,放出當(dāng)天登熱榜-AI.x社區(qū)


僅通過 MLLM 回答的最終答案來評估是否公平?


大多數(shù)現(xiàn)有的多模態(tài) benchmark 直接將模型輸出與真值進(jìn)行比較,以得出二元評估結(jié)果(“正確” 或者 “錯誤”)。雖然這種方法對于通用的視覺問答情境可能足夠,但在需要復(fù)雜逐步推理的數(shù)學(xué)問題中卻顯得過于武斷。在圖 2 中,我們展示了三個不同模型的輸出。盡管它們最終都得到了錯誤的答案,但它們在中間推理過程中展現(xiàn)了不同程度的精確性。僅將這些輸出歸類為 “錯誤”,未能捕捉到 MLLMs 推理質(zhì)量的細(xì)微差別。


MLLM真能看懂?dāng)?shù)學(xué)嗎?MathVerse來了次摸底測評,放出當(dāng)天登熱榜-AI.x社區(qū)


它們是否能夠全面并且專注的體現(xiàn)出 MLLM 的數(shù)學(xué)推理能力?


GeoQA 僅僅包含了平面幾何數(shù)學(xué)題,從而限制了對更廣泛數(shù)學(xué)能力的評估,例如函數(shù)和立體幾何。相反,MathVista 加入了廣泛的輔助任務(wù)(自然圖像、統(tǒng)計圖表)來擴(kuò)展范圍,但這些并不直接評估 MLLM 的專業(yè)數(shù)學(xué)技能。此外,MMMU 中的數(shù)學(xué)問題具有大學(xué)級別的復(fù)雜度,需要廣泛的領(lǐng)域特定知識,這可能阻礙 MLLMs 充分展示它們的推理能力。

3、MathVerse Benchmark

數(shù)據(jù)組成和統(tǒng)計

?

MathVerse 測評數(shù)據(jù)集收集了 2612 個多模態(tài)數(shù)學(xué)題,并人工標(biāo)注構(gòu)造了多達(dá) 15672 個測試樣本,廣泛涵蓋了 3 個主要題目類型和 12 個子類,例如平面幾何、立體幾何和函數(shù)。經(jīng)過團(tuán)隊細(xì)致檢查與標(biāo)注,MathVerse 高質(zhì)量數(shù)據(jù)可以為 MLLM 提供一個魯棒且全面的能力測評。


MLLM真能看懂?dāng)?shù)學(xué)嗎?MathVerse來了次摸底測評,放出當(dāng)天登熱榜-AI.x社區(qū)


MLLM真能看懂?dāng)?shù)學(xué)嗎?MathVerse來了次摸底測評,放出當(dāng)天登熱榜-AI.x社區(qū)


如何體現(xiàn) MLLM 的數(shù)學(xué)圖像理解能力?


我們首先根據(jù)題目中文本和圖像的信息關(guān)聯(lián),如下圖所示,定義了 3 種不同的文本類別


  • a.描述信息,Descriptive Information(DI,紅色高亮部分)指的是圖像中可直接觀察出的內(nèi)容。它描繪了基本圖形組成、幾何形狀和空間布局。此類文本信息對于圖像而言是重復(fù)性的,因此被視為解決問題的冗余信息。
  • b.隱含屬性,Implicit Property(IP,藍(lán)色高亮部分)指的是那些需要更強(qiáng)的視覺感知能力才能從圖像中辨識出來的屬性。它代表著解決問題所需的較強(qiáng)視覺條件,如線條之間的平行性和垂直性、三角形之間的相似性和全等性、函數(shù)的種類和周期性。
  • c.基本條件,Essential Condition(EC,綠色高亮部分)指的是題目中給定的具體數(shù)值,它們是推導(dǎo)解決方案不可或缺的條件,并且不能從視覺圖表中直接得出,例如角度、長度的精確值和函數(shù)表達(dá)式。


MLLM真能看懂?dāng)?shù)學(xué)嗎?MathVerse來了次摸底測評,放出當(dāng)天登熱榜-AI.x社區(qū)


基于以上三種文本信息的定義,我們將每道多模態(tài)數(shù)學(xué)題通過人工標(biāo)注,系統(tǒng)地移除問題中的不同文本信息,并逐步將關(guān)鍵元素融入到圖表中,拓展為 6 個不同的題目版本,如下圖所示。這種方法可以逐漸減少文本中提供的信息量,從而越來越有力地迫使 MLLM 從視覺輸入中捕獲數(shù)學(xué)條件。通過比較 MLLM 在不同題目版本之間的得分,我們可以很清晰的評估它們的真實視覺理解能力。


MLLM真能看懂?dāng)?shù)學(xué)嗎?MathVerse來了次摸底測評,放出當(dāng)天登熱榜-AI.x社區(qū)


如何細(xì)致評估 MLLM 的中間解題步驟?


與一般情景下的視覺問題回答相比,MLLM 解決數(shù)學(xué)問題的過程需要細(xì)膩、逐步的鏈?zhǔn)酵评恚–hain-of-Thought,CoT)。為此,我們提出了一種 CoT 評估策略,以細(xì)致的評估它們的視覺數(shù)學(xué)鏈?zhǔn)酵评砟芰?。我們?CoT 策略通過分別提示 GPT-4 和 GPT-4V 進(jìn)行兩個階段的測評:關(guān)鍵步驟提取(Key-step Extraction)和多步評分(Multi-step Scoring)。如下圖所示:


MLLM真能看懂?dāng)?shù)學(xué)嗎?MathVerse來了次摸底測評,放出當(dāng)天登熱榜-AI.x社區(qū)


這種評估策略不僅關(guān)注最終答案的正確性,而且更加重視解題過程中的邏輯連貫性和推理深度。通過這種方法,我們能夠更加精準(zhǔn)地揭示 MLLM 在解決復(fù)雜數(shù)學(xué)問題時的真實能力,尤其是它們?nèi)绾我徊讲綐?gòu)建問題解決方案的能力。這對于理解 MLLMs 的思維方式、推理能力,以及它們?nèi)绾翁幚砗徒忉屢曈X與數(shù)學(xué)信息的綜合能力至關(guān)重要。


實驗與結(jié)論


我們在 MathVerse benchmark 上測評了 17 個現(xiàn)有的 MLLM,如下表所示。其中 “CoT-E” 代表使用了我們提出的 CoT 測評策略,而 “w/o” 代表了直接進(jìn)行二元對錯的測評結(jié)果。


MLLM真能看懂?dāng)?shù)學(xué)嗎?MathVerse來了次摸底測評,放出當(dāng)天登熱榜-AI.x社區(qū)


基于測評,我們可以得出以下結(jié)論:


  1. MLLM 更依賴于文本信息去解題,而不是觀察數(shù)學(xué)圖像。
  2. 除 GPT-4V 和 ShareGPT4V 之外,大部分 MLLM 在沒有圖像輸入的情況下,僅僅通過文本竟然可以獲得更高的得分,證明如今低質(zhì)量的視覺編碼對于解題來說起到了負(fù)面的作用。
  3. MLLM 很難從圖像中準(zhǔn)確的解讀出題目中的基本條件和問題。
  4. 閉源模型的多模態(tài)數(shù)學(xué)解題能力要比開源模型更好。
  5. 通過比較 G-LLaVA 和 LLaVA-1.5,使用數(shù)學(xué)訓(xùn)練數(shù)據(jù)進(jìn)行模型微調(diào)可以提升特定的解題能力,但是也會降低其泛化能力。
  6. CoT 測評相比二元測評可以更全面的體現(xiàn)模型的邏輯推理能力。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/gEcCi92PdMMCItFII84lcw??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦