自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MMMU華人團(tuán)隊(duì)更新Pro版!多模態(tài)基準(zhǔn)升至史詩級難度:過濾純文本問題、引入純視覺問答

人工智能 新聞
MMMU-Pro通過三步構(gòu)建過程(篩選問題、增加候選選項(xiàng)、引入純視覺輸入設(shè)置)更嚴(yán)格地評估模型的多模態(tài)理解能力;模型在新基準(zhǔn)上的性能下降明顯,表明MMMU-Pro能有效避免模型依賴捷徑和猜測策略的情況。

多模態(tài)大型語言模型(MLLMs)在各個排行榜上展現(xiàn)的性能不斷提升,例如GPT-4o在大學(xué)水平上的多學(xué)科多模態(tài)理解和推理(MMMU)基準(zhǔn)測試中取得了69.1%的準(zhǔn)確率。

不過,基準(zhǔn)測試結(jié)果是否真的能反映模型對多樣化主題的深入理解,仍然有爭議,或者說模型是否只是利用了統(tǒng)計(jì)模式,而非依靠理解和推理的情況下就能得出正確答案?

為了解決這一問題并推動多模態(tài)AI評估的邊界,MMMU團(tuán)隊(duì)對MMMU基準(zhǔn)在健壯性和問題難度上進(jìn)行提升,新基準(zhǔn)MMMU-Pro能夠更準(zhǔn)確、更嚴(yán)格地評估模型在廣泛的學(xué)科領(lǐng)域內(nèi)真正的多模態(tài)理解和推理能力。

論文鏈接:https://arxiv.org/abs/2409.02813

MMMU-Pro的構(gòu)建過程包括三步:

1. 過濾掉純文本模型可回答的問題;

2. 由人類專家將候選選項(xiàng)增加到 10 個,以減少模型蒙對答案的概率;

3. 引入純視覺輸入設(shè)置,即問題直接寫在圖像中,既要求模型像人一樣同時具有「看」和「讀」的能力,也可以在現(xiàn)實(shí)場景中直接將模型用于屏幕截圖或照片,無需分離問題與圖片;

實(shí)驗(yàn)結(jié)果顯示,模型在MMMU-Pro上的性能明顯低于 MMMU,下降 16.8% 到 26.9%,模型的排名通常與原始模型相似,但GPT-4o mini 模型的健壯性與GPT-4o相比,健壯性較差。

研究人員中還探討了 OCR 提示和思想鏈 (CoT) 推理的影響,結(jié)果發(fā)現(xiàn) OCR 提示的影響很小,而 CoT 通??梢蕴岣咝阅?。

MMMU-Pro:更健壯的MMMU

重新審視MMMU基準(zhǔn)測試

大規(guī)模多學(xué)科多模態(tài)理解和推理(MMMU)基準(zhǔn)測試是一個綜合性的數(shù)據(jù)集,能夠評估多模態(tài)人工智能模型在需要特定學(xué)科知識和深思熟慮推理的大學(xué)水平任務(wù)上的表現(xiàn)。

MMMU由來自大學(xué)考試、測驗(yàn)和教科書的1.15萬個精心策劃的多模態(tài)問題組成,涵蓋了六個核心學(xué)科的30個主題和183個子領(lǐng)域。

MMMU中的每個問題都是一個多模態(tài)的圖文配對,有4個多項(xiàng)選擇選項(xiàng),包括圖表、圖解、地圖和化學(xué)結(jié)構(gòu)等30種不同的圖像類型。

該基準(zhǔn)已經(jīng)成為了多模態(tài)領(lǐng)域的標(biāo)準(zhǔn)評估工具,許多著名多模態(tài)模型在發(fā)布時都會使用MMMU來評估能力。

但與此同時,MMMU社區(qū)也有許多負(fù)面反饋,研究人員總結(jié)為兩個問題:

1. 文本依賴性:某些問題相對獨(dú)立或與相應(yīng)的圖像無關(guān),即無需輸入圖像,僅靠問題文本就能回答;

2. 利用捷徑:即使問題需要圖像才能正確回答,但模型通常也能找到候選選項(xiàng)中的捷徑或相關(guān)性,根據(jù)預(yù)訓(xùn)練中獲得的先驗(yàn)知識來得出正確答案。

所以MMMU-Pro在構(gòu)建的時候,更加細(xì)致地考慮問題與圖像之間的關(guān)聯(lián)性,以及智能體是否真正理解了問題的本質(zhì),而不僅僅依賴于文本信息或選項(xiàng)中的模式識別。

構(gòu)建方法

為了緩解這些問題并構(gòu)建一個更健壯的基準(zhǔn)測試,研究人員設(shè)計(jì)了一個三步方法:

圖片圖片

1. 篩選問題

刪除僅通過文本的大型語言模型(LLMs)就能回答的問題。

研究人員選擇了四個強(qiáng)大的開源LLMs:Llama3-70B-Instruct、Qwen2-72B-Instruct、Yi-1.5-34B-Chat和Mixtral-8×22BInstruct(gpt-4o),并要求模型在沒有圖像的情況下回答MMMU問題;即使模型表明需要視覺輸入,也要求模型提供答案。

對每個模型重復(fù)上述過程十次,如果某個模型能夠正確回答一個問題超過五次,就可以認(rèn)為這個問題是「純文本可回答的」,排除掉三個模型都可回答的問題。

然后從剩余的問題池中,在30個主題下,每個主題隨機(jī)抽取60個問題,總計(jì)1800個問題。

2. 增加候選選項(xiàng)

為了防止模型根據(jù)問題和候選項(xiàng)之間的關(guān)聯(lián)來回答問題,研究人員將問題的候選項(xiàng)從四個增加到十個,使模型更難蒙對。

在增加選項(xiàng)的過程中,專家還會對原始的標(biāo)注問題進(jìn)行審查,以確保問題與圖像的相關(guān)性,并排除了缺乏明確聯(lián)系或連貫性的問題,篩選出了70個問題。

3. 通過僅視覺輸入設(shè)置增強(qiáng)評估

為了進(jìn)一步挑戰(zhàn)模型的多模態(tài)理解,研究人員在MMMU-Pro中引入了純視覺輸入設(shè)置,將問題嵌入到屏幕截圖或照片中。

人類標(biāo)注人員需要在模擬顯示環(huán)境中手動捕獲照片和屏幕截圖,圖片涉及不同的背景、字體樣式和字體大小,可以覆蓋現(xiàn)實(shí)世界條件的多樣性。

圖片

最終總共獲得了3460個問題,其中1730個樣本是標(biāo)準(zhǔn)格式 ,另外1730個是屏幕截圖或照片形式。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

研究人員用到的基線模型包括:

1. 閉源模型(Proprietary Models):GPT-4o(0513)和GPT-4o mini,Claude 3.5 Sonnet,以及Gemini 1.5 Pro(0801和0523版本),代表了多模態(tài)模型能力的最前沿。

2. 開源模型:InternVL2(8B、40B和Llama3-76B版本)、LLaVA(OneVision-7B、OneVision-72B和各種NeXT版本)、VILA-1.5-40B、MiniCPM-V2.6、Phi-3.5-Vision和Idefics3-8B-Llama3

研究人員在三種不同的測試環(huán)境下對模型進(jìn)行評估:(1)4個選項(xiàng)的標(biāo)準(zhǔn)設(shè)置、10個選項(xiàng)下的性能和(3)純視覺輸入,其中(2)和(3)的平均分作為MMMU-Pro的總體性能得分。

總體結(jié)果

圖片

增加候選選項(xiàng)的影響

從4個候選選項(xiàng)增加到10個(?1)對所有模型的性能都有明顯的下降,GPT-4o(0513)的準(zhǔn)確率下降了10.7%,從64.7%降至54.0%,表明增加選項(xiàng)數(shù)量可以有效降低了模型猜測正確答案的可能性,迫使模型更深入地理解和處理多模態(tài)內(nèi)容。

純視覺設(shè)置的影響

GPT-4o(0513)在純視覺設(shè)置中的準(zhǔn)確率又下降了4.3%,而LLaVA-OneVision-72B的準(zhǔn)確率大幅下降了14.0%,表明純視覺設(shè)置確實(shí)能考驗(yàn)出模型整合視覺和文本信息的能力。

對MMMU-Pro的綜合影響

總體的性能差異?3代表MMMU-Pro與MMMU(驗(yàn)證集)之間的差異,可以看到Gemini 1.5 Pro(0801)和Claude 3.5 Sonnet模型分別出現(xiàn)了18.9%和16.8%的下降,而VILA-1.5-40B等模型的下降的更多,達(dá)到了26.9%。

全面的準(zhǔn)確率顯著降低表明,MMMU-Pro成功地降低了模型在原始基準(zhǔn)測試中可能利用的捷徑和猜測策略。

OCR在視覺設(shè)置中有幫助嗎

研究人員探討了光學(xué)字符識別(OCR)提示是否有助于提高M(jìn)MMU-Pro僅視覺輸入設(shè)置中的性能。


OCR提示明確要求模型寫出圖像中的問題文本,不過,在評估的模型中,包含OCR提示并沒有顯著改變性能。

圖片

微小的性能差異表明,現(xiàn)有的模型已經(jīng)能夠從圖像中提取和理解文本信息,即使沒有明確的OCR提示也是如此。

當(dāng)文本嵌入在圖像中時,雖然顯著增加了視覺輸入的整體復(fù)雜性,但簡單的OCR不足以解決MMMU-Pro僅視覺輸入設(shè)置所提出的問題,模型不僅要識別和提取文本,還要理解其在圖像中的上下文、與視覺元素的關(guān)系以及與當(dāng)前問題的相關(guān)性。

CoT有助于回答MMMU-Pro問題嗎?

在MMMU-Pro基準(zhǔn)測試中,研究人員估了思維鏈(Chain of Thought,簡稱CoT)提示在提升智能體性能方面的有效性,包括標(biāo)準(zhǔn)設(shè)置和視覺輸入設(shè)置。

結(jié)果顯示,在這兩種設(shè)置下,引入CoT提示都能夠帶來性能的提升,但不同智能體的性能提升幅度存在顯著差異。

例如,Claude 3.5 Sonnet在標(biāo)準(zhǔn)設(shè)置中表現(xiàn)出顯著的性能提升,準(zhǔn)確率從42.7%提高到55.0%,相比之下,LLaVA-OneVision-72B只有很小的性能提升。

值得注意的是,一些智能體,比如VILA1.5-40B,在引入CoT提示后性能反而出現(xiàn)了下降,可能與模型在遵循指令方面的能力有關(guān)。如果模型無法準(zhǔn)確地遵循指令,生成CoT解釋就會變得更加困難。

此外,有些模型無法保持正確的回復(fù)格式,即存在所謂的「簡化回復(fù)格式」問題。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-26 10:24:47

2024-09-24 13:00:00

大語言模型AI

2024-08-08 13:04:28

2025-02-27 10:08:19

2024-04-28 09:12:16

CSS文本是否溢出前端

2012-04-23 14:37:52

2023-09-25 08:08:56

CAA開發(fā)者團(tuán)隊(duì)

2024-01-02 09:16:31

GPT-4推理

2017-08-20 12:49:59

瀏覽器跨域服務(wù)器

2023-04-25 11:49:28

3D視覺

2024-10-30 15:00:00

AI視頻模型

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2024-06-28 18:13:05

2024-01-31 09:43:55

模型訓(xùn)練

2024-06-12 11:50:23

2009-04-01 08:58:50

FirefoxMozilla瀏覽器

2025-02-13 09:40:00

2024-11-13 09:39:13

2024-09-05 15:00:00

特斯拉無人駕駛

2022-11-01 13:42:54

雷達(dá)智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號