Bengio團隊提出多模態(tài)新基準(zhǔn),直指Claude 3.5和GPT-4o弱點
本文作者張?zhí)煊睿妥x于加拿大Mila人工智能研究所,師從圖靈獎得主Yoshua Bengio教授。博士期間的主要工作聚焦于多模態(tài)、GFlowNet、多智能體強化學(xué)習(xí)、AI于氣候變化的應(yīng)用。目前已在ICML、ICLR、ICASSP等機器學(xué)習(xí)頂會發(fā)表論文。代表作為Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation (CLAP)。
想要達成通用人工智能 AGI 的終極目標(biāo),首先要達成的是模型要能完成人類所能輕松做到的任務(wù)。為了做到這一點,大模型開發(fā)的關(guān)鍵指導(dǎo)之一便是如何讓機器像人類一樣思考和推理。諸如注意力機制和思維鏈(Chain-of-Thought)等技術(shù)正是由此產(chǎn)生的靈感。
然而,可能很多人并沒有意識到,很多對人類來說很簡單的認(rèn)知任務(wù)也往往伴隨著非常復(fù)雜的推理過程。舉個栗子,請大家試試根據(jù)下方的圖片填補被遮擋的文字空白:
(正確答案:來自全球各地的機器學(xué)習(xí)研究人員都對新型 GPU 感到興奮。它的尖端功能也能讓大規(guī)模實驗更高效、更便宜,即使它有爐灶那么大。)
對大多數(shù)中文母語者而言,這個任務(wù)應(yīng)該不難,相信大家不需要幾秒鐘就可以得到答案。但想從露出的部分文字推斷完整文字仍然需要十分復(fù)雜的推理過程:當(dāng)代神經(jīng)科學(xué)研究表明,復(fù)原被部分遮擋物體需要能進行高級決策的前額葉皮質(zhì)的高度參與。
我們知道,當(dāng)前的視覺語言模型(Vision-Language Models, VLM)可以非常精確地進行物體識別和文字識別。但是,當(dāng)被遮擋的部分是文字;當(dāng)模型的光學(xué)字符識別(OCR)失效;當(dāng)僅有的關(guān)鍵信息只有被遮擋文字的幾個像素,模型能夠模擬人類的推理過程完成這一任務(wù)嗎?
為此,來自圖靈獎得主 Yoshua Bengio 的團隊提出了全新的視覺問答任務(wù):視覺字幕恢復(fù)(Visual Caption Restoration,VCR)。讓我們借由這個任務(wù)對視覺語言模型的推理能力一探究竟:當(dāng)前的視覺語言模型距離人類的認(rèn)知水平還有多長的路要走?
- 論文標(biāo)題:VCR: Visual Caption Restoration
- 論文鏈接:arxiv.org/abs/2406.06462
- 代碼倉庫:github.com/tianyu-z/VCR (點擊閱讀原文即可直達,包含評用于模型評測和預(yù)訓(xùn)練的數(shù)據(jù)生成代碼)
- Hugging Face 鏈接:huggingface.co/vcr-org
VCR 數(shù)據(jù)集簡介
為了開發(fā) VCR 任務(wù),研究人員構(gòu)建了一個由圖像 - 文字生成 VCR 合成圖像的流程。在該流程中可以通過控制遮住文字的白色矩形大小來改變圖像中文本的可見性,從而控制任務(wù)難度。
借由該數(shù)據(jù)生成流程,研究人員通過維基百科的主圖 - 介紹對生成了 VCR-wiki 數(shù)據(jù)集。對兩種語言均設(shè)置 “簡單” 和 “困難” 兩個難度級別。其中:
- “簡單” 難度 VCR 任務(wù)能使得 OCR 模型失效;
- “困難” 難度 VCR 任務(wù)則對每個被遮擋的文本只保留上下各 1-2 個像素的高度,但依然能讓對應(yīng)語言的使用者完成任務(wù)。
每種語言和難度中,測試集和驗證集各有 5000 個樣本,剩下的樣本都在訓(xùn)練集中。
圖例:從左到右分別為,英文簡單難度、英文困難難度、中文簡單難度、中文困難難度
難度進一步提升后,人類 vs 模型
文章開頭的例子對人類而言只是一個小挑戰(zhàn),不能很好地展示人類做這個任務(wù)的極限水平以及人類在解題的時候運用的思維和技巧。下面展示了一個 “困難” 難度的 VCR 任務(wù)樣例。讀者可以更專注地嘗試自己填補下方被遮擋的文字空白。
(正確答案:至大論,古希臘托勒密在約公元 140 年編纂的一部數(shù)學(xué)、天文學(xué)專著,提出了恒星和行星的復(fù)雜運動路徑。直到中世紀(jì)和文藝復(fù)興早期,該書提出的地心說模型被伊斯蘭和歐…)
人類是如何補全被部分遮擋的文字的?
教育學(xué)和認(rèn)知科學(xué)中有一個概念叫做元認(rèn)知(meta-cognition)。在設(shè)計 AI 的時候,我們?nèi)祟愖鳛榻處?,可以通過監(jiān)控自己的思維過程當(dāng)作參考來幫助作為模型的學(xué)生提高學(xué)習(xí)效率。因此,思考 “人類是如何完成 VCR 任務(wù)的” 可以對模型設(shè)計有指導(dǎo)意義。
下圖展示了一種筆者對 VCR 任務(wù)的解題思路作為參考:
看似步驟很多,其實就是在不斷通過不同的區(qū)域獲取信息再反復(fù)驗證來增加回答的置信度。
最開始看到圖片時,心里只有一個模糊的猜測,在不斷閱讀圖片獲取新信息的過程中,逐步驗證猜測。閱讀完畢后,開始填空時,仍然沒有停止通過信息的不同方面來相互對照,印證答案。當(dāng) “假設(shè)” 無法與其他信息保持一致時,就會推翻 “假設(shè)”,重新嘗試新的假設(shè)。
人類評測結(jié)果
人類在 VCR 任務(wù)下的水平如何呢?下圖中展示了母語者或各語言的流利使用者在英 / 中兩種語言的簡單 / 困難設(shè)定下的準(zhǔn)確度:
如果考慮包含時間、地名、人名的錯誤,人類在簡單難度下的中文平均正確率約為 98.58%,在困難難度下的中文平均正確率約為 91.84%。而去掉這些因為時間、地名、人名的錯誤,人類在簡單難度的中文下幾乎接近滿分,而中文困難難度下正確率也達到了 96.63%??梢钥闯?,VCR 任務(wù)對于人類而言是非常簡單的。
現(xiàn)有模型結(jié)果
作者測試了 “全明星陣容”:Claude 3 Opus, Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o, GPT-4 Turbo, Qwen-VL-Max, Reka Core 以及一些目前性能最好的開源模型。
下圖中展示了在 VCR-Wiki 中文的簡單難度上各個模型的性能:
紅框測量指標(biāo)包括代表包含了圖像(VI)和圖像中的文字(TEI)兩部分作為上下文信息,模型能還原出被遮住的文字的準(zhǔn)確率。藍色框內(nèi)表示僅包含圖像中的文字(TEI)的作為上下文信息,并不包含圖像(VI),模型能還原出的遮住文字的準(zhǔn)確率。
結(jié)果表明:
- 絕大多數(shù)模型目前都不能勝任這個任務(wù);
- 絕大多數(shù)模型沒有利用好圖像信息,沒有因為圖像信息(VI)而提高準(zhǔn)確率。
在中文的困難難度上,模型遇到了更大的麻煩。表現(xiàn)得最好的是 GPT-4o,但其只有 2.2% 的準(zhǔn)確率。除了 CogVLM2-Chinese 和 Qwen-VL-Max,絕大多數(shù)模型的準(zhǔn)確率都接近 0%。
可以觀察到,在困難模式下,原始模型很難在本問題上以顯著的比例答對,更不用說接近人類了。
英文 VCR 評測結(jié)果
作者同樣對目前最優(yōu)的開源和閉源視覺 - 語言模型在英文 VCR-Wiki 上做了測試。在展示測試結(jié)果之前,請先看兩個英文 VCR-Wiki 任務(wù)的樣例:
英文簡單樣例:
(正確答案:Since the United States Post Office issued its first stamp in 1847, over 4,000 stamps have been issued and over 800 people featured. Many of these people...)
英文困難樣例:
(正確答案:Lincoln is the luxury vehicle division of American automobile manufacturer Ford. Marketed among the top luxury vehicle brands in the United States, for...)
文中展示的英文 VCR-Wiki 的測試結(jié)果如下:
從結(jié)果整體來看,模型在英文的簡單模式和困難模式下都分別比中文表現(xiàn)得要好。這個結(jié)果與我們一般認(rèn)為的 "因為特殊的模塊化構(gòu)形,殘缺的中文更加容易被補全" 的直覺不一致?;蛟S這是由于在預(yù)訓(xùn)練過程中,英文在數(shù)據(jù)量和數(shù)據(jù)質(zhì)量上相比中文有更大的優(yōu)勢。
在所測試的眾多模型中,GPT-4o 是閉源模型中的效果最佳的,CogVLM2 是開源模型中表現(xiàn)最佳的。
一個很有趣的現(xiàn)象是加入了圖片對 CogVLM2 來說有了明顯的幫助(在困難模式下提升了 20.3%),而對于 GPT-4o 而言反而結(jié)果有下降。在中文測試中,也有相似的現(xiàn)象。筆者認(rèn)為這是模型的結(jié)構(gòu)所導(dǎo)致的。具體的細節(jié),歡迎讀者參閱 CogVLM 系列的論文以及代碼。
另外,閉源模型普遍取得了比開源模型更優(yōu)的結(jié)果,這可能歸功于更優(yōu)的訓(xùn)練策略或是更多的模型參數(shù)。但即使如此,模型依然在 “困難” 設(shè)定下遇到了很大的挑戰(zhàn)。開源模型雖然可以部分完成 “簡單” 設(shè)定,但在困難設(shè)定下,大多數(shù)開源模型都無法完成這個對人類而言十分簡單的任務(wù)。
相關(guān)任務(wù)簡介
VQA
視覺問答(Visual Question Answering, VQA)任務(wù)要求模型根據(jù)輸入的圖像和自然語言問題生成自由形式的回答。由于沒有唯一的標(biāo)準(zhǔn)答案,評估 VQA 具有很大的挑戰(zhàn)性。傳統(tǒng)的 VQA 方法主要集中于圖像中可見元素的直接查詢,而不涉及圖像中嵌入的文本內(nèi)容與整體圖像上下文之間的復(fù)雜關(guān)系。
在一些文字在圖片中信息占比比較大的 VQA 評測中,模型的視覺模塊甚至可能完全不需要與語言模塊對齊就可以勝任。此類流程為:圖像輸入給 OCR 視覺模塊,OCR 視覺模塊輸出圖像中的字符信息并以此為上下文輸入給語言模塊。這樣就導(dǎo)致了 VQA 任務(wù)退化成了不需要圖像信息的 QA 任務(wù)。原本比較不同的 VLM 需要的視覺模塊對齊能力被忽視而 OCR 能力被重視。
OCR
光學(xué)字符識別(Optical Character Recognition, OCR)任務(wù)通常輸入圖像中的完整字符,并輸出表示圖像中字符的字符串文本,而無需考慮圖像上下文。
預(yù)訓(xùn)練過 OCR 的模型能夠從輸入圖像中提取嵌入的文本,即使這些文本是不完整或模糊的。然而,隨著文本組件模糊或被遮擋的程度增加,只利用可見部分恢復(fù)原始文本變得困難,OCR 方法在這種情況下效果有限。
可以看出,VQA 任務(wù)沒有標(biāo)準(zhǔn)答案,評估模型回答的質(zhì)量仍然是一個開放性問題。而 OCR 任務(wù)不需要通過上下文來完成,無法檢驗?zāi)P褪欠裾娴膶W(xué)會利用了上下文中的信息。
VCR 任務(wù)的不可替代性
視覺字幕恢復(fù)(Visual Caption Restoration, VCR)任務(wù)旨在恢復(fù)圖像中被遮擋的文本,這一任務(wù)在 VQA 和 OCR 之間架起了橋梁。
- VCR 任務(wù)的獨特挑戰(zhàn)在于要求模型在視覺和文本信息之間進行精確的對齊,這與 OCR 的簡單文本提取任務(wù)形成鮮明對比。在 OCR 中,主要關(guān)注的是識別可見字符,而無需理解它們在圖像敘事中的上下文相關(guān)性。相比之下,VCR 要求模型協(xié)同利用可用的部分像素級文本提示和視覺上下文來準(zhǔn)確地重建被遮擋的內(nèi)容。這不僅測試了模型處理嵌入文本和視覺元素的能力,還考驗了其保持內(nèi)部一致性的能力,類似于人類通過上下文和視覺線索進行理解和響應(yīng)的認(rèn)知過程。
- 與 VQA 不同,VCR 任務(wù)的問題有唯一的答案,這使得評估可以通過準(zhǔn)確度進行,使評測指標(biāo)更加明確。
- 通過調(diào)整文本的遮蓋比例,可以控制任務(wù)的難度,從而提供一個豐富的測試環(huán)境。
- 與 OCR 任務(wù)一樣,VCR 任務(wù)也可以充當(dāng) VLM 的訓(xùn)練任務(wù)。作者開放了 transform 代碼,可以生成任意給定圖像 - 文字對的 VCR 任務(wù)圖。
小結(jié)
本文提出的視覺字幕恢復(fù)(VCR)任務(wù)通過看似簡單的字幕恢復(fù)任務(wù)巧妙地揭開了現(xiàn)有模型圖像 - 文本對齊的局限性,以及模型與人類在高級認(rèn)知任務(wù)上的推理能力差異。相信這一任務(wù)可以啟發(fā)未來更加有效的 VLM 訓(xùn)練、評測和推理方法,進一步拉近多模態(tài)模型和人類認(rèn)知能力的差距。