最強(qiáng)的GPT-4V都考不過(guò)?基于大學(xué)考試的測(cè)試基準(zhǔn)MMMU誕生了
目前最好的大型多模態(tài)模型 GPT-4V 與大學(xué)生誰(shuí)更強(qiáng)?我們還不知道,但近日一個(gè)新的基準(zhǔn)數(shù)據(jù)集 MMMU 以及基于其的基準(zhǔn)測(cè)試或許能給我們提供一點(diǎn)線(xiàn)索,如下排行榜所示。
看起來(lái),GPT-4V 在一些科目上已經(jīng)強(qiáng)過(guò)掛科的大學(xué)生了。當(dāng)然這個(gè)數(shù)據(jù)集的創(chuàng)造目的并不為了擊敗大學(xué)生,而是為了提供一個(gè)兼具深度與廣度的多模態(tài) AI 測(cè)試基準(zhǔn),助力人工智能系統(tǒng)的開(kāi)發(fā),尤其是通用人工智能(Artificial General Intelligence,AGI)。
隨著大型語(yǔ)言模型(LLM)快速發(fā)展,人們對(duì) AGI 這一頗具爭(zhēng)議的概念進(jìn)行了廣泛討論。簡(jiǎn)單來(lái)說(shuō),AGI 是指在大多數(shù)任務(wù)上都與人類(lèi)相當(dāng)或超越人類(lèi)的人工智能系統(tǒng)。由于缺乏公認(rèn)的可操作定義,人們一直都很難就 AGI 開(kāi)展更加坦誠(chéng)和建設(shè)性的討論。
為了解決這個(gè)問(wèn)題,Morris 等人的論文《Levels of AGI: Operationalizing Progress on the Path to AGI》提出了一種兼顧通用性(廣度)和性能(深度)的 AGI 分級(jí)分類(lèi)法。
在這種分類(lèi)法中,第 3 級(jí)是專(zhuān)家 AGI,這是一個(gè)重要的里程碑。它表示 AI 系統(tǒng)在廣泛的任務(wù)上達(dá)到了「掌握專(zhuān)業(yè)知識(shí)的成年人類(lèi)的 90%」,并由此可以在許多行業(yè)中達(dá)到「機(jī)器智能接替人類(lèi)勞動(dòng)力的替代門(mén)檻」,從而造成重大的失業(yè)風(fēng)險(xiǎn)和經(jīng)濟(jì)混亂。因此,密切關(guān)注專(zhuān)家 AGI 的發(fā)展情況具有重要的學(xué)術(shù)和社會(huì)意義。
那么,該如何創(chuàng)造用于度量專(zhuān)家 AGI 的基準(zhǔn)呢?
由于專(zhuān)家 AGI 的定義是基于與專(zhuān)業(yè)人士的比較,因此不同學(xué)科的大學(xué)水平考試就是一個(gè)很好的起點(diǎn),因?yàn)檫@些考試本身的目的就是評(píng)估人類(lèi)在相應(yīng)學(xué)科的專(zhuān)業(yè)能力。MMLU 和 AGIEval 等基準(zhǔn)已經(jīng)成功采用了這一策略,但它們只考慮了基于文本的問(wèn)題,而人類(lèi)專(zhuān)家有能力解決多模態(tài)問(wèn)題。
與此同時(shí),能夠理解文本和圖像的大型多模態(tài)模型(LMM)已經(jīng)朝著更通用的人工智能邁出了一大步。這些 LMM 能在現(xiàn)有的多模態(tài)基準(zhǔn)測(cè)試上獲得穩(wěn)定一致的優(yōu)良表現(xiàn)。比如 CogVLM 在 VQA-v2 基準(zhǔn)上的成績(jī)?yōu)?85%,在 ScienceQA-IMG 上為 92%,在 RefCOCO 上為 93%。
然而,大多數(shù)現(xiàn)有的多模態(tài)基準(zhǔn)側(cè)重于常識(shí) / 日常知識(shí),而不是專(zhuān)家級(jí)的領(lǐng)域知識(shí)和高級(jí)推理。與這個(gè)目標(biāo)最接近的基準(zhǔn)是 ScienceQA。盡管 ScienceQA 覆蓋了多個(gè)學(xué)科(廣度),但其大部分問(wèn)題都限于小學(xué)到初中水平,因此缺乏深度,不足以作為專(zhuān)家 AGI 的基準(zhǔn)。
為此,IN.AI Research 等多所機(jī)構(gòu)的一個(gè)研究團(tuán)隊(duì)構(gòu)建了一個(gè)新基準(zhǔn) MMMU,可用于評(píng)估 AI 在大學(xué)水平的多學(xué)科問(wèn)題上的多模態(tài)理解和推理能力。
- 論文地址:https://arxiv.org/abs/2311.16502
- 項(xiàng)目網(wǎng)站:https://mmmu-benchmark.github.io/
- 數(shù)據(jù)集:https://huggingface.co/datasets/MMMU/MMMU
- 代碼:https://github.com/MMMU-Benchmark/MMMU
其中包含的問(wèn)題來(lái)自大學(xué)考試、測(cè)驗(yàn)和教科書(shū),涉及六個(gè)常見(jiàn)學(xué)科:藝術(shù)與設(shè)計(jì)、商科、科學(xué)、健康與醫(yī)學(xué)、人文與社會(huì)科學(xué)、技術(shù)與工程。MMMU 包含 1.15 萬(wàn)個(gè)精心選取的多模態(tài)問(wèn)題,涵蓋 30 個(gè)不同的科目和 183 個(gè)子領(lǐng)域,因此滿(mǎn)足廣度目標(biāo)。此外,MMMU 中許多問(wèn)題都需要專(zhuān)家級(jí)的推理能力,比如使用傅立葉變換或均衡理論來(lái)推導(dǎo)問(wèn)題的解,因此也滿(mǎn)足深度目標(biāo)。
MMMU 還具備了兩個(gè)特有挑戰(zhàn)(圖 1):一是其涵蓋多種圖像格式,從照片和繪畫(huà)等視覺(jué)場(chǎng)景到圖表和表格,可用于測(cè)試 LMM 的感知能力;二是 MMMU 具有文本和圖像混合交織的輸入。對(duì)于這個(gè)基準(zhǔn),AI 模型需要把圖像和文本放在一起理解,這往往需要回憶深度的學(xué)科知識(shí)并根據(jù)理解和知識(shí)來(lái)執(zhí)行復(fù)雜推理。
該團(tuán)隊(duì)不僅提出了基準(zhǔn),也基于新基準(zhǔn)評(píng)估了一些模型,其中包括 14 個(gè)開(kāi)源 LMM 和 GPT-4V。他們從中得到了一些有趣的結(jié)論。
此外,他們還分析了 GPT-4V 的 150 個(gè)錯(cuò)誤案例,結(jié)果發(fā)現(xiàn) 35% 的錯(cuò)誤與感知有關(guān),29% 的錯(cuò)誤源自缺乏知識(shí)、26% 則是由于推理過(guò)程的缺陷。這些發(fā)現(xiàn)表明 MMMU 是有難度的,可用于助力進(jìn)一步的研究發(fā)展。
MMMU 基準(zhǔn)
MMMU 概況
MMMU 是 Massive Multi-discipline Multimodal Understanding and Reasoning 的縮寫(xiě),即大規(guī)模多學(xué)科多模態(tài)理解和推理。其構(gòu)建目標(biāo)是評(píng)估基礎(chǔ)模型在廣泛多樣的任務(wù)上的專(zhuān)家級(jí)多模態(tài)理解能力。MMMU 涉及 6 個(gè)學(xué)科的 30 個(gè)科目。圖 2 給出了每個(gè)學(xué)科的一個(gè) MMMU 樣本。
圖 3 詳細(xì)給出了所覆蓋的科目及相關(guān)統(tǒng)計(jì)數(shù)據(jù)。
該基準(zhǔn)中的問(wèn)題是人工收集的,收集者是來(lái)自不同學(xué)科的 50 位大學(xué)生,數(shù)據(jù)來(lái)源包括網(wǎng)絡(luò)資源、教科書(shū)和課程材料。
如表 1 所示,MMMU 中共有 1.15 萬(wàn)個(gè)問(wèn)題,并分成了三個(gè)子集:少樣本開(kāi)發(fā)集、驗(yàn)證集和測(cè)試集。
少樣本開(kāi)發(fā)集中每個(gè)科目包含 5 個(gè)問(wèn)題;驗(yàn)證集則包含大約 900 個(gè)問(wèn)題,可用于超參數(shù)選擇;測(cè)試集則有 1.05 萬(wàn)個(gè)問(wèn)題。MMMU 的設(shè)計(jì)目標(biāo)是衡量 LMM 的三項(xiàng)基本技能:感知、知識(shí)和推理。
數(shù)據(jù)的收集和整理過(guò)程
數(shù)據(jù)收集。第一步,他們?yōu)g覽了常見(jiàn)的大學(xué)專(zhuān)業(yè),然后確定要將哪些學(xué)科包含進(jìn)該基準(zhǔn)中。他們選擇的原則是該學(xué)科需要經(jīng)常采用視覺(jué)輸入來(lái)提供有價(jià)值的信息?;谶@個(gè)原則,他們?nèi)サ袅朔▽W(xué)和語(yǔ)言學(xué)等一些學(xué)科,因?yàn)檫@些學(xué)科中很難找到足夠多的相關(guān)多模態(tài)問(wèn)題。最后,他們從 6 個(gè)不同學(xué)科中選擇了 30 個(gè)科目。
第二步,他們招募了 50 位這些專(zhuān)業(yè)的大學(xué)生,讓他們作為標(biāo)注者來(lái)幫助收集問(wèn)題。他們會(huì)從專(zhuān)業(yè)教科書(shū)和網(wǎng)絡(luò)資源收集多模態(tài)問(wèn)題,并在有必要時(shí)根據(jù)自己的專(zhuān)業(yè)知識(shí)創(chuàng)建新問(wèn)題??紤]到基礎(chǔ)模型的數(shù)據(jù)污染問(wèn)題,標(biāo)注者會(huì)選擇沒(méi)有立即可用答案的問(wèn)題,例如那些答案在不同的文檔中或教科書(shū)末尾的問(wèn)題。這個(gè)過(guò)程中,他們得到了 1.3 萬(wàn)個(gè)問(wèn)題。
為了進(jìn)一步控制數(shù)據(jù)質(zhì)量,他們又執(zhí)行了兩個(gè)數(shù)據(jù)清理步驟。第一步,他們使用了詞匯重疊和來(lái)源網(wǎng)址相似度來(lái)識(shí)別潛在的重復(fù)問(wèn)題。然后他們對(duì)這些重復(fù)項(xiàng)進(jìn)行了審查,并清除了所有重復(fù)項(xiàng)。第二步則是把這些問(wèn)題分配給該論文的參與作者,讓他們幫助進(jìn)行格式和拼寫(xiě)檢查。最后,該團(tuán)隊(duì)對(duì)這些問(wèn)題進(jìn)行了難度分級(jí):非常簡(jiǎn)單、簡(jiǎn)單、中等、困難。其中大約 10% 的問(wèn)題屬于非常簡(jiǎn)單;由于太過(guò)簡(jiǎn)單,不符合該基準(zhǔn)的設(shè)計(jì)原則,因此被排除在外。
圖 4 給出了 MMMU 與已有基準(zhǔn)的差異。
實(shí)驗(yàn)
該團(tuán)隊(duì)基于 MMMU 對(duì)多種 LLM 和 LMM 進(jìn)行了評(píng)估。每一種類(lèi)型都兼顧了閉源和開(kāi)源模型。評(píng)估采用了零樣本設(shè)置,以評(píng)估模型在沒(méi)有微調(diào)或少樣本演示的情況下生成準(zhǔn)確答案的能力。所有實(shí)驗(yàn)均基于 NVIDIA A100 GPU。
主要結(jié)果
表 2 給出了在 MMMU 基準(zhǔn)上不同 LLM 和 LMM 的結(jié)果比較。
他們得到了一些重要發(fā)現(xiàn):
- MMMU 難度很大,就連 GPT-4V 的準(zhǔn)確度也只有 55.7%,這說(shuō)明 AI 技術(shù)還有很大的改進(jìn)空間。
- 開(kāi)源 LMM 和 GPT-4V 的性能差距很大。BLIP2-FLAN-T5-XXL 和 LLaVA-1.5 等表現(xiàn)最好的開(kāi)源模型也只有 34% 左右的準(zhǔn)確度。
- 具備光學(xué)字符識(shí)別(OCR)或生成字幕的 LLM 沒(méi)有看到顯著的提升,這說(shuō)明 MMMU 需要模型更深度地將圖像和文本放在一起理解。
- 在藝術(shù)與設(shè)計(jì)以及人文與社會(huì)科學(xué)等視覺(jué)數(shù)據(jù)不太復(fù)雜的學(xué)科中,模型表現(xiàn)出的性能更高。相比之下,商科、科學(xué)、健康與醫(yī)學(xué)以及技術(shù)與工程等領(lǐng)域具有更復(fù)雜的視覺(jué)數(shù)據(jù)并需要復(fù)雜的推理,因此 AI 模型的性能也相對(duì)較低。
但該團(tuán)隊(duì)也指出,MMMU 并不足以對(duì)專(zhuān)家 AGI 進(jìn)行充分的測(cè)試,這是受定義限制的,因?yàn)槟P偷?MMMU 性能與「掌握專(zhuān)業(yè)知識(shí)的成年人類(lèi)的 90%」之間不存在直接的映射關(guān)系,而且大學(xué)考試也并非 AGI 理應(yīng)解決的唯一任務(wù)。但他們也認(rèn)為專(zhuān)家 AGI 有必要在 MMMU 基準(zhǔn)上取得好成績(jī),這樣才能體現(xiàn)其掌握知識(shí)的廣度和深度以及專(zhuān)家級(jí)的理解和推理能力。
對(duì)圖像類(lèi)型和難度的分析
不同的圖像類(lèi)型。圖 5 比較了在常用的圖像類(lèi)型上,不同模型的性能??梢钥吹剑谒蓄?lèi)型上,GPT-4V 始終大幅優(yōu)于其它模型。在照片和繪畫(huà)等訓(xùn)練中更常見(jiàn)的類(lèi)型上,開(kāi)源模型的表現(xiàn)相對(duì)較好。但是,對(duì)于幾何形狀、樂(lè)譜和化學(xué)結(jié)構(gòu)等更不常見(jiàn)的圖像類(lèi)別,所有模型的分?jǐn)?shù)都非常低(有些接近于隨機(jī)亂猜)。這表明現(xiàn)有模型在這些圖像類(lèi)型上的泛化性能不佳。
不同難度。表 3 比較了所選模型在三個(gè)難度層級(jí)上的性能。在「容易」類(lèi)別中,GPT-4V 的表現(xiàn)顯著優(yōu)于開(kāi)源模型,成功率達(dá)到了 76.1%。對(duì)于「中等」難度類(lèi)別,差距縮小了,但 GPT-4V 依然領(lǐng)先,為 55.6%。到了「困難」級(jí)別,模型的差距進(jìn)一步變小,這表明隨著任務(wù)復(fù)雜性的提升,GPT-4V 等更先進(jìn)模型的優(yōu)勢(shì)會(huì)逐漸消失。這可能表明當(dāng)前模型在處理專(zhuān)家級(jí)高難度查詢(xún)方面存在局限,即便最先進(jìn)模型也是如此。
錯(cuò)誤分析與未來(lái)研究
該團(tuán)隊(duì)還深度分析了 GPT-4V 的錯(cuò)誤,這有助于理解其運(yùn)作能力和局限。該分析不僅能識(shí)別模型當(dāng)前的缺點(diǎn),還可以幫助改進(jìn)未來(lái)的設(shè)計(jì)和訓(xùn)練。他們從 GPT-4V 的預(yù)測(cè)中隨機(jī)采樣的 150 個(gè)錯(cuò)誤實(shí)例,然后請(qǐng)專(zhuān)家級(jí)標(biāo)注者分析了這些實(shí)例,這些專(zhuān)家根據(jù)自己的知識(shí)找到了這些錯(cuò)誤預(yù)測(cè)的根本原因。圖 6 給出了這些錯(cuò)誤的分布情況。
感知錯(cuò)誤(35%):GPT-4V 的錯(cuò)誤中很大一部分是感知錯(cuò)誤,這又可以進(jìn)一步分為兩種類(lèi)型:基本感知錯(cuò)誤和特定領(lǐng)域的感知錯(cuò)誤。如圖 7 所示,當(dāng)模型能準(zhǔn)確處理和理解給定信息,但無(wú)法解讀基本的視覺(jué)信息時(shí),就會(huì)出現(xiàn)基本感知錯(cuò)誤。而特定領(lǐng)域的感知錯(cuò)誤則是由缺乏知識(shí)所致。當(dāng)分析根本原因時(shí),研究者將此類(lèi)錯(cuò)誤歸類(lèi)為缺乏知識(shí)。此外,GPT-4V 經(jīng)常表現(xiàn)出對(duì)文本的偏好,也就是以文本信息優(yōu)先,視覺(jué)輸入在后。
缺乏知識(shí)(29%):如前所述,對(duì)于 GPT-4V 模型,特定領(lǐng)域的感知錯(cuò)誤的一個(gè)基本根本原因就是缺乏專(zhuān)業(yè)知識(shí)。類(lèi)似地,缺乏專(zhuān)業(yè)知識(shí)還可能導(dǎo)致推理出現(xiàn)問(wèn)題。
推理錯(cuò)誤(26%):在一些實(shí)例中,模型正確解讀了文本和圖像,也找到了相關(guān)知識(shí),但卻未能成功應(yīng)用邏輯和數(shù)學(xué)推理技能來(lái)進(jìn)行準(zhǔn)確的推導(dǎo)。
其它錯(cuò)誤:其它錯(cuò)誤還包括文本理解錯(cuò)誤(6%)、拒絕問(wèn)答(3%)、注釋錯(cuò)誤(2%)、答案提取錯(cuò)誤(1%)。這些錯(cuò)誤的原因也多種多樣,比如復(fù)雜文本的解讀難度大、響應(yīng)生成的限制、數(shù)據(jù)注釋不準(zhǔn)確以及從較長(zhǎng)輸出中提取精確答案存在問(wèn)題。
更多詳細(xì)內(nèi)容,請(qǐng)閱讀原文。