AI模型的奧運會:誰將在OlympicArena中奪冠? 精華
引言:AI模型的奧林匹克級評測
評估和比較不同AI模型的性能始終是一個核心話題。隨著技術的不斷進步,這些模型在處理復雜任務的能力上有了顯著的提升。為了更精確地衡量這些先進模型的能力,Huang等人在2024年引入了一個全新的、類似奧林匹克的多學科、多模態(tài)評測平臺——OlympicArena。這一平臺設計了包括11,163個雙語問題,涵蓋文本和圖像交錯的模態(tài),跨越七個常見學科和62個國際奧林匹克競賽,嚴格檢查數(shù)據(jù)泄露問題,旨在推動AI在認知推理方面的極限。
在這一背景下,本文將探討最新發(fā)布的AI模型——包括“Claude-3.5-Sonnet (Anthropic, 2024a)”、“Gemini-1.5-Pro (Reid et al., 2024)”和“GPT-4o”——在OlympicArena上的表現(xiàn)。通過引入奧林匹克獎牌榜的方式,我們不僅比較了這些模型在不同學科的表現(xiàn),還通過細粒度的分析揭示了它們在不同類型的邏輯和視覺推理能力上的優(yōu)勢和不足。
這種全面而深入的評測方法為研究人員和開發(fā)者提供了一個清晰且具有競爭性的框架,幫助他們更好地理解不同模型的強項和弱點。通過這樣的奧林匹克級評測,我們可以更準確地識別出在各個學術領域中表現(xiàn)最為出色的AI模型,從而推動人工智能技術在更廣泛領域的應用和發(fā)展。
OlympicArena基準介紹
OlympicArena是由Huang等人在2024年提出的一個全新的、具有挑戰(zhàn)性的人工智能評測基準。這一基準測試旨在通過模擬奧林匹克級別的多學科、多模態(tài)競賽環(huán)境,推動人工智能在認知推理能力上的極限。OlympicArena包含了11,163個雙語問題,這些問題涵蓋了文本只讀和文本-圖像交錯的模態(tài),覆蓋了七個常見學科和62個國際奧林匹克競賽項目。
1. 數(shù)據(jù)集的設計與挑戰(zhàn)
OlympicArena的設計嚴格檢查了數(shù)據(jù)泄露問題,確保了測試的公正性和有效性。這個基準測試不僅要求模型在多種類型的問題上表現(xiàn)出高水平的理解和推理能力,還要求模型能夠處理復雜的、多模態(tài)的輸入信息。
2. 測試的設置
在OlympicArena的測試設置中,使用了測試數(shù)據(jù)集的分割(test split),并且沒有公開答案,以防止數(shù)據(jù)泄露。所有的評估都可以通過規(guī)則匹配來執(zhí)行,不需要基于模型的評估。此外,為了保持問題的原始結構,測試時直接使用文本輸入,不使用圖像標題作為圖像的文本表達。
3. 競爭者和評估方法
OlympicArena評估了多種開源和專有的大型多模態(tài)模型(LMMs)和大型語言模型(LLMs)。這些模型包括但不限于OpenAI的GPT系列、Anthropic的Claude系列以及其他一些團隊開發(fā)的模型。評估方法包括精確度評估非編程任務和無偏pass@k評估編程任務。
4. 獎牌表和細粒度分析
OlympicArena還創(chuàng)新性地引入了奧林匹克獎牌表(OlympicArena Medal Table),這是一種類似于奧運會的獎牌系統(tǒng),用于評估AI模型在各個學科領域的表現(xiàn)。模型根據(jù)在任何給定學科中獲得的前三高分獲得獎牌。此外,還進行了關于不同學科、不同推理類型、不同語言和不同模態(tài)的細粒度分析,以深入理解各模型的能力和局限性。
通過這些詳盡的測試和評估,OlympicArena旨在提供一個全面、競爭性的框架,幫助研究人員和開發(fā)者更好地理解不同模型的強項和弱點,從而推動人工智能技術的發(fā)展和應用。
模型比較與評估方法
在這個章節(jié)中,我們將探討如何比較和評估不同的人工智能模型。我們將特別關注最近發(fā)布的模型:“Claude-3.5- Sonnet (Anthropic, 2024a),” “Gemini-1.5-Pro (Reid et al., 2024),” 和 “GPT-4o”。為了進行全面的性能評估,我們將使用OlympicArena(Huang et al., 2024)提出的奧運會獎牌表方法,這是一種創(chuàng)新的排名機制,專門設計用來評估AI模型在各個學科領域的表現(xiàn)。
1. 評估指標
所有問題都可以使用基于規(guī)則的匹配進行評估,因此我們使用準確性作為非編程任務的評估指標,對于編程任務,我們使用無偏的pass@k作為評估指標,其中k = 1,n = 5,c表示通過所有測試用例的正確樣本數(shù)。
2. OlympicArena獎牌表
OlympicArena獎牌表類似于奧運會中使用的獎牌系統(tǒng),它是一種專門設計用來評估AI模型在各個學科領域表現(xiàn)的排名機制。該表為在任何給定學科中取得前三名成績的模型頒發(fā)獎牌,從而提供了一個清晰而有競爭力的框架來比較不同的模型。具體來說,我們首先根據(jù)金牌數(shù)量對AI模型進行排名,如果金牌數(shù)量相同,則根據(jù)總分進行排名。這提供了一種直觀的方式來識別在不同學科領域中的領先模型,使研究人員和開發(fā)人員更容易理解不同模型的優(yōu)點和缺點。
3. 細粒度評估
我們根據(jù)不同的學科、模態(tài)、語言以及不同類型的邏輯和視覺推理能力進行細粒度評估。
4. 結果和分析
我們發(fā)現(xiàn),新發(fā)布的Claude-3.5-Sonnet非常強大,其表現(xiàn)幾乎與GPT-4o相當。同時,新發(fā)布的Gemini-1.5-Pro也展示出了相當?shù)膶嵙Γ^了GPT-4V。此外,根據(jù)OlympicArena獎牌表,我們可以觀察到GPT-4o, Claude-3.5-Sonnet, 和Gemini-1.5-Pro是排名前三的模型。
5. 細粒度分析
我們對各個模型在不同學科、推理類型、語言類型和模態(tài)下的表現(xiàn)進行了細粒度分析。例如,GPT-4o在傳統(tǒng)的演繹和歸納推理任務,特別是數(shù)學和計算機科學方面,表現(xiàn)出優(yōu)越的能力,超過了Claude-3.5-Sonnet 5%以上的數(shù)學和3%的計算機科學。另一方面,Claude-3.5-Sonnet在物理、化學和生物學等科目中表現(xiàn)出色,尤其是在生物學方面,它超過了GPT-4o 3%。
這些觀察結果表明,即使是目前最強大的模型,在文本任務上的準確性也高于多模態(tài)任務。雖然差距不大,但這表明模型在利用多模態(tài)信息處理復雜推理問題方面還有很大的改進空間。
細粒度分析
在本章節(jié)中,我們將深入探討最新的AI模型在多個維度上的性能表現(xiàn),包括學科細分、推理類型、視覺推理能力、語言類型以及模態(tài)分析。通過這一細粒度分析,我們旨在揭示不同模型在處理復雜問題時的優(yōu)勢和局限性。
1. 學科細分
在學科細分方面,我們比較了GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-Pro三個模型在數(shù)學、計算機科學、物理、化學和生物學等領域的表現(xiàn)。GPT-4o在數(shù)學和計算機科學領域展現(xiàn)出了卓越的能力,尤其是在數(shù)學領域,其性能超過了Claude-3.5-Sonnet超過5%,在計算機科學領域也超過了3%。相反,Claude-3.5-Sonnet在物理、化學和生物學等領域表現(xiàn)更為出色,特別是在生物學領域,它超過了GPT-4o 3%的表現(xiàn)。
2. 推理類型
在推理類型方面,GPT系列模型在傳統(tǒng)的數(shù)學推理和編程能力方面表現(xiàn)突出,這表明GPT模型經(jīng)過了嚴格的訓練,以處理需要強大演繹推理和算法思維的任務。而在需要知識與推理結合的學科,如物理、化學和生物學方面,Claude-3.5-Sonnet和Gemini-1.5-Pro展現(xiàn)出了競爭性或更優(yōu)的性能。
3. 視覺推理能力
在視覺推理能力方面,Claude-3.5-Sonnet在模式識別和圖表解讀方面領先于GPT-4o,顯示出其在識別模式和解釋圖表方面的強大能力。兩個模型在符號解釋方面表現(xiàn)相當,表明它們在理解和處理符號信息方面具有可比的能力。然而,GPT-4o在空間推理和比較可視化方面的表現(xiàn)優(yōu)于Claude-3.5-Sonnet,展示了其在理解空間關系和比較視覺數(shù)據(jù)方面的優(yōu)勢。
4. 語言類型
在語言類型方面,盡管模型主要訓練在英語數(shù)據(jù)上,但包括一些中文數(shù)據(jù)并具有跨語言泛化能力。中文問題的難度比英語問題更具挑戰(zhàn)性,尤其是在物理和化學等學科中,中文奧林匹克問題更為困難。然而,一些在中國開發(fā)或在支持中文的基礎模型上進行微調(diào)的模型在中文場景中的表現(xiàn)優(yōu)于英文場景。
5. 模態(tài)分析
在模態(tài)分析方面,GPT-4o在文本和多模態(tài)任務中均表現(xiàn)優(yōu)異,特別是在文本任務中表現(xiàn)更為突出。這表明,盡管目前最強大的模型在處理復雜推理問題時能夠利用多模態(tài)信息,但在文本任務中的準確性更高,表明在提高模型利用多模態(tài)信息的能力方面仍有很大的改進空間。
通過這一細粒度分析,我們不僅能夠更深入地理解不同AI模型在各個領域的性能,還能夠揭示它們在處理復雜問題時的優(yōu)勢和局限性。這為未來模型的開發(fā)和優(yōu)化提供了寶貴的見解。
模型性能的主要發(fā)現(xiàn)與討論
在本章節(jié)中,我們將詳細討論最新的AI模型在OlympicArena基準測試中的表現(xiàn)。我們將重點關注最新發(fā)布的模型:“Claude-3.5- Sonnet (Anthropic, 2024a),” “Gemini-1.5-Pro (Reid et al., 2024),” 和 “GPT-4o?!?我們將使用奧運會獎牌表的方法來對AI模型進行排名,這種方法基于模型在各個學科中的綜合表現(xiàn)。
1. 總體表現(xiàn)
根據(jù)實驗結果,新發(fā)布的Claude-3.5-Sonnet表現(xiàn)強大,幾乎與GPT-4o相當。同時,新發(fā)布的Gemini-1.5-Pro也展示了相當?shù)膶嵙?,超過了GPT-4V。根據(jù)OlympicArena獎牌表(見表1),如果一個模型在任何學科中取得前三名的成績,它就會獲得一枚獎牌。我們可以觀察到GPT-4o,Claude-3.5-Sonnet,和Gemini-1.5-Pro是排名前三的模型。
2. 針對學科的細粒度分析
雖然GPT-4o和Claude-3.5-Sonnet在各學科的總體表現(xiàn)相似,但每個模型都有其特定的優(yōu)勢。GPT-4o在傳統(tǒng)的演繹和歸納推理任務中表現(xiàn)出優(yōu)越的能力,特別是在數(shù)學和計算機科學方面,超過Claude-3.5-Sonnet超過5%和3%。另一方面,Claude-3.5-Sonnet在物理,化學和生物學等科目中表現(xiàn)出色,特別是在生物學方面,它超過了GPT-4o 3%。
3. 針對推理類型的細粒度分析
OpenAI的GPT系列在傳統(tǒng)的數(shù)學推理和編碼能力方面表現(xiàn)出色。這種在這兩個學科的優(yōu)越表現(xiàn)表明,GPT模型已經(jīng)經(jīng)過嚴格的訓練,以處理需要強大的演繹推理和算法思維的任務。相反,當涉及到需要知識與推理的整合的學科,如物理,化學和生物學,其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro表現(xiàn)出有競爭力或優(yōu)越的表現(xiàn)。
4. 針對語言類型的細粒度分析
我們發(fā)現(xiàn),這些強大的模型在英語問題上的表現(xiàn)仍然優(yōu)于中文問題,并且在多模態(tài)能力方面還有很大的改進空間。然而,我們也發(fā)現(xiàn),一些在中國開發(fā)或在支持中文的基礎模型上進行微調(diào)的模型在中文場景中的表現(xiàn)優(yōu)于英文場景。這表明,優(yōu)化模型以適應中文數(shù)據(jù),以及全球更多的語言,仍然需要大量的關注。
5. 針對模態(tài)的細粒度分析
如表6所示,GPT-4o在文本只讀和多模態(tài)任務中都優(yōu)于Claude-3.5-Sonnet,特別是在文本只讀問題中表現(xiàn)出色。這些觀察結果表明,即使是目前最強大的模型,也在文本只讀任務中比多模態(tài)任務中的準確率更高。雖然差距不大,但這表明模型在利用多模態(tài)信息處理復雜推理問題方面還有很大的改進空間。
通過理解這些細微差別,不僅有助于開發(fā)更專業(yè)和多功能的模型,還強調(diào)了持續(xù)評估和改進模型架構的重要性,以更好地滿足不同學術和專業(yè)領域的多樣化需求。
論文地址:https://arxiv.org/pdf/2406.16772
代碼:https://github.com/GAIR-NLP/OlympicArena
本文轉(zhuǎn)載自?? AI論文解讀??,作者:柏企科技圈
