奧林匹克競(jìng)賽里選最聰明的AI:Claude-3.5-Sonnet vs. GPT-4o?
上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab) 的研究團(tuán)隊(duì),主要研究方向是:大模型訓(xùn)練、對(duì)齊與評(píng)估。
團(tuán)隊(duì)主頁(yè):https://plms.ai/
AI技術(shù)日新月異,近來(lái)Anthropic公司最新發(fā)布的Claude-3.5-Sonnet因在知識(shí)型推理、數(shù)學(xué)推理、編程任務(wù)及視覺(jué)推理等任務(wù)上設(shè)立新行業(yè)基準(zhǔn)而引發(fā)廣泛討論:Claude-3.5-Sonnet 已經(jīng)取代OpenAI的GPT4o成為世界上”最聰明的AI“(Most Intelligent AI)了嗎?回答這個(gè)問(wèn)題的挑戰(zhàn)在于我們首先需要一個(gè)足夠挑戰(zhàn)的智力測(cè)試基準(zhǔn),使得我們可以區(qū)分目前最高水平的AI。
上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室(GAIR Lab)推出的OlympicArena[1] (奧林匹克競(jìng)技場(chǎng))滿足了這個(gè)需求。
奧林匹克學(xué)科競(jìng)賽不僅是對(duì)人類(碳基智能)思維敏捷性、知識(shí)掌握和邏輯推理的極限挑戰(zhàn),更是AI(“硅基智能”)鍛煉的絕佳練兵場(chǎng),是衡量AI與“超級(jí)智能”距離的重要標(biāo)尺。OlympicArena——一個(gè)真正意義上的AI奧運(yùn)競(jìng)技場(chǎng)。在這里,AI不僅要展示其在傳統(tǒng)學(xué)科知識(shí)上的深度(數(shù)學(xué)、物理、生物、化學(xué)、地理等頂級(jí)競(jìng)賽),還要在模型間的認(rèn)知推理能力上展開(kāi)較量。
近日,同樣是研究團(tuán)隊(duì),首次提出使用"奧林匹克競(jìng)賽獎(jiǎng)牌榜"的方法,根據(jù)各AI模型在奧林匹克競(jìng)技場(chǎng)(各學(xué)科)的綜合表現(xiàn)進(jìn)行排名,選出迄今為止智力最高的AI。在此次競(jìng)技場(chǎng)中,研究團(tuán)隊(duì)重點(diǎn)分析并比較了最近發(fā)布的兩個(gè)先進(jìn)模型——Claude-3.5-Sonnet和Gemini-1.5-Pro,以及OpenAI的GPT-4系列(e.g., GPT4o)。通過(guò)這種方式,研究團(tuán)隊(duì)希望能夠更有效地評(píng)估和推動(dòng)AI技術(shù)的發(fā)展。
圖: 奧林匹克學(xué)科競(jìng)賽獎(jiǎng)牌榜
注:研究團(tuán)隊(duì)首先依據(jù)金牌數(shù)量對(duì)模型進(jìn)行排序,如果金牌數(shù)量相同,則按照整體性能分?jǐn)?shù)來(lái)排序。
實(shí)驗(yàn)結(jié)果表明:
- Claude-3.5-Sonnet在整體表現(xiàn)上與GPT-4o相比極具競(jìng)爭(zhēng)力,甚至在一些科目上超過(guò)了GPT-4o(比如在物理、化學(xué)和生物學(xué)上)。
- Gemini-1.5-Pro和GPT-4V排名緊隨GPT-4o和Claude-3.5-Sonnet之后,但它們之間存在明顯的表現(xiàn)差距。
- 來(lái)自開(kāi)源社區(qū)的AI模型性能明顯落后于這些專有模型。
- 這些模型在此基準(zhǔn)測(cè)試上的表現(xiàn)不盡人意,表明我們?cè)趯?shí)現(xiàn)超級(jí)智能之路上還有很長(zhǎng)的路要走。
- 項(xiàng)目主頁(yè):https://gair-nlp.github.io/OlympicArena/
實(shí)驗(yàn)設(shè)置
研究團(tuán)隊(duì)采取OlympicArena的測(cè)試集進(jìn)行評(píng)估。該測(cè)試集的答案并未公開(kāi),有助于防止數(shù)據(jù)泄露,從而反映模型的真實(shí)性能。研究團(tuán)隊(duì)測(cè)試了多模態(tài)大模型(LMMs)和純文本大模型(LLMs)。對(duì)于LLMs的測(cè)試,輸入時(shí)不提供任何與圖像相關(guān)的信息給模型,僅提供文本。所有評(píng)估均采用零樣本(zero-shot)思維鏈(Chain of Thought)提示詞。
評(píng)估對(duì)象
研究團(tuán)隊(duì)評(píng)估了一系列開(kāi)源和閉源的多模態(tài)大模型(LMMs)和純文本大模型(LLMs)。對(duì)于LMMs,選擇了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等閉源模型,此外還評(píng)估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等開(kāi)源模型。對(duì)于LLMs,主要評(píng)估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等開(kāi)源模型。
此外,研究團(tuán)隊(duì)特別包括了新發(fā)布的Claude-3.5-Sonnet以及Gemini-1.5-Pro,并將它們與強(qiáng)大的GPT-4o和GPT-4V進(jìn)行比較。以反映最新的模型性能表現(xiàn)。
評(píng)估方法
衡量標(biāo)準(zhǔn) 鑒于所有問(wèn)題都可以通過(guò)基于規(guī)則的匹配進(jìn)行評(píng)估,研究團(tuán)隊(duì)對(duì)非編程任務(wù)使用準(zhǔn)確率,并對(duì)編程任務(wù)使用公正的pass@k指標(biāo),定義如下:
本次評(píng)估中設(shè)定k = 1且n = 5,c表示通過(guò)所有測(cè)試用例的正確樣本數(shù)量。
奧林匹克競(jìng)技場(chǎng)獎(jiǎng)牌榜:
與奧運(yùn)會(huì)使用的獎(jiǎng)牌系統(tǒng)類似,是一個(gè)專門(mén)設(shè)計(jì)用來(lái)評(píng)估AI模型在各個(gè)學(xué)術(shù)領(lǐng)域性能的先驅(qū)性排名機(jī)制。該表為在任一給定學(xué)科中取得前三名成績(jī)的模型頒發(fā)獎(jiǎng)牌,從而為比較不同模型提供了一個(gè)明確且具有競(jìng)爭(zhēng)性的框架。研究團(tuán)隊(duì)首先依據(jù)金牌數(shù)量對(duì)模型進(jìn)行排序,如果金牌數(shù)量相同,則按照整體性能分?jǐn)?shù)來(lái)排序。它提供了一種直觀簡(jiǎn)潔的方式來(lái)識(shí)別不同學(xué)術(shù)領(lǐng)域中的領(lǐng)先模型,使研究人員和開(kāi)發(fā)者更容易理解不同模型的優(yōu)勢(shì)和劣勢(shì)。
細(xì)粒度評(píng)估:
研究團(tuán)隊(duì)還基于不同學(xué)科、不同模態(tài)、不同語(yǔ)言以及不同類型的邏輯和視覺(jué)推理能力進(jìn)行基于準(zhǔn)確性的細(xì)粒度評(píng)估。
結(jié)果與分析
分析內(nèi)容主要關(guān)注Claude-3.5-Sonnet和GPT-4o,同時(shí)也對(duì)Gemini-1.5-Pro的性能表現(xiàn)進(jìn)行了部分討論。
總體情況
表:模型在不同學(xué)科上的表現(xiàn)
根據(jù)表格的總體結(jié)果,可以觀察到:
- 新發(fā)布的Claude-3.5-Sonnet性能強(qiáng)大,達(dá)到了幾乎與GPT-4o相當(dāng)?shù)乃?。兩者的整體準(zhǔn)確率差異僅約1%。
- 新發(fā)布的Gemini-1.5-Pro也展現(xiàn)出了相當(dāng)?shù)膶?shí)力,在大多數(shù)學(xué)科中的表現(xiàn)超過(guò)了GPT-4V(OpenAI當(dāng)前第二強(qiáng)大的模型)。
- 值得注意的是,在撰寫(xiě)本報(bào)告時(shí),這三個(gè)模型中最早的發(fā)布時(shí)間僅為一個(gè)月前,反映了這一領(lǐng)域的快速發(fā)展。
針對(duì)學(xué)科的細(xì)粒度分析
GPT-4o vs. Claude-3.5-Sonnet:
盡管GPT-4o和Claude-3.5-Sonnet在整體上表現(xiàn)相似,但兩個(gè)模型都展現(xiàn)了不同的學(xué)科優(yōu)勢(shì)。GPT-4o在傳統(tǒng)的演繹和歸納推理任務(wù)上展現(xiàn)出更優(yōu)秀的能力,特別是在數(shù)學(xué)和計(jì)算機(jī)科學(xué)方面。Claude-3.5-Sonnet在物理、化學(xué)和生物等學(xué)科表現(xiàn)出色,特別是在生物學(xué)上,它超過(guò)GPT-4o 3%。
GPT-4V vs. Gemini-1.5-Pro:
在Gemini-1.5-Pro與GPT-4V的比較中,可以觀察到類似的現(xiàn)象。Gemini-1.5-Pro在物理、化學(xué)和生物學(xué)方面的表現(xiàn)顯著優(yōu)于GPT-4V。然而,在數(shù)學(xué)和計(jì)算機(jī)科學(xué)方面,Gemini-1.5-Pro優(yōu)勢(shì)不明顯甚至不如GPT-4V。
從這兩組比較中,可以看出:
- OpenAI的GPT系列在傳統(tǒng)的數(shù)學(xué)推理和編程能力上表現(xiàn)突出。這表明GPT系列模型已經(jīng)經(jīng)過(guò)了嚴(yán)格訓(xùn)練以處理需要大量演繹推理和算法思維的任務(wù)。
- 相反,當(dāng)涉及到需要將知識(shí)與推理結(jié)合的學(xué)科,如物理、化學(xué)和生物學(xué)時(shí),其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro展現(xiàn)出了具有競(jìng)爭(zhēng)性的表現(xiàn)。這體現(xiàn)了不同模型的專業(yè)領(lǐng)域以及潛在的訓(xùn)練重點(diǎn),表明在推理密集型任務(wù)以及知識(shí)整合型任務(wù)可能存在的權(quán)衡。
針對(duì)推理類型的細(xì)粒度分析
Caption: 各模型在邏輯推理能力上的表現(xiàn)。邏輯推理能力包括:演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。
GPT-4o 與 Claude-3.5-Sonnet 在邏輯推理能力上的比較:
從表格的實(shí)驗(yàn)結(jié)果可以看出,GPT-4o在大多數(shù)的邏輯推理能力上優(yōu)于Claude-3.5-Sonnet,例如演繹推理、歸納推理、溯因推理、類比推理和批判性思維方面。然而,Claude-3.5-Sonnet在因果推理、分解推理和定量推理上的表現(xiàn)超過(guò)了GPT-4o。整體而言,兩個(gè)模型的表現(xiàn)相當(dāng),雖然GPT-4o在大多數(shù)類別上略有優(yōu)勢(shì)。
表: 各模型在視覺(jué)推理能力上的表現(xiàn)。視覺(jué)推理能力包括:模式識(shí)別(PR)、空間推理(SPA)、圖表推理(DIA)、符號(hào)解釋(SYB)和視覺(jué)比較(COM)。
GPT-4o vs. Claude-3.5-Sonnet 在視覺(jué)推理能力上的表現(xiàn):
從表格的實(shí)驗(yàn)結(jié)果可以看出,Claude-3.5-Sonnet在模式識(shí)別和圖表推理方面能力領(lǐng)先,展現(xiàn)了其在模式識(shí)別和解讀圖表方面的競(jìng)爭(zhēng)力。兩個(gè)模型在符號(hào)解釋方面表現(xiàn)相當(dāng),表明它們?cè)诶斫夂吞幚矸?hào)信息方面具有相當(dāng)?shù)哪芰?。然而,GPT-4o在空間推理和視覺(jué)比較方面優(yōu)于Claude-3.5-Sonnet,展示了其在需要理解空間關(guān)系和比較視覺(jué)數(shù)據(jù)的任務(wù)上的優(yōu)越性。
綜合學(xué)科與推理類型的分析,研究團(tuán)隊(duì)發(fā)現(xiàn):
- 數(shù)學(xué)和計(jì)算機(jī)編程強(qiáng)調(diào)復(fù)雜演繹推理技巧和基于規(guī)則導(dǎo)出普適性結(jié)論,傾向于較少依賴預(yù)先存在的知識(shí)。相比之下,像化學(xué)和生物學(xué)這樣的學(xué)科往往需要大量的知識(shí)庫(kù)來(lái)基于已知的因果關(guān)系和現(xiàn)象信息進(jìn)行推理。這表明,盡管數(shù)學(xué)和編程能力仍然是衡量模型推理能力的有效指標(biāo),其他學(xué)科更好地測(cè)試了模型在基于其內(nèi)部知識(shí)進(jìn)行推理和問(wèn)題分析方面的能力。
- 不同學(xué)科的特點(diǎn)表明了定制化訓(xùn)練數(shù)據(jù)集的重要性。例如,要提高模型在知識(shí)密集型學(xué)科(如化學(xué)和生物學(xué))中的表現(xiàn),訓(xùn)練期間模型需要廣泛接觸特定領(lǐng)域的數(shù)據(jù)。相反,對(duì)于需要強(qiáng)大邏輯和演繹推理的學(xué)科,如數(shù)學(xué)和計(jì)算機(jī)科學(xué),模型則能從專注于純邏輯推理的訓(xùn)練中受益。
- 此外,推理能力和知識(shí)應(yīng)用之間的區(qū)別表明了模型跨學(xué)科應(yīng)用的潛力。例如,具有強(qiáng)大演繹推理能力的模型可以協(xié)助需要系統(tǒng)化思維解決問(wèn)題的領(lǐng)域,如科學(xué)研究。而擁有豐富知識(shí)的模型在重度依賴現(xiàn)有信息的學(xué)科中非常寶貴,如醫(yī)學(xué)和環(huán)境科學(xué)。理解這些細(xì)微差別有助于開(kāi)發(fā)更專業(yè)和多功能的模型。
針對(duì)語(yǔ)言類型的細(xì)粒度分析
Caption: 各模型在不同語(yǔ)言問(wèn)題的能力表現(xiàn)。
以上表格展示了模型在不同語(yǔ)言上的性能表現(xiàn)。研究團(tuán)隊(duì)發(fā)現(xiàn)大多數(shù)模型在英語(yǔ)上的準(zhǔn)確度比中文要高,這種差距在排名靠前的模型中尤為顯著。推測(cè)可能有以下幾個(gè)原因:
- 盡管這些模型包含了大量中文訓(xùn)練數(shù)據(jù)并且具有跨語(yǔ)言泛化能力,但它們的訓(xùn)練數(shù)據(jù)主要以英語(yǔ)為主。
- 中文問(wèn)題的難度比英文問(wèn)題更具挑戰(zhàn)性,尤其是在物理和化學(xué)等科目中,中國(guó)奧林匹克競(jìng)賽的問(wèn)題更難。
- 這些模型在識(shí)別多模態(tài)圖像中的字符方面能力不足,中文環(huán)境下這一問(wèn)題更為嚴(yán)重。
然而,研究團(tuán)隊(duì)也發(fā)現(xiàn)一些中國(guó)廠商開(kāi)發(fā)或基于支持中文的基模型進(jìn)行微調(diào)的模型,在中文場(chǎng)景下的表現(xiàn)優(yōu)于英文場(chǎng)景,例如Qwen1.5-32B-Chat、Qwen-VL-Max、Yi-34B-Chat和Qwen-7B-Chat等。其他模型如InternLM2-Chat-20B和Yi-VL-34B,雖然仍然在英語(yǔ)上表現(xiàn)更好,但與排名靠前的閉源模型相比,它們?cè)谟⒄Z(yǔ)和中文場(chǎng)景間的準(zhǔn)確度差異要小得多。這表明,為中文數(shù)據(jù)乃至全球更多語(yǔ)言優(yōu)化模型,仍然需要顯著的關(guān)注。
針對(duì)模態(tài)的細(xì)粒度分析
Caption: 各模型在不同模態(tài)問(wèn)題的能力表現(xiàn)。
以上表格展示了模型在不同模態(tài)上的性能表現(xiàn)。GPT-4o在純文本和多模態(tài)任務(wù)中均優(yōu)于Claude-3.5-Sonnet,并在純文本上表現(xiàn)更突出。另一方面,Gemini-1.5-Pro在純文本和多模態(tài)任務(wù)上表現(xiàn)均優(yōu)于GPT-4V。這些觀察表明,即使是目前可用的最強(qiáng)模型,在純文本任務(wù)上也比多模態(tài)任務(wù)有更高的準(zhǔn)確率。這說(shuō)明模型在利用多模態(tài)信息解決復(fù)雜推理問(wèn)題方面仍有相當(dāng)大的改進(jìn)空間。
結(jié)語(yǔ)
研究團(tuán)隊(duì)在本次評(píng)測(cè)中主要關(guān)注最新的模型:Claude-3.5-Sonnet 和 Gemini-1.5-Pro,并將它們與 OpenAI 的 GPT-4o 和 GPT-4V 進(jìn)行比較。此外,研究團(tuán)隊(duì)還設(shè)計(jì)了一種用于大模型的新穎排名系統(tǒng)——OlympicArena Medal Table,用來(lái)清晰的比較不同的模型的能力。研究團(tuán)隊(duì)發(fā)現(xiàn),GPT-4o 在數(shù)學(xué)和計(jì)算機(jī)科學(xué)等科目上表現(xiàn)突出,具有較強(qiáng)的復(fù)雜演繹推理能力和基于規(guī)則得出普遍結(jié)論的能力。另一方面,Claude-3.5-Sonnet 更擅長(zhǎng)根據(jù)已有的因果關(guān)系和現(xiàn)象進(jìn)行推理。另外,研究團(tuán)隊(duì)還觀察到這些模型在英語(yǔ)語(yǔ)言問(wèn)題上表現(xiàn)更好,并且在多模態(tài)能力方面有顯著的改進(jìn)空間。理解模型這些細(xì)微差別有助于開(kāi)發(fā)更專業(yè)化的模型,以更好地滿足不同學(xué)術(shù)和專業(yè)領(lǐng)域的多樣化需求。
隨著四年一度的奧運(yùn)盛事日益臨近,我們不禁想象,如果人工智能也能參與其中,那將是一場(chǎng)怎樣的智慧與技術(shù)的巔峰對(duì)決?不再僅僅是肢體的較量,AI的加入無(wú)疑將開(kāi)啟對(duì)智力極限的新探索, 也期待更多AI選手加入這場(chǎng)智力的奧運(yùn)會(huì)。