從高考到奧林匹克競技場:大模型與人類智能的終極較量
上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab) 的研究團(tuán)隊(duì),主要研究方向是:大模型訓(xùn)練、對齊與評估。團(tuán)隊(duì)主頁:https://plms.ai/
圖靈獎得主Hinton在他的訪談中提及「在未來20年內(nèi),AI有50%的概率超越人類的智能水平」,并建議各大科技公司早做準(zhǔn)備,而評定大模型(包括多模態(tài)大模型)的「智力水平」則是這一準(zhǔn)備的必要前提。
一個(gè)具有跨學(xué)科問題集、可以從多維度嚴(yán)謹(jǐn)評估AI的認(rèn)知推理能力評估基準(zhǔn)已經(jīng)變得相當(dāng)亟需。
1. 大模型不斷占領(lǐng)人類智力高地:從小學(xué)試題到參加高考
以大模型為核心的生成式人工智能技術(shù)的興起,使得人類不僅有了可交互的文本、圖片、視頻交互生成工具,還使得人類有機(jī)會訓(xùn)練出一個(gè)”有智力“能力的模型,它可以看成是人類延申的大腦,獨(dú)立完成不同學(xué)科問題,成為未來10年可以給科學(xué)發(fā)現(xiàn)提供加速度的最有力的工具(即AI4Science)。
過去兩年,我們看到這種以大模型為代表的硅基智能的快速進(jìn)化,從最初只能用來去解決小學(xué)題目, 到2022年,CMU等人[1]第一次把AI帶到了“高考”考場,并在全國卷II英語上取得了134分的成績,然而,那時(shí)候的AI還是個(gè)數(shù)理邏輯掌握不好的偏科生。直至今年,2024高考剛剛落下帷幕,在無數(shù)學(xué)子在這一年一度的大考中奮力拼搏,展現(xiàn)了他們多年來的學(xué)習(xí)成果的同時(shí),大模型也是空前第一次被全學(xué)科的拉到考場,并且在數(shù)理學(xué)科中取得巨大進(jìn)步。這里我們不禁思考,AI智力進(jìn)化的天花板在哪?人類還沒祭出最難的題目,那會是AI的天花板嗎?
2. 智力較量最高殿堂:從 AI 高考到 AI 奧運(yùn)會
四年一度的奧運(yùn)會也即將到來,這不僅是體育競技的巔峰盛會,更象征著人類對極限的不斷追求和突破。學(xué)科奧林匹克競賽則是知識的深度與智力的極限的完美結(jié)合,它既是對學(xué)術(shù)成就的嚴(yán)格評估,也是對思維敏捷性和創(chuàng)新能力的極限挑戰(zhàn)。在這里,科學(xué)的嚴(yán)謹(jǐn)與奧運(yùn)會的激情相遇,共同塑造了一種追求卓越、勇于探索的精神。
學(xué)科的奧林匹克競賽給將會給人機(jī)智力巔峰對決提供最好的賽場。不管未來AGI能否實(shí)現(xiàn),AI參加奧林匹克競賽將會成為通向AGI的必經(jīng)一站,因?yàn)檫@些考察了模型極具重要的 認(rèn)知推理能力,而這些能力逐漸被體現(xiàn)于各種復(fù)雜的現(xiàn)實(shí)世界場景中,比如用作軟件開發(fā)的AI代理,合作處理復(fù)雜的決策過程,甚至推動科學(xué)研究領(lǐng)域(AI4Science)。
3. 構(gòu)建面向 AI 奧林匹克賽場
在此背景下,上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab) 的研究團(tuán)隊(duì)將大模型從高考考場搬到了更加具有挑戰(zhàn)性的“奧林匹克競技場”,推出了全新的大模型(包括多模態(tài)大模型)認(rèn)知推理能力評估基準(zhǔn)——OlympicArena。這一基準(zhǔn)使用國際學(xué)科奧賽的高難度題目,全面測試了人工智能在跨學(xué)科領(lǐng)域的認(rèn)知推理能力。OlympicArena涵蓋了數(shù)學(xué)、物理、化學(xué)、生物、地理、天文、計(jì)算機(jī)七大核心學(xué)科,包括62個(gè)國際學(xué)科奧賽(如IMO, IPhO, IChO, IBO, ICPC等)的11,163道中英雙語題目,為研究者們提供了一個(gè)全面評估AI模型的理想平臺。
同時(shí),更長遠(yuǎn)來看,OlympicArena為今后AI在科學(xué)領(lǐng)域(AI4Science),工程領(lǐng)域(AI4Engineering)發(fā)揮自身強(qiáng)大的能力,甚至促進(jìn)AI激發(fā)出超越人類水平達(dá)到Superintelligence,起到了不可忽視的奠定作用。
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)下所有的大模型在學(xué)科奧賽上都不能交出較好的答卷,即使是GPT-4o,僅僅只有39%的正確率,GPT-4V僅有33%,離及格線(60%正確率)還有相當(dāng)大的距離。而多數(shù)開源大模型表現(xiàn)的更加不盡人意,例如,LLaVa-NeXT-34B, InternVL-Chat-V1.5等當(dāng)下較強(qiáng)的多模態(tài)大模型都未達(dá)到20%的正確率。
此外,多數(shù)多模態(tài)大模型都不擅長充分利用視覺信息解決復(fù)雜的推理任務(wù),這也是大模型與人類最顯著的差異(人類往往會優(yōu)先關(guān)注處理視覺信息)。因此,OlympicArena上的測試結(jié)果表明模型在科學(xué)問題的求解上與人類依然有所差距,其內(nèi)在的推理能力仍然需要不斷提高才能更好的輔助人類的科學(xué)研究。
- 論文地址:https://arxiv.org/pdf/2406.12753
- 項(xiàng)目地址:https://gair-nlp.github.io/OlympicArena/
- 代碼地址:https://github.com/GAIR-NLP/OlympicArena
OlympicArena特點(diǎn)
OlympicArena的特點(diǎn)概述,以及一個(gè)可以反應(yīng)benchmark對多模態(tài)支持、多種認(rèn)知能力考察、以及細(xì)粒度評估(既考慮對答案對錯(cuò)的評估,又考慮對每個(gè)推理步驟評估)的例題。
- 全面:OlympicArena包括來自62個(gè)不同奧林匹克競賽的共11,163道題目,跨越了七大核心學(xué)科:數(shù)學(xué)、物理、化學(xué)、生物、地理、天文和計(jì)算機(jī),涉及34個(gè)專業(yè)分支。同時(shí),不同于以往的benchmark大多數(shù)聚焦在選擇題等客觀題,OlympicArena支持豐富的題型,包含表達(dá)式、方程式、區(qū)間、化學(xué)方程式的書寫甚至是編程題等。此外,OlympicArena支持多模態(tài)(將近半數(shù)的題目含有圖片),并采用了與現(xiàn)實(shí)中最貼合的文本-圖像環(huán)繞的輸入格式(interleaved text-image),充分測試了大模型利用視覺信息協(xié)助進(jìn)行推理的能力。
- 極具挑戰(zhàn)性:與以往的benchmark要么聚焦于高中(高考)題,要么聚焦于大學(xué)題不同,OlympicArena更加聚焦于更加純粹的復(fù)雜推理能力的考察,而不是考察大模型對海量知識點(diǎn)的記憶、召回能力或是簡單的應(yīng)用能力。因此,OlympicArena中所有的題目均是奧賽難度。并且,為了細(xì)粒度的評估大模型在不同類型的推理能力上的表現(xiàn),研究團(tuán)隊(duì)還總結(jié)歸納了8種邏輯推理能力,5種視覺推理能力,后續(xù)特別分析了現(xiàn)有的大模型在不同類型的推理能力上表現(xiàn)的差異。
- 嚴(yán)謹(jǐn):引導(dǎo)大模型的健康發(fā)展是學(xué)術(shù)界應(yīng)該扮演的角色,目前在公開的benchmark中,許多流行大模型多多少少會存在數(shù)據(jù)泄露問題(即benchmark的測試數(shù)據(jù)泄露在大模型的訓(xùn)練數(shù)據(jù)中)。因此研究團(tuán)隊(duì)專門測試了OlympicArena在當(dāng)下一些流行大模型上的數(shù)據(jù)泄露情況,以更加嚴(yán)謹(jǐn)?shù)尿?yàn)證該benchmark的有效性。
- 細(xì)粒度的評估:以往的benchmark往往僅評估大模型給出的最終答案是否與正確答案一致,這在非常復(fù)雜的推理問題的評估中是片面的,不能很好的反映出當(dāng)下模型更加真實(shí)的推理能力。因此,研究團(tuán)隊(duì)除了有對答案的評估,還加入了對題目過程(步驟)正確性的評估。同時(shí),研究團(tuán)隊(duì)也從多個(gè)不同的維度進(jìn)行了不同結(jié)果的分析,例如,分析模型在不同學(xué)科、不同模態(tài)、不同推理能力上的表現(xiàn)差異。
與相關(guān)benchmark的比較
從上表可以看出:OlympicArena無論是在學(xué)科、語言、模態(tài)的覆蓋,還是在題目類型的多樣性,對推理能力的考察深度,以及評估方式的全面性上,都與現(xiàn)存的其他一些聚焦于評測科學(xué)問題的benchmark有顯著的差異。
實(shí)驗(yàn)分析
實(shí)驗(yàn)設(shè)置
研究團(tuán)隊(duì)在OlympicArena上測試了多個(gè)多模態(tài)大模型(LMM)和純文本大模型(LLM)。對于多模態(tài)大模型,使用了文本-圖像環(huán)繞(interleaved text-image)的輸入形式;而對于純文本大模型,在兩種設(shè)置下進(jìn)行了測試,分別是不含任何圖片信息的純文本輸入(text-only LLMs)和包含圖片描述信息的純文本輸入(image caption + LLMs)。加入純文本大模型測試的目的不僅是為了擴(kuò)大該benchmark的適用范圍(使所有的LLM都能參與排行榜),更是為了更好地了解和分析現(xiàn)有的多模態(tài)大模型在與其對應(yīng)的純文本大模型相比時(shí),是否能夠充分利用圖片信息提升其解決問題的能力。所有實(shí)驗(yàn)均使用zero-shot CoT prompts,研究團(tuán)隊(duì)針對每種答案類型進(jìn)行了定制,并指定了輸出格式以便于答案提取和基于規(guī)則的匹配。
實(shí)驗(yàn)結(jié)果
不同模型在OlympicArena不同學(xué)科上的準(zhǔn)確率,其中CS編程題用無偏pass@k指標(biāo),其余均用準(zhǔn)確率指標(biāo)。
從表格的實(shí)驗(yàn)結(jié)果可以看出,目前市面上所有的主流大模型都沒能展現(xiàn)出很高的水準(zhǔn),即使是最先進(jìn)的大模型GPT-4o,整體準(zhǔn)確率也僅為39.97%,而其他開源模型的整體準(zhǔn)確率則難以達(dá)到20%。這種明顯的差異突顯了該benchmark的挑戰(zhàn)性,證明其在推動當(dāng)前AI推理能力上限的提升上發(fā)揮了很大的促進(jìn)作用。
此外,研究團(tuán)隊(duì)觀察到數(shù)學(xué)和物理依然是最難的兩個(gè)學(xué)科,因?yàn)樗鼈兏右蕾囉趶?fù)雜靈活的推理能力,推理的步驟也更多,所需綜合應(yīng)用的思維能力也更加多樣。而像生物、地理學(xué)科,準(zhǔn)確率相對高一些,因?yàn)檫@類學(xué)科更注重考察利用豐富的科學(xué)知識解決、分析實(shí)際問題的能力,側(cè)重于對溯因、因果推理能力的考察,相比復(fù)雜的歸納、演繹推理,大模型更加善于借助自己訓(xùn)練階段獲得的豐富知識進(jìn)行此類學(xué)科的分析。
計(jì)算機(jī)編程競賽也被證明是非常困難的,一些開源模型甚至無法解決其中的任何問題(準(zhǔn)確率為0),這表明當(dāng)前模型在設(shè)計(jì)有效算法以用程序解決復(fù)雜問題方面的能力依然有很大的提升空間。
值得一提的是,OlympicArena被提出的初衷不是一味追求題目難度,而是充分挖掘大模型跨學(xué)科、運(yùn)用多種推理能力解決實(shí)際科學(xué)問題的能力。上述提到的運(yùn)用復(fù)雜推理的思維能力,利用豐富的科學(xué)知識解決、分析實(shí)際問題的能力,以及編寫高效、準(zhǔn)確的程序求解問題的能力,都是在科研領(lǐng)域不可或缺的,也是該benchmark始終側(cè)重的。
細(xì)粒度的實(shí)驗(yàn)分析
為了實(shí)現(xiàn)更細(xì)粒度的實(shí)驗(yàn)結(jié)果分析,研究團(tuán)隊(duì)基于不同的模態(tài)和推理能力進(jìn)行了進(jìn)一步評估。此外,研究團(tuán)隊(duì)還進(jìn)行了模型在題目推理過程上的評估分析。主要發(fā)現(xiàn)如下:
模型在不同的邏輯推理和視覺推理能力上表現(xiàn)各異
各模型在邏輯推理和視覺推理能力上的表現(xiàn)。邏輯推理能力包括:演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。視覺推理能力包括:模式識別(PR)、空間推理(SPA)、圖表推理(DIA)、符號解釋(SYB)和視覺比較(COM)。
幾乎所有模型在不同邏輯推理能力上的表現(xiàn)趨勢相似。它們在溯因推理和因果推理方面表現(xiàn)突出,能夠很好地從提供的信息中識別因果關(guān)系。相反,模型在歸納推理和分解推理方面表現(xiàn)較差。這是由于奧林匹克級別問題的多樣性和非常規(guī)性,這些問題需要將復(fù)雜問題分解為較小的子問題的能力,這依賴于模型成功求解每一個(gè)子問題,并將子問題組合起來解決更大的問題。在視覺推理能力方面,模型在模式識別和視覺比較方面表現(xiàn)較好。
然而,它們在涉及空間和幾何推理的任務(wù)以及需要理解抽象符號的任務(wù)中表現(xiàn)較為困難。從對不同推理能力的細(xì)粒度分析來看,大模型所欠缺的能力(如對復(fù)雜問題的分解,對幾何圖形的視覺推理等)正是科學(xué)研究中不可或缺、至關(guān)重要的能力,表明了AI離真正可以全方位輔助人類進(jìn)行科學(xué)研究還有一段距離。
不同多模態(tài)模型(LMMs)及其對應(yīng)的純文本模型(LLMs)在三種不同實(shí)驗(yàn)設(shè)置中的比較。
大多數(shù)多模態(tài)模型(LMMs)依然不擅長利用視覺信息協(xié)助進(jìn)行推理
如上圖(a)所示,只有少數(shù)多模態(tài)大模型(如GPT-4o和Qwen-VL-Chat)在有圖像輸入時(shí)相對于其對應(yīng)的純文本模型表現(xiàn)出顯著的性能提高。許多多模態(tài)大模型在圖像輸入時(shí)沒有表現(xiàn)出性能提升,甚至在處理圖像時(shí)表現(xiàn)出效果下降。可能的原因包括:
- 當(dāng)文本和圖像一起輸入時(shí),LMMs可能更多地關(guān)注文本,忽略圖像中的信息。
- 一些LMMs在基于其文本模型訓(xùn)練視覺能力時(shí),可能會喪失其固有的一些語言能力(例如,推理能力),這在本項(xiàng)目的復(fù)雜場景中尤為明顯。
- 該benchmark的題目使用了復(fù)雜的文本-圖像環(huán)繞的輸入格式,一些模型無法很好地支持這一格式,導(dǎo)致其不能很好的處理和理解嵌入文本中的圖像位置信息。
而在科學(xué)研究中,往往伴隨著非常海量的圖表、幾何圖形、可視化數(shù)據(jù)等視覺信息,只有當(dāng)AI可以嫻熟的使用其視覺能力協(xié)助推理時(shí),才可以有助于推動科學(xué)研究的效率和創(chuàng)新,成為解決復(fù)雜科學(xué)問題強(qiáng)有力的工具。
左圖:所有模型在所有進(jìn)行推理過程評估的問題中的,答案的正確率和過程的正確率的相關(guān)性。右圖:錯(cuò)誤過程步驟位置的分布。
推理步驟的評估結(jié)果分析
通過對模型推理步驟進(jìn)行正確性的細(xì)粒度評估,研究團(tuán)隊(duì)發(fā)現(xiàn):
- 如上圖(b)所示,步驟層面評估的結(jié)果和僅僅依靠答案的評估之間通常具有高度一致性。當(dāng)模型生成正確答案時(shí),其推理過程的質(zhì)量大多較高。
- 推理過程的準(zhǔn)確率通常高于只看答案的準(zhǔn)確率。這表明即使是非常復(fù)雜的問題,模型也能正確執(zhí)行一些中間步驟。因此,模型在認(rèn)知推理方面可能具有顯著的潛力,這為研究人員開辟了新的研究方向。研究團(tuán)隊(duì)還發(fā)現(xiàn),在某些學(xué)科中,一些在只參照答案評估時(shí)表現(xiàn)良好的模型在推理過程上表現(xiàn)不佳。研究團(tuán)隊(duì)推測這是因?yàn)槟P驮谏纱鸢笗r(shí)有時(shí)會忽略中間步驟的合理性,盡管這些步驟對最終結(jié)果可能并不關(guān)鍵。
- 此外,研究團(tuán)隊(duì)對錯(cuò)誤步驟的位置分布進(jìn)行了統(tǒng)計(jì)分析(見圖c),發(fā)現(xiàn)較高比例的錯(cuò)誤發(fā)生在一題中較后的推理步驟。這表明隨著推理過程的累積,模型更容易出錯(cuò),并產(chǎn)生錯(cuò)誤的累積,這表明模型在處理長鏈邏輯推理時(shí)仍然有很大的提升空間。
團(tuán)隊(duì)也呼吁所有研究者在AI推理任務(wù)中更多地關(guān)注模型推理過程的監(jiān)督和評估。這不僅可以提高AI系統(tǒng)的可信度和透明度,幫助更好地理解模型的推理路徑,還能識別出模型在復(fù)雜推理中的薄弱環(huán)節(jié),從而指導(dǎo)改進(jìn)模型結(jié)構(gòu)和訓(xùn)練方法。通過細(xì)致的過程監(jiān)督,可以進(jìn)一步挖掘AI的潛力,推動其在科學(xué)研究和實(shí)際應(yīng)用中的廣泛應(yīng)用。
模型錯(cuò)誤類型的分析
研究團(tuán)隊(duì)采樣了 GPT-4V 回答錯(cuò)誤的112道題(每個(gè)學(xué)科 16 道題目,其中 8 道為純文本題目,8 道為多模態(tài)題目),并人工標(biāo)注這些錯(cuò)誤的原因。如上圖,推理錯(cuò)誤(包括邏輯推理錯(cuò)誤和視覺推理錯(cuò)誤)構(gòu)成了最大的錯(cuò)誤原因,這表明我們的基準(zhǔn)有效地突顯了當(dāng)前模型在認(rèn)知推理能力方面的不足,這與研究團(tuán)隊(duì)的初衷是吻合的。
此外,相當(dāng)一部分錯(cuò)誤也來源于知識的缺乏(雖然奧賽的題目僅僅以高中知識為基礎(chǔ)范圍),這表明當(dāng)前模型在缺乏領(lǐng)域知識之外,更多的無法利用這些知識來輔助推理。另一個(gè)比較多的錯(cuò)誤原因是理解偏差,這可以歸因于模型對上下文的誤解以及整合復(fù)雜語言結(jié)構(gòu)和多模態(tài)信息的困難。
一個(gè)GPT-4V在數(shù)學(xué)奧賽題上犯錯(cuò)的例子
數(shù)據(jù)泄露檢測
檢測到的泄漏樣本數(shù)量以及相應(yīng)的純文本和多模態(tài)模型在這些樣本題目上做對的數(shù)量。
隨著預(yù)訓(xùn)練語料規(guī)模不斷擴(kuò)大,檢測benchmark上潛在的數(shù)據(jù)泄漏至關(guān)重要。而預(yù)訓(xùn)練過程的不透明通常使這項(xiàng)任務(wù)具有挑戰(zhàn)性。為此,研究團(tuán)隊(duì)采用了一種新提出的實(shí)例級泄漏檢測指標(biāo),稱為“N-gram預(yù)測準(zhǔn)確性”。這一指標(biāo)均勻地從每個(gè)實(shí)例中抽取幾個(gè)起始點(diǎn),預(yù)測每個(gè)起始點(diǎn)的下一個(gè)N-gram,并檢查所有預(yù)測的N-gram是否正確,以判斷模型是否可能在訓(xùn)練階段遇到過該實(shí)例。研究團(tuán)隊(duì)將這一指標(biāo)應(yīng)用于所有可用的基礎(chǔ)模型。
如上圖所示,主流模型在OlympicArena上并沒有顯著的數(shù)據(jù)泄露問題,哪怕有泄露,數(shù)量相對于完整的benchmark數(shù)據(jù)集來說微不足道。例如,泄漏最多的Qwen1.5-32B模型也僅僅被檢測出43個(gè)疑似泄露的實(shí)例。這也自然而然引發(fā)了一個(gè)問題:模型能正確回答泄露的這些實(shí)例問題嗎?
在這個(gè)問題上,研究團(tuán)隊(duì)很驚訝的發(fā)現(xiàn),即使是泄露的問題,相應(yīng)的模型能回答正確的也非常少。這些結(jié)果都表明,該benchmark幾乎沒有遭受數(shù)據(jù)泄露的影響,并且保持著相當(dāng)大的挑戰(zhàn)性,可以在接下來很長的時(shí)間保持其有效性。
結(jié)語
盡管OlympicArena具有非常高的價(jià)值,但研究團(tuán)隊(duì)表示未來仍有不少工作要做。首先,OlympicArena benchmark不可避免地會引入了一些噪聲數(shù)據(jù),作者將積極利用社區(qū)反饋來不斷改進(jìn)完善。此外,研究團(tuán)隊(duì)還計(jì)劃每年發(fā)布基準(zhǔn)測試的新版本,以進(jìn)一步減輕與數(shù)據(jù)泄露相關(guān)的問題。此外,從更長遠(yuǎn)來講,當(dāng)前的基準(zhǔn)測試僅限于評估模型解決復(fù)雜問題的能力。
在未來,所有人更希望人工智能能夠協(xié)助完成復(fù)雜的綜合任務(wù),并在實(shí)際應(yīng)用中展示價(jià)值,例如AI4Science和AI4Engineering,這將是未來基準(zhǔn)設(shè)計(jì)的目標(biāo)和宗旨。盡管如此,目前OlympicArena依然作為促進(jìn)AI走向Superintelligence的催化劑,發(fā)揮著重要的作用。
愿景:人類與AI共同進(jìn)步的輝煌時(shí)刻
在未來,我們有理由相信,隨著AI技術(shù)的不斷成熟和應(yīng)用場景的不斷拓展,OlympicArena將不僅僅是一個(gè)評估AI能力的賽場,更將成為一個(gè)展示AI在各個(gè)領(lǐng)域應(yīng)用潛力的舞臺。無論是在科學(xué)研究、工程設(shè)計(jì),還是在體育競技等更廣泛的領(lǐng)域,AI都將以其獨(dú)特的方式,為人類社會的發(fā)展貢獻(xiàn)力量。
最后,研究團(tuán)隊(duì)也表示學(xué)科奧林匹克賽場也將僅僅是OlympicArena的一個(gè)開始,AI更多的能力值得不斷的探索,例如奧林匹克體育賽場將在未來成為具身智能的競技場。