自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力

發(fā)布于 2024-7-1 12:53
瀏覽
0收藏

OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力-AI.x社區(qū)

一、結(jié)論寫在前面

下面介紹的論文來自上海交大、上海AI lib。

論文標(biāo)題:OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

論文鏈接:??https://arxiv.org/pdf/2406.12753??    

項(xiàng)目鏈接:??https://gair-nlp.github.io/OlympicArena/??



OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力-AI.x社區(qū)

            

圖1:AI 從高考[57]現(xiàn)場參與奧運(yùn)會(huì)

OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力-AI.x社區(qū)

為了全面評(píng)估當(dāng)前模型在認(rèn)知推理能力方面的表現(xiàn),論文引入了OlympicArena,這是一個(gè)包含11,163個(gè)雙語文本問題的基準(zhǔn),涵蓋純文本和交錯(cuò)文本-圖像模態(tài)。這些挑戰(zhàn)跨越七個(gè)領(lǐng)域和62個(gè)國際奧林匹克競賽,嚴(yán)格審查以防止數(shù)據(jù)泄露。

論文認(rèn)為,奧林匹克競賽問題的挑戰(zhàn)非常適合評(píng)估AI的認(rèn)知推理,因?yàn)槠鋸?fù)雜性和跨學(xué)科性質(zhì)對(duì)于解決復(fù)雜的科學(xué)挑戰(zhàn)和促進(jìn)發(fā)現(xiàn)至關(guān)重要。除了使用僅答案標(biāo)準(zhǔn)評(píng)估跨不同學(xué)科的性能外,論文還從多個(gè)角度進(jìn)行了詳細(xì)的實(shí)驗(yàn)和分析。論文深入探討了模型的認(rèn)知推理能力,它們?cè)诓煌B(tài)下的表現(xiàn),以及它們?cè)谶^程級(jí)評(píng)估中的結(jié)果,這對(duì)于需要復(fù)雜推理和長解決方案的任務(wù)至關(guān)重要。

論文的廣泛評(píng)估顯示,即使是先進(jìn)的模型如GPT-4o也僅達(dá)到39.97%的整體準(zhǔn)確率(數(shù)學(xué)為28.67%,物理為29.71%),這表明當(dāng)前AI在復(fù)雜推理和多模態(tài)整合方面的局限性。通過OlympicArena,論文旨在推動(dòng)AI向超智能發(fā)展,使其能夠應(yīng)對(duì)科學(xué)及其他領(lǐng)域中更復(fù)雜的挑戰(zhàn)。論文還提供了一套全面的資源來支持AI研究,包括基準(zhǔn)數(shù)據(jù)集、開源標(biāo)注平臺(tái)、詳細(xì)的評(píng)估工具和一個(gè)具有自動(dòng)提交功能的排行榜。               

?二、論文的簡單介紹

2.1 論文的背景?

現(xiàn)有的基準(zhǔn)測(cè)試?yán)每鐚W(xué)科考試題目來評(píng)估大型語言模型(LLMs)的問題解決技能,但這些題目主要側(cè)重于知識(shí)密集型,對(duì)于當(dāng)前的LLMs來說已相對(duì)容易。此外,這些基準(zhǔn)主要關(guān)注純文本模式。盡管一些基準(zhǔn)開始針對(duì)大學(xué)水平的題目并融入多模態(tài)評(píng)估,它們?nèi)匀恢饕性谥R(shí)密集型任務(wù)或簡單的概念應(yīng)用上(如表1所示)。與論文的工作同時(shí)進(jìn)行的是,He等人[17]引入了一個(gè)奧林匹克級(jí)別的基準(zhǔn),但它僅限于數(shù)學(xué)和物理領(lǐng)域。

此外,上述所有基準(zhǔn)都缺乏對(duì)各種認(rèn)知推理能力的系統(tǒng)性和細(xì)致評(píng)估。例如,它們大多僅基于答案進(jìn)行評(píng)估,忽略了推理過程中潛在的錯(cuò)誤。這強(qiáng)調(diào)了需要更全面的評(píng)估,不僅要涵蓋更廣泛的學(xué)科,還要關(guān)注更高層次的認(rèn)知推理以及細(xì)致的評(píng)估。

論文介紹了OlympicArena,這是一個(gè)全面、極具挑戰(zhàn)性且嚴(yán)格篩選的基準(zhǔn)測(cè)試,具有詳細(xì)、細(xì)粒度的評(píng)估機(jī)制,旨在廣泛評(píng)估奧林匹克級(jí)別挑戰(zhàn)中的高級(jí)AI能力(如圖2所示)。論文廣泛挑選、收集并處理了來自七個(gè)學(xué)科——數(shù)學(xué)、物理、化學(xué)、生物、地理、天文學(xué)和計(jì)算機(jī)科學(xué)——涵蓋62個(gè)不同奧林匹克級(jí)別競賽的問題。這一廣泛收集最終形成了一個(gè)包含11,163個(gè)問題的基準(zhǔn),分為13種答案類型(例如,表達(dá)式、區(qū)間)。

重要的是,OlympicArena通過引入過程級(jí)評(píng)估,嚴(yán)格審查AI模型的逐步推理過程,增強(qiáng)了其評(píng)估框架。這種方法對(duì)于理解超越正確答案的認(rèn)知推理深度至關(guān)重要[29, 53],使論文能夠識(shí)別并修正AI推理路徑中的缺口,確保更強(qiáng)大的AI能力。該基準(zhǔn)是雙語的,同時(shí)包含英語和中文,以提高其可訪問性和全球適用性。此外,它支持兩種模式:純文本和交錯(cuò)文本與圖像,以適應(yīng)現(xiàn)代AI系統(tǒng)必須處理的日益復(fù)雜的任務(wù)。論文還對(duì)一些主流模型進(jìn)行了數(shù)據(jù)泄露檢測(cè)實(shí)驗(yàn)[54],以驗(yàn)證論文基準(zhǔn)的有效性。    

論文在現(xiàn)有的頂級(jí)表現(xiàn)的大型多模態(tài)模型(LMMs)上進(jìn)行了一系列實(shí)驗(yàn),涵蓋了專有模型(例如,GPT-4o [36])和開源模型(例如,LLaVa-NeXT [31])。此外,論文在兩種設(shè)置下評(píng)估了各種類型的語言模型(例如,GPT-3.5):純文本和圖文結(jié)合,并從答案級(jí)別和過程級(jí)別兩個(gè)角度進(jìn)行了全面的評(píng)估。對(duì)于答案級(jí)別的評(píng)估,論文結(jié)合了基于規(guī)則和基于模型的方法(本文中使用GPT-4V3)來覆蓋更多樣化的答案類型。對(duì)于過程級(jí)別的評(píng)估,論文對(duì)模型輸出的每個(gè)推理步驟進(jìn)行評(píng)分,這在推理場景中論文認(rèn)為非常關(guān)鍵。此外,論文還對(duì)不同類型的認(rèn)知推理進(jìn)行了細(xì)致的評(píng)估和分析,從邏輯和視覺兩個(gè)角度來更好地解釋當(dāng)前AI的能力。

OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力-AI.x社區(qū)

2.2 奧林匹克競技場基準(zhǔn)

2.2.1 概述

論文介紹了OlympicArena,這是一個(gè)奧林匹克級(jí)別的跨學(xué)科基準(zhǔn),旨在嚴(yán)格評(píng)估LLMs和LMMs的認(rèn)知推理能力。論文的基準(zhǔn)結(jié)合了僅文本和交錯(cuò)文本-圖像模式,以雙語呈現(xiàn),以促進(jìn)可訪問性和包容性。它涵蓋了七個(gè)核心學(xué)科:數(shù)學(xué)、物理、化學(xué)、生物、地理、天文學(xué)和計(jì)算機(jī)科學(xué),共包含34個(gè)專業(yè)分支(詳細(xì)信息見附錄A 1\,其中涉及近期基本科學(xué)領(lǐng)域的實(shí)驗(yàn))。包含了一個(gè)全面的11,163個(gè)問題集合,來自62個(gè)不同的奧林匹克競賽,結(jié)構(gòu)化地設(shè)置了13種答案類型,從客觀題型(如多項(xiàng)選擇和填空)到主觀題型(如簡答題和編程任務(wù)),這使其與許多主要關(guān)注客觀問題的其他基準(zhǔn)測(cè)試有所區(qū)別。OlympicArena的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)描述在表2中。    

表2:基準(zhǔn)測(cè)試統(tǒng)計(jì)數(shù)據(jù)

OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力-AI.x社區(qū)

此外,為了對(duì)模型性能進(jìn)行細(xì)致分析,論文將認(rèn)知推理分為8種類型的邏輯推理能力和5種類型的視覺推理能力。這種全面的分類有助于詳細(xì)評(píng)估LLMs和LMMs能夠展示的各種復(fù)雜推理技能。此外,論文特別研究了所有多模態(tài)問題,以比較LMMs與其基于文本的對(duì)應(yīng)物的表現(xiàn),旨在更好地評(píng)估LMMs處理視覺信息的能力。最后,論文評(píng)估推理過程的正確性和效率,不僅僅局限于基于答案的評(píng)價(jià)。

?2.2.2 數(shù)據(jù)收集

為了確保涵蓋各個(gè)學(xué)科的奧林匹克級(jí)別問題的全面性,論文首先收集了各種競賽的URL,這些競賽中的問題以PDF格式公開提供下載。然后,論文使用Mathpix工具將這些PDF文檔轉(zhuǎn)換為markdown格式,使其與模型的輸入要求兼容。具體來說,對(duì)于計(jì)算機(jī)科學(xué)的編程問題,論文還額外收集了相應(yīng)的測(cè)試用例。論文嚴(yán)格遵守版權(quán)和許可考慮,確保符合所有相關(guān)法規(guī)。

2.2.3 數(shù)據(jù)標(biāo)注

問題提取與標(biāo)注。為了從測(cè)試試卷的Markdown格式中提取單個(gè)問題,論文聘請(qǐng)了約30名具有理工科背景的學(xué)生。論文開發(fā)了一個(gè)用于標(biāo)注多模態(tài)數(shù)據(jù)的用戶界面,并已發(fā)布。為了便于進(jìn)一步研究和模型的過程級(jí)評(píng)估,論文標(biāo)注了如提供的解決方案等元信息。為確保數(shù)據(jù)質(zhì)量,論文在初步標(biāo)注完成后實(shí)施了多步驟驗(yàn)證流程。

收集所有問題后,論文根據(jù)模型嵌入在每個(gè)競賽內(nèi)部進(jìn)行去重,以移除可能在同一年份的多個(gè)測(cè)試試卷中出現(xiàn)的重復(fù)問題。為進(jìn)一步證明論文的基準(zhǔn)更強(qiáng)調(diào)認(rèn)知推理,而非大多數(shù)其他基準(zhǔn),論文將問題的難度分為三個(gè)級(jí)別,并與相關(guān)基準(zhǔn)進(jìn)行比較。具體地,論文將所有問題分為:知識(shí)回憶、概念應(yīng)用和認(rèn)知推理。論文使用GPT-4V作為標(biāo)注者來分類不同難度級(jí)別的問題    

認(rèn)知推理能力的標(biāo)注。為了促進(jìn)更細(xì)致的分析,論文從邏輯和視覺兩個(gè)角度對(duì)認(rèn)知推理能力進(jìn)行分類[16, 43]。邏輯推理能力包括演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。同時(shí),視覺推理能力包括模式識(shí)別(PR)、空間推理(SPA)、圖表推理(DIA)、符號(hào)解釋(SYB)和比較可視化(COM)。論文還使用GPT-4V作為標(biāo)注者來分類不同的認(rèn)知能力(詳細(xì)定義和具體提示可在附錄B.3中找到)。通過這些標(biāo)注,論文可以對(duì)當(dāng)前AI的認(rèn)知推理能力進(jìn)行更細(xì)致的分析。

?2.2.4 數(shù)據(jù)分割

論文的基準(zhǔn)包含11,163個(gè)問題,其中548個(gè)被指定用于模型評(píng)估,稱為OlympicArena-ot。論文跨學(xué)科抽樣638個(gè)問題來創(chuàng)建OlympicArena-val,用于超參數(shù)調(diào)整或小規(guī)模測(cè)試。OlympicArena-val問題具有逐步解決方案,支持如過程級(jí)評(píng)估等研究。剩余的問題構(gòu)成了OlympicArena-test,即官方測(cè)試集,其答案未公開,用于正式測(cè)試。本文中的結(jié)果基于整個(gè)基準(zhǔn)數(shù)據(jù)集,包括OlympicArena-ot、OlympicArena-val和OlympicArena-test。

2.3 實(shí)驗(yàn)

2.3.1 實(shí)驗(yàn)設(shè)置

為了全面評(píng)估LLMs和LMMs在不同模態(tài)下的能力,論文設(shè)計(jì)了包括三種不同設(shè)置的實(shí)驗(yàn):多模態(tài)、圖像-標(biāo)題和僅文本。在多模態(tài)設(shè)置中,論文評(píng)估LMMs利用視覺信息的能力,通過交錯(cuò)文本和圖像,模擬真實(shí)世界場景。對(duì)于無法處理交錯(cuò)輸入的模型,論文將多張圖像合并為一個(gè)輸入。對(duì)于需要必要圖像輸入的LMMs,它們的基于文本的對(duì)應(yīng)物處理僅文本問題。在圖像-標(biāo)題設(shè)置中,論文探討圖像的文本描述是否能增強(qiáng)LLMs的問題解決能力。

使用InternVL-Chat-V1.58 [12],論文根據(jù)提示為所有圖像生成標(biāo)題。這些標(biāo)題取代了原始的圖像輸入。在僅文本設(shè)置中,論文評(píng)估LLMs在沒有視覺信息的情況下的表現(xiàn),作為與多模態(tài)和圖像-標(biāo)題設(shè)置比較的基線。所有實(shí)驗(yàn)使用零樣本提示,針對(duì)每種答案類型定制,并指定輸出格式以促進(jìn)答案提取和基于規(guī)則的匹配。這也最小化了與少量學(xué)習(xí)相關(guān)的典型偏差。    

2.3.2 評(píng)估

答案級(jí)評(píng)估 論文結(jié)合基于規(guī)則和基于模型的方法來覆蓋多樣化的評(píng)估問題。對(duì)于有固定答案的問題,論文提取最終答案并根據(jù)答案類型進(jìn)行基于規(guī)則的匹配。對(duì)于代碼生成任務(wù),論文使用無偏的pass@k指標(biāo)[10]來測(cè)試所有測(cè)試用例。對(duì)于答案類型被歸類為“其他”的問題,這些問題的答案難以通過基于規(guī)則的匹配進(jìn)行評(píng)估(例如,化學(xué)方程式書寫問題),論文采用GPT-4V作為評(píng)估者來評(píng)價(jià)響應(yīng)。為了確保GPT-4V作為評(píng)估者的可靠性,論文手動(dòng)抽樣并檢查其正確性。

過程級(jí)評(píng)估 為了進(jìn)一步探究推理步驟的正確性,確保對(duì)模型認(rèn)知能力進(jìn)行嚴(yán)格的評(píng)估,論文進(jìn)行了過程級(jí)評(píng)估。論文從OlympicArena中抽樣了96個(gè)帶有參考解決方案的問題。論文使用GPT-4將參考解決方案(即黃金解決方案)和模型生成的解決方案轉(zhuǎn)換為結(jié)構(gòu)化的逐步格式。然后,論文將這些解決方案提供給GPT-4V,并對(duì)每一步的正確性進(jìn)行評(píng)分,評(píng)分范圍從0到1。為了驗(yàn)證與人類判斷的一致性,論文獲取了一些樣本進(jìn)行人類標(biāo)注。結(jié)果表明,論文的基于模型的評(píng)估方法非常準(zhǔn)確,注釋者間一致性達(dá)到83%。

2.3.3 主要結(jié)果

表3展示了各種LMMs和LLMs在OlympicArena上的評(píng)估結(jié)果。論文觀察到以下幾點(diǎn):

(1) 即使是目前最先進(jìn)的大型模型,GPT-4o,也僅達(dá)到39.97%的整體準(zhǔn)確率,而其他開源模型難以達(dá)到20%的整體準(zhǔn)確率。這種鮮明的對(duì)比突顯了論文基準(zhǔn)的顯著難度和嚴(yán)格性,證明了其在推動(dòng)當(dāng)前AI能力邊界方面的有效性。

(2) 此外,與生物學(xué)和地理學(xué)等學(xué)科相比,論文觀察到數(shù)學(xué)和物理學(xué)仍然是兩個(gè)最具挑戰(zhàn)性的學(xué)科,可能是因?yàn)樗鼈円蕾囉趶?fù)雜的推理能力。

(3)計(jì)算機(jī)編程競賽也證明是非常困難的,一些開源模型未能解決任何問題,表明當(dāng)前模型在設(shè)計(jì)有效算法以解決復(fù)雜問題方面的能力較差。

表3:OlympicArena上的實(shí)驗(yàn)結(jié)果,以百分比表示,每個(gè)設(shè)置中得分最高的用下劃線表示,所有設(shè)置中得分最高的用粗體表示。論文使用pass@k指標(biāo)(公式1)來評(píng)估CS問題。在計(jì)算整體準(zhǔn)確率時(shí),對(duì)于代碼生成問題,如果為某個(gè)問題生成的任何代碼通過了所有測(cè)試用例,則該問題被視為正確    

OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力-AI.x社區(qū)

2.3.4 細(xì)粒度分析

為了對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行更細(xì)致的分析,論文基于不同的模態(tài)和推理能力進(jìn)行了進(jìn)一步的評(píng)估。此外,論文還對(duì)過程級(jí)別的評(píng)估進(jìn)行了分析。主要發(fā)現(xiàn)如下:

模型在不同的邏輯和視覺推理能力上表現(xiàn)出不同的性能。如圖3所示,幾乎所有模型在不同的邏輯推理能力上都顯示出相似的性能趨勢(shì)。它們?cè)诩僭O(shè)推理和因果推理方面表現(xiàn)出色,能夠很好地從提供的信息中識(shí)別因果關(guān)系。相反,模型在歸納推理和分解推理方面表現(xiàn)不佳。這是由于奧運(yùn)會(huì)級(jí)別問題的多樣性和非常規(guī)性,需要將復(fù)雜問題分解為更小的子問題的能力。在視覺推理能力方面,模型在模式識(shí)別和比較可視化方面表現(xiàn)較好。然而,它們?cè)谏婕翱臻g和幾何推理以及需要理解抽象符號(hào)的任務(wù)中遇到困難。完整的結(jié)果見附錄D.1。    

大多數(shù)LMIMs在利用視覺信息方面仍然不夠熟練。如圖4a所示,只有少數(shù)LMMs(如GPT-4o和Qwen-VL-Chat)在有圖像輸入的情況下相比其基于文本的對(duì)應(yīng)模型顯示出顯著的改進(jìn)。許多LMMs并未顯示出性能的提升。

OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力-AI.x社區(qū)

圖3:不同模型在邏輯和視覺推理能力方面的表現(xiàn)。邏輯推理能力包括:演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。視覺推理能力包括:模式識(shí)別(PR)、空間推理(SPA)、圖示推理(DIA)、符號(hào)解釋(SYB)和比較可視化(COM)

在處理圖像輸入時(shí),一些模型甚至顯示出效果下降。可能的原因包括:(1) 當(dāng)文本和圖像同時(shí)輸入時(shí),多模態(tài)模型(LMMs)可能更關(guān)注文本,忽視圖像中的信息。這一發(fā)現(xiàn)也在其他研究中得到證實(shí)[61, 9]。(2) 一些多模態(tài)模型在基于其文本模型訓(xùn)練視覺能力時(shí),可能會(huì)喪失一些固有的語言能力(例如推理能力),這在論文的場景中尤為明顯。(3) 論文的問題采用了一種復(fù)雜的文本和圖像交織格式,某些模型對(duì)此支持不佳,導(dǎo)致處理和理解嵌入在文本中的圖像位置信息時(shí)遇到困難。    

OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力-AI.x社區(qū)

**                圖 4:(a) 不同LMMs及其對(duì)應(yīng)LLMs在三種不同實(shí)驗(yàn)設(shè)置下的比較。關(guān)于每個(gè)LMM對(duì)應(yīng)的LLM的詳細(xì)信息,請(qǐng)參閱附錄C.2。(b) 所有模型在所有采樣問題上的答案級(jí)和過程級(jí)得分之間的相關(guān)性。(c) 錯(cuò)誤步驟位置的分布,表示為在整個(gè)過程中從左到右的步驟比例,覆蓋所有采樣問題

過程級(jí)評(píng)估結(jié)果分析 通過過程級(jí)評(píng)估(完整結(jié)果見表14),論文發(fā)現(xiàn)了以下見解:

(1) 過程級(jí)評(píng)估與答案級(jí)評(píng)估之間通常存在高度一致性。當(dāng)模型產(chǎn)生正確答案時(shí),推理過程的質(zhì)量往往在大多數(shù)情況下更高(見圖4b)。

(2) 過程級(jí)的準(zhǔn)確性通常高于答案級(jí)。這表明即使對(duì)于非常復(fù)雜的問題,模型也能正確執(zhí)行一些中間步驟。因此,模型可能具有未被充分利用的認(rèn)知推理潛力,為研究人員開辟了新的探索途徑。論文還發(fā)現(xiàn),在少數(shù)學(xué)科中,一些在答案級(jí)表現(xiàn)良好的模型在過程級(jí)落后。論文推測(cè)這是因?yàn)槟P驮谏纱鸢笗r(shí)有時(shí)傾向于忽略中間步驟的合理性,盡管這些步驟可能對(duì)最終結(jié)果不是至關(guān)重要的。

(3) 此外,論文對(duì)錯(cuò)誤步驟位置分布進(jìn)行了統(tǒng)計(jì)分析(見圖40)。論文發(fā)現(xiàn)較高比例的錯(cuò)誤發(fā)生在后期階段。這表明隨著推理的累積,模型更容易出錯(cuò),表明在處理長邏輯鏈推斷方面需要改進(jìn)。

可能遇到了43個(gè)基準(zhǔn)實(shí)例。此外,這自然引發(fā)了一個(gè)問題:模型能否正確回答這些實(shí)例?有趣的是,相應(yīng)的純文本聊天模型和多模態(tài)聊天模型能正確回答的這些實(shí)例甚至更少。這些結(jié)果表明,論文的基準(zhǔn)測(cè)試幾乎沒有泄漏,并且具有足夠的挑戰(zhàn)性,因?yàn)槟P蜔o法正確回答大多數(shù)泄漏的實(shí)例。    

OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力-AI.x社區(qū)

圖5:GPT-4V采樣錯(cuò)誤問題的錯(cuò)誤類型分布

錯(cuò)誤分析 為了進(jìn)一步具體化模型的性能,論文從GPT-4V中抽樣了錯(cuò)誤的回答(每個(gè)主題16個(gè)問題,其中8個(gè)純文本,8個(gè)多模態(tài)),并讓人類評(píng)估者分析和標(biāo)注這些錯(cuò)誤的原因。如圖5所示,推理錯(cuò)誤(邏輯和視覺)構(gòu)成了最大的類別,表明論文的基準(zhǔn)有效地突出了當(dāng)前模型在認(rèn)知推理能力方面的不足。此外,很大一部分錯(cuò)誤源于知識(shí)缺陷,表明當(dāng)前模型仍然缺乏專家級(jí)別的領(lǐng)域知識(shí)和利用這些知識(shí)輔助推理的能力。另一類錯(cuò)誤來自理解偏差,這可以歸因于模型對(duì)上下文的誤解以及整合復(fù)雜語言結(jié)構(gòu)和多模態(tài)信息的困難。更多相關(guān)案例見附錄F.1。

2.3.5 數(shù)據(jù)泄露檢測(cè)的努力

鑒于預(yù)訓(xùn)練語料庫規(guī)模的不斷擴(kuò)大,檢測(cè)潛在的基準(zhǔn)泄漏至關(guān)重要。預(yù)訓(xùn)練的透明度往往使這項(xiàng)任務(wù)變得困難。為此,論文采用了一種最近提出的實(shí)例級(jí)泄漏檢測(cè)指標(biāo),即N-gram預(yù)測(cè)準(zhǔn)確率。該指標(biāo)為每個(gè)實(shí)例均勻抽樣幾個(gè)起始點(diǎn),預(yù)測(cè)每個(gè)起始點(diǎn)的下一個(gè)n-gram,并檢查所有預(yù)測(cè)的n-gram是否正確,表明模型可能遇到過該實(shí)例。論文將此指標(biāo)應(yīng)用于所有可用的基礎(chǔ)或純文本聊天模型。如圖6所示,盡管與完整的基準(zhǔn)相比數(shù)量微不足道,但令人驚訝且合理的是,這些評(píng)估模型背后的一些基礎(chǔ)模型或純文本聊天模型可能遇到了一些基準(zhǔn)實(shí)例。例如,Qwen1.5-32B-Chat的基礎(chǔ)模型就曾遇到過這些實(shí)例。    

OlympicArena:為超級(jí)智能AI基準(zhǔn)測(cè)試多學(xué)科認(rèn)知推理能力-AI.x社區(qū)

                圖6:檢測(cè)到的泄露樣本數(shù)量以及相應(yīng)的純文本和多模態(tài)聊天模型在這些樣本上正確響應(yīng)的數(shù)量

本文轉(zhuǎn)載自 ??AI帝國??,作者: 無影寺

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦