自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM基準(zhǔn)測(cè)試過(guò)時(shí)了嗎?一文讀懂其在AI評(píng)估中的現(xiàn)狀與挑戰(zhàn) 原創(chuàng)

發(fā)布于 2025-4-17 07:17
瀏覽
0收藏

在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大語(yǔ)言模型(LLMs)已經(jīng)成為現(xiàn)代AI應(yīng)用的核心組成部分。從智能助手到代碼生成器,從語(yǔ)言翻譯到內(nèi)容創(chuàng)作,LLMs的應(yīng)用場(chǎng)景無(wú)處不在。然而,如何準(zhǔn)確評(píng)估這些強(qiáng)大模型的能力,卻一直是一個(gè)充滿(mǎn)挑戰(zhàn)的問(wèn)題。傳統(tǒng)的基準(zhǔn)測(cè)試曾是衡量LLM性能的標(biāo)準(zhǔn),但隨著AI技術(shù)的飛速發(fā)展,人們開(kāi)始質(zhì)疑這些基準(zhǔn)測(cè)試是否還能真實(shí)反映LLM在現(xiàn)實(shí)世界中的表現(xiàn)。本文將深入探討LLM基準(zhǔn)測(cè)試的現(xiàn)狀,分析它們是否仍然具有相關(guān)性,并介紹一些廣泛使用的基準(zhǔn)測(cè)試及其對(duì)LLM的評(píng)估方式。

LLM基準(zhǔn)測(cè)試:AI模型的“考試”

LLM基準(zhǔn)測(cè)試是標(biāo)準(zhǔn)化的評(píng)估工具,用于衡量LLMs在特定任務(wù)上的表現(xiàn)。你可以將它們想象成AI模型的“考試”,旨在測(cè)試模型的推理能力、語(yǔ)言理解能力、編程能力等多方面的技能。每種基準(zhǔn)測(cè)試都有其特定的評(píng)估標(biāo)準(zhǔn),從簡(jiǎn)單的準(zhǔn)確率和完全匹配分?jǐn)?shù)到更復(fù)雜的基于模型的參數(shù)。

這些基準(zhǔn)測(cè)試的目標(biāo)是量化LLM在處理特定挑戰(zhàn)時(shí)的有效性,幫助研究人員和開(kāi)發(fā)者公平地比較不同模型,并了解它們的優(yōu)勢(shì)和局限性。一些流行的LLM基準(zhǔn)測(cè)試包括MMLU、GPQA和MATH等。

LLM基準(zhǔn)測(cè)試衡量什么?

不同的LLM基準(zhǔn)測(cè)試側(cè)重于不同的能力,以下是一些常見(jiàn)的評(píng)估內(nèi)容:

推理與常識(shí)

這些任務(wù)檢查模型是否能夠運(yùn)用邏輯和日常知識(shí)來(lái)回答復(fù)雜或微妙的問(wèn)題。例如,一個(gè)模型可能需要根據(jù)給定的背景信息推斷出一個(gè)合理的結(jié)論,或者理解一個(gè)情境并給出符合常識(shí)的答案。

語(yǔ)言理解與問(wèn)答(QA)

這些測(cè)試評(píng)估LLM對(duì)書(shū)面內(nèi)容的理解程度以及其提取或推斷正確答案的能力。這包括對(duì)文本的閱讀理解、對(duì)問(wèn)題的準(zhǔn)確回答,以及在給定上下文中正確使用語(yǔ)言的能力。

編程與代碼生成

編程基準(zhǔn)測(cè)試檢查模型是否能夠在各種編程語(yǔ)言中編寫(xiě)、修復(fù)或解釋代碼。這不僅包括生成正確的代碼,還包括對(duì)代碼邏輯的理解和調(diào)試能力。

對(duì)話能力

一些基準(zhǔn)測(cè)試評(píng)估模型在對(duì)話中的自然度、連貫性以及提供與上下文相關(guān)答案的能力。這涉及到模型在多輪對(duì)話中保持話題連貫性和理解用戶(hù)意圖的能力。

翻譯技能

這些測(cè)試關(guān)注模型將文本從一種語(yǔ)言準(zhǔn)確轉(zhuǎn)換為另一種語(yǔ)言的能力,同時(shí)保留其原始含義。這要求模型不僅理解兩種語(yǔ)言,還要能夠準(zhǔn)確地表達(dá)相同的意思。

數(shù)學(xué)推理

從基礎(chǔ)算術(shù)到高級(jí)數(shù)學(xué)問(wèn)題,這些測(cè)試評(píng)估模型的計(jì)算準(zhǔn)確性和解決問(wèn)題的方法。這可能包括解決復(fù)雜的數(shù)學(xué)方程、進(jìn)行邏輯推理以及應(yīng)用數(shù)學(xué)概念。

邏輯思維

邏輯導(dǎo)向的基準(zhǔn)測(cè)試挑戰(zhàn)模型遵循演繹或歸納推理模式的能力。這要求模型能夠理解邏輯關(guān)系,并根據(jù)給定的前提得出正確的結(jié)論。

標(biāo)準(zhǔn)化考試表現(xiàn)

基于SAT或GRE等標(biāo)準(zhǔn)化考試的基準(zhǔn)測(cè)試模擬現(xiàn)實(shí)世界中的教育評(píng)估,以評(píng)估模型的一般認(rèn)知能力。這些測(cè)試通常涵蓋多個(gè)學(xué)科領(lǐng)域,評(píng)估模型在學(xué)術(shù)環(huán)境中的表現(xiàn)。

開(kāi)發(fā)者如何選擇合適的基準(zhǔn)測(cè)試?

并非所有的LLMs都會(huì)在所有基準(zhǔn)測(cè)試上進(jìn)行測(cè)試,開(kāi)發(fā)者通常會(huì)選擇那些能夠展示其模型優(yōu)勢(shì)的基準(zhǔn)測(cè)試,并且只公布顯示模型優(yōu)秀的測(cè)試結(jié)果。那么,開(kāi)發(fā)者是如何選擇合適的基準(zhǔn)測(cè)試來(lái)評(píng)估他們的模型的呢?選擇合適的基準(zhǔn)測(cè)試取決于以下幾個(gè)因素:

任務(wù)對(duì)齊

開(kāi)發(fā)者會(huì)選擇能夠反映他們希望模型展示的確切能力的基準(zhǔn)測(cè)試。這可能包括文本摘要、編程、輔導(dǎo)或其他他們認(rèn)為模型最擅長(zhǎng)的任務(wù)。

領(lǐng)域相關(guān)性

他們確?;鶞?zhǔn)測(cè)試與應(yīng)用領(lǐng)域密切相關(guān)。例如,法律科技模型會(huì)接受法律語(yǔ)言理解的測(cè)試,而金融科技工具則會(huì)接受基于數(shù)學(xué)和推理的基準(zhǔn)測(cè)試。

任務(wù)多樣性

大多數(shù)開(kāi)發(fā)者傾向于選擇更通用或更廣泛的基準(zhǔn)測(cè)試,如問(wèn)答或STEM相關(guān)的測(cè)試,以獲得模型在各種挑戰(zhàn)中的整體表現(xiàn)。

評(píng)估方法

開(kāi)發(fā)者會(huì)考慮基準(zhǔn)測(cè)試是否使用人工評(píng)估、完全匹配評(píng)分或基于LLM的評(píng)估。這很重要,因?yàn)樗鼤?huì)影響結(jié)果的解釋。

評(píng)估LLM的熱門(mén)基準(zhǔn)測(cè)試

基準(zhǔn)測(cè)試對(duì)于評(píng)估LLM的優(yōu)勢(shì)和劣勢(shì)至關(guān)重要。本文將介紹20個(gè)最流行的LLM基準(zhǔn)測(cè)試,分為四個(gè)關(guān)鍵能力領(lǐng)域:通用語(yǔ)言與推理、編程、數(shù)學(xué)與STEM、多模態(tài)與視覺(jué)語(yǔ)言。這些基準(zhǔn)測(cè)試通常用于研究論文、產(chǎn)品評(píng)估和公共排行榜。

通用語(yǔ)言與推理基準(zhǔn)測(cè)試

LLM基準(zhǔn)測(cè)試過(guò)時(shí)了嗎?一文讀懂其在AI評(píng)估中的現(xiàn)狀與挑戰(zhàn)-AI.x社區(qū)

這些基準(zhǔn)測(cè)試評(píng)估LLM對(duì)自然語(yǔ)言、世界知識(shí)、邏輯以及跨學(xué)科復(fù)雜推理任務(wù)的掌握程度。

MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)

MMLU旨在評(píng)估LLM在廣泛學(xué)科領(lǐng)域的知識(shí)和推理能力,涵蓋科學(xué)、技術(shù)、工程、數(shù)學(xué)、人文、社會(huì)科學(xué)和商業(yè)等57個(gè)科目。它是評(píng)估AI模型在多學(xué)科領(lǐng)域中的事實(shí)回憶和問(wèn)題解決能力的最全面基準(zhǔn)測(cè)試之一。

測(cè)試方法:測(cè)試包括來(lái)自不同領(lǐng)域的多項(xiàng)選擇題,模仿現(xiàn)實(shí)世界的考試。基準(zhǔn)測(cè)試采用零樣本或少樣本評(píng)估方法,即在測(cè)試前不對(duì)模型進(jìn)行數(shù)據(jù)集的微調(diào)。性能基于準(zhǔn)確率進(jìn)行衡量,即AI在四個(gè)選項(xiàng)中選擇正確答案的頻率。

數(shù)據(jù)集:數(shù)據(jù)集來(lái)源于現(xiàn)實(shí)世界的學(xué)術(shù)考試和專(zhuān)業(yè)測(cè)試,確保問(wèn)題反映出教育評(píng)估中的難度水平。

測(cè)試結(jié)果的意義:高M(jìn)MLU分?jǐn)?shù)表明模型具有強(qiáng)大的一般知識(shí)和推理能力,適用于輔導(dǎo)、研究協(xié)助以及回答現(xiàn)實(shí)世界中復(fù)雜問(wèn)題的應(yīng)用。例如,如果模型得分超過(guò)85,它可以在多個(gè)主題上以專(zhuān)家級(jí)推理解決問(wèn)題。而得分低于30的模型可能在深入的學(xué)科知識(shí)和推理方面存在困難,其答案可能不一致或過(guò)于簡(jiǎn)單。

當(dāng)前最高得分模型:GPT-4 o1(300b),得分87%。

人類(lèi)最后的考試

人類(lèi)最后的考試旨在將LLMs推向極限,測(cè)試它們解決高度復(fù)雜和新穎問(wèn)題的能力。與傳統(tǒng)的邏輯推理、事實(shí)回憶或模式識(shí)別等特定技能評(píng)估的基準(zhǔn)測(cè)試不同,這個(gè)基準(zhǔn)測(cè)試用完全未見(jiàn)的、創(chuàng)造性的或哲學(xué)性問(wèn)題挑戰(zhàn)模型,這些問(wèn)題需要深度理解和洞察力。

測(cè)試方法:基準(zhǔn)測(cè)試包括一系列沒(méi)有明確答案的開(kāi)放式問(wèn)題。AI模型基于定性指標(biāo)進(jìn)行評(píng)估,如連貫性、推理深度和回答的新穎性??赡苄枰斯ぴu(píng)估者對(duì)回答進(jìn)行評(píng)分,因?yàn)樽詣?dòng)化評(píng)分方法可能不足以評(píng)估。

數(shù)據(jù)集:沒(méi)有固定的數(shù)據(jù)集;問(wèn)題動(dòng)態(tài)策劃,保持不可預(yù)測(cè)性,以評(píng)估真正的AI智能而非記憶能力。

測(cè)試結(jié)果的意義:在這個(gè)基準(zhǔn)測(cè)試中表現(xiàn)良好表明AI具有進(jìn)行高級(jí)人類(lèi)類(lèi)推理的能力,使其適合于研究、哲學(xué)以及需要深度創(chuàng)造力和新穎見(jiàn)解的任務(wù)。例如,如果模型得分在80%或以上,它可以解決需要抽象思維和邏輯的復(fù)雜推理問(wèn)題。而得分低于40%的模型可能在多步推理方面存在困難,在復(fù)雜問(wèn)題解決任務(wù)中表現(xiàn)不佳。

當(dāng)前最高得分模型:Gemini 2.5 Pro Exp,得分18.8%(基于公開(kāi)可用的分?jǐn)?shù))。

GPQA鉆石

GPQA鉆石是通用問(wèn)答(GPQA)基準(zhǔn)測(cè)試的一個(gè)子集,旨在評(píng)估AI模型回答高度專(zhuān)業(yè)和困難問(wèn)題的能力,這些問(wèn)題只有一個(gè)正確答案。

測(cè)試方法:模型被給予一個(gè)問(wèn)題,并且必須在一次嘗試中(pass@1)產(chǎn)生一個(gè)精確且事實(shí)正確的答案。難度水平遠(yuǎn)高于標(biāo)準(zhǔn)問(wèn)答數(shù)據(jù)集,專(zhuān)注于技術(shù)、科學(xué)和特定領(lǐng)域的知識(shí)。準(zhǔn)確率以首次嘗試正確回答的百分比來(lái)衡量。

數(shù)據(jù)集:手工策劃的一系列挑戰(zhàn)性問(wèn)題,涵蓋多個(gè)學(xué)科,包括高級(jí)數(shù)學(xué)、法律推理和科學(xué)研究。

測(cè)試結(jié)果的意義:高GPQA鉆石分?jǐn)?shù)表明AI模型在復(fù)雜領(lǐng)域中檢索和形成高度準(zhǔn)確答案方面表現(xiàn)出色,使其適合于專(zhuān)家AI助手、法律咨詢(xún)和學(xué)術(shù)研究支持。例如,如果模型得分超過(guò)85%,它可以精確且深入地處理復(fù)雜的特定領(lǐng)域問(wèn)題。而得分低于30%的模型可能在特定知識(shí)方面存在困難,經(jīng)常提供模糊或錯(cuò)誤的答案。

當(dāng)前最高得分模型:Gemini 2.5 Pro Exp,得分18.8%。

LLM競(jìng)技場(chǎng)排行榜

LLM競(jìng)技場(chǎng)排行榜是一個(gè)眾包排名系統(tǒng),用戶(hù)根據(jù)現(xiàn)實(shí)世界中的互動(dòng)和用例評(píng)估LLMs。

測(cè)試方法:AI模型接受開(kāi)放式互動(dòng),用戶(hù)根據(jù)流暢性、連貫性、事實(shí)準(zhǔn)確性以及回答查詢(xún)的整體有效性對(duì)它們進(jìn)行評(píng)分。

數(shù)據(jù)集:一個(gè)動(dòng)態(tài)的、用戶(hù)生成的數(shù)據(jù)集,來(lái)自各種應(yīng)用中的現(xiàn)實(shí)世界互動(dòng)。

測(cè)試結(jié)果的意義:在LLM競(jìng)技場(chǎng)排行榜上排名靠前表明AI模型在實(shí)際應(yīng)用中受到好評(píng),如通用目的協(xié)助、商業(yè)自動(dòng)化和研究支持。例如,如果模型排名在前3位,它在準(zhǔn)確性、連貫性和推理方面始終優(yōu)于競(jìng)爭(zhēng)對(duì)手。而排名在前20名之外的模型可能在復(fù)雜任務(wù)方面存在顯著弱點(diǎn),使其在高級(jí)應(yīng)用中不夠可靠。

當(dāng)前最高得分模型:Gemini 2.5 Pro Exp,得分1439。

LLM基準(zhǔn)測(cè)試過(guò)時(shí)了嗎?一文讀懂其在AI評(píng)估中的現(xiàn)狀與挑戰(zhàn)-AI.x社區(qū)

ARC(AI2推理挑戰(zhàn))

ARC專(zhuān)門(mén)設(shè)計(jì)用于評(píng)估AI模型的常識(shí)推理和邏輯推理能力。 這些問(wèn)題類(lèi)似于小學(xué)科學(xué)考試,但結(jié)構(gòu)上旨在挑戰(zhàn)AI應(yīng)用邏輯的能力,而不僅僅是識(shí)別模式。

測(cè)試方法:測(cè)試分為“簡(jiǎn)單”和“挑戰(zhàn)”兩部分?!疤魬?zhàn)”部分包含對(duì)依賴(lài)純統(tǒng)計(jì)相關(guān)性的AI模型來(lái)說(shuō)較難的問(wèn)題。AI模型根據(jù)多項(xiàng)選擇準(zhǔn)確率進(jìn)行評(píng)估,特別強(qiáng)調(diào)其回答需要推理的問(wèn)題的能力,這些問(wèn)題是超越表面知識(shí)的。

數(shù)據(jù)集:一系列教育考試中的科學(xué)問(wèn)題,經(jīng)過(guò)篩選以強(qiáng)調(diào)推理而非簡(jiǎn)單回憶。

測(cè)試結(jié)果的意義:高ARC分?jǐn)?shù)表明AI模型具有強(qiáng)大的邏輯推理能力,使其適合于教育輔導(dǎo)、決策支持以及各種應(yīng)用中的自動(dòng)化推理任務(wù)。例如,如果模型得分在80%或以上,它可以解決需要抽象思維和邏輯的復(fù)雜推理問(wèn)題。而得分低于40%的模型可能在多步推理方面存在困難,在復(fù)雜問(wèn)題解決任務(wù)中表現(xiàn)不佳。

TruthfulQA

TruthfulQA評(píng)估AI生成事實(shí)準(zhǔn)確回答的能力,同時(shí)避免錯(cuò)誤信息和常見(jiàn)誤解。它特別適用于評(píng)估在需要高度信任的應(yīng)用中的AI,如新聞業(yè)和醫(yī)療援助。

測(cè)試方法:TruthfulQA在零樣本設(shè)置中評(píng)估模型,不允許進(jìn)行調(diào)整。它包括兩個(gè)任務(wù):生成任務(wù),模型生成1-3句回答;以及多項(xiàng)選擇任務(wù)。此外,測(cè)試包括一系列旨在引出常見(jiàn)錯(cuò)誤信息的回答的問(wèn)題。

AI模型根據(jù)其回答的真實(shí)性而非僅僅是語(yǔ)言流暢性進(jìn)行評(píng)分。每個(gè)問(wèn)題給模型一個(gè)0-1之間的分?jǐn)?shù),其中0代表完全錯(cuò)誤的答案,1代表完全真實(shí)的答案。在大多數(shù)情況下,將回答真實(shí)問(wèn)題的百分比作為基準(zhǔn)。

數(shù)據(jù)集:一系列經(jīng)過(guò)策劃的事實(shí)核查問(wèn)題,旨在挑戰(zhàn)AI模型對(duì)常見(jiàn)錯(cuò)誤和偏見(jiàn)的識(shí)別。它包含817個(gè)問(wèn)題,涵蓋38個(gè)類(lèi)別,包括健康、法律、金融和政治。

測(cè)試結(jié)果的意義:高TruthfulQA分?jǐn)?shù)表明AI模型不太可能生成誤導(dǎo)性或錯(cuò)誤的信息,使其適合于事實(shí)核查、醫(yī)療保健、教育以及可信AI部署等應(yīng)用。

例如,如果模型平均得分超過(guò)0.5,或者75%的回答是誠(chéng)實(shí)的,這意味著該模型是可信的。換句話說(shuō),它證明了該模型通常提供經(jīng)過(guò)合理推理且事實(shí)正確的答案,錯(cuò)誤信息極少。而得分低于0.2,或者少于30%的問(wèn)題回答誠(chéng)實(shí)的模型,容易捏造或歪曲事實(shí)。這使得它在對(duì)真實(shí)性要求嚴(yán)格的應(yīng)用中不可靠。

編程基準(zhǔn)測(cè)試評(píng)估LLM

LLM基準(zhǔn)測(cè)試過(guò)時(shí)了嗎?一文讀懂其在AI評(píng)估中的現(xiàn)狀與挑戰(zhàn)-AI.x社區(qū)

編程基準(zhǔn)測(cè)試衡量LLM在多種編程語(yǔ)言中生成、理解和調(diào)試代碼的能力。這些基準(zhǔn)測(cè)試對(duì)于協(xié)助開(kāi)發(fā)人員或自主編寫(xiě)代碼的工具至關(guān)重要。

HumanEval

HumanEval旨在評(píng)估LLM根據(jù)問(wèn)題描述生成功能性Python代碼的能力。它評(píng)估AI的編程能力、邏輯推理能力以及編寫(xiě)正確解決方案的能力。

測(cè)試方法:模型被給予描述要實(shí)現(xiàn)的函數(shù)的提示。通過(guò)單元測(cè)試驗(yàn)證生成代碼的正確性,將模型的輸出與預(yù)期結(jié)果進(jìn)行比較。評(píng)估指標(biāo)是pass@k,衡量模型在k次嘗試內(nèi)產(chǎn)生正確解決方案的概率。

數(shù)據(jù)集:由OpenAI創(chuàng)建,HumanEval包含164個(gè)Python編程問(wèn)題,涵蓋各種編程概念和挑戰(zhàn)。

測(cè)試結(jié)果的意義:高HumanEval分?jǐn)?shù)表明AI模型擅長(zhǎng)編程,能夠生成功能性、語(yǔ)法正確的Python代碼,適用于軟件開(kāi)發(fā)和AI輔助編程任務(wù)。例如,如果模型得分超過(guò)85%,它可以可靠地編寫(xiě)工作代碼,解決算法問(wèn)題,并協(xié)助開(kāi)發(fā)人員處理復(fù)雜的編程任務(wù)。而得分低于40%的模型可能生成錯(cuò)誤或低效的代碼,使其在現(xiàn)實(shí)世界的編程需求中不可靠。

當(dāng)前最高得分模型:Claude 3.5 Sonnet,得分100。

SWE-bench Verified

SWE-bench(軟件工程基準(zhǔn)測(cè)試)Verified旨在評(píng)估AI模型理解、調(diào)試和改進(jìn)軟件代碼的能力。

測(cè)試方法:AI模型在真實(shí)世界的軟件開(kāi)發(fā)任務(wù)中接受測(cè)試,包括錯(cuò)誤修復(fù)、重構(gòu)和功能實(shí)現(xiàn)。解決方案必須通過(guò)各種驗(yàn)證檢查以確認(rèn)正確性。模型根據(jù)其產(chǎn)生完全功能且經(jīng)過(guò)驗(yàn)證的解決方案的能力進(jìn)行評(píng)估。

數(shù)據(jù)集:基于真實(shí)世界軟件倉(cāng)庫(kù)的一系列編程挑戰(zhàn),包括開(kāi)源項(xiàng)目和企業(yè)級(jí)代碼庫(kù)。

測(cè)試結(jié)果的意義:高SWE-bench Verified分?jǐn)?shù)表明AI模型在軟件工程方面能力很強(qiáng),使其在自動(dòng)化代碼生成、調(diào)試和AI輔助編程方面具有價(jià)值。例如,如果模型得分在80%或以上,它可以準(zhǔn)確地修復(fù)復(fù)雜的錯(cuò)誤并重構(gòu)代碼。而得分低于40%的模型可能在處理真實(shí)世界的軟件問(wèn)題方面存在困難,并產(chǎn)生不可靠的修復(fù)。

Aider Polyglot

Aider Polyglot旨在評(píng)估AI在多種編程語(yǔ)言中生成和理解代碼的能力。它評(píng)估模型在不同語(yǔ)言之間切換的能力、理解跨語(yǔ)言語(yǔ)法差異的能力以及生成正確和高效代碼的能力。重點(diǎn)是AI在各種編程范式中的適應(yīng)性以及在不同環(huán)境中生成慣用代碼的能力。

測(cè)試方法:AI模型被給予不同語(yǔ)言的編程任務(wù)。評(píng)估重點(diǎn)是語(yǔ)法正確性、執(zhí)行準(zhǔn)確性和效率。AI還被測(cè)試其處理跨語(yǔ)言推理的能力,例如在保持功能性和效率的同時(shí)將代碼從一種語(yǔ)言轉(zhuǎn)換為另一種語(yǔ)言。

數(shù)據(jù)集:該基準(zhǔn)測(cè)試使用來(lái)自真實(shí)場(chǎng)景、編程競(jìng)賽挑戰(zhàn)和開(kāi)源倉(cāng)庫(kù)的編程問(wèn)題數(shù)據(jù)集。這些任務(wù)涉及多種語(yǔ)言,包括Python、JavaScript、C++和Java。

測(cè)試結(jié)果的意義:高分表明AI模型擅長(zhǎng)多語(yǔ)言編碼任務(wù),使其對(duì)于在多種技術(shù)棧中工作的開(kāi)發(fā)人員、代碼翻譯以及各種語(yǔ)言中的調(diào)試任務(wù)具有價(jià)值。例如,如果模型得分超過(guò)85%,它可以無(wú)縫地協(xié)助多種語(yǔ)言,如Python、Java和C++。而得分低于40%的模型可能在不同編程語(yǔ)言之間的語(yǔ)法和上下文方面存在困難。

當(dāng)前最高得分模型:Gemini 2.5 Pro Exp,得分74%。

LiveCodeBench v5

LiveCodeBench v5測(cè)試AI在現(xiàn)實(shí)世界約束下生成實(shí)時(shí)、可執(zhí)行代碼的能力。與靜態(tài)編碼測(cè)試不同,它側(cè)重于AI在交互式環(huán)境中解決編碼問(wèn)題的能力,結(jié)合運(yùn)行時(shí)反饋和迭代調(diào)試。

測(cè)試方法:AI被要求交互式地解決編碼問(wèn)題。它根據(jù)其初始代碼的準(zhǔn)確性、處理運(yùn)行時(shí)錯(cuò)誤的能力以及效率進(jìn)行評(píng)估。模型的適應(yīng)性也受到測(cè)試,因?yàn)樗仨毟鶕?jù)實(shí)時(shí)反饋和變化的測(cè)試用例調(diào)整解決方案。

數(shù)據(jù)集:數(shù)據(jù)集包括來(lái)自編程競(jìng)賽、真實(shí)世界開(kāi)發(fā)場(chǎng)景和開(kāi)源倉(cāng)庫(kù)的交互式編碼問(wèn)題和調(diào)試任務(wù)。

測(cè)試結(jié)果的意義:高分表明AI在實(shí)時(shí)編碼方面表現(xiàn)出色,使其適用于AI驅(qū)動(dòng)的代碼補(bǔ)全、調(diào)試協(xié)助和交互式編程環(huán)境,這對(duì)于提高開(kāi)發(fā)人員的生產(chǎn)力至關(guān)重要。例如,如果模型得分在90%以上,它可以處理動(dòng)態(tài)編碼挑戰(zhàn)、調(diào)試和自動(dòng)補(bǔ)全,具有很高的準(zhǔn)確性。而得分低于40%的模型可能在保持編碼上下文方面存在困難,并且可能頻繁生成錯(cuò)誤。

當(dāng)前最高得分模型:Kimi-k1.6-IOI-high,代碼生成得分73.8。

LLM基準(zhǔn)測(cè)試過(guò)時(shí)了嗎?一文讀懂其在AI評(píng)估中的現(xiàn)狀與挑戰(zhàn)-AI.x社區(qū)

MBPP(大多是基礎(chǔ)編程問(wèn)題)

MBPP評(píng)估LLM使用自然語(yǔ)言指令解決初學(xué)者到中級(jí)編程任務(wù)的能力。它適用于測(cè)試模型的核心算法理解和基本編碼技能。

測(cè)試方法:模型被給予簡(jiǎn)短的問(wèn)題描述,并被要求生成解決描述問(wèn)題的Python代碼。每個(gè)問(wèn)題都包含一個(gè)簡(jiǎn)短的自然語(yǔ)言提示,描述任務(wù),模型被期望生成解決它的Python代碼。

生成的代碼會(huì)自動(dòng)評(píng)估其功能正確性、語(yǔ)法有效性和與問(wèn)題描述的邏輯一致性。這通常是在少樣本設(shè)置中進(jìn)行的,模型在嘗試新問(wèn)題之前會(huì)看到一些已解決的示例。零樣本和微調(diào)評(píng)估也很常見(jiàn)。

數(shù)據(jù)集:MBPP包含974個(gè)問(wèn)題,來(lái)源于教育和編程競(jìng)賽平臺(tái)。任務(wù)包括對(duì)字符串、列表和字典的操作,以及數(shù)學(xué)、條件語(yǔ)句、遞歸和簡(jiǎn)單的文件處理。所有問(wèn)題都可以在10行以?xún)?nèi)的Python代碼中解決,并且每個(gè)問(wèn)題都附帶3個(gè)單元測(cè)試。

測(cè)試結(jié)果的意義:高M(jìn)BPP分?jǐn)?shù)反映了模型按照清晰指令生成功能性代碼的能力。

例如,得分超過(guò)80的模型可以處理編碼教程并協(xié)助初學(xué)者程序員。這種模型非常適合代碼輔導(dǎo)、自動(dòng)補(bǔ)全工具和初學(xué)者級(jí)別的開(kāi)發(fā)支持。而得分低于30的模型可能生成有錯(cuò)誤或語(yǔ)法無(wú)效的代碼。

當(dāng)前最高得分模型:由Claude 3.5-Sonnet驅(qū)動(dòng)的QualityFlow,準(zhǔn)確度為94.2。

MTPB(多輪編程基準(zhǔn)測(cè)試)

MTPB評(píng)估AI模型在代碼生成中進(jìn)行多輪對(duì)話的能力。它模擬了真實(shí)世界中的軟件開(kāi)發(fā)場(chǎng)景,開(kāi)發(fā)人員根據(jù)反饋、調(diào)試輸出和不斷演變的指令來(lái)完善代碼。它測(cè)試上下文記憶、跟進(jìn)和多輪對(duì)話中的問(wèn)題解決能力。這些技能對(duì)于用于代碼配對(duì)編程或作為副駕駛的LLMs至關(guān)重要。

測(cè)試方法:每個(gè)任務(wù)從用戶(hù)查詢(xún)開(kāi)始,描述編碼目標(biāo)。模型提出解決方案,隨后模擬用戶(hù)(或測(cè)試腳本)提供反饋,可能指出錯(cuò)誤、要求添加功能或提出更改。這個(gè)循環(huán)會(huì)持續(xù)3到5輪。

最終輸出會(huì)針對(duì)一組功能要求和單元測(cè)試進(jìn)行測(cè)試。評(píng)估考慮最終代碼的正確性、模型整合細(xì)微反饋的能力以及對(duì)話過(guò)程中的穩(wěn)定性和連貫性。它還會(huì)考察模型達(dá)到工作解決方案所需的 交互次數(shù)。

數(shù)據(jù)集:MTPB數(shù)據(jù)集包含115個(gè)真實(shí)的軟件工程問(wèn)題。這包括用戶(hù)反饋循環(huán)、代碼重構(gòu)任務(wù)和增量功能實(shí)現(xiàn)。反饋信息被設(shè)計(jì)為模糊和明確的,模仿開(kāi)發(fā)人員在真實(shí)場(chǎng)景中收到的指令。

測(cè)試結(jié)果的意義:高M(jìn)TPB分?jǐn)?shù)表明模型能夠在多輪對(duì)話中跟蹤上下文,而不會(huì)丟失上下文或引入回歸。這意味著該模型適合于迭代代碼審查、配對(duì)編程和輔導(dǎo)等任務(wù)。

例如,如果模型得分超過(guò)85%,它可以迭代改進(jìn)代碼,理解測(cè)試用例,并提供有用的調(diào)試建議。而得分低于40%的模型可能在多步編程任務(wù)中存在困難,并產(chǎn)生不完整或錯(cuò)誤的解決方案。

數(shù)學(xué)與STEM基準(zhǔn)測(cè)試評(píng)估LLM

LLM基準(zhǔn)測(cè)試過(guò)時(shí)了嗎?一文讀懂其在AI評(píng)估中的現(xiàn)狀與挑戰(zhàn)-AI.x社區(qū)

這一類(lèi)別側(cè)重于數(shù)值能力和結(jié)構(gòu)化推理,包括純數(shù)學(xué)以及與科學(xué)相關(guān)的解決問(wèn)題能力。這些基準(zhǔn)測(cè)試評(píng)估模型按步驟推理和解釋定量數(shù)據(jù)的能力。

GSM8K

GSM8K是一個(gè)小學(xué)水平的數(shù)學(xué)應(yīng)用題數(shù)據(jù)集,旨在評(píng)估LLM在算術(shù)和基礎(chǔ)代數(shù)推理方面的能力。這些問(wèn)題需要多步計(jì)算、邏輯推理以及對(duì)基本數(shù)學(xué)原理的理解。

測(cè)試方法:模型被呈現(xiàn)數(shù)學(xué)應(yīng)用題,并被要求生成逐步解決方案。評(píng)估基于最終答案是否與正確答案匹配。此外,中間推理步驟也會(huì)被評(píng)估,以衡量邏輯連貫性和解決問(wèn)題的深度。

數(shù)據(jù)集:GSM8K包含1319個(gè)高質(zhì)量的小學(xué)水平問(wèn)題。這些問(wèn)題由人類(lèi)專(zhuān)家手動(dòng)編寫(xiě),確保多樣性和現(xiàn)實(shí)的數(shù)學(xué)挑戰(zhàn)。

測(cè)試結(jié)果的意義:高GSM8K分?jǐn)?shù)表明模型具有強(qiáng)大的算術(shù)和基礎(chǔ)代數(shù)推理能力。它表明模型能夠協(xié)助基礎(chǔ)教育、自動(dòng)化輔導(dǎo)和基本金融計(jì)算。

例如,如果模型得分超過(guò)80%,它可以可靠地解決非平凡的代數(shù)、幾何和數(shù)論問(wèn)題。而得分低于30%的模型可能在復(fù)雜的多步推理中失敗,并且在精確性方面存在困難。

當(dāng)前最高得分模型:Claude 3.5 Sonnet(HPT),得分97.72。

MATH基準(zhǔn)測(cè)試

MATH基準(zhǔn)測(cè)試評(píng)估AI模型解決高級(jí)、高中水平數(shù)學(xué)問(wèn)題的能力,需要深入的邏輯推理、符號(hào)操作和多步問(wèn)題解決技能。

測(cè)試方法:測(cè)試包括來(lái)自代數(shù)、幾何、微積分和數(shù)論的問(wèn)題。AI模型必須生成完整的逐步解決方案,而不僅僅是最終答案。評(píng)估過(guò)程檢查中間步驟的正確性和邏輯合理性。

數(shù)據(jù)集:數(shù)據(jù)集包含12500個(gè)問(wèn)題,來(lái)源于真實(shí)的數(shù)學(xué)競(jìng)賽和高中課程挑戰(zhàn)。

測(cè)試結(jié)果的意義:高M(jìn)ATH基準(zhǔn)測(cè)試分?jǐn)?shù)表明AI模型在技術(shù)領(lǐng)域表現(xiàn)出色,如STEM輔導(dǎo)、研究,甚至協(xié)助數(shù)學(xué)證明和計(jì)算建模。

例如,如果模型得分在70%或以上,它可以可靠地解決具有挑戰(zhàn)性的代數(shù)、微積分和幾何問(wèn)題。而得分低于30%的模型可能在多步數(shù)學(xué)推理中失敗,并且在抽象問(wèn)題解決方面存在困難。

AIME 2025(pass@1)

AIME(人工智能數(shù)學(xué)評(píng)估)2025是一個(gè)旨在評(píng)估AI模型解決高級(jí)數(shù)學(xué)問(wèn)題的能力的基準(zhǔn)測(cè)試。它包括受著名數(shù)學(xué)競(jìng)賽啟發(fā)的問(wèn)題。

測(cè)試方法:在這個(gè)測(cè)試中,模型必須在第一次嘗試(pass@1)時(shí)提供正確的答案,沒(méi)有重試的機(jī)會(huì)。問(wèn)題包括代數(shù)、組合數(shù)學(xué)、數(shù)論和幾何。模型性能根據(jù)產(chǎn)生正確最終答案的準(zhǔn)確性進(jìn)行評(píng)估。

數(shù)據(jù)集:?jiǎn)栴}來(lái)源于高級(jí)數(shù)學(xué)競(jìng)賽和大學(xué)水平的習(xí)題集。

測(cè)試結(jié)果的意義:高AIME 2025分?jǐn)?shù)表明模型具有強(qiáng)大的數(shù)學(xué)推理能力,使其適合于協(xié)助研究、STEM教育和科學(xué)計(jì)算。例如,如果模型得分超過(guò)80%,它可以可靠地解決非平凡的代數(shù)、幾何和數(shù)論問(wèn)題。而得分低于30%的模型可能在復(fù)雜的多步推理中失敗,并且在精確性方面存在困難。

當(dāng)前最高得分模型:Grok 3(Beta)擴(kuò)展思考,得分93.3%,這是該基準(zhǔn)測(cè)試的最高分。

ScienceQA

ScienceQA是一個(gè)多模態(tài)數(shù)據(jù)集,評(píng)估AI模型使用文本和視覺(jué)信息進(jìn)行推理的能力,特別是針對(duì)科學(xué)相關(guān)主題。

測(cè)試方法:數(shù)據(jù)集包括基于科學(xué)的多項(xiàng)選擇題,AI模型必須在分析文本和圖表后再生成正確答案。

數(shù)據(jù)集:一個(gè)包含21000個(gè)多模態(tài)問(wèn)題的集合,涵蓋物理、化學(xué)和生物,來(lái)源于教育材料。

測(cè)試結(jié)果的意義:高ScienceQA分?jǐn)?shù)表明模型在AI輔助教育、輔導(dǎo)平臺(tái)和科學(xué)文檔分析方面表現(xiàn)出色。例如,如果模型得分超過(guò)85%,它可以深入解釋科學(xué)概念,使其適用于教育和研究。而得分低于40%的模型可能誤解數(shù)據(jù),并且在科學(xué)推理方面存在困難。

MGSM(多語(yǔ)言小學(xué)數(shù)學(xué))

MGSM測(cè)試模型在多種語(yǔ)言中進(jìn)行小學(xué)水平數(shù)學(xué)推理的能力。它評(píng)估多語(yǔ)言理解和邏輯問(wèn)題解決的交叉點(diǎn),幫助確定LLM是否能夠在不同語(yǔ)言之間泛化數(shù)學(xué)能力。

測(cè)試方法:基準(zhǔn)測(cè)試涉及解決涉及算術(shù)、邏輯和基礎(chǔ)代數(shù)的數(shù)學(xué)應(yīng)用題。每個(gè)問(wèn)題被翻譯成10多種語(yǔ)言,包括西班牙語(yǔ)、印地語(yǔ)、法語(yǔ)、中文和阿拉伯語(yǔ)。模型必須準(zhǔn)確理解給定語(yǔ)言中的問(wèn)題,進(jìn)行正確的計(jì)算或推理,并返回正確的數(shù)值或文本答案。評(píng)估基于完全匹配準(zhǔn)確性和推理的正確性(如果展示)。

數(shù)據(jù)集:基于GSM8K數(shù)據(jù)集構(gòu)建,MGSM使用8500多個(gè)小學(xué)數(shù)學(xué)問(wèn)題,手動(dòng)翻譯以保留意圖和措辭。數(shù)據(jù)集引入了語(yǔ)言復(fù)雜性,如習(xí)語(yǔ)、句子結(jié)構(gòu)變化和數(shù)字-單詞格式。

測(cè)試結(jié)果的意義:高M(jìn)GSM分?jǐn)?shù)表明模型能夠彌合語(yǔ)言和推理之間的差距。這對(duì)于構(gòu)建包容性的、多語(yǔ)言的AI教育和輔導(dǎo)系統(tǒng)至關(guān)重要。

例如,得分超過(guò)80%的模型可以有效地用母語(yǔ)教授數(shù)學(xué)或回答問(wèn)題。而得分低于40%的模型則揭示出語(yǔ)言理解方面的差距或推理方面的斷裂。

多模態(tài)與視覺(jué)語(yǔ)言基準(zhǔn)測(cè)試評(píng)估LLM

LLM基準(zhǔn)測(cè)試過(guò)時(shí)了嗎?一文讀懂其在AI評(píng)估中的現(xiàn)狀與挑戰(zhàn)-AI.x社區(qū)

多模態(tài)基準(zhǔn)測(cè)試評(píng)估模型解釋和推理文本和視覺(jué)數(shù)據(jù)的能力。這對(duì)于圖像描述、文檔理解和視覺(jué)問(wèn)答等應(yīng)用至關(guān)重要。

MMMU(大規(guī)模多模態(tài)多任務(wù)理解)

MMMU評(píng)估AI模型處理和推理文本、圖像和圖表等多種模態(tài)數(shù)據(jù)的能力,對(duì)于多模態(tài)AI應(yīng)用至關(guān)重要。

測(cè)試方法:模型在需要同時(shí)解釋文本和視覺(jué)輸入的任務(wù)上接受測(cè)試。這些包括回答有關(guān)圖像的問(wèn)題、推理圖表以及從多媒體數(shù)據(jù)中提取見(jiàn)解。

數(shù)據(jù)集:一系列經(jīng)過(guò)策劃的圖像-文本對(duì),涵蓋科學(xué)圖表、圖表、醫(yī)學(xué)圖像和日常場(chǎng)景。

測(cè)試結(jié)果的意義:高M(jìn)MMU分?jǐn)?shù)表明AI模型在自動(dòng)化文檔分析、AI輔助醫(yī)學(xué)成像和智能數(shù)據(jù)可視化等領(lǐng)域表現(xiàn)出色。例如,如果模型得分超過(guò)80%,它可以準(zhǔn)確處理和響應(yīng)復(fù)雜的多模態(tài)查詢(xún)。而得分低于40%的模型可能在跨模態(tài)推理方面存在困難,并且產(chǎn)生不一致的結(jié)果。

VQAv2(視覺(jué)問(wèn)答)

VQAv2測(cè)試AI模型解釋圖像并回答相應(yīng)文本問(wèn)題的能力。它廣泛用于評(píng)估AI在視覺(jué)語(yǔ)言理解方面的表現(xiàn)。

測(cè)試方法:AI模型被提供圖像和自然語(yǔ)言問(wèn)題。根據(jù)生成的答案是否與人工標(biāo)注的正確答案匹配來(lái)衡量準(zhǔn)確性。

數(shù)據(jù)集:數(shù)據(jù)集包含265000個(gè)圖像-問(wèn)題-答案三元組,確保在各個(gè)領(lǐng)域進(jìn)行穩(wěn)健的評(píng)估。

測(cè)試結(jié)果的意義:高VQAv2分?jǐn)?shù)表明模型在無(wú)障礙應(yīng)用、自動(dòng)化圖像描述和AI驅(qū)動(dòng)的內(nèi)容審核方面具有強(qiáng)大的能力。例如,如果模型得分超過(guò)80%,它可以以高準(zhǔn)確性理解和描述復(fù)雜圖像。而得分低于40%的模型可能誤解圖像,在上下文理解方面存在困難,并且提供不正確或模糊的答案。

BFCL(伯克利函數(shù)調(diào)用排行榜)

BFCL測(cè)試模型理解API文檔并執(zhí)行函數(shù)調(diào)用任務(wù)的能力。它模擬了AI助手將自然語(yǔ)言翻譯成結(jié)構(gòu)化API調(diào)用的場(chǎng)景。這是基于LLM的代理與外部工具和環(huán)境交互的關(guān)鍵技能。

測(cè)試方法:測(cè)試呈現(xiàn)自然語(yǔ)言指令(例如,“查看明天中午巴黎的天氣”)和一系列可用函數(shù)定義及其輸入?yún)?shù)。模型必須返回與用戶(hù)意圖匹配的正確格式的函數(shù)調(diào)用。

評(píng)估檢查模型是否能找到與預(yù)期函數(shù)簽名完全匹配的內(nèi)容,正確映射參數(shù)和值,并正確使用數(shù)據(jù)類(lèi)型和約束。參數(shù)不匹配、幻覺(jué)函數(shù)或參數(shù)解釋錯(cuò)誤等錯(cuò)誤會(huì)導(dǎo)致分?jǐn)?shù)降低。

數(shù)據(jù)集:數(shù)據(jù)集包括數(shù)千個(gè)真實(shí)世界的API場(chǎng)景,如天氣查詢(xún)、日歷安排和搜索任務(wù)。每個(gè)提示都配有清晰的規(guī)范和參數(shù),與結(jié)構(gòu)化的JSON樣式的函數(shù)模式配對(duì)。

測(cè)試結(jié)果的意義:高BFCL分?jǐn)?shù)表明模型能夠正確解釋結(jié)構(gòu)化輸入,遵循約束,并進(jìn)行精確的函數(shù)調(diào)用。這對(duì)于與插件或API等工具集成的LLMs至關(guān)重要。

如果模型在這個(gè)基準(zhǔn)測(cè)試中得分超過(guò)90%,這表明它具有強(qiáng)大的工具使用能力。而得分低于50%的模型可能在參數(shù)處理方面表現(xiàn)不佳,并且容易出現(xiàn)幻覺(jué)行為。

排行榜基準(zhǔn)測(cè)試與官方基準(zhǔn)測(cè)試

LLMs在受控環(huán)境中 進(jìn)行測(cè)試,外部偏見(jiàn)或額外的人工干預(yù)不會(huì)影響結(jié)果。這適用于大多數(shù)官方基準(zhǔn)測(cè)試,如MMLU和HumanEval,它們?cè)u(píng)估特定能力。然而,像LLM Arena和Hugging Face Open LLM Leaderboard這樣的真實(shí)世界排行榜依賴(lài)于用戶(hù)反饋和眾包評(píng)估。因此,后者提供了對(duì)LLM有效性的更動(dòng)態(tài)的評(píng)估。

官方基準(zhǔn)測(cè)試提供了標(biāo)準(zhǔn)化的評(píng)估指標(biāo),但它們往往不能反映真實(shí)世界的表現(xiàn)?;谂判邪竦脑u(píng)估,如LMSys或Hugging Face上的評(píng)估,捕捉到實(shí)時(shí)用戶(hù)反饋,使其成為衡量LLM可用性的更實(shí)用的指標(biāo)。

官方基準(zhǔn)測(cè)試允許進(jìn)行可重復(fù)的測(cè)試,而基于排行榜的基準(zhǔn)測(cè)試則根據(jù)用戶(hù)互動(dòng)進(jìn)行調(diào)整。排行榜能夠捕捉到靜態(tài)測(cè)試可能遺漏的新興優(yōu)勢(shì)和弱點(diǎn)。行業(yè)專(zhuān)家越來(lái)越傾向于排行榜,因?yàn)樗鼈兏m用于真實(shí)世界的應(yīng)用。像LMSys、Hugging Face和Open LLM Leaderboard這樣的平臺(tái)提供了動(dòng)態(tài)的真實(shí)世界評(píng)估。這些平臺(tái)上的社區(qū)驅(qū)動(dòng)反饋展示了LLMs隨時(shí)間的演變,超出了固定基準(zhǔn)測(cè)試的一次性測(cè)試。此外,大多數(shù)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試只發(fā)布最終結(jié)果,這引發(fā)了關(guān)于其真實(shí)性的質(zhì)疑,尤其是當(dāng)高分模型在現(xiàn)實(shí)世界中表現(xiàn)不佳時(shí)。在這種情況下,開(kāi)源基準(zhǔn)測(cè)試鼓勵(lì)合作和透明度,從而導(dǎo)致更穩(wěn)健的LLM評(píng)估。


本文轉(zhuǎn)載自公眾號(hào)Halo咯咯    作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/uCzwPw3n6Adi5eXkkCGdpg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-4-17 07:17:19修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦