DeepSeek-R1、o1都在及格線掙扎!字節(jié)開(kāi)源全新知識(shí)推理測(cè)評(píng)集,覆蓋285個(gè)學(xué)科
大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜變天???
要知道,過(guò)去幾年,各種通用評(píng)測(cè)逐漸同質(zhì)化,越來(lái)越難以評(píng)估模型真實(shí)能力。GPQA、MMLU-pro、MMLU等流行基準(zhǔn),各家模型出街時(shí)人手一份,但局限性也開(kāi)始暴露,比如覆蓋范圍狹窄(通常不足 50 個(gè)學(xué)科),不含長(zhǎng)尾知識(shí);缺乏足夠挑戰(zhàn)性和區(qū)分度,比如 GPT-4o 在 MMLU-Pro 上準(zhǔn)確率飆到 92.3%。
不過(guò)別慌,大模型通用知識(shí)推理評(píng)測(cè)“強(qiáng)化版”來(lái)了,堪稱大模型評(píng)測(cè)里的“黃岡密卷”!
近日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)聯(lián)合 M-A-P 開(kāi)源社區(qū),推出了全新評(píng)測(cè)基準(zhǔn) SuperGPQA。
我們翻看論文,細(xì)品一番,足足 256 頁(yè)。據(jù)了解,該評(píng)測(cè)搭建工作耗時(shí)半年,近百位學(xué)界學(xué)者及名校碩博、業(yè)界工程師參與標(biāo)注。
研究團(tuán)隊(duì)構(gòu)建了迄今為止最全面,覆蓋 285 個(gè)研究生級(jí)學(xué)科、包含 26529 道專業(yè)題目的評(píng)估體系。
實(shí)驗(yàn)證明,即便最強(qiáng)的 DeepSeek-R1 在 SuperGPQA 上準(zhǔn)確率也才 61.82%,在及格線上掙扎,顯著低于其在傳統(tǒng)評(píng)估指標(biāo)上的表現(xiàn)。
SuperGPQA 精準(zhǔn)直擊大模型評(píng)測(cè)的三大痛點(diǎn):
- 學(xué)科覆蓋不全:傳統(tǒng)基準(zhǔn)僅覆蓋 5% 長(zhǎng)尾學(xué)科,圖書(shū)館學(xué)、植物學(xué)、歷史地理學(xué)等眾多學(xué)科長(zhǎng)期缺席
- 題目質(zhì)量存疑:公開(kāi)題庫(kù)存在數(shù)據(jù)污染風(fēng)險(xiǎn),簡(jiǎn)單改編無(wú)法反映真實(shí)學(xué)術(shù)水平
- 評(píng)測(cè)維度單一:多數(shù)測(cè)試停留在知識(shí)記憶層面,缺乏高階推理能力評(píng)估
除此之外,SuperGPQA 也公開(kāi)了嚴(yán)格的數(shù)據(jù)構(gòu)建過(guò)程。整個(gè)體系依靠大規(guī)模人機(jī)協(xié)作系統(tǒng),結(jié)合專家標(biāo)注、眾包注釋和大模型協(xié)同驗(yàn)證三重流程,確保入選題目具有足夠高的質(zhì)量和區(qū)分度。
目前, SuperGPQA 已在 HuggingFace 和 GitHub 開(kāi)源,直接沖上了 Trending 榜單。
首次 「全學(xué)科覆蓋」,填補(bǔ)行業(yè)空白
研究人員透露,現(xiàn)在大語(yǔ)言模型評(píng)估體系主要有兩大“困境”:學(xué)科覆蓋嚴(yán)重失衡、評(píng)測(cè)基準(zhǔn)挑戰(zhàn)性失效。
以 MMLU 和 GPQA 為代表的傳統(tǒng)基準(zhǔn),盡管在數(shù)學(xué)、物理等主流學(xué)科中建立了標(biāo)準(zhǔn)化測(cè)試框架,但其覆蓋的學(xué)科數(shù)量通常不足 50 個(gè),無(wú)法涵蓋人類積累的多樣化和長(zhǎng)尾知識(shí)。
而且,GPT-4o 和 DeepSeek-R1 在傳統(tǒng)基準(zhǔn)上準(zhǔn)確率都破 90% 了,導(dǎo)致評(píng)測(cè)體系失去區(qū)分度,無(wú)法有效衡量模型在真實(shí)復(fù)雜場(chǎng)景中的推理上限。
根源就在于傳統(tǒng)基準(zhǔn)構(gòu)建范式太單一,數(shù)據(jù)來(lái)源、質(zhì)量篩選都相對(duì)粗糙。傳統(tǒng)基準(zhǔn)僅依賴教科書(shū)例題或在線題庫(kù),例如 GPQA 中 42% 的問(wèn)題來(lái)自維基百科,導(dǎo)致題目缺乏專業(yè)深度,且易被模型通過(guò)記憶機(jī)制“破解”。
數(shù)據(jù)顯示,GPT-4o 對(duì)在線練習(xí)網(wǎng)站答案的重復(fù)率高達(dá) 67.3%,暗示其性能提升可能源于題目數(shù)據(jù)泄露而非真實(shí)推理能力。
此外,眾包標(biāo)注的專業(yè)水平參差和主觀性問(wèn)題難度評(píng)估進(jìn)一步加劇了基準(zhǔn)的不可靠性——早期嘗試中,僅 37% 的眾包標(biāo)注問(wèn)題通過(guò)專家審核,導(dǎo)致超過(guò) 60% 的標(biāo)注資源浪費(fèi)。
為解決上述困境,豆包大模型團(tuán)隊(duì)聯(lián)合 M-A-P 開(kāi)源社區(qū)推出 SuperGPQA,旨在深度挖掘 LLMs 潛力,其特點(diǎn)如下:
- 全面且具區(qū)分性:STEM(科學(xué)、工程、醫(yī)學(xué))領(lǐng)域問(wèn)題占比 77.2%,確保在復(fù)雜推理任務(wù)中的高效評(píng)估。盡管非 STEM 學(xué)科(如哲學(xué)、文學(xué)、歷史)問(wèn)題較少,但仍能有效區(qū)分不同 LLMs 的性能。
- 難度分布多樣:各學(xué)科問(wèn)題難度均衡分布;在工程和科學(xué)領(lǐng)域,難題比例較高。42.33% 的問(wèn)題需要數(shù)學(xué)計(jì)算或嚴(yán)謹(jǐn)推理,確保模型在高難度任務(wù)中的表現(xiàn)。
- 語(yǔ)義結(jié)構(gòu)豐富:t-SNE 可視化顯示跨學(xué)科聚類模式,工程和科學(xué)類問(wèn)題語(yǔ)義相似,人文學(xué)科知識(shí)中心獨(dú)特,不同領(lǐng)域語(yǔ)言特色鮮明。
- 題目設(shè)計(jì)一致:平均問(wèn)題長(zhǎng)度 58.42 字,選項(xiàng)長(zhǎng)度統(tǒng)一,迷惑性和挑戰(zhàn)性拉滿,評(píng)測(cè)公平又可靠。
作為基準(zhǔn)測(cè)試,SuperGPQA 非常全面,覆蓋 13 個(gè)門類、72 個(gè)一級(jí)學(xué)科和 285 個(gè)二級(jí)學(xué)科,共 26,529 個(gè)問(wèn)題,把現(xiàn)有 GPQA(448 題)和 MMLU-Pro(12,032 題)遠(yuǎn)遠(yuǎn)甩在身后。同時(shí),每題平均 9.67 個(gè)選項(xiàng),也比傳統(tǒng) 4 選項(xiàng)格式挑戰(zhàn)性高得多。
人機(jī)協(xié)作三步質(zhì)檢,杜絕“刷題黨”
SuperGPQA 核心架構(gòu)分三步:來(lái)源篩選、轉(zhuǎn)錄、質(zhì)量檢測(cè)。
團(tuán)隊(duì)設(shè)計(jì)時(shí),深知眾包注釋方法在高復(fù)雜度題目上的不足,因此引入了專家注釋員,確保題目來(lái)源靠譜、難度合適。再結(jié)合最先進(jìn)的 LLMs 輔助質(zhì)量檢測(cè),效率拉滿,也通過(guò)多模型協(xié)作降低了題目數(shù)據(jù)泄漏的風(fēng)險(xiǎn)。
此外,團(tuán)隊(duì)還強(qiáng)調(diào)嚴(yán)格流程管理和持續(xù)質(zhì)量反饋,保證每階段輸出都達(dá)標(biāo)。靠著系統(tǒng)化、專業(yè)化流程,SuperGPQA 題庫(kù)質(zhì)量飆升,后期修正成本和時(shí)間大幅減少。
來(lái)源篩選
為保證題目高質(zhì)量,團(tuán)隊(duì)直接拋棄眾包注釋員收集資源的老路,轉(zhuǎn)而讓專家注釋員從可信來(lái)源(教科書(shū)、權(quán)威練習(xí)網(wǎng)站)篩選、收集原始問(wèn)題。
這招一出,避免了早期大量無(wú)效問(wèn)題的產(chǎn)生,并通過(guò)要求提供來(lái)源截圖,大幅提升了質(zhì)量檢測(cè)的效率和準(zhǔn)確性。
轉(zhuǎn)錄
轉(zhuǎn)錄階段,專家注釋員對(duì)收集的原始問(wèn)題進(jìn)行語(yǔ)言規(guī)范化、格式轉(zhuǎn)換,確保所有問(wèn)題都有統(tǒng)一學(xué)術(shù)語(yǔ)言和標(biāo)準(zhǔn)多項(xiàng)選擇題格式。
團(tuán)隊(duì)發(fā)現(xiàn),即使是最先進(jìn)的語(yǔ)言模型(LLMs)在生成干擾項(xiàng)時(shí)也存在漏洞,因此需要專家統(tǒng)一重寫(xiě),以提高干擾項(xiàng)的準(zhǔn)確性和有效性,確保題目的挑戰(zhàn)性和區(qū)分度。
質(zhì)量檢測(cè)
質(zhì)量檢測(cè)階段采用多層次的檢測(cè)機(jī)制,包括 :
1)基于規(guī)則的初步過(guò)濾:識(shí)別并過(guò)濾格式明顯不合規(guī)范的題目。
2)基于 LLM 的質(zhì)量檢測(cè):多個(gè)先進(jìn) LLMs(如 GPT-4、Gemini-flash 等)齊上陣,有效性、負(fù)面和極端詢問(wèn)檢測(cè)、多模態(tài)排除、領(lǐng)域相關(guān)性評(píng)估、區(qū)分度標(biāo)記都不在話下。
3)專家復(fù)審:專家注釋員對(duì)可疑題目進(jìn)行二次審核,確保題庫(kù)的高可靠性和高區(qū)分度。
推理模型霸榜,但表現(xiàn)仍低于人類水平
△LLMs 在不同劃分層級(jí)上的表現(xiàn)
△LLMs 在不同學(xué)科上的表現(xiàn)
SuperGPQA 還做了全面的實(shí)驗(yàn),來(lái)測(cè)試業(yè)界主流 LLM 的能力表現(xiàn)。評(píng)估涵蓋 6 個(gè)推理模型、28 個(gè)聊天模型、17 個(gè)基礎(chǔ)模型,閉源、開(kāi)源、完全開(kāi)源模型全覆蓋。
團(tuán)隊(duì)發(fā)現(xiàn),在涵蓋 51 個(gè)模型的橫向評(píng)測(cè)中,DeepSeek-R1 以 61.82% 準(zhǔn)確率登頂,但其表現(xiàn)仍顯著低于人類研究生水平(平均 85%+)。
我們從論文中還扒到三大值得關(guān)注的結(jié)論:
1、推理能力決定上限
- 推理模型(DeepSeek-R1、O1-2024-12-17)包攬前 3,領(lǐng)先聊天模型超 10 個(gè)百分點(diǎn)
- DeepSeek-V3 和 Qwen2.5-72B-Instruct 的得分(47.40 和 40.75)遠(yuǎn)超其基礎(chǔ)版本(32.14 和 34.33),說(shuō)明指令微調(diào)顯著提升性能
2、國(guó)內(nèi)模型突圍
- 豆包大模型(Doubao-1.5-pro)以 55.09% 準(zhǔn)確率位列聊天模型第一,超越 GPT-4o-2024-11-20(44.40%)
- Qwen 系列展現(xiàn)強(qiáng)泛化能力:Qwen2.5-72B 在基礎(chǔ)模型中排名第 4,超越 Llama-3.1-405B
3、學(xué)科表現(xiàn)失衡 * STEM 領(lǐng)域優(yōu)勢(shì)顯著:在「理論流體力學(xué)」「運(yùn)籌學(xué)和控制論」等子領(lǐng)域,Top 模型準(zhǔn)確率超 75%
- 人文社科仍是短板:在「舞蹈研究」「設(shè)計(jì)藝術(shù)」等領(lǐng)域,最優(yōu)模型準(zhǔn)確率不足 50%
One More Thing
一直以來(lái),評(píng)估數(shù)據(jù)集對(duì)提升大模型的效果上限至關(guān)重要,甚至有可能是“最關(guān)鍵的部分”。
但評(píng)測(cè)數(shù)據(jù)集的搭建耗費(fèi)大量人力,很大程度依靠開(kāi)源貢獻(xiàn)。早在去年,字節(jié)就在開(kāi)源評(píng)測(cè)數(shù)據(jù)集上有所行動(dòng),覆蓋超 11 類真實(shí)場(chǎng)景、16 種編程語(yǔ)言的代碼大模型評(píng)估基準(zhǔn) Fullstack Bench 受到開(kāi)發(fā)者好評(píng)。
此番字節(jié)再次亮出耗時(shí)半年打造的SuperGPQA,進(jìn)一步打破外部關(guān)于“字節(jié)對(duì)基礎(chǔ)工作投入不足”的印象。另一方面,也側(cè)面暴露字節(jié)內(nèi)部對(duì)模型能力的極高目標(biāo)。
結(jié)合近期我們關(guān)注到的 DeepMind 大牛吳永輝加入,全員會(huì)定下“追求智能上限”的目標(biāo)。
2025 年,豆包模型究竟能沖到什么水平?不妨讓子彈再飛一會(huì)。
論文鏈接: https://arxiv.org/pdf/2502.14739
數(shù)據(jù)鏈接: https://huggingface.co/datasets/m-a-p/SuperGPQA