自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="t1y66"></cite>

<sub id="t1y66"><p id="t1y66"></p></sub>

<cite id="t1y66"><track id="t1y66"></track></cite>

^{<blockquote id="t1y66"></blockquote>}

<cite id="t1y66"></cite>

<cite id="t1y66"><table id="t1y66"></table></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DeepSeek-R1、o1都在及格線掙扎！字節(jié)開(kāi)源全新知識(shí)推理測(cè)評(píng)集，覆蓋285個(gè)學(xué)科

作者：量子位 2025-03-05 08:40:00

人工智能新聞

近日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)聯(lián)合 M-A-P 開(kāi)源社區(qū)，推出了全新評(píng)測(cè)基準(zhǔn) SuperGPQA。

大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜變天？？？

要知道，過(guò)去幾年，各種通用評(píng)測(cè)逐漸同質(zhì)化，越來(lái)越難以評(píng)估模型真實(shí)能力。GPQA、MMLU-pro、MMLU等流行基準(zhǔn)，各家模型出街時(shí)人手一份，但局限性也開(kāi)始暴露，比如覆蓋范圍狹窄（通常不足 50 個(gè)學(xué)科），不含長(zhǎng)尾知識(shí)；缺乏足夠挑戰(zhàn)性和區(qū)分度，比如 GPT-4o 在 MMLU-Pro 上準(zhǔn)確率飆到 92.3%。

不過(guò)別慌，大模型通用知識(shí)推理評(píng)測(cè)“強(qiáng)化版”來(lái)了，堪稱大模型評(píng)測(cè)里的“黃岡密卷”！

近日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)聯(lián)合 M-A-P 開(kāi)源社區(qū)，推出了全新評(píng)測(cè)基準(zhǔn) SuperGPQA。

我們翻看論文，細(xì)品一番，足足 256 頁(yè)。據(jù)了解，該評(píng)測(cè)搭建工作耗時(shí)半年，近百位學(xué)界學(xué)者及名校碩博、業(yè)界工程師參與標(biāo)注。

研究團(tuán)隊(duì)構(gòu)建了迄今為止最全面，覆蓋 285 個(gè)研究生級(jí)學(xué)科、包含 26529 道專業(yè)題目的評(píng)估體系。

實(shí)驗(yàn)證明，即便最強(qiáng)的 DeepSeek-R1 在 SuperGPQA 上準(zhǔn)確率也才 61.82%，在及格線上掙扎，顯著低于其在傳統(tǒng)評(píng)估指標(biāo)上的表現(xiàn)。

SuperGPQA 精準(zhǔn)直擊大模型評(píng)測(cè)的三大痛點(diǎn)：

學(xué)科覆蓋不全：傳統(tǒng)基準(zhǔn)僅覆蓋 5% 長(zhǎng)尾學(xué)科，圖書(shū)館學(xué)、植物學(xué)、歷史地理學(xué)等眾多學(xué)科長(zhǎng)期缺席
題目質(zhì)量存疑：公開(kāi)題庫(kù)存在數(shù)據(jù)污染風(fēng)險(xiǎn)，簡(jiǎn)單改編無(wú)法反映真實(shí)學(xué)術(shù)水平
評(píng)測(cè)維度單一：多數(shù)測(cè)試停留在知識(shí)記憶層面，缺乏高階推理能力評(píng)估

除此之外，SuperGPQA 也公開(kāi)了嚴(yán)格的數(shù)據(jù)構(gòu)建過(guò)程。整個(gè)體系依靠大規(guī)模人機(jī)協(xié)作系統(tǒng)，結(jié)合專家標(biāo)注、眾包注釋和大模型協(xié)同驗(yàn)證三重流程，確保入選題目具有足夠高的質(zhì)量和區(qū)分度。

目前， SuperGPQA 已在 HuggingFace 和 GitHub 開(kāi)源，直接沖上了 Trending 榜單。

首次「全學(xué)科覆蓋」，填補(bǔ)行業(yè)空白

研究人員透露，現(xiàn)在大語(yǔ)言模型評(píng)估體系主要有兩大“困境”：學(xué)科覆蓋嚴(yán)重失衡、評(píng)測(cè)基準(zhǔn)挑戰(zhàn)性失效。

以 MMLU 和 GPQA 為代表的傳統(tǒng)基準(zhǔn)，盡管在數(shù)學(xué)、物理等主流學(xué)科中建立了標(biāo)準(zhǔn)化測(cè)試框架，但其覆蓋的學(xué)科數(shù)量通常不足 50 個(gè)，無(wú)法涵蓋人類積累的多樣化和長(zhǎng)尾知識(shí)。

而且，GPT-4o 和 DeepSeek-R1 在傳統(tǒng)基準(zhǔn)上準(zhǔn)確率都破 90% 了，導(dǎo)致評(píng)測(cè)體系失去區(qū)分度，無(wú)法有效衡量模型在真實(shí)復(fù)雜場(chǎng)景中的推理上限。

根源就在于傳統(tǒng)基準(zhǔn)構(gòu)建范式太單一，數(shù)據(jù)來(lái)源、質(zhì)量篩選都相對(duì)粗糙。傳統(tǒng)基準(zhǔn)僅依賴教科書(shū)例題或在線題庫(kù)，例如 GPQA 中 42% 的問(wèn)題來(lái)自維基百科，導(dǎo)致題目缺乏專業(yè)深度，且易被模型通過(guò)記憶機(jī)制“破解”。

數(shù)據(jù)顯示，GPT-4o 對(duì)在線練習(xí)網(wǎng)站答案的重復(fù)率高達(dá) 67.3%，暗示其性能提升可能源于題目數(shù)據(jù)泄露而非真實(shí)推理能力。

此外，眾包標(biāo)注的專業(yè)水平參差和主觀性問(wèn)題難度評(píng)估進(jìn)一步加劇了基準(zhǔn)的不可靠性——早期嘗試中，僅 37% 的眾包標(biāo)注問(wèn)題通過(guò)專家審核，導(dǎo)致超過(guò) 60% 的標(biāo)注資源浪費(fèi)。

為解決上述困境，豆包大模型團(tuán)隊(duì)聯(lián)合 M-A-P 開(kāi)源社區(qū)推出 SuperGPQA，旨在深度挖掘 LLMs 潛力，其特點(diǎn)如下：

全面且具區(qū)分性：STEM（科學(xué)、工程、醫(yī)學(xué)）領(lǐng)域問(wèn)題占比 77.2%，確保在復(fù)雜推理任務(wù)中的高效評(píng)估。盡管非 STEM 學(xué)科（如哲學(xué)、文學(xué)、歷史）問(wèn)題較少，但仍能有效區(qū)分不同 LLMs 的性能。
難度分布多樣：各學(xué)科問(wèn)題難度均衡分布；在工程和科學(xué)領(lǐng)域，難題比例較高。42.33% 的問(wèn)題需要數(shù)學(xué)計(jì)算或嚴(yán)謹(jǐn)推理，確保模型在高難度任務(wù)中的表現(xiàn)。
語(yǔ)義結(jié)構(gòu)豐富：t-SNE 可視化顯示跨學(xué)科聚類模式，工程和科學(xué)類問(wèn)題語(yǔ)義相似，人文學(xué)科知識(shí)中心獨(dú)特，不同領(lǐng)域語(yǔ)言特色鮮明。
題目設(shè)計(jì)一致：平均問(wèn)題長(zhǎng)度 58.42 字，選項(xiàng)長(zhǎng)度統(tǒng)一，迷惑性和挑戰(zhàn)性拉滿，評(píng)測(cè)公平又可靠。

作為基準(zhǔn)測(cè)試，SuperGPQA 非常全面，覆蓋 13 個(gè)門類、72 個(gè)一級(jí)學(xué)科和 285 個(gè)二級(jí)學(xué)科，共 26,529 個(gè)問(wèn)題，把現(xiàn)有 GPQA（448 題）和 MMLU-Pro（12,032 題）遠(yuǎn)遠(yuǎn)甩在身后。同時(shí)，每題平均 9.67 個(gè)選項(xiàng)，也比傳統(tǒng) 4 選項(xiàng)格式挑戰(zhàn)性高得多。

人機(jī)協(xié)作三步質(zhì)檢，杜絕“刷題黨”

SuperGPQA 核心架構(gòu)分三步：來(lái)源篩選、轉(zhuǎn)錄、質(zhì)量檢測(cè)。

團(tuán)隊(duì)設(shè)計(jì)時(shí)，深知眾包注釋方法在高復(fù)雜度題目上的不足，因此引入了專家注釋員，確保題目來(lái)源靠譜、難度合適。再結(jié)合最先進(jìn)的 LLMs 輔助質(zhì)量檢測(cè)，效率拉滿，也通過(guò)多模型協(xié)作降低了題目數(shù)據(jù)泄漏的風(fēng)險(xiǎn)。

此外，團(tuán)隊(duì)還強(qiáng)調(diào)嚴(yán)格流程管理和持續(xù)質(zhì)量反饋，保證每階段輸出都達(dá)標(biāo)。靠著系統(tǒng)化、專業(yè)化流程，SuperGPQA 題庫(kù)質(zhì)量飆升，后期修正成本和時(shí)間大幅減少。

來(lái)源篩選

為保證題目高質(zhì)量，團(tuán)隊(duì)直接拋棄眾包注釋員收集資源的老路，轉(zhuǎn)而讓專家注釋員從可信來(lái)源（教科書(shū)、權(quán)威練習(xí)網(wǎng)站）篩選、收集原始問(wèn)題。

這招一出，避免了早期大量無(wú)效問(wèn)題的產(chǎn)生，并通過(guò)要求提供來(lái)源截圖，大幅提升了質(zhì)量檢測(cè)的效率和準(zhǔn)確性。

轉(zhuǎn)錄

轉(zhuǎn)錄階段，專家注釋員對(duì)收集的原始問(wèn)題進(jìn)行語(yǔ)言規(guī)范化、格式轉(zhuǎn)換，確保所有問(wèn)題都有統(tǒng)一學(xué)術(shù)語(yǔ)言和標(biāo)準(zhǔn)多項(xiàng)選擇題格式。

團(tuán)隊(duì)發(fā)現(xiàn)，即使是最先進(jìn)的語(yǔ)言模型（LLMs）在生成干擾項(xiàng)時(shí)也存在漏洞，因此需要專家統(tǒng)一重寫(xiě)，以提高干擾項(xiàng)的準(zhǔn)確性和有效性，確保題目的挑戰(zhàn)性和區(qū)分度。

質(zhì)量檢測(cè)

質(zhì)量檢測(cè)階段采用多層次的檢測(cè)機(jī)制，包括：
1）基于規(guī)則的初步過(guò)濾：識(shí)別并過(guò)濾格式明顯不合規(guī)范的題目。
2）基于 LLM 的質(zhì)量檢測(cè)：多個(gè)先進(jìn) LLMs（如 GPT-4、Gemini-flash 等）齊上陣，有效性、負(fù)面和極端詢問(wèn)檢測(cè)、多模態(tài)排除、領(lǐng)域相關(guān)性評(píng)估、區(qū)分度標(biāo)記都不在話下。
3）專家復(fù)審：專家注釋員對(duì)可疑題目進(jìn)行二次審核，確保題庫(kù)的高可靠性和高區(qū)分度。

推理模型霸榜，但表現(xiàn)仍低于人類水平

△LLMs 在不同劃分層級(jí)上的表現(xiàn)

△LLMs 在不同學(xué)科上的表現(xiàn)

SuperGPQA 還做了全面的實(shí)驗(yàn)，來(lái)測(cè)試業(yè)界主流 LLM 的能力表現(xiàn)。評(píng)估涵蓋 6 個(gè)推理模型、28 個(gè)聊天模型、17 個(gè)基礎(chǔ)模型，閉源、開(kāi)源、完全開(kāi)源模型全覆蓋。

團(tuán)隊(duì)發(fā)現(xiàn)，在涵蓋 51 個(gè)模型的橫向評(píng)測(cè)中，DeepSeek-R1 以 61.82% 準(zhǔn)確率登頂，但其表現(xiàn)仍顯著低于人類研究生水平（平均 85%+）。

我們從論文中還扒到三大值得關(guān)注的結(jié)論：

1、推理能力決定上限

推理模型（DeepSeek-R1、O1-2024-12-17）包攬前 3，領(lǐng)先聊天模型超 10 個(gè)百分點(diǎn)
DeepSeek-V3 和 Qwen2.5-72B-Instruct 的得分（47.40 和 40.75）遠(yuǎn)超其基礎(chǔ)版本（32.14 和 34.33），說(shuō)明指令微調(diào)顯著提升性能

2、國(guó)內(nèi)模型突圍

豆包大模型（Doubao-1.5-pro）以 55.09% 準(zhǔn)確率位列聊天模型第一，超越 GPT-4o-2024-11-20（44.40%）
Qwen 系列展現(xiàn)強(qiáng)泛化能力：Qwen2.5-72B 在基礎(chǔ)模型中排名第 4，超越 Llama-3.1-405B

3、學(xué)科表現(xiàn)失衡 * STEM 領(lǐng)域優(yōu)勢(shì)顯著：在「理論流體力學(xué)」「運(yùn)籌學(xué)和控制論」等子領(lǐng)域，Top 模型準(zhǔn)確率超 75%

人文社科仍是短板：在「舞蹈研究」「設(shè)計(jì)藝術(shù)」等領(lǐng)域，最優(yōu)模型準(zhǔn)確率不足 50%

One More Thing

一直以來(lái)，評(píng)估數(shù)據(jù)集對(duì)提升大模型的效果上限至關(guān)重要，甚至有可能是“最關(guān)鍵的部分”。

但評(píng)測(cè)數(shù)據(jù)集的搭建耗費(fèi)大量人力，很大程度依靠開(kāi)源貢獻(xiàn)。早在去年，字節(jié)就在開(kāi)源評(píng)測(cè)數(shù)據(jù)集上有所行動(dòng)，覆蓋超 11 類真實(shí)場(chǎng)景、16 種編程語(yǔ)言的代碼大模型評(píng)估基準(zhǔn) Fullstack Bench 受到開(kāi)發(fā)者好評(píng)。

此番字節(jié)再次亮出耗時(shí)半年打造的SuperGPQA，進(jìn)一步打破外部關(guān)于“字節(jié)對(duì)基礎(chǔ)工作投入不足”的印象。另一方面，也側(cè)面暴露字節(jié)內(nèi)部對(duì)模型能力的極高目標(biāo)。

結(jié)合近期我們關(guān)注到的 DeepMind 大牛吳永輝加入，全員會(huì)定下“追求智能上限”的目標(biāo)。

2025 年，豆包模型究竟能沖到什么水平？不妨讓子彈再飛一會(huì)。

論文鏈接： https://arxiv.org/pdf/2502.14739

數(shù)據(jù)鏈接： https://huggingface.co/datasets/m-a-p/SuperGPQA

代碼鏈接： https://github.com/SuperGPQA/SuperGPQA

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 模型測(cè)試

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="ohtwg"></sub>

<cite id="ohtwg"></cite>

^{<blockquote id="ohtwg"></blockquote>}

<legend id="ohtwg"><track id="ohtwg"></track></legend>