自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="dkvmj"><p id="dkvmj"><th id="dkvmj"></th></p></blockquote>

<pre id="dkvmj"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

高中生用「我的世界」評(píng)測(cè)SOTA模型！Claude暫時(shí)領(lǐng)先，DeepSeek緊隨其后

作者：新智元 2025-03-31 09:20:00

人工智能新聞

AI頻頻刷新基準(zhǔn)測(cè)試紀(jì)錄，卻算不清「strawberry」里到底有幾個(gè)字母r，在人類看來(lái)很簡(jiǎn)單的問(wèn)題卻頻頻出錯(cuò)。這種反差促使創(chuàng)意測(cè)評(píng)興起，例如由一名高中生開發(fā)的MC-Bench，用Minecraft方塊「競(jìng)技場(chǎng)」模式評(píng)價(jià)AI能力。這種新的測(cè)評(píng)范式，或許更貼合人類對(duì)AI直觀、創(chuàng)造性能力的實(shí)際期待。

「strawberry中有多少個(gè)r」和「在LSAT法學(xué)考試中獲得88分」哪個(gè)更難？

對(duì)于現(xiàn)如今的LMMs來(lái)說(shuō)，通過(guò)各種人類「聽著就頭痛，看又看不懂」的基準(zhǔn)測(cè)試似乎已是家常便飯。

比如DeepSeek-R1發(fā)布時(shí)在6大基準(zhǔn)測(cè)試（包含AIME、MMLU、MATH-500等）中超過(guò)o1取得領(lǐng)先。

但是對(duì)于人類來(lái)說(shuō)依靠直覺和下意識(shí)就能回答的問(wèn)題，LLM們似乎集體有點(diǎn)「發(fā)懵」。

很難理解OpenAI的GPT-4能夠在LSAT考試中獲得第88百分位的成績(jī)，但卻無(wú)法數(shù)清楚「strawberry」中有多少r。

除了復(fù)雜的基準(zhǔn)測(cè)試，另外一種評(píng)價(jià)模型好壞的方式就是「競(jìng)技場(chǎng)模式」。

比如可以在Chatbot Arena進(jìn)行上提問(wèn)投票，選出面對(duì)相同問(wèn)題時(shí)的「最佳模型」。

但是這種依靠Chat模式的評(píng)測(cè)依然不太直觀，于是各種各樣的創(chuàng)意評(píng)測(cè)就誕生了。

創(chuàng)意評(píng)測(cè)的魅力

Minecraft Benchmark（或 MC-Bench）像一個(gè)競(jìng)技場(chǎng)，在一對(duì)一的挑戰(zhàn)中針對(duì)相同提示生成Minecraft作品。

「對(duì)決雙方」由用戶投票選擇哪個(gè)模型做得更好。

并且只有在投票后才能看到每個(gè)Minecraft建筑是由哪個(gè)AI制作的。

目前MC-Bench的榜單上，Claude3.7暫時(shí)領(lǐng)先，deepseek-r1位列第5，但是考慮到DeepSeek-R1的發(fā)布時(shí)間，Claude3.7、GPT-4.5和Gemini2.0都相當(dāng)于是「新一代」的模型了，期待DeepSeek-R2出來(lái)后的榜單！

像MC-Bench這樣的創(chuàng)意評(píng)測(cè)，優(yōu)勢(shì)非常明顯：普通人也能輕松參與，像「選美」一樣簡(jiǎn)單直接。

創(chuàng)造MC-Bench項(xiàng)目的僅僅是一名高中生Adi Singh，在將Minecraft用于AI評(píng)測(cè)這件事情上，Adi Singh覺得Minecraft的價(jià)值不在游戲本身。

而是作為有史以來(lái)最暢銷的電子游戲，即使對(duì)于沒玩過(guò)Minecraft游戲的人來(lái)說(shuō)，仍然可以選擇自己更喜歡的「方塊樣子」。

MC-Bench是合作開發(fā)的，除了Adi Singh外，貢獻(xiàn)者還有7位，包括了「提示詞創(chuàng)意官」、技術(shù)主管和開發(fā)者們。

并獲得了Anthropic、Google和阿里巴巴等公司的技術(shù)支持。

傳統(tǒng)LLM評(píng)測(cè)：嚴(yán)肅認(rèn)真但未必管用

傳統(tǒng)的AI基準(zhǔn)測(cè)試技術(shù)被證明不足，主要體現(xiàn)在以下幾個(gè)方面：

主場(chǎng)優(yōu)勢(shì) (Overfitting to benchmarks)：傳統(tǒng)的 AI 基準(zhǔn)測(cè)試往往基于特定類型的任務(wù)設(shè)計(jì)，這些任務(wù)對(duì) AI 模型來(lái)說(shuō)相對(duì)固定且簡(jiǎn)單，這種過(guò)擬合就像一名「只會(huì)背題」的學(xué)生。
測(cè)試任務(wù)過(guò)于狹窄：傳統(tǒng)的測(cè)試任務(wù)多集中于單一維度的能力評(píng)估，如語(yǔ)言理解、邏輯推理、數(shù)學(xué)計(jì)算。
缺乏真實(shí)環(huán)境與開放性：傳統(tǒng)的基準(zhǔn)測(cè)試通常使用高度抽象化或理論化的環(huán)境，而這些環(huán)境往往不能反映現(xiàn)實(shí)世界中問(wèn)題的開放性和不確定性。
難以衡量通用性與泛化能力：傳統(tǒng) AI 基準(zhǔn)測(cè)試往往無(wú)法有效衡量模型的通用性或泛化能力。

因此AI構(gòu)建者正在轉(zhuǎn)向更有創(chuàng)意的方法來(lái)評(píng)估Gen-AI模型的能力。

AI開發(fā)者們表示，我們也想玩點(diǎn)「新鮮的」。

MC-Bench的本質(zhì)是在測(cè)試AI模型的文本理解和編碼能力。

通過(guò)類似Chatbot Arena的方式來(lái)進(jìn)行模型評(píng)比。

對(duì)于為何選擇游戲，選擇Minecraft，Adi Singh覺得「游戲可能只是一種測(cè)試能動(dòng)性推理的媒介，比現(xiàn)實(shí)生活更安全，也更適合測(cè)試目的，因此在我看來(lái)更為理想」。

從Adi Singh個(gè)人網(wǎng)站來(lái)看，他對(duì)于使用Minecraft方塊進(jìn)行AI評(píng)測(cè)應(yīng)該是「蓄謀已久」，Adi Singh展示很多利用大模型生成Minecraft方塊的精彩案例。

比如，gpt-4.5根據(jù)提示「構(gòu)建一艘在云層中飛行的蒸汽朋克風(fēng)格飛艇」。

再比如，claude-3.7-sonnet有一個(gè)令人印象非常深刻的Minecraft模型，根據(jù)提示「韓國(guó)友誼之鐘」生成。

并且，社區(qū)成員對(duì)MC-Bench的評(píng)價(jià)也很高。

比如目前就職于OpenAI的基礎(chǔ)研究員Aidan McLaughlin，對(duì)Minecraft Bench給予了很高的評(píng)價(jià)：你應(yīng)該密切關(guān)注MC-Bench！

Aidan McLaughlin同時(shí)給出了他認(rèn)為最佳的人工智能基準(zhǔn)應(yīng)具有：

審計(jì)數(shù)據(jù)的樂(lè)趣（與其他所有基準(zhǔn)測(cè)試都不同）
測(cè)試真正關(guān)心的功能（代碼、美學(xué)、意識(shí)）
甚至可以辨別頂級(jí)型號(hào)之間的性能差異

游戲測(cè)評(píng)AI似乎依然是「主流創(chuàng)意」

在Claude 3.7 Sonnet發(fā)布時(shí)說(shuō)過(guò)，模型降低了在數(shù)學(xué)、競(jìng)賽和編程方面的特化程度，有「更好」的思考能力。

那么如何評(píng)測(cè)新模型的「思考」能力呢？

答案就是游戲《寶可夢(mèng)》，這不是開玩笑。

Claude通過(guò)配備了透過(guò)程序來(lái)操控游戲的特定「按鈕」。

甚至還在Twitch上直播了Claude玩游戲的全過(guò)程，可以看到它如何學(xué)習(xí)、思考并采取行動(dòng)。

不論是傳統(tǒng)的基準(zhǔn)測(cè)試，還是類似MC-Bench的創(chuàng)意測(cè)試。

對(duì)于生成式AI的能力評(píng)測(cè)，目前依然沒有一個(gè)「一勞永逸」的標(biāo)準(zhǔn)。

傳統(tǒng)基準(zhǔn)測(cè)試的評(píng)估結(jié)果多采用單一的客觀分?jǐn)?shù)（如準(zhǔn)確率），忽視了人類實(shí)際感受和主觀評(píng)價(jià)的維度。

在生成式AI中，美學(xué)感知、創(chuàng)造力、直觀性往往更加重要，但這些因素很難在傳統(tǒng)的標(biāo)準(zhǔn)化測(cè)試中體現(xiàn)出來(lái)。

也許類似MC-Bench這樣的創(chuàng)意評(píng)測(cè)會(huì)給未來(lái)的AI評(píng)測(cè)帶來(lái)新的「范式」。

而新的AI評(píng)測(cè)「范式」也許會(huì)加速推動(dòng)AI的發(fā)展。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 模型測(cè)試

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)