自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="h1ya8"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

原有的模型評(píng)測基準(zhǔn)OUT了！12歲高中生建立了一個(gè)網(wǎng)站，讓AI模型發(fā)起 Minecraft 挑戰(zhàn)

原創(chuàng) 精選

作者：言征 2025-03-21 13:05:18

Minecraft Benchmark （或 MC-Bench）網(wǎng)站是合作開發(fā)的，目的是讓人工智能模型在面對(duì)面的挑戰(zhàn)中相互競爭，用 Minecraft 創(chuàng)作來回答提示。用戶可以投票選出哪個(gè)模型做得更好，只有在投票后，他們才能看到每個(gè) Minecraft 構(gòu)建都是由哪個(gè)人工智能完成的。

編輯 | 言征

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

由于傳統(tǒng)的AI 基準(zhǔn)測試技術(shù)已被證明不夠充分，AI 開發(fā)者開始采用更具創(chuàng)造性的方式來評(píng)估生成式 AI 模型的能力。對(duì)于一組開發(fā)者來說，這就是微軟旗下的沙盒建造游戲 Minecraft。

Minecraft Benchmark （或 MC-Bench）網(wǎng)站是合作開發(fā)的，目的是讓人工智能模型在面對(duì)面的挑戰(zhàn)中相互競爭，用 Minecraft 創(chuàng)作來回答提示。用戶可以投票選出哪個(gè)模型做得更好，只有在投票后，他們才能看到每個(gè) Minecraft 構(gòu)建都是由哪個(gè)人工智能完成的。

Minecraft 基準(zhǔn)測試

對(duì)于創(chuàng)辦 MC-Bench 的 12 年級(jí)學(xué)生 Adi Singh 來說，Minecraft 的價(jià)值不在于游戲本身，而在于人們對(duì)它的熟悉程度——畢竟，它是有史以來最暢銷的電子游戲。即使對(duì)于沒有玩過這款游戲的人來說，仍然可以評(píng)估哪種塊狀菠蘿表現(xiàn)更好。

“Minecraft 讓人們更容易看到（人工智能開發(fā)的）進(jìn)展，”辛格告訴 TechCrunch?！叭藗円呀?jīng)習(xí)慣了 Minecraft，習(xí)慣了它的外觀和氛圍。”

MC-Bench 目前列出了 8 名志愿者。根據(jù) MC-Bench 網(wǎng)站，Anthropic、Google、OpenAI 和阿里巴巴已為該項(xiàng)目使用其產(chǎn)品運(yùn)行基準(zhǔn)測試提供補(bǔ)貼，但這些公司與其他公司并無關(guān)聯(lián)。

辛格說：“目前，我們只是在進(jìn)行簡單的構(gòu)建，以反思我們與 GPT-3 時(shí)代相比取得了多大的進(jìn)步，但我們可以預(yù)見到自己會(huì)擴(kuò)展到這些長期計(jì)劃和以目標(biāo)為導(dǎo)向的任務(wù)。”“游戲可能只是一種測試代理推理的媒介，它比現(xiàn)實(shí)生活中更安全，而且在測試方面更易于控制，在我看來，這更理想?！?/span>

其他游戲，如《精靈寶可夢(mèng)紅》、《街頭霸王》和《你畫我猜》也被用作人工智能的實(shí)驗(yàn)基準(zhǔn)，部分原因是人工智能的基準(zhǔn)測試藝術(shù)非常棘手。

研究人員經(jīng)常在標(biāo)準(zhǔn)化評(píng)估中測試人工智能模型，但其中許多測試都讓人工智能擁有主場優(yōu)勢。由于訓(xùn)練方式的原因，模型天生擅長解決某些特定類型的問題，尤其是需要死記硬背或基本推斷的問題。

簡而言之，很難理解 OpenAI 的 GPT-4 可以在 LSAT 中取得 88% 的成績，但卻無法辨別“strawberry”這個(gè)詞中有多少個(gè)“R”。Anthropic的Claude 3.7 Sonnet在標(biāo)準(zhǔn)化軟件工程基準(zhǔn)測試中的準(zhǔn)確率為 62.3%，但它在玩 Pokémon 方面的表現(xiàn)卻比大多數(shù)五歲兒童還要差。

圖片來源：Minecraft Benchmark

MC-Bench 從技術(shù)上來說是一個(gè)編程基準(zhǔn)，因?yàn)槟Ｐ捅灰缶帉懘a來創(chuàng)建提示的構(gòu)建，例如“雪人弗羅斯蒂”或“原始沙灘上迷人的熱帶海灘小屋”。

但對(duì)于大多數(shù) MC-Bench 用戶來說，評(píng)估雪人是否看起來更好比深入研究代碼更容易，這使得該項(xiàng)目具有更廣泛的吸引力 - 并因此有可能收集更多關(guān)于哪些模型持續(xù)得分更高的數(shù)據(jù)。

當(dāng)然，這些分?jǐn)?shù)是否對(duì) AI 的實(shí)用性有重大影響還有待商榷。不過，Singh 堅(jiān)稱，這是一個(gè)強(qiáng)烈的信號(hào)。

“目前的排行榜與我自己使用這些模型的經(jīng)驗(yàn)非常接近，這與許多純文本基準(zhǔn)測試不同，”Singh 說。“也許 [MC-Bench] 可以幫助公司了解他們是否朝著正確的方向前進(jìn)?！?/span>

基準(zhǔn)鏈接：https://mcbench.ai/

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

模型評(píng)測基準(zhǔn)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<sub id="3p3bp"></sub>}