自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Meta 開源大模型 Llama-4-Maverick 基準(zhǔn)測試排名暴跌，此前被質(zhì)疑刷榜作弊

作者：遠(yuǎn)洋 2025-04-15 08:00:00

LMArena 更新了 Meta 最新發(fā)布的開源大模型 Llama-4-Maverick 的排名，其從此前的第 2 名直線下降至第 32 名。這證實(shí)了此前開發(fā)者對(duì) Meta 為刷榜向 LMArena 提供“特供版”Llama 4 大模型的質(zhì)疑。

IT之家 4 月 14 日消息，LMArena 更新了 Meta 最新發(fā)布的開源大模型 Llama-4-Maverick 的排名，其從此前的第 2 名直線下降至第 32 名。這證實(shí)了此前開發(fā)者對(duì) Meta 為刷榜向 LMArena 提供“特供版”Llama 4 大模型的質(zhì)疑。

4 月 6 日，Meta 發(fā)布了最新的大模型 Llama 4，包含 Scout、Maverick 和 Behemoth 三個(gè)版本。其中，Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二，僅次于 Gemini 2.5 Pro。然而，隨著開發(fā)者實(shí)際使用 Llama 4 大模型開源版的效果陸續(xù)曝光，Llama 4 的口碑急轉(zhuǎn)直下。有開發(fā)者發(fā)現(xiàn) Meta 提供給 LMArena 的 Llama 4 版本與提交給社區(qū)的開源版本不同，因而質(zhì)疑 Meta 刷榜作弊。

4 月 8 日，Chatbot Arena 官方發(fā)文確認(rèn)了用戶的上述質(zhì)疑，公開表示 Meta 提供給他們的是“特供版”，并考慮更新排行榜。根據(jù) Chatbot Arena 官方消息，Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一個(gè)實(shí)驗(yàn)性聊天優(yōu)化版本，當(dāng)時(shí)該版本的排名為第二。修正后的模型為 HuggingFace 開源版同款 Llama-4-Maverick-17B-128E-Instruct，是 17B 激活參數(shù)、128 個(gè) MoE 專家的指令微調(diào)模型。

IT之家注意到，目前開源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名為 32 名，遠(yuǎn)低于 Gemini 2.5 Pro（1）、GPT4o（2）、DeepSeek-V3-0324（5）、DeepSeek-R1（7）、Qwen2.5-Max（11），甚至連英偉達(dá)基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1（17）都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 為何表現(xiàn)不佳？該公司在上周六發(fā)布的一張圖表中解釋稱，該模型是“針對(duì)對(duì)話性進(jìn)行優(yōu)化”的。這些優(yōu)化顯然在 LM Arena 上取得了不錯(cuò)的效果，因?yàn)?LM Arena 的人類評(píng)分者會(huì)比較不同模型的輸出，并選擇他們更偏好的結(jié)果。

由于各種原因，LM Arena 從未被視為衡量 AI 模型性能的最可靠指標(biāo)。盡管如此，針對(duì)基準(zhǔn)測試調(diào)整模型不僅具有誤導(dǎo)性，還使得開發(fā)者難以準(zhǔn)確預(yù)測該模型在不同場景下的表現(xiàn)。

Meta 的一位發(fā)言人向 TechCrunch 表示，Meta 會(huì)嘗試“各種類型的定制變體”?！啊甃lama-4-Maverick-03-26-Experimental’是我們嘗試的一個(gè)針對(duì)聊天優(yōu)化的版本，它在 LM Arena 上也表現(xiàn)不錯(cuò)，”該發(fā)言人說，“我們現(xiàn)在已發(fā)布了開源版本，將看看開發(fā)者如何根據(jù)自己的使用案例定制 Llama 4。我們期待看到他們構(gòu)建的內(nèi)容，并期待他們持續(xù)的反饋?！?/p>

責(zé)任編輯：姜華來源： IT之家

LMArena Llama 4 大模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="kzgme"></blockquote><sub id="kzgme"><p id="kzgme"></p></sub>