自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Llama 4在測試集上訓(xùn)練?內(nèi)部員工、官方下場澄清,LeCun轉(zhuǎn)發(fā)

人工智能 新聞
大家翹首以盼的 Llama 4,用起來為什么那么拉跨?

Llama 4 這么大的節(jié)奏,Meta 終于繃不住了。

本周二凌晨,Meta Gen AI 團(tuán)隊(duì)負(fù)責(zé)人發(fā)表了一份澄清說明(針對外界質(zhì)疑「在測試集上訓(xùn)練」等問題),大佬 Yann LeCun 也進(jìn)行了轉(zhuǎn)發(fā)。

圖片

很高興能讓大家用上 Llama 4,我們已經(jīng)聽說人們使用這些模型取得了很多出色的成果。盡管如此,我們也聽到一些關(guān)于不同服務(wù)質(zhì)量參差不齊的報(bào)告。由于我們在模型準(zhǔn)備就緒后就推出了它們,因此我們預(yù)計(jì)所有公開部署都需要幾天時(shí)間才能完成。我們將繼續(xù)努力修復(fù)錯(cuò)誤并吸引合作伙伴。


我們還聽說有人聲稱 Llama 4 在測試集上進(jìn)行訓(xùn)練,這根本不是事實(shí),我們永遠(yuǎn)不會這樣做。我們愿意理解為:人們看到的不穩(wěn)定是由于需要穩(wěn)定部署。相信 Llama 4 模型是一項(xiàng)重大進(jìn)步,期待與社區(qū)的持續(xù)合作以釋放它們的價(jià)值。

當(dāng)前 Llama 4 性能不佳是被部署策略給拖累了嗎?

權(quán)威的大模型基準(zhǔn)平臺 LMArena 也站出來發(fā)布了一些 Llama 4 的對話結(jié)果,希望部分解答人們的疑惑。

圖片

鏈接:https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

可以看到,其中很多同問題的回答上,不論是跟哪家大模型比,Llama 4 的效果都是更好的。

但這究竟是模型真的好,還是 Meta 為了拯救口碑而進(jìn)行的一系列公關(guān)活動(dòng)?我們需要一起來梳理一下這一事件的發(fā)展脈絡(luò)。

Llama 4:買家秀 vs. 賣家秀

Llama 4 是 Meta 在 4 月 6 日發(fā)布的模型,分為 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 這幾個(gè)版本。Meta 官方宣稱新模型可以實(shí)現(xiàn)無與倫比的高智商和效率。

圖片

在大模型競技場(Arena),Llama 4 Maverick 的總排名第二,成為第四個(gè)突破 1400 分的大模型。其中開放模型排名第一,超越了 DeepSeek;在困難提示詞、編程、數(shù)學(xué)、創(chuàng)意寫作等任務(wù)中排名均為第一;大幅超越了自家 Llama 3 405B,得分從 1268 提升到了 1417;風(fēng)格控制排名第五。

圖片

圖片

這樣的成績讓開源社區(qū)以為又迎來一個(gè)新王,于是紛紛下載嘗試。但沒想到的是,這個(gè)模型并沒有想象中好用。比如網(wǎng)友 @deedydas 發(fā)帖稱,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基準(zhǔn)測試中表現(xiàn)不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基準(zhǔn)測試專注于編程任務(wù),例如代碼生成和代碼補(bǔ)全。

另外還有網(wǎng)友指出,Llama 4 的 OCR、前端開發(fā)、抽象推理、創(chuàng)意寫作等問題上的表現(xiàn)能力也令人失望。(參見《Meta Llama 4 被疑考試「作弊」:在競技場刷高分,但實(shí)戰(zhàn)中頻頻翻車》)

于是就有人質(zhì)疑,模型能力這么拉跨,發(fā)布時(shí)曬的那些評分是怎么來的?

內(nèi)部員工爆料

Meta 工程師原貼對線

在關(guān)于該模型表現(xiàn)反差的猜測中,「把測試集混入訓(xùn)練數(shù)據(jù)」是最受關(guān)注的一個(gè)方向。

在留學(xué)論壇「一畝三分地」上,一位職場人士發(fā)帖稱,由于 Llama 4 模型始終未達(dá)預(yù)期,「公司領(lǐng)導(dǎo)層建議將各個(gè) benchmark 的測試集混合在 post-training 過程中」,ta 因無法接受這種做法而辭職,并指出「Meta 的 VP of AI 也是因?yàn)檫@個(gè)原因辭職的」(指的是在上周宣布離職的 Meta AI 研究副總裁 Joelle Pineau)。

由于發(fā)帖者沒有實(shí)名認(rèn)證信息,我們無法確認(rèn)這一帖子的可靠性,相關(guān)信息也缺乏官方證實(shí)和具體證據(jù)。

不過,在該貼的評論區(qū),有幾位 Meta 員工反駁了樓主的說法,稱「并沒有這種情況」,「為了刷點(diǎn)而 overfit 測試集我們從來沒有做過」。

圖片

圖片

其中一位還貼出了自己的真名 ——「Licheng Yu」。領(lǐng)英資料顯示,Licheng Yu 是 Facebook AI 的研究科學(xué)家主管,已經(jīng)在 Meta 全職工作了五年多,其工作內(nèi)容包括支持 Llama 4 的后訓(xùn)練 RL。

如前文所訴,Meta Gen AI 團(tuán)隊(duì)負(fù)責(zé)人也發(fā)推反駁了用測試數(shù)據(jù)訓(xùn)練模型的說法。

不過,有些測試者發(fā)現(xiàn)了一些有意思的現(xiàn)象。比如普林斯頓大學(xué)博士生黃凱旋指出,Llama 4 Scout 在 MATH-Perturb 上的得分「獨(dú)樹一幟」,Original 和 MATH-P-Simple 數(shù)據(jù)集上的表現(xiàn)差距非常大(兩個(gè)數(shù)據(jù)集本身非常相似,后者只在前者的基礎(chǔ)上進(jìn)行了輕微擾動(dòng)),這點(diǎn)很令人驚訝。

圖片

這是沒有做好數(shù)據(jù)增強(qiáng)的問題嗎?或許也可以認(rèn)為他們的模型為了標(biāo)準(zhǔn)測試做了「過度」優(yōu)化?

雖然在數(shù)學(xué)方面,這個(gè)問題還沒有答案。不過,在對話方面,Meta 的確指出他們針對對話做了優(yōu)化。他們在公告中提到,大模型競技場上的 Maverick 是「實(shí)驗(yàn)性聊天版本」,與此同時(shí)官方 Llama 網(wǎng)站上的圖表也透露,該測試使用了「針對對話優(yōu)化的 Llama 4 Maverick」。

針對這個(gè)版本問題,大模型競技場官方賬號也給出了回應(yīng),稱 Meta 的做法是對平臺政策的誤讀,應(yīng)該更清楚地說明他們的模型是定制模型。此外,他們還將 Meta 在 HuggingFace 上發(fā)布的版本添加到了競技場進(jìn)行重新測試,結(jié)果有待公布。

大模型競技場公布對戰(zhàn)數(shù)據(jù)

最后,不論訓(xùn)練策略和 Deadline 的是與非,Llama 4 是否經(jīng)得起考驗(yàn),終究還是要看模型本身的實(shí)力。目前在大模型競技場上,Llama 4 展示了一系列問題上的 good case。其中不僅有生成方案的:

圖片

也有生成網(wǎng)頁代碼的:   

圖片

看起來,Llama 4 也支持更多種類的語言。

圖片

在推特的評論區(qū)里我們可以看到,人們對于這一系列展示仍然褒貶不一。

雖然 LM Arena 表示未來會將 HuggingFace 上的 Llama 4 版本引入進(jìn)行比較,但已有人表示,現(xiàn)在我已經(jīng)很難相信大模型競技場了。

無論如何,在人們的大規(guī)模部署和調(diào)整之后,我們會很快了解 Llama 4 的真實(shí)情況。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-07 13:24:52

2023-11-13 19:31:47

GPT-4VLLaVABard

2019-11-15 14:38:04

JavaLinux阿里

2025-04-08 12:57:02

2018-04-10 14:04:52

2010-06-01 09:03:09

2021-09-02 09:37:22

勒索軟件攻擊數(shù)據(jù)泄露

2021-10-27 15:57:48

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2020-05-11 23:06:26

Zen3AM4AMD

2021-09-03 11:07:17

尼日利亞勒索軟件DemonWare

2023-08-22 20:18:27

數(shù)據(jù)泄露數(shù)據(jù)安全

2019-12-18 10:55:56

安全數(shù)據(jù)泄露數(shù)據(jù)

2016-11-24 18:07:54

網(wǎng)易 豬肉

2024-11-12 06:23:50

ViTCIFAR10模型

2024-11-15 15:31:44

2024-06-24 17:45:16

2023-03-13 15:42:00

模型芯片

2019-10-29 16:30:10

FedoraSSH端口Linux

2024-10-21 13:20:00

2011-10-06 14:30:51

喬布斯蘋果
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號