反擊DeepSeek失?。lama 4效果不好,Meta承認(rèn)有問(wèn)題 精華
今天凌晨1點(diǎn)半,Meta生成式AI領(lǐng)導(dǎo)者Ahmad Al-Dahle在社交平臺(tái)發(fā)布了一篇長(zhǎng)文,對(duì)前天剛開(kāi)源的Llama 4質(zhì)疑進(jìn)行了官方回應(yīng)。
Ahmad表示,Llama 4一開(kāi)發(fā)完就發(fā)布了,所以,不同服務(wù)中模型質(zhì)量難免會(huì)有一些差異。Meta很快會(huì)修復(fù)這些漏洞提升性能。同時(shí)否認(rèn)在測(cè)試集上進(jìn)行了預(yù)訓(xùn)練。
但Meta在官網(wǎng)發(fā)布時(shí)特意點(diǎn)名DeepSeek,說(shuō)他們新開(kāi)源的Llama 4 Maverick在代碼能力可以比肩其新開(kāi)源的V3模型,國(guó)內(nèi)不少知名媒體也以此為噱頭來(lái)寫(xiě)標(biāo)題。
現(xiàn)在看來(lái)Meta首次反擊是失敗了,期待他們后續(xù)優(yōu)化以及正訓(xùn)練的2萬(wàn)億參數(shù)的教師模型。
以下是Ahmad完整聲明:
我們很高興能開(kāi)始讓大家都用上 Llama 4。我們已經(jīng)聽(tīng)說(shuō)很多人使用這些模型取得了不錯(cuò)的成果。
話(huà)雖如此,我們也聽(tīng)到了一些關(guān)于不同服務(wù)中模型質(zhì)量參差不齊的報(bào)告。由于模型一準(zhǔn)備好我們就發(fā)布了,所以我們預(yù)計(jì)所有公開(kāi)的應(yīng)用實(shí)現(xiàn)都需要幾天時(shí)間來(lái)進(jìn)行優(yōu)化調(diào)整。我們會(huì)繼續(xù)進(jìn)行漏洞修復(fù)工作,并與合作伙伴完成對(duì)接流程。
我們還聽(tīng)到有人聲稱(chēng)Llama 4在測(cè)試集上進(jìn)行了訓(xùn)練,這純屬無(wú)稽之談,我們絕對(duì)不會(huì)這么做。據(jù)我們的判斷,人們所看到的質(zhì)量差異是由于需要對(duì)應(yīng)用實(shí)現(xiàn)進(jìn)行穩(wěn)定化處理造成的。
我們相信 Llama 4 模型是一項(xiàng)重大的技術(shù)進(jìn)步,我們期待著與社區(qū)合作,充分挖掘其價(jià)值。
其實(shí),在Llama 4開(kāi)源當(dāng)天就有人質(zhì)疑其性能。其代碼能力比Grok 3、DeepSeek V3、Sonnet 3.5/7差很多。
無(wú)論是Scout還是Maverick模型,我使用了詳盡的提示詞,在實(shí)際編碼方面似乎都幾乎無(wú)法使用。
考慮到 Meta 公司付出的努力,我很驚訝一個(gè)4000億參數(shù)的模型(即便它是混合專(zhuān)家模型)表現(xiàn)竟如此糟糕。它與DeepSeekV3”相比差距甚遠(yuǎn)。
我們對(duì)不同平臺(tái)提供的Scout和 Maverick進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn)這兩款模型表現(xiàn)都不佳,甚至被參數(shù)規(guī)模更小的模型比下去了。
在基礎(chǔ)編程任務(wù)之外,它們就會(huì)出錯(cuò),而且在遵循指令方面能力也很弱。Maverick的排名接近谷歌的Gemini 2.5,這一點(diǎn)令人擔(dān)憂(yōu)。它們給人的感覺(jué)就像是處于 GPT-3.5 時(shí)代的模型。很高興 Meta正在采取措施讓情況穩(wěn)定下來(lái)。
能夠提前使用 Llama 4 固然很棒,但這里有個(gè)關(guān)鍵事實(shí):一個(gè)強(qiáng)大的模型,其實(shí)際效果取決于它的應(yīng)用實(shí)現(xiàn)情況。
你在實(shí)驗(yàn)室里測(cè)試的效果,并不等同于用戶(hù)在實(shí)際使用中所體驗(yàn)到的效果。在過(guò)度炒作和實(shí)際操作之間存在的差距,才是真正需要努力去填補(bǔ)的地方。
鑒于許多運(yùn)行時(shí)環(huán)境都是開(kāi)源的,或許未來(lái)在發(fā)布產(chǎn)品以免陷入如此混亂的局面之前,你們能夠確保那些修復(fù)措施已經(jīng)落實(shí)到位? “是你使用方式不對(duì)” 這種說(shuō)辭可不大好聽(tīng)。
也有網(wǎng)友質(zhì)疑Meta刷榜:“質(zhì)量參差不齊”??我看到的每一項(xiàng)基準(zhǔn)測(cè)試中,Llama 4 的表現(xiàn)都糟透了,除非你參考的是 LMSYS 的“1417 eon”基準(zhǔn)測(cè)試結(jié)果。
你們向 LMSYS 開(kāi)放了哪個(gè)API呢?因?yàn)槟壳?nbsp;LMSYS 那邊的模型列表中的表現(xiàn)也非常差。
Llama 4 就是垃圾,你們?cè)谶@件事上搞砸得太厲害了。與其誤導(dǎo)大家,還不如承認(rèn)錯(cuò)誤。不確定在測(cè)試集上動(dòng)手腳這件事是不是真的,但鑒于它在基準(zhǔn)測(cè)試中的高分以及在現(xiàn)實(shí)世界中糟糕的表現(xiàn),這種可能性似乎很大。
在聊天機(jī)器人競(jìng)技場(chǎng)的大語(yǔ)言模型排行榜上,Meta 公司的 Llama 4 Maverick 在編程方面排名第一。
然而,幾乎我給出的每一個(gè)難的編程提示或中等難度的編程提示,它都無(wú)法完成。在編程方面,它比 DeepSeek V3 - 0324、Claude 3.5/3.7 Sonnet 或 Gemini 2.0 Pro 差得多。
所以,這位網(wǎng)友也在質(zhì)疑Meta刷榜的問(wèn)題。
其實(shí)從發(fā)布的時(shí)間點(diǎn)就能看出來(lái),Meta這次并沒(méi)有準(zhǔn)備好。作為類(lèi)ChatGPT的開(kāi)源鼻祖之一,Llama 4這么重磅的開(kāi)源模型,居然放在了美國(guó)周六的大晚上發(fā)布(國(guó)內(nèi)的周日凌晨3點(diǎn)),這太不符合常規(guī)了。
按照他們以往發(fā)布的Llama系列模型,一般會(huì)放在美國(guó)周二、周三早上10點(diǎn)左右。所以,在發(fā)布Llama 4時(shí)他們本身就心虛。
DeepSeek的橫空出世給Meta造成了巨大壓力,其用戶(hù)、口碑正在嚴(yán)重流失,他們急需一款重磅產(chǎn)品挽回?cái)【?。在今年過(guò)年DeepSeek瘋狂刷屏那段時(shí)間,Meta還特意組建了“作戰(zhàn)研究室”來(lái)研究其模型。但從最終結(jié)果來(lái)看,依然不是很理想。
此外,由于關(guān)稅大戰(zhàn)的原因,Meta的股票遭遇重創(chuàng),他們也需要一個(gè)利好消息來(lái)拉升股票,現(xiàn)在適得其反。
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)
原文鏈接:??https://mp.weixin.qq.com/s/Do-Az455Pr1Q5qOM8682Cw??
