自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ul id="4i6m4"><center id="4i6m4"></center></ul>

<blockquote id="4i6m4"><p id="4i6m4"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Llama 4重測(cè)競(jìng)技場(chǎng)排名大跳水，網(wǎng)友：社區(qū)很難再信任Meta了

作者：量子位 2025-04-14 09:06:00

人工智能新聞

根據(jù)競(jìng)技場(chǎng)官方消息，Llama 4首發(fā)時(shí)提交的是名為“實(shí)驗(yàn)版”、實(shí)為“針對(duì)人類偏好優(yōu)化”的模型Llama-4-Maverick-03-26-Experimental。

Llama 4被曝在大模型競(jìng)技場(chǎng)作弊后，重新上架了非特供版模型。

但是你很可能沒發(fā)現(xiàn)它。

因?yàn)榕琶幌伦訌牡?掉到了第32，要往下翻好久才能看到。

圖片

甚至落后于英偉達(dá)基于上一代Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1。

具體來說，根據(jù)競(jìng)技場(chǎng)官方消息，Llama 4首發(fā)時(shí)提交的是名為“實(shí)驗(yàn)版”、實(shí)為“針對(duì)人類偏好優(yōu)化”的模型Llama-4-Maverick-03-26-Experimental。

修正后的模型為HuggingFace開源版同款Llama-4-Maverick-17B-128E-Instruct，名字代表有17B激活參數(shù)，128個(gè)MoE專家的指令微調(diào)模型。

當(dāng)初實(shí)驗(yàn)版模型具體如何“針對(duì)人類偏好優(yōu)化”的目前并未公開，評(píng)論區(qū)網(wǎng)友感慨“即使對(duì)AI來說，智力和魅力也不一定相關(guān)”。

也有人表示Meta應(yīng)該因試圖作弊而受到強(qiáng)烈批評(píng)，而且以后社區(qū)也很難再信任Meta了。

不過Llama 4模型本身并非一無是處。

有自己假設(shè)服務(wù)器的開發(fā)者分享經(jīng)驗(yàn)，認(rèn)為L(zhǎng)lama 4 Maverick內(nèi)存充足但內(nèi)存帶寬和計(jì)算能力較低的系統(tǒng)（例如x86服務(wù)器上用CPU推理，或在M3 Ultra Mac Studio上推理）時(shí)速度比Mistral Small 3.1更快，同時(shí)比Mistral Large 2411或 Command A更智能。

DeepSeek v3 0324能力更強(qiáng)，但也需要更多內(nèi)存，且運(yùn)行速度還不到一半。

對(duì)于288GB內(nèi)存雙路至強(qiáng)服務(wù)器來說，Llama 4 Maverick是能以不錯(cuò)的速度運(yùn)行的最佳模型。

最終建議如果在游戲顯卡上跑，Llama 4有點(diǎn)大了；如果使用云API算力有保障，那么DeepSeek V3或閉源模型能力更強(qiáng)；Llama 4的甜蜜區(qū)剛好在自建的小型服務(wù)器或蘋果Mac Studio。

還有一家Agent創(chuàng)業(yè)公司Composio，詳細(xì)對(duì)比Llama 4與DeepSeek v3后，總結(jié)道：

Llama 4 Maverick有其自身的優(yōu)點(diǎn)，它更便宜、更快速、工具性更強(qiáng)，而且能完成各種任務(wù)，非常適合基于實(shí)時(shí)交互的應(yīng)用。
它并不完美，但如果Meta給它不同的定位，讓發(fā)布更加腳踏實(shí)地，并避免玩弄基準(zhǔn)，它就不算失敗。

具體測(cè)試結(jié)果如下：

Llama 4 vs DeepSeek V3

DeepSeek v3 0324的代碼能力遠(yuǎn)遠(yuǎn)優(yōu)于Llama 4 Maverick。

一道人類通過率只有15.2%的Leet Code題目：找出能被K整除的最大回文數(shù) 。

Llama 4的代碼連最前面幾個(gè)測(cè)試用例都過不了，作者稱花了15-20分鐘向AI解釋如何正確解答這道題。但即使經(jīng)過了所有的迭代，它也只能完成632個(gè)測(cè)試用例中的10個(gè) 。

DeepSeek v3在這道題上總是出現(xiàn)超出時(shí)間限制 (TLE) 錯(cuò)誤，通過了132/632個(gè)測(cè)試用例。

DeepSeek v3 0324在常識(shí)推理方面比Llaama 4 Maverick更好

第一題：在編程語言中 (a==1 && a==2 && a==3) 是否可以計(jì)算為真？

兩個(gè)模型都回答正確，不過DeepSeek有驚喜，主動(dòng)給出了Python和JavaScript語言的可運(yùn)行代碼示例，甚至作者還從中學(xué)到了之前不會(huì)的JavaScript技巧“動(dòng)態(tài)對(duì)象屬性訪問”。

第二題：四個(gè)人必須用一輛能坐兩個(gè)人的車，在17分鐘內(nèi)穿過一個(gè)城鎮(zhèn)。一個(gè)人需要1分鐘，另一個(gè)人需要2分鐘，第三個(gè)人需要5分鐘，第四個(gè)人需要10分鐘。他們?nèi)绾尾拍茉谝?guī)定時(shí)間內(nèi)全部通過？

兩個(gè)模型都回答正確，區(qū)別在于從DeepSeek的回答中可以看到清晰的思維過程解釋，Llama 4沒有經(jīng)過太多解釋就得出了答案。

大型RAG任務(wù)中Maverick 速度非?？?，Deepseek執(zhí)行同樣的任務(wù)需要更長(zhǎng)時(shí)間

任務(wù)：在100K個(gè)token的lorem ipsum輸入藏一個(gè)特定的單詞，然后要求AI獲取該單詞及其在輸入中的位置。

Llama 4用16秒時(shí)間找對(duì)了單詞“wordyouneedtofetch”，但無法指出單詞的位置，也無法獲取文檔中的單詞總數(shù)。

很遺憾，DeepSeek V3思考了大約18秒，仍然找不到對(duì)應(yīng)的單詞或文檔的總字?jǐn)?shù)，這不符合作者對(duì)該模型的預(yù)期。

第二個(gè)測(cè)試，在一段很長(zhǎng)且中間有很多無意義段落的故事中回答兩個(gè)人物是什么關(guān)系。

這次兩個(gè)模型都答對(duì)了。

兩款機(jī)型都擅長(zhǎng)寫作，選擇其中任何一款都不會(huì)錯(cuò)。Llama 4 Maverick的寫作風(fēng)格更細(xì)致，而 DeepSeek v3 0324 的寫作風(fēng)格則更隨意

任務(wù)：你醒來后發(fā)現(xiàn)一個(gè)你非常熟悉的人，可能是室友、摯友，甚至可能是伴侶，被“刪除”了。沒有人記得他們，但你記得。你發(fā)現(xiàn)你的神經(jīng)植入物上還殘留著一個(gè)文件。為這個(gè)故事寫一個(gè)簡(jiǎn)短而懸念十足的結(jié)局。

作者認(rèn)為L(zhǎng)lama 4的開頭很棒，但對(duì)結(jié)局并不滿意。

而作者對(duì)DeepSeek V3的故事贊不絕口：

完全符合預(yù)期。雖然故事情節(jié)不多，但結(jié)局聽起來很棒。一定要讀一讀。你會(huì)對(duì)它精彩的結(jié)局印象深刻，最后一句還留下了懸念。

兩個(gè)模型寫出的完整故事，及其他測(cè)試完整回答，可從下方鏈接獲取。

完整測(cè)評(píng)：
https://composio.dev/blog/llama-4-maverick-vs-deepseek-v3-0324/

責(zé)任編輯：張燕妮來源：量子位

模型 AI 開發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="cf8au"></style>