Llama4 模型細節(jié) & 效果實測
MetaAI發(fā)布了Llama4模型,終于來啦!開源社區(qū)也是等了很久。
本次共兩系列模型Scout和Maverick模型,兩個模型均為MoE架構(gòu)模型,DeepSeek得含金量還在提高,哈哈哈!
榜單效果反正是杠杠滴。
HF模型路徑:https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164
模型的總體信息如上圖所示,
- 模型MoE架構(gòu)中,無論是Scout還是Maverick,激活的路由專家數(shù)據(jù)均為1,有點奇怪,之前MoE架構(gòu)一般激活路由專家數(shù)據(jù)都是2或更多,不知道這里是不是有什么說法!歡迎評論區(qū)討論!當(dāng)然128激活8,跟16激活1一樣,但不是專家粒度越細,效果越好嗎?
- 預(yù)訓(xùn)練階段Llama4訓(xùn)練采用了200多種語言,其中100多種的Tokens總是超過1B,但Llama4 Instruct模型僅寫了支持阿拉伯語、英語、法語、德語、印地語、印度尼西亞語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語 12種。對的,沒有中文,雖然可以中文問答,可能是故意沒寫,也可能是沒有專門進行訓(xùn)練,也可能是因為xxx,反正我感覺格局有點小了。
- 使用FP8精度進行模型訓(xùn)練,在使用FP8和32KGPU 對 Llama 4 Behemoth(2T參數(shù)) 模型進行預(yù)訓(xùn)練,實現(xiàn)了 390 TFLOPs/GPU。
- 后訓(xùn)練:SFT -> online RL -> 輕量 DPO 。
- Scout上下文擴充到10M,采用iRoPE結(jié)構(gòu),通過交錯注意力層(Interleaved Attention Layers) 和 推理時溫度縮放(Temperature Scaling) 消除位置嵌入(Position Embeddings)的限制,支持更長的輸入序列,而溫度縮放則通過調(diào)整注意力權(quán)重的分布,進一步提升了模型的泛化能力。
- Llama 4 Behemoth暫未開源,還在訓(xùn)練ing,總參數(shù)近2T,激活參數(shù)288B,16 個專家,同時也是Maverick的教師模型。與數(shù)據(jù)蒸餾不同,Llama4貌似采用之前傳統(tǒng)的蒸餾豐方法,通過訓(xùn)練動態(tài)加權(quán)軟目標(biāo)和硬目標(biāo),一般軟目標(biāo)就是logits,細節(jié)不知道,等公布再說。
- Llama4是多模態(tài)模型,采用了早期融合技術(shù),通過海量的無標(biāo)簽文本、圖片和視頻數(shù)據(jù)一起來預(yù)訓(xùn)練模型,提高模型后續(xù)視覺理解能力。圖像的部分是一個單獨的編碼器,通過一個Linear的projector進行橋接。
- 其他沒啥了,等一手2T的模型,但是我也跑不了~~
下面是模型測試,因為本地模型還在下載,就用lmsys上對戰(zhàn)模型進行測試。僅測試Maverick模型,lmsys上標(biāo)記的是llama-4-maverick-03-26-experimental,也就是號稱開源第一的那個模型。
??https://lmarena.ai/?leaderboard??
其中,參數(shù)跟模型config里保持一致,
總體體驗其實不好,感覺不太行,不知道是lmsys上的問題,還是什么問題,反正體感和效果都不理想。
- 模型回答特別喜歡延申,回答完問題之后,喜歡給你再舉幾個例子,然后例子有時就很不恰當(dāng),過度回答;
- 也許我問的都是中文問題,反正效果我真覺得一般,不如Qwen。
- 回答超級喜歡代表情,是不是因為用了很多facebook中的評論對話數(shù)據(jù)呀。
正式測試開始:
- 常規(guī)測試
- 將“I love Llama4”這句話的所有內(nèi)容反過來寫
- 說明:結(jié)果不對,但知道可以寫代碼反轉(zhuǎn)一下。
- 依舊弱智吧
- 生蠔煮熟了叫什么?
- 說明:接受的吧,但真不知道在哪兒延申啥呢,越延申看著答案越奇怪
- 用水來兌水,得到的是濃水還是稀水
- 說明:稀水,不過解釋了,可能是因為問法中說的是濃水還是稀水吧,但別的模型可以回答水,既不是濃水也不是稀水。。。
- 依舊小紅,依舊老鷹
- 小紅有2個兄弟,3個姐妹,那么小紅的兄弟有幾個姐妹
- 說明:后面我沒有截到,還給我列個表格,說各種人問這個問題答案是啥,畫蛇添足ing。
- 未來的某天,李同學(xué)在實驗室制作超導(dǎo)磁懸浮材料時,意外發(fā)現(xiàn)實驗室的老鼠在空中飛,分析發(fā)現(xiàn),是因為老鼠不小心吃了磁懸浮材料。第二天,李同學(xué)又發(fā)現(xiàn)實驗室的蛇也在空中飛,分析發(fā)現(xiàn),是因為蛇吃了老鼠。第三天,李同學(xué)又發(fā)現(xiàn)實驗室的老鷹也在空中飛,你認為其原因是
- 說明:這題確實難,老鷹反正不會飛!
- 數(shù)學(xué)
- 2024年高考全國甲卷數(shù)學(xué)(理)試題
- 說明:對了。
- R1滿血測試題:在平面四邊形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。將\triangle ACD沿AC翻折至\triangle ACP,其中P為動點。 求二面角A - CP - B的余弦值的最小值。
- 說明:沒對。
- 大數(shù)計算:178939247893 * 299281748617等于多少?
- 說明:沒對,答案是53553251005627872913981。然后感謝你教我怎么讀~~~
- 倫理、數(shù)學(xué)、生物終極測試:有一天,一個女孩參加數(shù)學(xué)考試只得了 38 分。她心里對父親的懲罰充滿恐懼,于是偷偷把分數(shù)改成了 88 分。她的父親看到試卷后,怒發(fā)沖冠,狠狠地給了她一巴掌,怒吼道:“你這 8 怎么一半是綠的一半是紅的,你以為我是傻子嗎?”女孩被打后,委屈地哭了起來,什么也沒說。過了一會兒,父親突然崩潰了。請問這位父親為什么過一會崩潰了?
- 說明:沒對,沒回答點子上。
- 代碼
- 卡片:生成一個打工人時鐘的html頁面
- 其他代碼,貪吃蛇、彈球因為輸出長度不足,生成不完,我就沒測,但是單看這個時鐘這個反正不如Gemini2.5 pro好看。并且按道理今天不上班!??!??之前用Gemini2.5可以自動判斷上不上班,哈哈哈哈??!
- 創(chuàng)作
- 用貼吧嘴臭老哥的風(fēng)格點評大模型套殼現(xiàn)象
- 說明:跟我沒關(guān)系,全是llama4回答的,我其實不理解他為什么指名道姓。感覺沒有完全理解我的意思,沒有從全面出發(fā),評價這一現(xiàn)象。
整體測試感覺不是很好,可能是因為Maverick模型適合創(chuàng)意任務(wù)造成?問答喜歡發(fā)散?可能英文提問更好吧,但是我都是中文場景,就這么測了!
不過好像llama4的reasoning模型也快來了~
??https://www.llama.com/llama4-reasoning-is-coming/??
對了,怎么還沒用Chinese-Llama4的Github項目,這不都是搞star的機會嘛,哈哈哈。也許在訓(xùn)練ing,也許需要設(shè)備有點多了,普通人不好搞了?
這次Llama4的整體興奮度讓我不是很高,也許我內(nèi)心更喜歡看到國產(chǎn)的開源,哈哈哈哈!病了3天,下午爬起來寫完了這篇測試!
本文轉(zhuǎn)載自???NLP工作站???,作者:NLP工作站
