llama 4, 開源!
Meta 開源 llama4, 原生多模態(tài)模型, 慣例,支持200多種語言,除了中文。
有點堆活,主要特色是,可以單張GPU運行近1000w token上下文的模型,所以直接對標(biāo)gemini了?
1000萬token上下文窗口意味著什么?相當(dāng)于可以處理20多小時的視頻內(nèi)容(因為它是原生多模態(tài)模型)。
三款全新模型同步發(fā)布
- Scout:17B激活參數(shù)(16個專家)。速度極快,原生多模態(tài),智能程度高。達到業(yè)界領(lǐng)先的1000萬+token上下文窗口,并且可以在單個GPU上運行!
- Maverick:17B激活參數(shù)(128個專家,100萬token上下文窗口)。在多模態(tài)領(lǐng)域表現(xiàn)優(yōu)于GPT-4o和Gemini 2.0 Flash,在廣泛的基準(zhǔn)測試中領(lǐng)先,同時在推理和編碼方面達到與DeepSeek v3相當(dāng)?shù)慕Y(jié)果,但激活參數(shù)不到后者的一半。它在性能與成本比上表現(xiàn)出色,實驗性聊天版本在LMArena上得分1417 ELO。同樣可在單臺主機上運行!
- Behemoth:288B激活參數(shù)(16個專家)。這個模型仍在訓(xùn)練中,是Meta迄今為止最強大的模型,也是全球最智能的LLM之一。Llama 4 Behemoth在多項STEM基準(zhǔn)測試中超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。
目前只有Scout和Maverick已經(jīng)發(fā)布。
核心亮點
- 原生多模態(tài)架構(gòu):所有模型使用早期融合技術(shù),將文本、圖像和視頻無縫整合到統(tǒng)一的模型主干中。
- 采用了混合專家(MoE)架構(gòu),MoE設(shè)計降低了推理成本同時提高了質(zhì)量。
- 兩個MoE模型訓(xùn)練了高達40萬億token,預(yù)訓(xùn)練涵蓋200種語言,性能顯著超越前代產(chǎn)品Llama 3.1 405B。
- Llama 4 Scout擁有1000萬token的上下文窗口。
- 從2T參數(shù)的教師模型共同蒸餾,強化了推理能力。
- 減少了政治偏見,拒絕率更加平衡。
- 訓(xùn)練采用了新策略,包括用于優(yōu)化超參數(shù)的"MetaP"方法、通過自適應(yīng)過濾增強的實時強化學(xué)習(xí),以及從更大的Behemoth模型共同蒸餾。
- 根據(jù)Meta的計算,Llama 4 Scout可以在單個Nvidia H100 GPU上運行,而Maverick則需要Nvidia H100 DGX系統(tǒng)或同等配置。
性能基準(zhǔn)測試
Llama 4 Scout(17B激活參數(shù),1000萬上下文)在編碼、推理和長文本任務(wù)上超越了之前的Llama模型,在圖像理解方面也能與更大的模型相媲美。Llama 4 Maverick(17B激活參數(shù),總計400B)在多語言理解、編碼基準(zhǔn)和視覺推理方面超過了GPT-4o和Gemini 2.0。兩款模型都受益于與尚未開源的的Llama 4 Behemoth(288B激活參數(shù))的共同蒸餾,在STEM測評中獲得了更高分?jǐn)?shù)。
LMArena ELO評分與成本對比:"為了提供用戶體驗,每個token在一次性350毫秒預(yù)填充延遲后達到30毫秒解碼延遲,我們估計模型每百萬token的服務(wù)成本在0.49之間(3:1混合)"
Llama 4 Maverick位居總排名第二 - 成為第四個在Arena上突破1400+的組織!
下載地址:
- ??https://www.llama.com/llama-downloads/??
- ??https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E-Instruct??
慣例,雖然你可以廣泛、免費使用、修改和分發(fā)Llama 4,如果你將模型用于商業(yè)用途,且你的產(chǎn)品或服務(wù)月活用戶超過7億,則需要在繼續(xù)合法使用模型前向Meta申請并獲得單獨的許可。
iRoPE:Llama 4 Scout長上下文支持的技術(shù)基礎(chǔ)
iRoPE詳解
目標(biāo):在較短上下文上訓(xùn)練,并泛化到極長序列(256K或更多),無需處處使用顯式位置嵌入。它被稱為"iRoPE",因為它使用交錯層("i")和旋轉(zhuǎn)位置嵌入(RoPE)。理論上通過巧妙結(jié)合局部和全局注意力,使上下文長度無界限。
- 具有RoPE的局部可并行分塊注意力在局部注意力塊上使用RoPE。每個塊處理較短的上下文窗口(例如8K token)。在較小序列上訓(xùn)練更節(jié)省內(nèi)存,仍能捕獲局部依賴關(guān)系。這些短上下文注意力層完全可并行化。
- 無位置嵌入的全局注意力某些層作為"全局"注意力層,視野超過8K token。在這些層中省略固定位置嵌入以改善長度外推。目標(biāo)是讓模型處理遠超訓(xùn)練中明確見過的序列長度。
- 最大訓(xùn)練長度:256K 盡管局部和全局注意力是同一模型的一部分,iRoPE只訓(xùn)練到256K token。超過這個長度,它依靠模型的外推能力而非匹配精確的訓(xùn)練模式。
- 極長位置注意力權(quán)重扁平化在非常大的位置(如數(shù)十萬token),注意力權(quán)重趨于扁平化。這損害了模型關(guān)注相關(guān)token的能力。
- 推理時溫度縮放為抵消扁平化注意力,iRoPE在全局注意力層中將查詢向量乘以縮放因子:
???xq *= 1 + log(floor(i / α) + 1) * β?
?這為上下文后期出現(xiàn)的token賦予額外權(quán)重,幫助模型在極長序列中保持更有意義的注意力信號。它在保持短程性能(低于α)的同時增強長程推理能力。
- ?
?i?
? = 位置索引 - ?
?α?
? = 閾值(例如8K) - ?
?β?
? = 縮放因子
訓(xùn)練后處理管道
這個總參數(shù)量為2萬億的模型(Behemoth)在訓(xùn)練后處理方面是個巨大挑戰(zhàn),他們不得不因應(yīng)規(guī)模重新設(shè)計底層RL基礎(chǔ)設(shè)施。
訓(xùn)練后管道簡述:輕量級SFT → 在線RL → 輕量級DPO。過度使用SFT/DPO會過度約束模型并限制在線RL期間的探索能力,因此保持輕量級處理。
首先應(yīng)用**輕量級監(jiān)督微調(diào)(SFT)**,在篩選的數(shù)據(jù)子集上進行。他們移除了一半以上的"簡單"提示(由Llama評判識別),以強調(diào)更難的問題。提高了模型的基線性能而不過度約束它。
然后切換到**持續(xù)在線強化學(xué)習(xí)(RL)**,配合自適應(yīng)數(shù)據(jù)過濾。模型在中高難度提示上生成響應(yīng),沒難度的提示被過濾掉。通過訓(xùn)練和過濾循環(huán),集中精力于具挑戰(zhàn)性的例子,增強數(shù)學(xué)、編碼和推理能力。
最后進行**直接偏好優(yōu)化(DPO)**,管理細(xì)粒度質(zhì)量問題。采用更輕量級的DPO階段,避免降低復(fù)雜任務(wù)的性能。這套流程確保了模型能平衡處理多模態(tài)輸入,保持創(chuàng)造力,同時可靠處理高難度提示。
從Llama 4 Behemoth的共同蒸餾進一步提煉了兩個較小的Llama 4模型,以更少的激活參數(shù)傳遞高級推理技能,進一步提升了訓(xùn)練后結(jié)果。
本文轉(zhuǎn)載自??NLP前沿??,作者:NLP前沿
