自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

llama 4, 開源!

發(fā)布于 2025-4-10 07:06
瀏覽
0收藏

Meta 開源 llama4, 原生多模態(tài)模型, 慣例,支持200多種語言,除了中文。

llama 4, 開源!-AI.x社區(qū)

有點堆活,主要特色是,可以單張GPU運行近1000w token上下文的模型,所以直接對標(biāo)gemini了?

llama 4, 開源!-AI.x社區(qū)

1000萬token上下文窗口意味著什么?相當(dāng)于可以處理20多小時的視頻內(nèi)容(因為它是原生多模態(tài)模型)。

三款全新模型同步發(fā)布

  • Scout:17B激活參數(shù)(16個專家)。速度極快,原生多模態(tài),智能程度高。達到業(yè)界領(lǐng)先的1000萬+token上下文窗口,并且可以在單個GPU上運行!
  • Maverick:17B激活參數(shù)(128個專家,100萬token上下文窗口)。在多模態(tài)領(lǐng)域表現(xiàn)優(yōu)于GPT-4o和Gemini 2.0 Flash,在廣泛的基準(zhǔn)測試中領(lǐng)先,同時在推理和編碼方面達到與DeepSeek v3相當(dāng)?shù)慕Y(jié)果,但激活參數(shù)不到后者的一半。它在性能與成本比上表現(xiàn)出色,實驗性聊天版本在LMArena上得分1417 ELO。同樣可在單臺主機上運行!
  • Behemoth:288B激活參數(shù)(16個專家)。這個模型仍在訓(xùn)練中,是Meta迄今為止最強大的模型,也是全球最智能的LLM之一。Llama 4 Behemoth在多項STEM基準(zhǔn)測試中超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。

目前只有Scout和Maverick已經(jīng)發(fā)布。

核心亮點

  • 原生多模態(tài)架構(gòu):所有模型使用早期融合技術(shù),將文本、圖像視頻無縫整合到統(tǒng)一的模型主干中。
  • 采用了混合專家(MoE)架構(gòu),MoE設(shè)計降低了推理成本同時提高了質(zhì)量。
  • 兩個MoE模型訓(xùn)練了高達40萬億token,預(yù)訓(xùn)練涵蓋200種語言,性能顯著超越前代產(chǎn)品Llama 3.1 405B。
  • Llama 4 Scout擁有1000萬token的上下文窗口。
  • 從2T參數(shù)的教師模型共同蒸餾,強化了推理能力。
  • 減少了政治偏見,拒絕率更加平衡。
  • 訓(xùn)練采用了新策略,包括用于優(yōu)化超參數(shù)的"MetaP"方法、通過自適應(yīng)過濾增強的實時強化學(xué)習(xí),以及從更大的Behemoth模型共同蒸餾。
  • 根據(jù)Meta的計算,Llama 4 Scout可以在單個Nvidia H100 GPU上運行,而Maverick則需要Nvidia H100 DGX系統(tǒng)或同等配置。

性能基準(zhǔn)測試

Llama 4 Scout(17B激活參數(shù),1000萬上下文)在編碼、推理和長文本任務(wù)上超越了之前的Llama模型,在圖像理解方面也能與更大的模型相媲美。Llama 4 Maverick(17B激活參數(shù),總計400B)在多語言理解、編碼基準(zhǔn)和視覺推理方面超過了GPT-4o和Gemini 2.0。兩款模型都受益于與尚未開源的的Llama 4 Behemoth(288B激活參數(shù))的共同蒸餾,在STEM測評中獲得了更高分?jǐn)?shù)。

llama 4, 開源!-AI.x社區(qū)

LMArena ELO評分與成本對比:"為了提供用戶體驗,每個token在一次性350毫秒預(yù)填充延遲后達到30毫秒解碼延遲,我們估計模型每百萬token的服務(wù)成本在0.49之間(3:1混合)"

llama 4, 開源!-AI.x社區(qū)

Llama 4 Maverick位居總排名第二 - 成為第四個在Arena上突破1400+的組織!

llama 4, 開源!-AI.x社區(qū)

下載地址:

慣例,雖然你可以廣泛、免費使用、修改和分發(fā)Llama 4,如果你將模型用于商業(yè)用途,且你的產(chǎn)品或服務(wù)月活用戶超過7億,則需要在繼續(xù)合法使用模型前向Meta申請并獲得單獨的許可。

iRoPE:Llama 4 Scout長上下文支持的技術(shù)基礎(chǔ)

iRoPE詳解

目標(biāo):在較短上下文上訓(xùn)練,并泛化到極長序列(256K或更多),無需處處使用顯式位置嵌入。它被稱為"iRoPE",因為它使用交錯層("i")和旋轉(zhuǎn)位置嵌入(RoPE)。理論上通過巧妙結(jié)合局部和全局注意力,使上下文長度無界限。

  1. 具有RoPE的局部可并行分塊注意力在局部注意力塊上使用RoPE。每個塊處理較短的上下文窗口(例如8K token)。在較小序列上訓(xùn)練更節(jié)省內(nèi)存,仍能捕獲局部依賴關(guān)系。這些短上下文注意力層完全可并行化。
  2. 無位置嵌入的全局注意力某些層作為"全局"注意力層,視野超過8K token。在這些層中省略固定位置嵌入以改善長度外推。目標(biāo)是讓模型處理遠超訓(xùn)練中明確見過的序列長度。
  3. 最大訓(xùn)練長度:256K 盡管局部和全局注意力是同一模型的一部分,iRoPE只訓(xùn)練到256K token。超過這個長度,它依靠模型的外推能力而非匹配精確的訓(xùn)練模式。
  4. 極長位置注意力權(quán)重扁平化在非常大的位置(如數(shù)十萬token),注意力權(quán)重趨于扁平化。這損害了模型關(guān)注相關(guān)token的能力。
  5. 推理時溫度縮放為抵消扁平化注意力,iRoPE在全局注意力層中將查詢向量乘以縮放因子:
    ???xq *= 1 + log(floor(i / α) + 1) * β??這為上下文后期出現(xiàn)的token賦予額外權(quán)重,幫助模型在極長序列中保持更有意義的注意力信號。它在保持短程性能(低于α)的同時增強長程推理能力。
  • ??i?? = 位置索引
  • ??α?? = 閾值(例如8K)
  • ??β?? = 縮放因子

訓(xùn)練后處理管道

這個總參數(shù)量為2萬億的模型(Behemoth)在訓(xùn)練后處理方面是個巨大挑戰(zhàn),他們不得不因應(yīng)規(guī)模重新設(shè)計底層RL基礎(chǔ)設(shè)施。

llama 4, 開源!-AI.x社區(qū)

訓(xùn)練后管道簡述:輕量級SFT → 在線RL → 輕量級DPO。過度使用SFT/DPO會過度約束模型并限制在線RL期間的探索能力,因此保持輕量級處理。

首先應(yīng)用**輕量級監(jiān)督微調(diào)(SFT)**,在篩選的數(shù)據(jù)子集上進行。他們移除了一半以上的"簡單"提示(由Llama評判識別),以強調(diào)更難的問題。提高了模型的基線性能而不過度約束它。

然后切換到**持續(xù)在線強化學(xué)習(xí)(RL)**,配合自適應(yīng)數(shù)據(jù)過濾。模型在中高難度提示上生成響應(yīng),沒難度的提示被過濾掉。通過訓(xùn)練和過濾循環(huán),集中精力于具挑戰(zhàn)性的例子,增強數(shù)學(xué)、編碼和推理能力。

最后進行**直接偏好優(yōu)化(DPO)**,管理細(xì)粒度質(zhì)量問題。采用更輕量級的DPO階段,避免降低復(fù)雜任務(wù)的性能。這套流程確保了模型能平衡處理多模態(tài)輸入,保持創(chuàng)造力,同時可靠處理高難度提示。

Llama 4 Behemoth的共同蒸餾進一步提煉了兩個較小的Llama 4模型,以更少的激活參數(shù)傳遞高級推理技能,進一步提升了訓(xùn)練后結(jié)果。

本文轉(zhuǎn)載自??NLP前沿??,作者:NLP前沿

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦