自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

llama 4，開源！

發(fā)布于 2025-4-10 07:06

瀏覽

0收藏

Meta 開源 llama4，原生多模態(tài)模型，慣例，支持200多種語言，除了中文。

llama 4，開源！-AI.x社區(qū)

有點堆活，主要特色是，可以單張GPU運行近1000w token上下文的模型，所以直接對標(biāo)gemini了？

llama 4，開源！-AI.x社區(qū)

1000萬token上下文窗口意味著什么？相當(dāng)于可以處理20多小時的視頻內(nèi)容（因為它是原生多模態(tài)模型）。

三款全新模型同步發(fā)布

Scout：17B激活參數(shù)（16個專家）。速度極快，原生多模態(tài)，智能程度高。達到業(yè)界領(lǐng)先的1000萬+token上下文窗口，并且可以在單個GPU上運行！
Maverick：17B激活參數(shù)（128個專家，100萬token上下文窗口）。在多模態(tài)領(lǐng)域表現(xiàn)優(yōu)于GPT-4o和Gemini 2.0 Flash，在廣泛的基準(zhǔn)測試中領(lǐng)先，同時在推理和編碼方面達到與DeepSeek v3相當(dāng)?shù)慕Y(jié)果，但激活參數(shù)不到后者的一半。它在性能與成本比上表現(xiàn)出色，實驗性聊天版本在LMArena上得分1417 ELO。同樣可在單臺主機上運行！
Behemoth：288B激活參數(shù)（16個專家）。這個模型仍在訓(xùn)練中，是Meta迄今為止最強大的模型，也是全球最智能的LLM之一。Llama 4 Behemoth在多項STEM基準(zhǔn)測試中超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。

目前只有Scout和Maverick已經(jīng)發(fā)布。

核心亮點

原生多模態(tài)架構(gòu)：所有模型使用早期融合技術(shù)，將文本、圖像和視頻無縫整合到統(tǒng)一的模型主干中。
采用了混合專家(MoE)架構(gòu)，MoE設(shè)計降低了推理成本同時提高了質(zhì)量。
兩個MoE模型訓(xùn)練了高達40萬億token，預(yù)訓(xùn)練涵蓋200種語言，性能顯著超越前代產(chǎn)品Llama 3.1 405B。
Llama 4 Scout擁有1000萬token的上下文窗口。
從2T參數(shù)的教師模型共同蒸餾，強化了推理能力。
減少了政治偏見，拒絕率更加平衡。
訓(xùn)練采用了新策略，包括用于優(yōu)化超參數(shù)的"MetaP"方法、通過自適應(yīng)過濾增強的實時強化學(xué)習(xí)，以及從更大的Behemoth模型共同蒸餾。
根據(jù)Meta的計算，Llama 4 Scout可以在單個Nvidia H100 GPU上運行，而Maverick則需要Nvidia H100 DGX系統(tǒng)或同等配置。

性能基準(zhǔn)測試

Llama 4 Scout（17B激活參數(shù)，1000萬上下文）在編碼、推理和長文本任務(wù)上超越了之前的Llama模型，在圖像理解方面也能與更大的模型相媲美。Llama 4 Maverick（17B激活參數(shù)，總計400B）在多語言理解、編碼基準(zhǔn)和視覺推理方面超過了GPT-4o和Gemini 2.0。兩款模型都受益于與尚未開源的的Llama 4 Behemoth（288B激活參數(shù)）的共同蒸餾，在STEM測評中獲得了更高分?jǐn)?shù)。

llama 4，開源！-AI.x社區(qū)

LMArena ELO評分與成本對比："為了提供用戶體驗，每個token在一次性350毫秒預(yù)填充延遲后達到30毫秒解碼延遲，我們估計模型每百萬token的服務(wù)成本在0.49之間（3:1混合）"

llama 4，開源！-AI.x社區(qū)

Llama 4 Maverick位居總排名第二 - 成為第四個在Arena上突破1400+的組織！

llama 4，開源！-AI.x社區(qū)

下載地址：

??https://www.llama.com/llama-downloads/??
??https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E-Instruct??

慣例，雖然你可以廣泛、免費使用、修改和分發(fā)Llama 4，如果你將模型用于商業(yè)用途，且你的產(chǎn)品或服務(wù)月活用戶超過7億，則需要在繼續(xù)合法使用模型前向Meta申請并獲得單獨的許可。

iRoPE：Llama 4 Scout長上下文支持的技術(shù)基礎(chǔ)

iRoPE詳解

目標(biāo)：在較短上下文上訓(xùn)練，并泛化到極長序列（256K或更多），無需處處使用顯式位置嵌入。它被稱為"iRoPE"，因為它使用交錯層（"i"）和旋轉(zhuǎn)位置嵌入（RoPE）。理論上通過巧妙結(jié)合局部和全局注意力，使上下文長度無界限。

具有RoPE的局部可并行分塊注意力在局部注意力塊上使用RoPE。每個塊處理較短的上下文窗口（例如8K token）。在較小序列上訓(xùn)練更節(jié)省內(nèi)存，仍能捕獲局部依賴關(guān)系。這些短上下文注意力層完全可并行化。
無位置嵌入的全局注意力某些層作為"全局"注意力層，視野超過8K token。在這些層中省略固定位置嵌入以改善長度外推。目標(biāo)是讓模型處理遠超訓(xùn)練中明確見過的序列長度。
最大訓(xùn)練長度：256K 盡管局部和全局注意力是同一模型的一部分，iRoPE只訓(xùn)練到256K token。超過這個長度，它依靠模型的外推能力而非匹配精確的訓(xùn)練模式。
極長位置注意力權(quán)重扁平化在非常大的位置（如數(shù)十萬token），注意力權(quán)重趨于扁平化。這損害了模型關(guān)注相關(guān)token的能力。
推理時溫度縮放為抵消扁平化注意力，iRoPE在全局注意力層中將查詢向量乘以縮放因子：
???xq *= 1 + log(floor(i / α) + 1) * β??這為上下文后期出現(xiàn)的token賦予額外權(quán)重，幫助模型在極長序列中保持更有意義的注意力信號。它在保持短程性能（低于α）的同時增強長程推理能力。

??i?? = 位置索引
??α?? = 閾值（例如8K）
??β?? = 縮放因子

訓(xùn)練后處理管道

這個總參數(shù)量為2萬億的模型（Behemoth）在訓(xùn)練后處理方面是個巨大挑戰(zhàn)，他們不得不因應(yīng)規(guī)模重新設(shè)計底層RL基礎(chǔ)設(shè)施。

llama 4，開源！-AI.x社區(qū)

訓(xùn)練后管道簡述：輕量級SFT → 在線RL → 輕量級DPO。過度使用SFT/DPO會過度約束模型并限制在線RL期間的探索能力，因此保持輕量級處理。

首先應(yīng)用**輕量級監(jiān)督微調(diào)(SFT)**，在篩選的數(shù)據(jù)子集上進行。他們移除了一半以上的"簡單"提示（由Llama評判識別），以強調(diào)更難的問題。提高了模型的基線性能而不過度約束它。

然后切換到**持續(xù)在線強化學(xué)習(xí)(RL)**，配合自適應(yīng)數(shù)據(jù)過濾。模型在中高難度提示上生成響應(yīng)，沒難度的提示被過濾掉。通過訓(xùn)練和過濾循環(huán)，集中精力于具挑戰(zhàn)性的例子，增強數(shù)學(xué)、編碼和推理能力。

最后進行**直接偏好優(yōu)化(DPO)**，管理細(xì)粒度質(zhì)量問題。采用更輕量級的DPO階段，避免降低復(fù)雜任務(wù)的性能。這套流程確保了模型能平衡處理多模態(tài)輸入，保持創(chuàng)造力，同時可靠處理高難度提示。

從Llama 4 Behemoth的共同蒸餾進一步提煉了兩個較小的Llama 4模型，以更少的激活參數(shù)傳遞高級推理技能，進一步提升了訓(xùn)練后結(jié)果。

本文轉(zhuǎn)載自??NLP前沿??，作者：NLP前沿

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Llama 3突然來襲！開源社區(qū)再次沸騰：GPT-4級別模型可以自由訪問的時代到來

Crystalcxt ? 2882瀏覽 ? 0回復(fù)
Meta 發(fā)布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術(shù)棧 ? 3904瀏覽 ? 0回復(fù)
新測試基準(zhǔn)發(fā)布，最強開源Llama 3尷尬了

Crystalcxt ? 2954瀏覽 ? 0回復(fù)
性能超Llama 3，可商用！開源大模型Falcon 2

Aceryt ? 2993瀏覽 ? 0回復(fù)
LLama2詳細(xì)解讀 | Meta開源之光LLama2是如何追上ChatGPT的？

arnoldzhw ? 3177瀏覽 ? 0回復(fù)
Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越

duhorse ? 2014瀏覽 ? 0回復(fù)
ViT篇外：NVIDIA Llama-3.1-Minitron 4B

魯班模錘1 ? 2253瀏覽 ? 0回復(fù)
阿里史上最大規(guī)模開源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 2083瀏覽 ? 0回復(fù)
Llama-4使用10萬塊GPU訓(xùn)練、更好開源，扎克伯格親口確認(rèn)！

Aceryt ? 3150瀏覽 ? 0回復(fù)
Meta剛開源llama 3.2多模態(tài)，就被打敗了！

NLP前沿1 ? 2595瀏覽 ? 0回復(fù)
Meta開源多模態(tài)模型——Llama 3.2

Aceryt ? 2627瀏覽 ? 0回復(fù)
Llama 4開源王者歸來！推理、編碼打平DeepSeek V3但參數(shù)減一半，一張H100就能跑，還有巨獸2萬億參數(shù)模型！

51CTO技術(shù)棧 ? 1152瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開源最強MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 1180瀏覽 ? 0回復(fù)
兼初步測試 Llama 4

機器學(xué)習(xí)與數(shù)學(xué) ? 939瀏覽 ? 0回復(fù)
Llama4 剛開源就要被網(wǎng)友玩壞了！

PaperAgent ? 968瀏覽 ? 0回復(fù)
Llama 4效果不好，Meta承認(rèn)有問題

Aceryt ? 1416瀏覽 ? 0回復(fù)
Llama4 模型細(xì)節(jié) & 效果實測

NLP工作站 ? 1172瀏覽 ? 0回復(fù)
Llama 4三大模型來襲，開源免費還超能打

Halo咯咯 ? 1586瀏覽 ? 0回復(fù)
NVIDIA開源Llama-3.1-Nemotron-Ultra-253B-v1，性能直逼DeepSeek

Halo咯咯 ? 956瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

推理大模型并非一定要推理 7天前發(fā)布
Deepseek-R1，論文番外篇! 2025-03-28 00:47:51發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Deepseek-R1，論文番外篇!

下一篇：推理大模型并非一定要推理

社區(qū)精華內(nèi)容

目錄

^{<thead id="oygvx"></thead>}

<p id="oygvx"><li id="oygvx"><pre id="oygvx"></pre></li></p>