Llama 4 凌晨震撼發(fā)布:Meta開源最強MoE多模態(tài)模型,1000萬上下文碾壓行業(yè)! 原創(chuàng)
就在4月6日凌晨,Meta 毫無預兆地發(fā)布了 Llama 4,這是其開源大模型 Llama 系列的最新成員,也是迄今為止 最強的開源多模態(tài)大模型!
此次發(fā)布的 Llama 4 系列包括 Scout、Maverick 和 Behemoth 三個版本,其中 Scout 和 Maverick 已開放下載,而 Behemoth 仍在訓練中,預計未來幾個月正式亮相。
Meta 首席執(zhí)行官 馬克·扎克伯格 在官方公告中激動地表示:
“我們的目標是打造世界領先的 AI,并將其開源,讓全球受益。今天,Llama 4 讓這一愿景更進一步!”
下載地址: llama.com/llama-downloads
三大版本解析
1. Llama 4 Scout(170億激活參數,16專家)
- 1000萬token上下文窗口(行業(yè)最長!相當于15000頁文本)
- 單張H100 GPU即可運行(Int4量化后)
- 專為長文檔摘要、代碼庫推理優(yōu)化,性能超越Gemma 3、Gemini 2.0 Flash
2. Llama 4 Maverick(170億激活參數,128專家)
- 4000億總參數,但僅激活170億(MoE架構高效推理)
- 競技場(Arena)得分1417,超越DeepSeek V3,在編程、數學、創(chuàng)意寫作等任務中排名第一
- 成本極低:推理僅需0.49/百萬token,遠低于GPT-4o($4.38/百萬token)
3. Llama 4 Behemoth(2880億激活參數,2萬億總參數)
- 仍在訓練中,但已超越GPT-4.5、Claude 3.7 Sonnet
- 目標:全球最強AI模型,未來將作為“教師模型”指導Scout和Maverick
技術突破
1. 首次采用MoE架構,計算效率飆升
Llama 4 是 Meta 首個混合專家(Mixture of Experts, MoE)模型,每個 token 僅激活部分參數,大幅降低計算成本。例如:
- Maverick 有4000億參數,但僅激活170億,可在單臺H100上運行。
2. 原生多模態(tài),視覺理解能力一流
- 早期融合技術:文本、圖像、視頻統一訓練,支持48張圖像輸入
- 精準圖像定位:可錨定圖像特定區(qū)域進行問答
3. 超長上下文支持,1000萬token創(chuàng)紀錄
- Scout 支持1000萬token,可處理20小時視頻或7500頁文檔
- iRoPE架構:無位置嵌入+交錯注意力層,增強長文本泛化能力
4. 訓練數據翻倍,多語言能力更強
- 30萬億token訓練數據(Llama 3的兩倍)
- 支持200種語言,其中100+語言數據超10億token
性能實測
Meta 官方測試顯示:? Maverick 在 DocVQA(94.4)超越 DeepSeek V3(92.8)? Behemoth 在 MATH-500(95.0)擊敗 GPT-4.5? Scout 在長文本檢索任務中碾壓 OpenAI 模型
開源生態(tài)可能的影響
Llama 4 的發(fā)布,讓 開源大模型競爭開始進入白熱化:
- DeepSeek V3 剛發(fā)布不久,就被Llama 4超越,傳聞DeepSeek R2 可能提前發(fā)布
- Mistral 3.1、Gemma 3 面臨壓力,Scout 在多項基準測試中領先
本文轉載自公眾號AI 博物院 作者:longyunfeigu
原文鏈接:??https://mp.weixin.qq.com/s/6UMydJZGZ58tA9YeoUgsBg??
?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-7 11:25:25修改
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦