自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LIama 4發(fā)布重奪開源第一!DeepSeek同等代碼能力但參數(shù)減一半,一張H100就能跑,還有兩萬億參數(shù)超大杯

人工智能 新聞
Llama 4 Scout,16位專家的170億激活參數(shù)的多模態(tài)模型,單個H100 GPU可運行, 同類SOTA ,并擁有10M上下文窗口。

AI不過周末,硅谷也是如此。

大周日的,Llama家族上新,一群LIama 4就這么突然發(fā)布了。

這是Meta首個基于MoE架構(gòu)模型系列,目前共有三個款:

Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。

最后一個尚未推出,只是預(yù)告,但Meta已經(jīng)毫不避諱地稱前兩者是“我們迄今為止最先進(jìn)的型號,也是同類產(chǎn)品中最好的多模態(tài)型號”。

詳細(xì)來看一些關(guān)鍵詞——

Llama 4 Scout,16位專家的170億激活參數(shù)的多模態(tài)模型,單個H100 GPU可運行, 同類SOTA,并擁有10M上下文窗口

Llama 4 Maverick,128位專家的170億激活參數(shù)多模態(tài)模型,擊敗GPT-4o和Gemini 2.0 Flash,與DeepSeek-V3同等代碼能力參數(shù)只要一半,主打與DeepSeek一樣的性價比,單個H100主機即可運行

Llama 4 Behemoth:2萬億參數(shù)的超大超強模型,以上二者都由這個模型蒸餾而來;目前還在訓(xùn)練中;多個基準(zhǔn)測試超過GPT-4.5、Claude Sonnet 3.7和 Gemini 2.0 Pro。

圖片

Meta官推激情表示,這些Llama 4模型標(biāo)志著Llama生態(tài)系統(tǒng)新時代——原生多模態(tài)AI創(chuàng)新的開始。

圖片

與此同時,大模型競技場排名迎來一輪更新。

此次發(fā)布的Llama 4 Maverick,在困難提示、編碼、數(shù)學(xué)、創(chuàng)意寫作方面并列第一;得分1417,不僅大大超越了此前Meta自家的Llama-3-405B(提升了149分),還成為史上第4個突破1400分的模型;。

而且跑分明確——超越DeepSeek-V3,實現(xiàn)亮相即登頂,直接成為排名第一的開源模型

圖片

谷歌CEO劈柴哥第一時間發(fā)來賀電:

AI世界,從不平淡!恭喜呀!前進(jìn)吧,Llama 4團(tuán)隊!

圖片

中杯、大杯首批亮相

了解了Llama 4家族全體成員后,我們先來見識一下首批發(fā)布的2個模型:

  • 中杯:Llama 4 Scout(偵查兵Llama 4)。
  • 大杯:Llama 4 Maverick(特立獨行的Llama 4)。

兩者均已能在Llama官網(wǎng)和抱抱臉上下載。

圖片

我們抓取并提煉出這倆模型的一些特點:

Meta首批MoE架構(gòu)模型

這是Llama系列,第一批使用MoE(混合專家模型)構(gòu)建的模型。

中杯Llama 4 Scout有17B激活參數(shù),擁有16個專家模型。

大杯Llama 4 Maverick擁有17B激活參數(shù),擁有128個專家模型。

至于還沒和大家正式見面的超大杯Llama 4 Maverick,擁有288B激活參數(shù),擁有16個專家模型。

非常長————的上下文

Llama 4系列,均具有很長的上下文窗口。

這一點主要體現(xiàn)在Meta公布的中杯Llama 4 Scout的詳細(xì)數(shù)據(jù)里:

Llama 4 Scout提供了行業(yè)領(lǐng)先的100萬上下文窗口。經(jīng)過預(yù)訓(xùn)練和后訓(xùn)練,Llama 4 Scout長度為256K,這使基本模型具有高級長度泛化能力。

這個配置,讓它在廣泛的測評集上,比Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1的結(jié)果更優(yōu)秀。

圖片

它在「大海撈針」測試上的表現(xiàn)如下:

結(jié)果如下:

圖片

那么之前的Llama系列模型的上下文窗口情況呢?

  • Llama 1,上下文窗口為2k;
  • Llama 2,上下文窗口默認(rèn)為4k,但可以通過微調(diào)等可以拓展到32k;
  • Llama 3,上下文窗口是8k,后來Llama 3.1的長文本能力拓展到了128k。

Meta官方博客中是這么寫的:

(Llama 4的長上下文)開辟了一個充滿可能性的世界,包括多文檔摘要、解析廣泛的用戶活動以執(zhí)行個性化任務(wù)以及對龐大的代碼庫進(jìn)行推理。

原生多模態(tài)設(shè)計

Llama 4系列,開啟了Llama的原生多模態(tài)時代。

而已經(jīng)公開對外的中杯和大杯,被官方稱為“輕量級原生多模態(tài)模型”。

給用戶的體驗就是,上傳一張圖片,可以直接在對話框中提問關(guān)于這張圖片的各種問題。

不是我說,Llama終于長眼睛了?。?!

上面這張動圖展示的僅僅是最基礎(chǔ)的,“為難”程都升級也不怕。

比如喂它一張鋪滿工具的圖片,問它哪些適合來干某個活。

它會很快地把適用的工具圈出來:

圖片

要認(rèn)顏色+認(rèn)小鳥,也沒在怕的:

圖片

中杯和大杯都在官方介紹中被打上了“世界上同類產(chǎn)品中最好的多模態(tài)模型”的tag。

來看和Llama系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite的對比結(jié)果——

可以看到,在各個測評集上的表現(xiàn),Llama 4 Scout樣樣都是新SOTA。

圖片

語言天賦Max

經(jīng)過了預(yù)訓(xùn)練和微調(diào)的Llama 4,掌握全球12種語言,以此“方便全球開發(fā)者的部署”。

比DeepSeek更狠的“AI模型拼多多”

一定要跟大家分享的一個細(xì)節(jié),Meta這次在模型API價格方面,下狠手了!

先說結(jié)果:

系列超大杯Llama 4 Maverick,不僅超越了同類型號其它模型,價格還非常之美麗。

圖片

更直觀地來看這張表格,真的狠過DeepSeek——從性能到價格各個緯度。

圖片

要知道,超大杯Llama 4 Behemoth屬于是Llama 4系列的教師模型。

如果說中杯和大杯是輕量級選手,這位就是絕對的重磅玩家。

288B激活參數(shù),16個專家模型。

最重要的是,它的總參數(shù)量高達(dá)2000B!

在數(shù)學(xué)、多語言和圖像基準(zhǔn)測試中,它提供了非推理模型的最先進(jìn)性能。

圖片

當(dāng)“最?!焙汀白畋阋恕睌[在一起的時候,試問哪位開發(fā)者會不心動?(doge)

訓(xùn)練細(xì)節(jié)

用他們自己的話來說,Llama系列是進(jìn)行了徹底的重新設(shè)計。目前第一組LIama 4系列模型,他們也公布了具體的訓(xùn)練細(xì)節(jié)。

預(yù)訓(xùn)練

他們首次使用混合專家MoE架構(gòu),在MoE架構(gòu)中,單個token僅激活總參數(shù)的一小部分。MoE架構(gòu)在訓(xùn)練和推理方面具有更高的計算效率,固定訓(xùn)練FLOP成本情況下質(zhì)量更高。

圖片

比如,Llama 4Maverick模型有17B個激活參數(shù)和400B個總參數(shù)。他們使用交替的密集層和混合專家(MoE)層來提高推理效率。

MoE層使用128位路由(Routed)專家和一位共享專家。每個令牌都會發(fā)送給共享專家以及128位路由(Routed)專家之一。

因此,雖然所有參數(shù)都存儲在內(nèi)存中,但在為這些模型提供服務(wù)時,只有總參數(shù)的子集被激活。

這通過降低模型服務(wù)成本和延遲來提高推理效率——Llama 4 Maverick 可以在單個H100 DGX主機上運行,以便于部署,也可以通過分布式推理實現(xiàn)最高效率。

他們早期融合,將文本和視覺token無縫集成到統(tǒng)一模型中。

他們開發(fā)了一種新的訓(xùn)練技術(shù):MetaP,可以設(shè)置關(guān)鍵模型超參數(shù),比如每層的學(xué)習(xí)率和初始化尺度。

結(jié)果發(fā)現(xiàn),所選的超參數(shù)能在批量大小、模型寬度、深度和訓(xùn)練token的不同值之間很好地擴展和泛化——

Llama 4通過在200種語言(包括100多種語言,每種語言有超過10億個詞庫)上進(jìn)行預(yù)訓(xùn)練,實現(xiàn)了開源微調(diào)工作,多語言詞庫總量是Llama 3的10倍。

此外,他們使用FP8精度進(jìn)行高效模型訓(xùn)練,同時不犧牲質(zhì)量并確保模型 FLOPs的高利用率—在使用FP8和32K GPU 預(yù)訓(xùn)練 Llama 4 Behemoth模型時,結(jié)果他們實現(xiàn)了390TFLOPs/GPU。

用于訓(xùn)練的整體混合數(shù)據(jù)包括30多萬億個token,是Llama 3預(yù)訓(xùn)練混合物的兩倍多,其中包括各種文本、圖像和視頻數(shù)據(jù)集。

在所謂的“中期訓(xùn)練”中繼續(xù)訓(xùn)練模型,通過新的訓(xùn)練方法(包括使用專業(yè)數(shù)據(jù)集進(jìn)行長上下文擴展)來提高模型的核心功能。

后訓(xùn)練

后訓(xùn)練階段,他們提出一個課程策略,與單個模式專家模型相比,該策略不會犧牲性能。

在Llama 4中,采用了一種不同的方法來改造我們的后期訓(xùn)練管道:

輕量級監(jiān)督微調(diào)(SFT)>在線強化學(xué)習(xí)(RL)>輕量級直接偏好優(yōu)化 (DPO)。

一個關(guān)鍵的教訓(xùn)是,SFT和DPO可能會過度約束模型,限制在線強化學(xué)習(xí)階段的探索,并導(dǎo)致精度降低,尤其是在推理、編碼和數(shù)學(xué)領(lǐng)域。

為了解決這個問題,他們使用Llama模型作為評判標(biāo)準(zhǔn),刪除了50%以上被標(biāo)記為簡單的數(shù)據(jù),并對剩余的較難數(shù)據(jù)集進(jìn)行了輕量級SFT處理。

在隨后的在線強化學(xué)習(xí)階段,通過仔細(xì)選擇較難的提示,我們實現(xiàn)了性能上的飛躍。

此外,他們還實施了一種連續(xù)的在線強化學(xué)習(xí)策略,即交替訓(xùn)練模型,然后利用模型不斷過濾并只保留中等難度到較高難度的提示。事實證明,這種策略在計算量和準(zhǔn)確性的權(quán)衡方面非常有利。

然后,他們采用輕量級DPO來處理與模型響應(yīng)質(zhì)量相關(guān)的拐角情況,從而有效地在模型的智能性和對話能力之間實現(xiàn)了良好的平衡。流水線架構(gòu)和帶有自適應(yīng)數(shù)據(jù)過濾功能的連續(xù)在線RL策略,最后造就了現(xiàn)在的LIama 4。

總結(jié)來看,Llama 4架構(gòu)的一項關(guān)鍵創(chuàng)新是使用交錯注意力層,而無需位置嵌入。此外,他們還采用了注意力推理時間溫度縮放來增強長度泛化。

這些他們稱之為iRoPE架構(gòu),其中“i”代表 “交錯 ”注意力層,突出了支持 “無限”上下文長度的長期目標(biāo),而 “RoPE ”指的是大多數(shù)層中采用的旋轉(zhuǎn)位置嵌入。

Llama 4 Behemoth

最后,他們還透露了超大模型Llama 4 Behemoth一些蒸餾和訓(xùn)練細(xì)節(jié)。

我們開發(fā)了一種新穎的蒸餾損失函數(shù),可通過訓(xùn)練動態(tài)加權(quán)軟目標(biāo)和硬目標(biāo)。

預(yù)訓(xùn)練階段,Llama 4 Behemoth的代碼蒸餾功能可以攤銷學(xué)生訓(xùn)練中使用的大部分訓(xùn)練數(shù)據(jù)計算蒸餾目標(biāo)所需的資源密集型前向傳遞的計算成本。對于納入學(xué)生訓(xùn)練的其他新數(shù)據(jù),他們在Behemoth模型上運行前向傳遞,以創(chuàng)建蒸餾目標(biāo)。

后訓(xùn)練階段,為了最大限度地提高性能,他們刪減了95%的SFT數(shù)據(jù),而小型模型只需刪減50%的數(shù)據(jù),以實現(xiàn)對質(zhì)量和效率的必要關(guān)注。

他們在進(jìn)行輕量級SFT后,再進(jìn)行大規(guī)模強化學(xué)習(xí)(RL),模型的推理和編碼能力會有更顯著的提高。

強化學(xué)習(xí)方法側(cè)重于通過對策略模型進(jìn)行pass@k分析來抽取高難度提示,并根據(jù)提示難度的增加精心設(shè)計訓(xùn)練課程。

此外還發(fā)現(xiàn),在訓(xùn)練過程中動態(tài)過濾掉優(yōu)勢為零的提示語,并構(gòu)建包含多種能力的混合提示語的訓(xùn)練批次,有助于提高數(shù)學(xué)、推理和編碼的性能。最后,從各種系統(tǒng)指令中取樣對于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務(wù)中表現(xiàn)出色至關(guān)重要。

由于其規(guī)??涨?,要為兩萬億個參數(shù)模型擴展RL,還需要改造底層RL基礎(chǔ)設(shè)施。

他們優(yōu)化了MoE并行化的設(shè)計,從而加快了迭代速度;并開發(fā)了一個完全異步的在線RL訓(xùn)練框架,提高了靈活性。

現(xiàn)有的分布式訓(xùn)練框架會犧牲計算內(nèi)存以將所有模型堆疊在內(nèi)存中,相比之下,他們新基礎(chǔ)架構(gòu)能夠?qū)⒉煌P挽`活分配到不同GPU上,并根據(jù)計算速度在多個模型之間平衡資源。

與前幾代產(chǎn)品相比,這一創(chuàng)新使訓(xùn)練效率提高了約10倍。

One More Thing

要知道,由于昨天DeepSeek發(fā)了新論文,搞得奧特曼都坐不住了,趕緊出來發(fā)聲:

計劃改變:我們可能在幾周之后先發(fā)布o(jì)3和o4-mini。GPT-5就在幾個月后啊~

但,誰知道半路又殺出個Llama 4?!

前有猛虎,后有豺狼,OpenAI你真的得加油了……

網(wǎng)友調(diào)侃道,當(dāng)奧特曼一睜眼,看到Llama 4來了,而且Llama 4的成本比GPT-4.5降低了3個數(shù)量級后——

他的狀態(tài)一定是醬嬸兒的:

以及相比Llama,現(xiàn)在可能神秘低調(diào)的DeepSeek,可能不知道什么時候突然就會推出DeepSeek R2和V4…同在杭州的通義千問也干勁十足,Llama也好GPT也好,基本成為平行參考了。

太平洋這頭,已經(jīng)開始落地應(yīng)用和智能體了。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-04-07 07:00:00

2024-11-21 12:09:26

2016-11-16 15:17:06

APP開發(fā)移動應(yīng)用

2015-07-27 10:24:01

蘋果中國

2018-03-26 10:56:04

2013-02-25 10:11:35

4GLTE商用網(wǎng)絡(luò)

2020-12-04 10:11:26

Unsafejava并發(fā)包

2024-03-15 08:30:00

AI數(shù)據(jù)

2023-10-21 12:42:19

模型訓(xùn)練

2016-12-16 13:07:30

云存儲運營混合云

2011-02-22 17:33:36

Windows Pho

2025-04-15 08:50:01

DeepSeek模型AI

2010-09-17 16:21:33

系統(tǒng)升級

2012-06-19 09:34:15

2024-03-27 13:31:00

模型AI

2023-02-25 21:45:55

模型AI

2013-11-27 15:48:56

移動中間件廠商

2018-06-03 08:49:21

2013-12-10 09:15:46

FedoraFedora 20

2021-06-23 15:39:40

模型人工智能計算
點贊
收藏

51CTO技術(shù)棧公眾號