Meta放大招!Llama 4三大模型來襲,開源免費還超能打 原創(chuàng) 精華
最近,AI領(lǐng)域又掀起了一陣波瀾!Meta AI一次性推出了三款全新的Llama 4模型,直接把開源AI的“戰(zhàn)火”燒到了新的高度。在這個大家都忙著堆砌“閉源大模型”的時代,Meta卻選擇了另一條路:把強大的AI能力免費開源,讓每個人都能用上。今天,咱們就來好好盤一盤這三款Llama 4模型,看看它們到底有多厲害!
Llama 4家族:各有千秋的“三兄弟”
Meta這次推出的Llama 4家族,包括Scout、Maverick和Behemoth三款模型。這三款模型各有特點,從輕量級部署到企業(yè)級推理,幾乎涵蓋了所有應(yīng)用場景。最關(guān)鍵的是,Scout和Maverick已經(jīng)對公眾開放,大家可以免費使用!
Llama 4 Scout:小而精,快且強
Scout是Llama 4家族里最“小巧”的一個,但它可一點都不簡單。這是一款專為輕量級應(yīng)用設(shè)計的模型,特別適合那些沒有強大GPU集群的開發(fā)者和研究人員。
- 架構(gòu):Scout采用了“專家混合”(MoE)架構(gòu),總共有16個專家模塊,每次只激活其中的2個,這樣在推理時就能保持高效。雖然它的總參數(shù)量有1090億,但實際激活的參數(shù)只有170億,而且它支持長達1000萬token的上下文窗口,這在所有開源大模型里都是最長的。
- 效率:Scout的運行效率非常高,只需要一塊H100 GPU,通過Int4量化就能輕松運行。這意味著,即使硬件條件有限,也能享受到高性能的AI服務(wù)。
- 性能:別看Scout“身材小”,它的性能可一點都不弱。在基準測試中,Scout輕松超過了Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1等同級別模型。
- 訓(xùn)練:Scout的訓(xùn)練過程也非?!昂廊A”。它在200種語言上進行了預(yù)訓(xùn)練,其中100種語言的數(shù)據(jù)量都超過10億token。而且,它還支持多達8張圖片的輸入,能夠處理復(fù)雜的圖像和視頻數(shù)據(jù)。
- 應(yīng)用場景:Scout的長處在于處理長文本和圖像推理任務(wù)。比如,它可以用來開發(fā)長記憶聊天機器人、代碼總結(jié)工具、教育問答機器人,甚至還能優(yōu)化移動設(shè)備或嵌入式系統(tǒng)上的AI助手。
Llama 4 Maverick:旗艦級的全能選手
如果Scout是家族里的“小鋼炮”,那么Maverick就是“全能旗艦”。Maverick在推理能力、編碼能力和多模態(tài)應(yīng)用上都表現(xiàn)出色,是Llama 4家族的“門面擔(dān)當(dāng)”。
- 架構(gòu):Maverick同樣采用了MoE架構(gòu),不過它有128個路由專家模塊和一個共享專家模塊。在推理時,它只激活170億參數(shù),總參數(shù)量達到了4000億。而且,它支持文本和圖像的早期融合輸入,能夠同時處理多達8張圖片。
- 效率:Maverick的運行效率也非常高,可以在單個H100 DGX主機上運行,也可以擴展到多個GPU上。這意味著,它既可以滿足單機用戶的需求,也能適應(yīng)大規(guī)模企業(yè)級應(yīng)用。
- 性能:Maverick在多個基準測試中都取得了優(yōu)異的成績。在LMSYS聊天機器人競技場中,它的ELO得分達到了1417,超過了GPT-4o和Gemini 2.0 Flash,與DeepSeek v3.1在推理、編碼和多語言能力上不相上下。
- 訓(xùn)練:Maverick的訓(xùn)練過程更是“黑科技”滿滿。它采用了MetaP超參數(shù)縮放、FP8精度訓(xùn)練等先進技術(shù),并且使用了30萬億token的數(shù)據(jù)集進行訓(xùn)練。這些技術(shù)讓Maverick在圖像理解、多語言推理和成本效率上都超越了Llama 3.3 700億模型。
- 應(yīng)用場景:Maverick的強大能力讓它在多個領(lǐng)域都能大展身手。比如,它可以用于AI輔助編程、企業(yè)級文檔理解,甚至還能開發(fā)教育輔導(dǎo)系統(tǒng)。
Llama 4 Behemoth:幕后“導(dǎo)師”
雖然Behemoth是Llama 4家族里最大的一個,但它并不對外開放。不過,它在訓(xùn)練Scout和Maverick的過程中發(fā)揮了關(guān)鍵作用。
- 架構(gòu):Behemoth是Meta迄今為止最大的模型,采用了MoE架構(gòu),有16個專家模塊,在推理時激活2880億參數(shù),總參數(shù)量接近2萬億。它天生就是多模態(tài)的,在推理、數(shù)學(xué)和視覺語言任務(wù)上表現(xiàn)出色。
- 性能:Behemoth在多個STEM基準測試中都超過了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro,比如MATH-500、GPQA Diamond和BIG-bench等。
- 角色:Behemoth的主要作用是作為“導(dǎo)師”,通過共蒸餾(co-distillation)的方式指導(dǎo)Scout和Maverick的訓(xùn)練。它引入了一種新的損失函數(shù),動態(tài)平衡軟監(jiān)督和硬監(jiān)督目標,讓Scout和Maverick能夠更好地學(xué)習(xí)。
- 訓(xùn)練:Behemoth的訓(xùn)練過程更是“硬核”。它采用了FP8精度訓(xùn)練、優(yōu)化的MoE并行化技術(shù),讓訓(xùn)練速度比Llama 3快了10倍。此外,它還引入了新的強化學(xué)習(xí)策略,包括硬提示采樣、多能力批量構(gòu)建和多種系統(tǒng)指令采樣。
如何使用Llama 4模型?
好消息是,現(xiàn)在你已經(jīng)可以通過多種方式輕松使用Llama 4模型了,無論你是想做研究、開發(fā)應(yīng)用,還是單純想試試它的能力。
- llama.meta.com:這是Meta官方的Llama模型中心,提供了模型卡片、論文、技術(shù)文檔,以及Scout和Maverick的開源權(quán)重。開發(fā)者可以下載這些模型,然后在本地或云端運行。
- Hugging Face:Hugging Face也提供了Llama 4的即用版本。你可以直接在瀏覽器中通過推理端點測試這些模型,或者通過Transformers庫進行部署。此外,它還支持與Gradio和Streamlit等常見工具的集成。
- Meta應(yīng)用:Llama 4模型還為Meta旗下的WhatsApp、Instagram、Messenger和Facebook等應(yīng)用提供了AI助手功能。這意味著,你可以在這些日常應(yīng)用中直接體驗Llama 4模型的強大能力。
- 網(wǎng)頁界面:你也可以直接通過網(wǎng)頁界面訪問最新的Llama 4模型,測試它的能力。
Llama 4模型實戰(zhàn)測試
說了這么多,咱們也來實際測試一下Llama 4模型的能力。雖然Meta目前沒有明確說明在應(yīng)用或網(wǎng)頁界面中使用的是哪一款模型(Scout、Maverick還是Behemoth),但我們可以嘗試一些常見的任務(wù),看看它的表現(xiàn)如何。
任務(wù)1:創(chuàng)意規(guī)劃
提示:“為一個名為‘Soles’的鞋類品牌創(chuàng)建一個社交媒體內(nèi)容策略,幫助他們吸引Z世代的用戶?!?/p>
輸出:Llama 4模型很快生成了一份詳細但簡潔的社交媒體策略。不過,目前在網(wǎng)頁界面中還不能上傳文件或圖片,而且它也不支持網(wǎng)絡(luò)搜索或畫布功能。
觀察:Llama 4模型的響應(yīng)速度非常快,能夠迅速生成一份有針對性的策略。
任務(wù)2:代碼生成
提示:“編寫一個Python程序,展示一個球在一個旋轉(zhuǎn)的五邊形內(nèi)彈跳,遵循物理定律,并且每次彈跳后速度都會增加?!?/p>
輸出:生成的代碼存在一些錯誤。
觀察:雖然模型能夠快速理解需求,但在代碼生成的準確性上還有待提高。
任務(wù)3:圖像生成
提示:“生成一張圖片,內(nèi)容是一個人在筆記本電腦上工作,電腦屏幕上打開的文檔標題為‘Llama 4’,拍攝角度要能看到屏幕,桌子上還有一杯咖啡和一盆植物?!?/p>
輸出:模型生成了4張圖片,其中一張效果最好。
觀察:Llama 4模型不僅生成了圖片,還提供了“編輯”和“動畫”功能。你可以對圖片進行局部修改,甚至還能生成GIF動圖。
Llama 4模型的訓(xùn)練與優(yōu)化
Meta在訓(xùn)練Llama 4模型時采用了結(jié)構(gòu)化的兩步過程:預(yù)訓(xùn)練和后訓(xùn)練。通過引入一系列新技術(shù),讓這些模型在性能、可擴展性和效率上都得到了顯著提升。
預(yù)訓(xùn)練階段
預(yù)訓(xùn)練是模型知識和能力的基礎(chǔ)。Meta在這一階段引入了多項創(chuàng)新:
- 多模態(tài)數(shù)據(jù):Llama 4模型在超過30萬億token的多樣化文本、圖像和視頻數(shù)據(jù)集上進行了訓(xùn)練。它們天生就是多模態(tài)的,能夠同時處理語言和視覺信息。
- 專家混合(MoE):在每次推理時,模型只激活一部分參數(shù)。這種選擇性激活讓像Maverick(4000億參數(shù))和Behemoth(近2萬億參數(shù))這樣的超大模型能夠更高效地運行。
- 早期融合架構(gòu):文本和視覺輸入通過早期融合進行聯(lián)合訓(xùn)練,將兩者整合到同一個模型框架中。
- MetaP超參數(shù)調(diào)整:這種新技術(shù)讓Meta能夠為每一層設(shè)置學(xué)習(xí)率和初始化規(guī)模,這些參數(shù)可以在不同模型大小和訓(xùn)練配置之間很好地遷移。
- FP8精度:所有模型都采用FP8精度進行訓(xùn)練,這在不犧牲模型質(zhì)量的情況下提高了計算效率。
- iRoPE架構(gòu):這是一種新的方法,使用交錯注意力層,不使用位置嵌入,并在推理時進行溫度縮放,幫助Scout更好地處理長達1000萬token的極長輸入。
后訓(xùn)練階段
在基礎(chǔ)模型訓(xùn)練完成后,Meta團隊通過精心設(shè)計的步驟對模型進行了微調(diào):
- 輕量級監(jiān)督微調(diào)(SFT):Meta使用Llama模型作為“裁判”,篩選出更復(fù)雜的提示,只用這些更難的樣例來微調(diào)模型在復(fù)雜推理任務(wù)上的表現(xiàn)。
- 在線強化學(xué)習(xí)(RL):通過硬提示、自適應(yīng)過濾和課程設(shè)計,持續(xù)進行強化學(xué)習(xí)訓(xùn)練,保持模型在推理、編碼和對話能力上的優(yōu)勢。
- 直接偏好優(yōu)化(DPO):在強化學(xué)習(xí)之后,使用輕量級DPO微調(diào)特定邊緣情況和響應(yīng)質(zhì)量,平衡模型的有用性和安全性。
- Behemoth共蒸餾:Behemoth作為“導(dǎo)師”,為Scout和Maverick生成訓(xùn)練輸出。Meta還引入了一種新的損失函數(shù),動態(tài)平衡軟監(jiān)督和硬監(jiān)督目標。
通過這些步驟,Llama 4模型不僅在規(guī)模上龐大,而且在優(yōu)化、安全性以及廣泛任務(wù)上的能力上都得到了顯著提升。
Llama 4模型的基準測試表現(xiàn)
Meta為Llama 4家族的三款模型都提供了詳細的基準測試結(jié)果。這些結(jié)果不僅展示了每款模型根據(jù)其設(shè)計目標和參數(shù)規(guī)模的表現(xiàn),還在一些新引入的、極具挑戰(zhàn)性和全面性的基準測試中超過了領(lǐng)先的模型。
Llama 4 Scout
作為家族中最小的成員,Scout在注重效率的評估中表現(xiàn)得非常出色:
- ARC(AI2推理挑戰(zhàn)):在常識推理任務(wù)中,Scout在同規(guī)模模型中表現(xiàn)優(yōu)異。
- MMLU Lite:在歷史、基礎(chǔ)科學(xué)和邏輯推理等任務(wù)上表現(xiàn)穩(wěn)定。
- 推理速度:即使在單個H100 GPU上,Scout也能以極低的延遲快速響應(yīng)問答和聊天機器人任務(wù)。
- 代碼生成:Scout在簡單到中級編程任務(wù)上表現(xiàn)出色,非常適合教育編程助手。
- 針尖麥芒(NiH):在長達1000萬token的文本或20小時視頻的長文本任務(wù)中,Scout能夠以近乎完美的精度檢索信息,展現(xiàn)出無與倫比的長期記憶能力。
Llama 4 Maverick
Maverick是為了性能而生,它在各個方面的表現(xiàn)都非常出色:
- MMLU(多任務(wù)語言理解):在知識密集型任務(wù)中,Maverick超過了GPT-4o、Gemini 1.5 Flash和Claude 3 Sonnet。
- HumanEval(代碼生成):在生成功能性代碼和解決算法問題方面,Maverick與GPT-4不相上下,甚至在某些情況下表現(xiàn)更好。
- DROP(段落離散推理):Maverick展現(xiàn)了強大的上下文理解和數(shù)值推理能力。
- VQAv2(視覺問答):在基于圖像的問答任務(wù)中,Maverick表現(xiàn)出色,展現(xiàn)了其卓越的視覺語言能力。
- 針尖麥芒(NiH):在長達100萬token的長文檔中,Maverick能夠以近乎完美的精度檢索隱藏信息,即使在極端上下文深度下也只有少數(shù)遺漏。
Llama 4 Behemoth
雖然Behemoth并不對公眾開放,但它作為Meta最強大的評估基準,為其他模型的蒸餾和指導(dǎo)發(fā)揮了關(guān)鍵作用:
- 內(nèi)部STEM基準測試:在科學(xué)、數(shù)學(xué)和推理方面,Behemoth在Meta內(nèi)部測試中位居榜首。
- SuperGLUE和BIG-bench:Behemoth在這些測試中也取得了內(nèi)部最高分,反映了其尖端的語言建模能力。
- 視覺語言整合:在需要結(jié)合文本和圖像理解的任務(wù)中,Behemoth的表現(xiàn)往往超過了所有已知的公開模型。
這些基準測試結(jié)果清楚地展示了每款模型在其角色中的優(yōu)勢:Scout以速度和效率著稱,Maverick在性能和通用任務(wù)上表現(xiàn)出色,而Behemoth則作為研究級別的“導(dǎo)師”模型,用于蒸餾和評估。
如何選擇合適的Llama 4模型?
雖然Llama 4家族的三款模型各有特色,但它們也各有適用場景。下面是一個簡單的對比總結(jié),幫助你找到最適合你任務(wù)的Llama 4模型:
模型名稱 | 總參數(shù)量 | 激活參數(shù)量 | 專家模塊數(shù)量 | 上下文長度 | 運行環(huán)境 | 公開訪問 | 適用場景 |
Scout | 1090億 | 170億 | 16 | 1000萬token | 單個H100 GPU | ? | 輕量級AI任務(wù)、長記憶應(yīng)用 |
Maverick | 4000億 | 170億 | 128 | 未列出 | 單個或多個GPU | ? | 研究、編碼、企業(yè)級應(yīng)用 |
Behemoth | 約2萬億 | 2880億 | 16 | 未列出 | 內(nèi)部基礎(chǔ)設(shè)施 | ? | 內(nèi)部蒸餾 + 基準測試 |
結(jié)語
Llama 4的發(fā)布,不僅僅是Meta的一次技術(shù)突破,更是開源AI領(lǐng)域的一次重大變革。這些模型不僅強大、高效,而且完全開源免費。開發(fā)者們再也不需要巨額預(yù)算就能用上頂尖的AI技術(shù)。從小微企業(yè)到大型企業(yè),從課堂到研究實驗室,Llama 4讓尖端AI技術(shù)觸手可及。在這個AI飛速發(fā)展的時代,開源不再是配角,而是未來的發(fā)展方向。而Meta,正是這個方向的有力推動者!
希望這篇文章能讓你對Meta的Llama 4模型有更深入的了解!如果你對這些模型感興趣,不妨親自去試試它們的能力,說不定能給你的項目帶來新的靈感呢!
本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯
