自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Llama 4開(kāi)源王者歸來(lái)!推理、編碼打平DeepSeek V3但參數(shù)減一半,一張H100就能跑,還有巨獸2萬(wàn)億參數(shù)模型! 原創(chuàng)

發(fā)布于 2025-4-6 18:54
瀏覽
0收藏

編輯 | 李美涵

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

深夜,Meta如期發(fā)布了全新的開(kāi)源大型模型系列——Llama 4,并未出現(xiàn)任何“跳票”傳聞中的推遲情況!

Llama 4開(kāi)源王者歸來(lái)!推理、編碼打平DeepSeek V3但參數(shù)減一半,一張H100就能跑,還有巨獸2萬(wàn)億參數(shù)模型!-AI.x社區(qū)圖片

此次發(fā)布也標(biāo)志著Meta與近來(lái)崛起的開(kāi)源新王 DeepSeek 正面硬鋼。Meta官推更是表示:表示:“今天開(kāi)啟了原生多模態(tài)AI創(chuàng)新的新時(shí)代”。

Llama 4共有三款模型,Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。全部具備多模態(tài)處理能力,能夠原生支持文本、圖像和視頻等多種輸入形式。

Llama 4開(kāi)源王者歸來(lái)!推理、編碼打平DeepSeek V3但參數(shù)減一半,一張H100就能跑,還有巨獸2萬(wàn)億參數(shù)模型!-AI.x社區(qū)圖片

Llama 4 系列包含三款定位各異的模型,覆蓋從單機(jī)部署到超大規(guī)模推理的不同需求:

  • Llama 4 Scout:小型高性能模型,約17B的活躍參數(shù),背后由16個(gè)專(zhuān)家模型組成,總參數(shù)量109B。Scout原生支持多模態(tài),擁有業(yè)界領(lǐng)先的1000萬(wàn)Token上下文窗口,相當(dāng)于可一次處理約15,000頁(yè)文檔的內(nèi)容。如此驚人的上下文長(zhǎng)度使其特別擅長(zhǎng)長(zhǎng)文檔摘要、大型代碼庫(kù)分析等任務(wù)。值得一提的是,Scout能夠在單張NVIDIA H100 GPU上運(yùn)行(經(jīng)INT4量化),部署非常方便,這體現(xiàn)了Meta對(duì)模型易用性的重視。
  • Llama 4 Maverick:中等規(guī)模的旗艦多模態(tài)模型,17B活躍參數(shù)由128個(gè)專(zhuān)家模型提供支持,總參數(shù)規(guī)模達(dá)400B。Maverick面向通用對(duì)話和推理任務(wù),被Meta稱(chēng)為“同級(jí)別中全球最好的多模態(tài)模型”,在多個(gè)基準(zhǔn)上超越了OpenAI的GPT-4o和Google的Gemini 2.0等對(duì)標(biāo)模型。與新發(fā)布的 DeepSeek v3.1(45.8B活躍參數(shù))相比,Maverick以不到一半的活躍參數(shù)量達(dá)到相當(dāng)?shù)耐评砼c編碼性能。它支持100萬(wàn)Token上下文(約1,500頁(yè)文本),在代碼生成、復(fù)雜問(wèn)答等領(lǐng)域表現(xiàn)優(yōu)異。據(jù)Meta介紹,Maverick可以在單臺(tái)配備8卡H100的DGX服務(wù)器上完成推理。
  • Llama 4 Behemoth:真正的“巨獸”級(jí)模型,擁有288B活躍參數(shù),16個(gè)專(zhuān)家模型,總參數(shù)量接近2萬(wàn)億。Behemoth是Meta迄今訓(xùn)練的最強(qiáng)大模型,被視作新一代模型的“教師”或奠基模型。根據(jù)Meta內(nèi)部測(cè)試,Behemoth在許多科學(xué)、數(shù)學(xué)基準(zhǔn)上表現(xiàn)超群,性能碾壓同類(lèi)AI產(chǎn)品。例如,它在MATH-500數(shù)學(xué)競(jìng)賽數(shù)據(jù)集上的得分高達(dá)95.0,在復(fù)雜問(wèn)答基準(zhǔn)GPQA上也遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手。

不過(guò),由于訓(xùn)練難度極高,Llama 4 Behemoth目前仍在訓(xùn)練過(guò)程中,尚未正式開(kāi)放下載。而Scout和Maverick兩款模型則已經(jīng)開(kāi)放下載,可通過(guò)官方提供的Llama.com網(wǎng)站或Hugging Face獲取。

業(yè)界對(duì)Llama 4給予了高度評(píng)價(jià),英偉達(dá)高級(jí)研究經(jīng)理 Jim Fan 指出,“對(duì)于開(kāi)源模型而言,易于部署正變得比一味追求模型規(guī)模更重要”。

Llama 4開(kāi)源王者歸來(lái)!推理、編碼打平DeepSeek V3但參數(shù)減一半,一張H100就能跑,還有巨獸2萬(wàn)億參數(shù)模型!-AI.x社區(qū)圖片

Llama 4 :Meta 首批MoE架構(gòu)模型

與前代模型不同,Llama 4 系列在架構(gòu)上進(jìn)行了徹底的重新設(shè)計(jì)。三款模型全部采用了當(dāng)前炙手可熱的Mixture of Experts(MoE,專(zhuān)家混合)架構(gòu),成為Meta首批大規(guī)模MoE模型。MoE的核心思想是將許多子模型(“專(zhuān)家”)集成到一個(gè)統(tǒng)一架構(gòu)中,由一個(gè)路由(Router)網(wǎng)絡(luò)在每次處理請(qǐng)求時(shí)動(dòng)態(tài)選擇少數(shù)幾個(gè)相關(guān)“專(zhuān)家”參與推理,從而避免每次都動(dòng)用模型的全部參數(shù)。

這種稀疏激活機(jī)制帶來(lái)了巨大的效率優(yōu)勢(shì)。正如Meta在博客中解釋的那樣,Llama 4模型的所有參數(shù)雖然都常駐內(nèi)存,但實(shí)際推理時(shí)每個(gè)token只需激活一小部分參數(shù)。例如,擁有400B總參數(shù)的Llama 4 Maverick,每次推理僅需調(diào)用其中約17B的活躍參數(shù)(128個(gè)專(zhuān)家中每次只用到少數(shù)幾個(gè))據(jù)Meta估算,Maverick的推理開(kāi)銷(xiāo)約為每百萬(wàn)Token 0.19~0.49美元,而同等能力的封閉模型GPT-4o大約需要4.38美元——前者性?xún)r(jià)比高出一個(gè)數(shù)量級(jí)。在這樣的優(yōu)化下,Maverick甚至可在單機(jī)(8卡)H100服務(wù)器上運(yùn)行完成推理,通過(guò)分布式推理則能進(jìn)一步提升吞吐。

小型的Scout更是能在單卡H100上跑通,極大降低了應(yīng)用門(mén)檻??梢哉f(shuō),MoE架構(gòu)使Llama 4系列在保障性能的同時(shí),將推理效率推向了新高度。

Meta首個(gè)原生多模態(tài)的大模型系列

除了架構(gòu)上的MoE革新,Llama 4還是Meta首個(gè)原生多模態(tài)的大模型系列。與上一代純文本的Llama 3不同,Llama 4 從訓(xùn)練之初就融合了文本、圖像、視頻三種模態(tài)的數(shù)據(jù)。

Meta并未簡(jiǎn)單地在模型后期“拼接”視覺(jué)模塊,而是采用了早期融合(Early Fusion)策略,將圖像像素、視頻幀等信息編碼為特征向量后,與文本Token一同輸入統(tǒng)一的Transformer-MoE架構(gòu)中聯(lián)合訓(xùn)練。據(jù)透露,Llama 4 在預(yù)訓(xùn)練時(shí)一次可輸入多達(dá)48張圖像或視頻幀與文本混合,使模型學(xué)會(huì)在多模態(tài)信息之間建立聯(lián)系。在實(shí)際能力上,Llama 4 可以同時(shí)處理多張圖片并理解其中的語(yǔ)義關(guān)聯(lián)。

例如,對(duì)于給定的一組圖片加上文本提示,它能夠輸出語(yǔ)義一致的回答,甚至解釋一張搞笑圖片“有趣在哪兒”,或推理多幅圖表的下一步演變。

Llama 4開(kāi)源王者歸來(lái)!推理、編碼打平DeepSeek V3但參數(shù)減一半,一張H100就能跑,還有巨獸2萬(wàn)億參數(shù)模型!-AI.x社區(qū)圖片

需要指出的是,Llama 4 當(dāng)前尚未涉及音頻/語(yǔ)音模態(tài),這可能是未來(lái)版本的拓展方向。

綜合來(lái)看,原生多模態(tài)+MoE是Llama 4架構(gòu)的兩大亮點(diǎn)。一方面,MoE大幅提升了模型的推理效率和可擴(kuò)展性,讓超長(zhǎng)上下文和超大參數(shù)成為可能;另一方面,原生多模態(tài)訓(xùn)練賦予模型同時(shí)理解圖文視頻的能力,使其在視覺(jué)問(wèn)答、多模態(tài)推理等任務(wù)上具有天然優(yōu)勢(shì)。正因如此,Meta在官方博客中將Llama 4譽(yù)為“全新的原生多模態(tài)AI創(chuàng)新時(shí)代的開(kāi)端”。

超低價(jià)API,Meta也要拼性?xún)r(jià)比了

Meta官方寫(xiě)道,Llama 4 Maverick 超越了同類(lèi)模型,為開(kāi)發(fā)者提供了無(wú)與倫比的性能與價(jià)值。

從圖上看Llama 4 Maverick提供了比AI界拼多多DeepSeek更有吸引力的價(jià)格。

Llama 4開(kāi)源王者歸來(lái)!推理、編碼打平DeepSeek V3但參數(shù)減一半,一張H100就能跑,還有巨獸2萬(wàn)億參數(shù)模型!-AI.x社區(qū)圖片

成本的降低與Llama 4的升級(jí)的訓(xùn)練策略密不可分。

Llama 4是如何煉成的?

在訓(xùn)練策略上,Meta為L(zhǎng)lama 4系列量身定制了一套全新方案,以充分發(fā)掘模型潛力并控制巨大的訓(xùn)練成本。

首先,Meta在監(jiān)督微調(diào)(SFT)數(shù)據(jù)上進(jìn)行了大幅“瘦身”。他們剔除了50%以上的簡(jiǎn)單提示,只保留相對(duì)困難、有挑戰(zhàn)性的指令和問(wèn)題進(jìn)行微調(diào)。這是因?yàn)閷?duì)于像Behemoth這樣超強(qiáng)的模型而言,過(guò)于簡(jiǎn)單的樣本已無(wú)法提供有效學(xué)習(xí)價(jià)值,反而可能讓模型養(yǎng)成敷衍應(yīng)付的習(xí)慣。據(jù)悉,Meta采用了一種“自我批判”式的數(shù)據(jù)篩選方法:利用模型早期訓(xùn)練的checkpoint充當(dāng)“批評(píng)家”,自動(dòng)評(píng)估標(biāo)注數(shù)據(jù)中哪些樣本太過(guò)簡(jiǎn)單冗余,并將它們過(guò)濾掉。這一過(guò)程相當(dāng)于讓模型“自己批改作業(yè)”,確保留在訓(xùn)練環(huán)節(jié)中的都是能推動(dòng)模型進(jìn)步的高質(zhì)量數(shù)據(jù)。

其次,在微調(diào)之后的強(qiáng)化學(xué)習(xí)階段,Meta引入漸進(jìn)式強(qiáng)化學(xué)習(xí)循環(huán)來(lái)提高模型性能。具體而言,他們逐步提升訓(xùn)練過(guò)程中提示的復(fù)雜度和多樣性,模擬從易到難的“課程學(xué)習(xí)(curriculum learning)”過(guò)程。一開(kāi)始模型接受相對(duì)簡(jiǎn)單的強(qiáng)化學(xué)習(xí)任務(wù),隨著能力提高,再逐步增加任務(wù)難度,如此循環(huán)往復(fù)。這種多階段的訓(xùn)練避免了一次性給模型過(guò)大壓力,又能不斷挑戰(zhàn)模型的上限,讓Llama 4在推理、編碼等復(fù)雜任務(wù)上獲得顯著提升。

另一個(gè)重大創(chuàng)新是Meta自研的MetaP技術(shù)。這是一種全新的超參數(shù)智能調(diào)節(jié)方法,旨在讓不同規(guī)模的模型在訓(xùn)練時(shí)保持行為一致。簡(jiǎn)單來(lái)說(shuō),MetaP可以將小模型上調(diào)試出的優(yōu)化超參數(shù)(如分層學(xué)習(xí)率等)推廣應(yīng)用到大模型上,使得后者無(wú)需從零開(kāi)始反復(fù)試錯(cuò)。

這一突破大幅提高了訓(xùn)練效率——研究人員只需在較小的模型上嘗試找到理想的配置,然后直接在龐大的Behemoth上采用類(lèi)似策略即可。據(jù)業(yè)內(nèi)專(zhuān)家評(píng)價(jià):“這能省下大量時(shí)間和資金——不必在大模型上反復(fù)試錯(cuò)”。在Llama 4 Behemoth的訓(xùn)練中,MetaP發(fā)揮了關(guān)鍵作用:由于Behemoth規(guī)??涨埃ú捎肍P8精度,調(diào)用多達(dá)32,000顆GPU,訓(xùn)練了超過(guò)30萬(wàn)億個(gè)token),通過(guò)MetaP的指導(dǎo),Meta團(tuán)隊(duì)才能在有限的試驗(yàn)預(yù)算內(nèi)成功完成訓(xùn)練。不僅如此,MetaP還幫助不同模態(tài)的token在訓(xùn)練中達(dá)到更好的均衡,使多模態(tài)融合更加順暢。

寫(xiě)在最后

Llama 4的按時(shí)發(fā)布和卓越表現(xiàn),不僅是Meta自身的重要里程碑,也為整個(gè)AI行業(yè)的發(fā)展方向提供了啟示。展望未來(lái),我們不禁要問(wèn):下一代的GPT-5、DeepSeek R2等重量級(jí)模型,是否還會(huì)堅(jiān)持“Reasoning First(推理優(yōu)先)”的技術(shù)路線?亦或是在推理能力與模型規(guī)模之間尋求新的平衡?

從當(dāng)前動(dòng)向看,“大而通用”與“深度思考”這兩條路線或?qū)⒅饾u融合。OpenAI方面,盡管GPT-4已經(jīng)展現(xiàn)出強(qiáng)大的通用能力,但在明確的鏈?zhǔn)酵评砩先杂刑嵘臻g,可以預(yù)期GPT-5將進(jìn)一步強(qiáng)化模型的內(nèi)在邏輯推理與工具使用能力,以應(yīng)對(duì)越來(lái)越復(fù)雜的任務(wù)需求。而DeepSeek作為開(kāi)源陣營(yíng)的異軍突起,其R1模型證明了小模型通過(guò)自我進(jìn)化也能掌握復(fù)雜推理,這一理念很可能會(huì)延續(xù)到DeepSeek R2,并通過(guò)與大模型DeepSeek V3的結(jié)合,形成規(guī)模+推理兼?zhèn)涞男路妒健?/p>

就像谷歌CEO今天所感嘆的那樣:AI世界,從不平淡。讓我們拭目以待吧。

?本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:李美涵

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-4-7 11:31:15修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦