自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLaMA 4來了 | 千呼萬喚始出來,猶抱琵琶半遮面 | 不盡如人意 精華

發(fā)布于 2025-4-7 00:04
瀏覽
0收藏

開源世界的期待與漣漪 

人工智能的浪潮奔涌向前,Meta的Llama系列一直扮演著特殊的角色?;叵隠lama 2的橫空出世和開源姿態(tài),極大地降低了高性能大模型的門檻,在全球范圍內(nèi)點燃了研究和應用的熱情,催生了無數(shù)創(chuàng)新,其影響力至今仍在激蕩。相較之下,Llama 3的發(fā)布雖然帶來了性能提升,但在社區(qū)看來,似乎少了些 Llama 2那樣的顛覆性震撼,更像是一次穩(wěn)健但略顯保守的迭代。

在這樣的背景下,Llama 4的發(fā)布承載了社區(qū)極高的期待。4月6日大周末的,Llama 4發(fā)布了。然而,在看完Meta的官方博文文章后,我總體感覺是“千呼萬喚始出來,猶抱琵琶半遮面”。那么它帶來了什么?社區(qū)反響如何?它是否達到了人們的預期?我們深入看下。

Llama 4 :Meta的宏偉藍圖 

Meta 的官方博文描繪了一個名為“Llama 4 牧群”(Llama 4 herd)的宏大計劃,首批推出了三位成員,旨在開啟“原生多模態(tài) AI 創(chuàng)新”的新紀元:

LLaMA 4來了 | 千呼萬喚始出來,猶抱琵琶半遮面 | 不盡如人意-AI.x社區(qū)

  1. Llama 4 Scout (偵察兵):
  • 定位: 高效、針對特定場景優(yōu)化的模型。
  • 參數(shù): 17B (十億) 激活參數(shù),16 個專家(Experts),總參數(shù) 109B。
  • 亮點:
  • 原生多模態(tài): 支持文本、圖像、視頻(幀)輸入。
  • 業(yè)界領先的 10M (千萬) Token 上下文窗口: 這是最引人注目的數(shù)字之一。
  • 高效推理: 據(jù)稱可在單個 NVIDIA H100 GPU 上運行(Int4 量化)。
  • 性能: 在同級別模型中表現(xiàn)優(yōu)異,超越 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。
  1. Llama 4 Maverick (特立獨行者):
  • 定位: 通用、高性能的多模態(tài)模型。
  • 參數(shù): 17B 激活參數(shù),128 個專家,總參數(shù) 400B。
  • 亮點:
  • 原生多模態(tài): 同樣具備強大的多模態(tài)處理能力。
  • 1M (百萬) Token 上下文窗口。
  • 性能: 號稱在同級別中擊敗 GPT-4o 和 Gemini 2.0 Flash,并在編碼和推理方面與 DeepSeek v3.1 競爭。
  • 成本效益: 對比 Llama 3.3 70B,以更低成本提供高質(zhì)量輸出。
  1. Llama 4 Behemoth (巨獸):
  • 定位: 最強大的“教師模型”,用于知識蒸餾。
  • 參數(shù): 288B 激活參數(shù),16 個專家,總參數(shù)接近2T (兩萬億)!
  • 亮點:
  • 頂尖性能: 在 STEM 基準測試(如 MATH-500, GPQA Diamond)上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
  • 多模態(tài)能力。
  • 狀態(tài): 預覽階段,尚未發(fā)布,仍在訓練中。

核心技術看點 

  • 原生多模態(tài) (Native Multimodality):Llama 4 從底層設計就考慮了多模態(tài)融合,采用“早期融合”(Early Fusion)策略,將文本和視覺 Token 無縫集成到統(tǒng)一的模型骨干中,支持聯(lián)合預訓練。這與之前模型外掛視覺模塊的方式有所不同。
  • 混合專家模型 (MoE - Mixture of Experts):Scout 和 Maverick 都采用了 MoE 架構。這種架構在訓練和推理時只激活總參數(shù)的一部分(由“路由器”決定將 Token 發(fā)往哪些“專家”),從而在給定計算預算下實現(xiàn)更高的效率和模型質(zhì)量。Maverick 使用了多達 128 個專家,這是一個相當大的規(guī)模。
  • 超長上下文窗口:Scout 的 10M Token 上下文是其宣傳的重點。Meta 提到這得益于一種名為iRoPE(interleaved Rotary Position Embeddings)的架構創(chuàng)新,結合了交錯注意力層和旋轉(zhuǎn)位置編碼,并輔以推理時注意力溫度縮放(inference time temperature scaling)來增強長度泛化能力。
  • 訓練優(yōu)化:使用 FP8 精度訓練以提高效率,訓練數(shù)據(jù)量超過 30 萬億 Token(包含文本、圖像、視頻),是 Llama 3 的兩倍以上。還引入了名為 MetaP 的新技術來優(yōu)化超參數(shù)設置。
  • 知識蒸餾:Scout 和 Maverick 的高性能部分歸功于從 Behemoth 模型進行的知識蒸餾(Codistillation),這使得小型模型能夠繼承大型教師模型的“智慧”。

社區(qū)反饋:光環(huán)之下的陰影 

Meta 的發(fā)布引發(fā)了社區(qū)的熱烈討論,但并非一片贊歌:

  • 10M 上下文窗口的“虛幻”:這是被集中火力攻擊的一點。Meta自己的博文明確寫道:“Llama 4 Scout is both pre-trained and post-trained with a256K context length”。這意味著,雖然模型可以通過iRoPE等技術在推理時嘗試 處理更長的上下文(如 Needle-in-a-Haystack 測試所示),但它并沒有在千萬級別的真實長序列上進行過訓練。超過256K Token,輸出質(zhì)量很可能大幅下降,因為模型缺乏處理如此長距離復雜依賴關系的訓練經(jīng)驗。這使得 10M 的宣傳數(shù)字更像是一個理論上限或特定任務(如信息檢索)的表現(xiàn),而非通用的長文本理解和生成能力。不少人認為這是一種營銷上的“取巧”。
    另外,很多模型宣稱支持超長上下文窗口,并用“大海撈針”實驗來測試,但技術上大家普遍認為“大海撈針”實驗不能充分驗證大模型能夠充分的理解、引用、推理整個上下文中信息。 ( https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87 )這篇文章設計了Fiction.LiveBench長上下文基準測試。從12個復雜故事生成測試集,考查模型對角色變化、邏輯預測及信息區(qū)分的理解。相比“大海撈針”類的搜索測試,它更注重故事深層理解。
    比如:在《神雕俠侶》小說中,在一個場景中“楊過被郭芙砍斷一只手臂”,劇情發(fā)展很長后,有一個場景是“楊過單臂懷抱小龍女”。這兩個場景在小說中可能相差很多個章節(jié),那么如果我們問大模型:楊過為什么單臂懷抱小龍女?能夠很好處理長下文的大模型應該能夠根據(jù)之前很遠的章節(jié)中的”被砍斷一只手臂”的場景推理出來。 Fiction.LiveBench測試顯示,就算當前第一梯隊大模型在短上下文(1k)通過,長上下文(8k)失敗的案例比比皆是【參考下面的表格,可以看到各個大模型在上下文窗口長度增長時,性能在幾句的下降】。所以LLaMA 4宣稱的10M長下文窗口,可能會有“虛幻“。LLaMA 4來了 | 千呼萬喚始出來,猶抱琵琶半遮面 | 不盡如人意-AI.x社區(qū)
  • 基準測試的意義:“書呆子的占星術”?Yuchen Jin 的評論雖帶有戲謔(“Benchmarks? they are just astrology for nerds. Vibes only.”),卻也反映了社區(qū)對基準測試局限性的普遍認知。Andriy Burkov 也提到,包括 Elo 評分在內(nèi)的基準可以通過微調(diào)來“刷分”,使其看起來接近頂部。實際應用中的表現(xiàn)(“vibe check” 或在用戶自己的問題上測試)可能與基準得分存在偏差,尤其是在幻覺(hallucination)等問題上,新模型可能并未比2023年的模型有質(zhì)的飛躍。
  • 推理能力的缺失?Martin Bowling 點出了一個潛在的短板:Llama 4的發(fā)布似乎并未特別強調(diào)或展示其在復雜推理 (reasoning)能力上的突破。Burkov甚至稱其為“非推理模型”(non-reasoning model),認為即使有 30T 訓練數(shù)據(jù)和 2T 參數(shù),也無法讓它超越那些更小的、但具備更強推理能力的模型。Bowling 覺得沒有在這次發(fā)布中加入一個“推理器”(reasoner)很奇怪,認為本可以通過 GRPO 等技術輕松實現(xiàn)。

不盡如人意,但仍是重要一步 

綜合來看,Llama 4的發(fā)布是一次復雜且充滿矛盾的事件。

亮點不容忽視:

  • 它確實是 Meta 在開源多模態(tài)模型領域邁出的重要一步,原生多模態(tài)架構值得肯定。
  • MoE 架構的應用顯示了Meta在模型效率和規(guī)?;矫娴某掷m(xù)探索。
  • Scout和 Maverick在各自參數(shù)級別上展現(xiàn)了強大的競爭力,為開發(fā)者提供了新的、高性能的開源選擇。
  • 堅持開源本身就是對社區(qū)的巨大貢獻。

失望與疑慮也真實存在:

  • 10M上下文的宣傳與實際訓練深度之間的差距,可能影響社區(qū)信任。
  • 高達2T參數(shù)的 Behemoth 未能在綜合能力上展現(xiàn)絕對統(tǒng)治力,并處于“預覽”狀態(tài),讓“巨獸”的震撼打了折扣。
  • 在社區(qū)日益關注的復雜推理能力上,Llama 4似乎沒有帶來驚喜。
  • 對基準測試的依賴和潛在的“刷分”可能,使得對其真實能力的評估更加困難。

總體來說,Llama 4并沒有完全滿足社區(qū)對“革命性”突破的期待,它更像是一次雄心勃勃的技術探索,但部分成果的成熟度和實用性仍有待檢驗。Meta可能確實在技術上取得了進展,但在溝通和預期管理上,或許有些操之過急或過于樂觀。

“猶抱琵琶半遮面”的 Behemoth 何時能完全展露真容?Meta是否會推出專注于推理的后續(xù)模型?超長上下文的承諾能否在實際應用中兌現(xiàn)?這些都是 Llama 4留給我們的懸念。

本文轉(zhuǎn)載自???后向傳播???,作者: 張發(fā)恩

收藏
回復
舉報
回復
相關推薦