Google Gemma 3:性能“炸裂”還是榜單優(yōu)化?
一、背景
最近幾天 Google 發(fā)布了最新的 Gemma 3 系列開(kāi)源模型,迅速成為業(yè)界熱議的焦點(diǎn),其中,Gemma 3 27B IT 模型尤為引人注目。如下圖所示為 Google 廣泛宣傳的 Gemma 3 27B IT 模型在 Chatbot Arena Leaderboard [1]上的表現(xiàn),以 27B 的參數(shù)量,不僅超越了更大參數(shù)量的 DeepSeek V3(實(shí)際激活參數(shù)量差不多),并且接近頂尖的 DeepSeek R1。事實(shí)上性能真的這么“炸裂”嗎?還是面向 Chatbot Arena 的優(yōu)化?值得注意的是,Chatbot Arena 的排名基于用戶盲測(cè)投票,容易受到寫作風(fēng)格、響應(yīng)速度以及特定用戶群體偏好的影響——例如,用戶往往更青睞反應(yīng)迅速、語(yǔ)言自然且能靈活應(yīng)對(duì)多樣化問(wèn)題的模型。因此,這一榜單未必能全面反映模型的真實(shí)能力。
事實(shí)上,當(dāng)前大模型評(píng)測(cè)體系的混亂已是不爭(zhēng)的事實(shí):測(cè)試基準(zhǔn)五花八門切缺乏不一致,許多基準(zhǔn)與實(shí)際業(yè)務(wù)需求脫節(jié),數(shù)據(jù)污染與過(guò)擬合問(wèn)題更是屢見(jiàn)不鮮。這使得挑選一個(gè)真正實(shí)用的模型變得很有挑戰(zhàn)性,用戶不得不在真實(shí)場(chǎng)景中要反復(fù)試錯(cuò),浪費(fèi)大量人力與算力資源。很期待未來(lái)有一些更全面、更權(quán)威的基準(zhǔn)。同時(shí),也真的期待有一個(gè) 30B 左右規(guī)模的 Dense 模型,在性能上全面媲美 DeepSeek R1,將無(wú)疑是開(kāi)源社區(qū)和實(shí)際應(yīng)用的一大福音。本文將簡(jiǎn)要探討 Gemma 3 27B IT 模型的技術(shù)亮點(diǎn)與潛在局限。
相關(guān)工作可以參考我們之前的文章:
- ???DeepSeek 模型架構(gòu)的特殊選擇???
- ???LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎????
- ???綜述:DeepSeek Infra/V1/MoE/V2/V3/R1 & 開(kāi)源關(guān)鍵技術(shù)???
二、Gemma 3 模型
2.1 概覽
如下圖 Table 1 所示,Gemma 3 總共包含 4 個(gè)模型:
- 1B 為純 LLM 模型,4B、12B 和 27B 為多模態(tài)模型。
- 1B 使用 2T Token 預(yù)訓(xùn)練;4B 使用 4T Token;12B 和 27B 使用 14T Token(PS:目前看 14T - 15T Token 基本成為標(biāo)配)。
- 現(xiàn)在 32K 序列長(zhǎng)度預(yù)訓(xùn)練,然后擴(kuò)展到 128K 的序列長(zhǎng)度。
- 支持 140 種語(yǔ)言。
- 支持 Function Call 和結(jié)構(gòu)化輸出。
- 總詞表大小為 262K,相對(duì)而言,常見(jiàn)的開(kāi)源模型的詞表通常是 128K 左右。
- Vision Encoder 相同,都是 SigLIP 417M,輸入分辨率為 896x896。
- Pan & Scan(P&S):如果圖像比較大,則會(huì)采用無(wú)重疊的切分,然后分別 Resize 到 896x896(PS:這個(gè)也是非常常規(guī)的手段)。
對(duì)應(yīng)的論文:Gemma 3 Technical Report [2]
對(duì)應(yīng)的模型:google/gemma-3-27b-it at main [3]
2.2 模型結(jié)構(gòu)
現(xiàn)在 LLM 處理的序列越來(lái)越長(zhǎng),為了降低 KV Cache 存儲(chǔ)空間以及 Attention 的計(jì)算復(fù)雜度,最近一段時(shí)間很多模型都采用“混合模型”優(yōu)化方案:
- MiniMax 01:采用 Linear Attention 和 Softmax Attention 混合方案。為了彌補(bǔ) Linear Attention 長(zhǎng)距離序列建模能力不足的問(wèn)題,每隔 M 層會(huì)采用一個(gè)標(biāo)準(zhǔn)的 Full Softmax Attention。
- Hunyuan Turbo S:采用 Mamba + Full Softmax Attention + MoE 的方式,Mamba 作用和 Linear Attention 類似。
- Gemma 3 27B:GQA + 5:1 交錯(cuò)的 local/global layers。其中的 5:1 交錯(cuò)是指:5 層為滑動(dòng)窗口 Attention,1 層為 Full Softmax Attention,交錯(cuò)排列。
如下圖配置所示為其中 LLM 的具體配置,可以看出,總共 62 層;GQA 中 Attention Head 與 KV Head 的比例為 2:1;滑動(dòng)窗口的大小為 1024。也就是只要序列長(zhǎng)度大于 1024,就可以節(jié)約 KV Cache 空間以及 Attention 計(jì)算量。
PS:除了上述的混合模型外,最近 Inception Labs 的 Mercury [10] 模型也很值得關(guān)注。其不是使用傳統(tǒng)的基于自回歸的 Transformer 模型,而是采用了類似圖像、視頻生成中常用的擴(kuò)散模型,從噪聲開(kāi)始逐步優(yōu)化整個(gè)文本序列,而不是逐個(gè)生成 token。雖然其在各種基準(zhǔn)測(cè)試上還無(wú)法達(dá)到第一梯隊(duì),但是在速度和成本效率上具有非常明顯的優(yōu)勢(shì),在個(gè)別場(chǎng)景上可能也是個(gè)不錯(cuò)的選擇。如下圖所示為其在個(gè)別任務(wù)上的精度以及吞吐數(shù)據(jù):
2.3 量化
除了模型結(jié)構(gòu)的創(chuàng)新外,量化也是降低存儲(chǔ)空間需求、提升處理速度的有效手段。Gemma 3 中,作者除了提供原始模型外,還提供了不同量化精度的量化版本,這些模型都是采用量化感知訓(xùn)練(Quantization Aware Training, QAT)方法,通過(guò)少量 Step(通常是 5000)微調(diào)而來(lái)。如下圖所示為 32K 序列長(zhǎng)度時(shí)不同精度下的顯存開(kāi)銷,F(xiàn)P8 精度時(shí)總的顯存開(kāi)銷也只有 46GB:
2.4 消融實(shí)驗(yàn)
即使滑動(dòng)窗口層(Local)與標(biāo)準(zhǔn) Transformer 層(Global)的比例為 7:1,損失依然很小,作者采用了 5:1。
滑動(dòng)窗口大小為 1024 時(shí)幾乎無(wú)損,但是小于 1024 時(shí)損失開(kāi)始變大:
更小的滑動(dòng)窗口,更大的 Local:Global,可以有效降低 KV Cache 開(kāi)銷:
如下圖 Table 7 所示,作者也進(jìn)一步評(píng)估了不同圖像分辨率對(duì)于視覺(jué)任務(wù)的影響??梢钥闯?,較大的分辨率能明顯提升在視覺(jué)基準(zhǔn)上的性能:
三、評(píng)估
3.1 概覽
如下圖 Table 6 所示,作者僅提供了與自家 Gemini 和 Gemma 模型的比較,而未提供更多開(kāi)源模型的結(jié)果(PS:聲稱是無(wú)法保持公平性??)。因此,我們從一些比較可信的數(shù)據(jù)源收集到一些 DeepSeek 的基準(zhǔn)數(shù)據(jù)以作對(duì)比:
如下圖所示為 Grok 3 的 DeepSearch 收集到的部分?jǐn)?shù)據(jù):
3.2 MMLU-Pro
參考:MMLU-Pro Leaderboard - a Hugging Face Space by TIGER-Lab [4]
3.3 LiveCodeBench
參考:
- Introducing Gemini 2.0: our new AI model for the agentic era [5]
- Gemini 2.0 is now available to everyone [6]
- LiveCodeBench Leaderboard [7]
3.4 GPQA Diamond
參考:LLM Leaderboard 2025 [8]
3.5 FACTS Grounding
這個(gè)看著是 Google 自己的榜單:https://www.kaggle.com/facts-leaderboard/leaderboard [9]
3.6 評(píng)估細(xì)節(jié)
雖然說(shuō) Google 在宣傳上有點(diǎn)雞賊,但是其一般都會(huì)比較準(zhǔn)確列出基準(zhǔn)評(píng)估的細(xì)節(jié),比如采用的 n-shot 配置,是否使用 CoT 等等,如下圖 Table 19 所示:
四、參考鏈接
- ???https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard???
- ???https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf???
- ???https://huggingface.co/google/gemma-3-27b-it/tree/main???
- ???https://huggingface.co/spaces/TIGER-Lab/MMLU-Pro???
- ???https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/???
- ???https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/???
- ???https://livecodebench.github.io/leaderboard.html???
- ???https://www.vellum.ai/llm-leaderboard???
- ???https://www.kaggle.com/facts-leaderboard/leaderboard???
- ???https://www.inceptionlabs.ai/news????
本文轉(zhuǎn)載自??AI閑談??,作者:AI閑談
