谷歌開源Gemma-3:媲美DeepSeek,算力暴降10倍 精華
昨晚,谷歌CEO Sundar Pichai宣布,開源最新多模態(tài)大模型Gemma-3,主打低成本高性能。
Gemma-3共有10億、40億、120億和270億四種參數(shù)。但即便最大的270億參數(shù),只需要一張H100就能高效推理,同類模型要達到這個效果最少要提升10倍算力,也是目前最強小參數(shù)模型。
根據(jù)盲測LMSYS ChatbotArena數(shù)據(jù)顯示,Gemma-3僅次于DeepSeek的R1-671B,高于OpenAI的o3-mini,Llama3-405B等知名模型。
DeepSeek的R1是相當有排面,國內(nèi)外發(fā)布高性能低成本模型時都得和它比較一下。其實,前幾天阿里也開源了一個比肩R1,參數(shù)大降20倍的QwQ-32B模型。現(xiàn)在谷歌也要開始卷低成本模型了。
開源地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
Gemma-3架構(gòu)與技術(shù)亮點
在架構(gòu)設計上,Gemma-3采用了與前兩代一樣的通用解碼器Transformer架構(gòu),但進行了眾多創(chuàng)新和優(yōu)化。
為了應對長上下文帶來的內(nèi)存爆炸難題,Gemma-3采用了局部和全局自注意力層交錯的架構(gòu),每5個局部層之間插入1個全局層,局部層的跨度僅為1024個token。因為只有全局層負責處理長上下文,局部層僅關注1024個token的小跨度,從而降低了內(nèi)存占用。
為了支持長上下文,Gemma-3模型將上下文長度擴展到了128Ktoken(10億參數(shù)模型為32K)。模型提高了全局自注意力層的RoPE基礎頻率,從10k提升到1M,而局部層頻率保持在10k。
同時,采用了類似位置插值的方法來擴展全局自注意力層的跨度,使模型在長上下文場景下能夠更好地捕捉信息提升性能。
多模態(tài)能力是Gemma-3的一大技術(shù)亮點,能夠同時處理文本和圖像。還集成了定制版的SigLIP視覺編碼器,這是一個基于VisionTransformer的編碼器,通過CLIP損失的變體進行訓練。
為了降低圖像處理的推理成本,Gemma-3采用了創(chuàng)新的圖像嵌入壓縮技術(shù),將視覺嵌入壓縮為固定大小的256個向量,從而在不損失關鍵信息的前提下,顯著減少了計算資源的消耗。
Gemma-3還引入了Pan&Scan方法,允許模型靈活處理不同分辨率和寬高比的圖像。在實際應用中,Pan&Scan通過將圖像分割成多個固定大小的區(qū)域,并將這些區(qū)域調(diào)整到統(tǒng)一的分辨率后輸入編碼器,從而避免了因圖像尺寸不一致而導致的信息丟失或變形問題。這種靈活的圖像處理方式不僅提高了模型對圖像內(nèi)容的理解能力,還使其在處理復雜圖像場景時表現(xiàn)得更加出色。
高效訓練過程
在預訓練階段,Gemma-3采用了與Gemma 2相似的方法并融入新的改進。為適應圖像和文本混合數(shù)據(jù)的訓練需求,模型使用了比Gemma 2更大的token預算。
270億參數(shù)的模型訓練使用14Ttoken,120億參數(shù)模型使用12T,40億參數(shù)模型使用4T,10億參數(shù)模型使用2T。
同時,增加了多語言數(shù)據(jù),包括單語和并行數(shù)據(jù),并借鑒特定策略處理語言表示不平衡的問題,以此提升模型的語言覆蓋范圍和多語言處理能力。所以,Gemma-3支持140種語言,其中35種語言開箱即用。
Gemma-3使用與Gemini2.0相同的SentencePiece分詞器,具備分割數(shù)字、保留空格和字節(jié)級編碼的特性,生成的詞匯表包含262k個條目,使得模型在處理非英語語言時更加平衡。
在訓練優(yōu)化上,Gemma-3運用知識蒸餾技術(shù)。每個token采樣256個logits,按照教師概率進行加權(quán),學生模型通過交叉熵損失來學習教師模型在這些樣本中的分布。在這個過程中,對于未采樣的logits,教師模型的目標分布被設為零概率并重新歸一化,從而引導學生模型學習到更優(yōu)的分布,提升模型的性能。
完成預訓練后,Gemma-3進入后訓練階段,該階段聚焦于提升模型的特定能力并整合新特性。后訓練采用了改進版的知識蒸餾技術(shù),從大型指令微調(diào)教師模型中獲取知識,同時結(jié)合基于改進版BOND、WARM和WARP的強化學習微調(diào)階段。
通過多種獎勵函數(shù)來優(yōu)化模型,這些獎勵函數(shù)旨在提升模型的幫助性、數(shù)學能力、編碼能力、推理能力、指令遵循能力和多語言能力,同時最小化模型產(chǎn)生有害輸出的可能性。獎勵來源包括從人類反饋數(shù)據(jù)訓練的加權(quán)平均獎勵模型、代碼執(zhí)行反饋以及解決數(shù)學問題的真實獎勵等。
測試數(shù)據(jù)
為了測試Gemma-3的性能,谷歌在MGSM、Global-MMLU-Lite、WMT24++、RULER、MRCR等眾多主流平臺進行了評估。
結(jié)果顯示,Gemma-3在多模態(tài)任務中表現(xiàn)出色,例如在DocVQA、InfoVQA和TextVQA等任務中,其性能顯著優(yōu)于前代模型。在長文本處理方面,Gemma-3的27B模型在RULER128K上達到了66.0%的準確率,展現(xiàn)了強大的長文本處理能力。
在多語言支持上,Gemma-3在MGSM和Global-MMLU-Lite等任務中也取得了優(yōu)異成績。在對話能力評估中,Gemma-3的27B指令調(diào)優(yōu)版本在ChatbotArena中的Elo分數(shù)為1338,排名進入前10,接近DeepSeek-R1等大型模型。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
原文鏈接:??https://mp.weixin.qq.com/s/8HusRonfYRZO97tXCHwKew??
