自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌Gemma 3上線!單GPU最強(qiáng)多模態(tài)手機(jī)可跑,27B完勝o3-mini

人工智能 新聞
就在剛剛,谷歌Gemma 3來了,1B、4B、12B和27B四種參數(shù),一塊GPU/TPU就能跑!而Gemma 3僅以27B就擊敗了DeepSeek 671B模型,成為僅次于DeepSeek R1最優(yōu)開源模型。

谷歌Gemma 3全家桶來了!

剛剛,在巴黎開發(fā)者日上,開源Gemma系模型正式迭代到第三代,原生支持多模態(tài),128k上下文。

此次,Gemma 3一共開源了四種參數(shù),1B、4B、12B和27B。最最最關(guān)鍵的是,一塊GPU/TPU就能跑模型。

在LMArena競技場中,Gemma 3拿下了1339 ELO高分,僅以27B參數(shù)擊敗了o1-preview、o3-mini high、DeepSeek V3,堪稱僅次于DeepSeek R1最優(yōu)開源模型。

圖片

Gemma3系1B、4B、12B、27B分別基于2T、4T、12T、14T token數(shù)據(jù)完成訓(xùn)練。

它們可以理解140+語言,支持視覺輸入和文本輸出,以及結(jié)構(gòu)化輸出和函數(shù)調(diào)用。

圖片

在多項(xiàng)基準(zhǔn)測試中,Gemma 3全家桶相較于上一代實(shí)現(xiàn)了全面提升,27B模型在數(shù)學(xué)性能暴漲33-45分。

而且,與閉源Gemini 1.5和2.0相比,Gemma 3-27B基本上略遜色于Flash版本。

圖片

與此同時(shí),Gemma 3的26技術(shù)報(bào)告解禁。

圖片

論文地址:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

項(xiàng)目地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

Gemma系模型誕生一年以來,下載量已超1億次,超6萬個(gè)Gemma衍生模型爆發(fā)。

Gemma 3全新系列到來,成為谷歌在AI開源社區(qū)邁出的又一個(gè)里程碑。

27B打進(jìn)全球Top 10,手機(jī)筆記本輕松跑

Gemma 3是谷歌迄今最先進(jìn)、最便攜的開源模型,采用與Gemini 2.0模型相同的研究和技術(shù)打造。

專為在端側(cè)設(shè)備上直接運(yùn)行而設(shè)計(jì)——從手機(jī)和筆記本電腦到工作站,幫助開發(fā)者在需要的地方創(chuàng)建AI應(yīng)用。

圖片

  • 使用世界最佳單設(shè)備加速模型進(jìn)行開發(fā):Gemma 3在LMArena排行榜的初步人類偏好評估中超越了Llama-405B、DeepSeek-V3和o3-mini,能在單個(gè)GPU或TPU主機(jī)上運(yùn)行,開發(fā)獨(dú)特的用戶體驗(yàn)。
  • 支持140種語言,走向全球:Gemma 3為超過35種語言提供開箱即用的支持,并為超過140種語言提供預(yù)訓(xùn)練支持。
  • 創(chuàng)建具有高級文本和視覺推理能力的AI:輕松開發(fā)可以分析圖像、文本和短視頻的應(yīng)用程序,為交互式和智能應(yīng)用開創(chuàng)新的可能性。
  • 通過擴(kuò)展的上下文窗口處理復(fù)雜任務(wù):Gemma 3提供128k token的上下文窗口,讓應(yīng)用程序能夠處理和理解海量信息。
  • 使用函數(shù)調(diào)用創(chuàng)建AI驅(qū)動的工作流:Gemma 3支持函數(shù)調(diào)用和結(jié)構(gòu)化輸出,幫助你實(shí)現(xiàn)任務(wù)自動化并構(gòu)建智能體驗(yàn)。
  • 使用量化模型更快實(shí)現(xiàn)高性能:Gemma 3推出官方量化版本,在保持高精度的同時(shí)減少模型大小和計(jì)算需求。

圖片

按照Chatbot Arena Elo評分對AI模型進(jìn)行排名;更高的分?jǐn)?shù)(頂部數(shù)字)表示更受用戶青睞。點(diǎn)狀標(biāo)記顯示了估計(jì)所需的H100數(shù)量。Gemma 3 27B 獲得了很高的排名,注意,其他模型需要多達(dá)32個(gè)GPU,但它只需要1個(gè)

如何訓(xùn)出?

在預(yù)訓(xùn)練和后訓(xùn)練過程中,Gemma 3使用了蒸餾技術(shù),并通過強(qiáng)化學(xué)習(xí)和模型合并的組合,進(jìn)行了優(yōu)化。

這種方法可以提升數(shù)學(xué)、編碼、指令跟隨方面的性能。

而且,Gemma 3使用了一個(gè)全新的分詞器(tokenizer),為140多種語言提供支持,并使用JAX框架在Google TPU對1B的2T token,4B的4T token,12B的12Ttoken和27B的14Ttoken進(jìn)行了訓(xùn)練。

在后訓(xùn)練階段,Gemma 3主要使用了4個(gè)組件:

  • 從更大的指令模型中提取到Gemma 3預(yù)訓(xùn)練檢查點(diǎn)
  • 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),使模型預(yù)測與人類偏好保持一致。
  • 機(jī)器反饋強(qiáng)化學(xué)習(xí)(RLMF),增強(qiáng)數(shù)學(xué)推理。
  • 強(qiáng)化學(xué)習(xí)執(zhí)行反饋(RLEF),提高編碼能力。

這些更新顯著提升了模型數(shù)學(xué)、編程、指令跟隨能力,使Gemma 3能在LMArena拿下1338得分。

圖片

Gemma 3指令微調(diào)版本使用了與Gemma 2相同對話框格式,因此,開發(fā)者不需要更新工具,直接可以進(jìn)行純文本輸入。

對于圖像輸入,Gemma 3可以支持指定與文本交錯(cuò)的圖像。

多模態(tài)

Gemma 3集成基于SigLIP集成視覺編碼器,在訓(xùn)練過程中,視覺模型保持凍結(jié)狀態(tài),并在不同規(guī)模(4B、12B 和 27B)之間保持一致。

借助這一特性,Gemma 3能夠處理圖像和視頻作為輸入,使其能夠分析圖像、回答與圖像相關(guān)的問題、對比圖像、識別物體,甚至讀取和解析圖像中的文本。

盡管該模型最初設(shè)計(jì)用于處理896×896像素的圖像,但通過一種新的自適應(yīng)窗口算法,該模型可以對輸入圖像進(jìn)行分割,使Gemma 3能夠處理高分辨率和非正方形圖像。

比如,上傳一張日語空調(diào)遙控器圖,問如何調(diào)高室內(nèi)溫度。

圖片

Gemma 3根據(jù)圖像中「暖房」文字,分析出在日語中,「暖房」意為「加熱」,這是用于開啟空調(diào)或氣候控制系統(tǒng)的加熱功能的按鈕。

而帶有加號(+)的按鈕可能用于在選擇加熱模式后調(diào)整溫度。

圖片

下圖上傳超市購物清單后,Gemma 3準(zhǔn)確回答了一片肉需要支付的金額。

圖片

LLM競技場

LMSYS聊天機(jī)器人競技場是讓真人評委一對一匿名地對比IT 27B模型和其他頂尖模型。

在表下5里列出了Elo分?jǐn)?shù)。

Gemma 3 27B IT拿到了1338分,擠進(jìn)了前十名,分?jǐn)?shù)比其他不會「思考」的開源模型要高,比如 DeepSeek-V3(1318 分)、LLaMA 3 405B(1257 分)和Qwen2.5-70B(1257 分),這些模型的規(guī)模還比它大不少。

最后,Gemma 3的Elo分?jǐn)?shù)比Gemma 2(1220分)高出一大截。需要注意的是,Elo分?jǐn)?shù)不考慮視覺能力,而且上面提到的這些模型都沒有這方面的功能。

圖片

基于Elo評級系統(tǒng)在Chatbot Arena中對Grok-3-Preview-02-24、Gemini系列、Gemma系列等AI模型的排名和性能,其中Grok-3-Preview-02-24以1412分位居榜首,Gemma-3-27B-IT的排名為第9

標(biāo)準(zhǔn)基準(zhǔn)測試

在下表6里,展示了最終模型在各種基準(zhǔn)測試上的表現(xiàn),這里只對比了之前的模型版本和Gemini 1.5。

他們沒有直接拿外部模型來比,因?yàn)楦骷覉?bào)的分?jǐn)?shù)是用他們各家自己的測試條件跑出來的,再跑一遍不一定公平。

圖片

Gemini 1.5、Gemini 2.0以及Gemma 2和Gemma 3不同參數(shù)版本在各種零樣本基準(zhǔn)測試中的性能表現(xiàn),包括MMLU-Pro、LiveCodeBench、Bird-SQL (dev)、MATH和HiddenMath等任務(wù)

預(yù)訓(xùn)練能力探測

團(tuán)隊(duì)在預(yù)訓(xùn)練過程中使用了幾個(gè)標(biāo)準(zhǔn)的基準(zhǔn)測試作為「探針」,來確保模型能夠掌握一般的技能。

在下圖2中,他們比較了Gemma 2和Gemma 3預(yù)訓(xùn)練模型在這些通用能力上的表現(xiàn),包括科學(xué)、代碼、事實(shí)性、多語言能力、推理和視覺能力。

總的來說,盡管增加了視覺能力,新的版本在大多數(shù)類別上都有了提升。研究團(tuán)隊(duì)特別關(guān)注了多語言能力,這直接影響了模型的質(zhì)量。

然而,盡管使用了去污染技術(shù),但這些「探針」始終存在污染風(fēng)險(xiǎn),這使得更明確的結(jié)論變得難以評估。

圖片

無縫集成,工具生態(tài)全面升級

Gemma 3帶來的不僅僅是模型本身性能提升,還伴隨著強(qiáng)大工具無縫集成,ShieldGemma 2可以完美集成到現(xiàn)有的工作流程中。

不僅如此,它還支持靈活的開發(fā)工具。

比如Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM和Gemma.cpp。

圖片

開發(fā)者們可以在Google AI Studio中,立即體驗(yàn)Gemma 3全部功能,或通過Kaggle、Hugging Face下載模型。

此外,開發(fā)者還能根據(jù)具體需求定制Gemma 3。

改進(jìn)的代碼庫支持高效微調(diào)和推理,無論是Google Colab、Vertex AI,甚至消費(fèi)級GPU,都能輕松訓(xùn)練和微調(diào)模型。

Gemma 3還提供多種部署環(huán)境,包括Vertex AI、Cloud Run、Google GenAI API、本地環(huán)境和其他平臺,可以根據(jù)應(yīng)用和基礎(chǔ)設(shè)施選擇最佳方案。

值得一提的是,英偉達(dá)針對Gemma 3進(jìn)行了深度優(yōu)化,從Jetson Nano到最新的Blackwell芯片,都能獲得極致性能體驗(yàn)。

NVIDIA API中已推出Gemma 3,只需一個(gè)API調(diào)用即可快速原型開發(fā)。

除此之外,Gemma 3也針對Google Cloud TPU進(jìn)行了優(yōu)化,并通過開源ROCm堆棧與AMD GPU集成。對于CPU執(zhí)行,Gemma.cpp能夠提供直接解決方案。

Gemma 3技術(shù)報(bào)告

模型架構(gòu)

Gemma 3模型沿用了與前代版本相同的解碼器Transformer 結(jié)構(gòu),其大部分架構(gòu)元素與前兩代Gemma版本類似。

研究采用了分組查詢注意力(Grouped-Query Attention, GQA),并結(jié)合了 RMSNorm的后歸一化(post-norm)和前歸一化(pre-norm)。

受其他團(tuán)隊(duì)的啟發(fā),他們用QK-norm替換了Gemma 2的軟上限(soft-capping)。

Gemma 3相較于前代版本的一些關(guān)鍵區(qū)別是:

5:1的局部/全局層交錯(cuò)設(shè)計(jì)

研究者在自注意力機(jī)制中交替使用局部滑動窗口自注意力和全局自注意力,按照5層局部層對應(yīng)1層全局層的模式排列,模型的第一層為局部層。

長上下文支持

Gemma 3模型支持最長128K個(gè)token的上下文長度,但1B規(guī)模的模型例外,僅支持32K token。

在全局自注意力層上,研究者將RoPE的基準(zhǔn)頻率從10K提高到1M,而局部層的頻率保持在10K。此外,他們采用了位置插值方法,以擴(kuò)展全局自注意力層的適用范圍。

視覺模態(tài)

視覺編碼器

研究采用了一種400M規(guī)模的SigLIP編碼器變體,這是一種基于Vision Transformer的模型,并使用CLIP損失的變體進(jìn)行訓(xùn)練。Gemma視覺編碼器的輸入為調(diào)整尺寸后的896 × 896像素的方形圖像,并在視覺助手任務(wù)的數(shù)據(jù)上進(jìn)行微調(diào)。

Pan & Scan機(jī)制

Gemma視覺編碼器的固定分辨率為896 × 896像素,這在處理非方形比例或高分辨率圖像時(shí)可能會引發(fā)問題,例如文本變得不可讀,或小物體消失。

為了解決這一問題,研究者在推理階段引入了一種自適應(yīng)窗口算法將圖像劃分為大小相等且不重疊的裁剪區(qū)域,以覆蓋整個(gè)圖像,并將每個(gè)裁剪區(qū)域調(diào)整至896 × 896像素后再輸入編碼器。

預(yù)訓(xùn)練

研究者在預(yù)訓(xùn)練過程中采用了與Gemma 2相似的知識蒸餾方法。

訓(xùn)練數(shù)據(jù)

相比Gemma 2,研究者為Gemma 3預(yù)訓(xùn)練模型分配了更大的token預(yù)算。其中,Gemma 3 27B規(guī)模的模型在14萬億個(gè)token上進(jìn)行訓(xùn)練,12B 規(guī)模的模型使用12T個(gè)token,4B 規(guī)模的模型使用4T個(gè)token,而1B規(guī)模的模型使用 2T個(gè)token。

知識蒸餾

在知識蒸餾過程中,研究者為每個(gè)token采樣256個(gè)logit,并按照教師模型的概率分布進(jìn)行加權(quán)。學(xué)生模型通過交叉熵?fù)p失函數(shù)學(xué)習(xí)教師模型的分布。

計(jì)算基礎(chǔ)設(shè)施

研究者使用TPUv4、TPUv5e和TPUv5p訓(xùn)練模型,具體配置如表2所示。每種模型配置都經(jīng)過優(yōu)化,以最大程度減少訓(xùn)練步驟的執(zhí)行時(shí)間。

圖片

指令微調(diào)

預(yù)訓(xùn)練模型通過改進(jìn)的后訓(xùn)練方法轉(zhuǎn)變?yōu)橹噶钗⒄{(diào)模型,相較于之前的方法有所提升。

后訓(xùn)練方法依賴于一種改進(jìn)版的知識蒸餾技術(shù),該技術(shù)來自一個(gè)大型的IT教師模型,并結(jié)合了基于改進(jìn)版本的BOND、WARM和WARP算法的強(qiáng)化學(xué)習(xí)微調(diào)階段。

強(qiáng)化學(xué)習(xí)目標(biāo)

使用多種獎勵(lì)函數(shù)來提升模型在幫助性、數(shù)學(xué)、編程、推理、遵循指令和多語言能力方面的表現(xiàn),同時(shí)最小化模型的有害性。

包括通過人類反饋數(shù)據(jù)訓(xùn)練的加權(quán)平均獎勵(lì)模型,代碼執(zhí)行反饋,以及解數(shù)學(xué)問題的真實(shí)獎勵(lì)。

數(shù)據(jù)過濾

研究人員對后訓(xùn)練階段使用的數(shù)據(jù)進(jìn)行了精細(xì)優(yōu)化,以最大化模型的性能。

研究中會過濾掉包含特定個(gè)人信息、不安全或有害內(nèi)容、錯(cuò)誤的自我識別數(shù)據(jù)以及重復(fù)樣本的示例。

此外,包含鼓勵(lì)更準(zhǔn)確的上下文歸因、謹(jǐn)慎表述(hedging)和適當(dāng)拒答的數(shù)據(jù)子集,有助于減少幻覺現(xiàn)象,同時(shí)提升事實(shí)性指標(biāo)的表現(xiàn),而不會影響模型在其他指標(biāo)上的性能。

[BOS] token

預(yù)訓(xùn)練(PT)和指令微調(diào)(IT)模型,文本都以[BOS] token開頭。

需要注意的是,文本字符串「[BOS]」并不會自動映射到[BOS] token,因此必須顯式添加。

表4展示了IT模型的具體格式示例。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-03-13 06:34:49

2025-02-03 00:15:00

DeepSeek?o3-mini?資源

2025-03-13 07:30:00

谷歌Gemma 3AI 模型

2024-12-24 16:15:04

2025-02-08 17:00:11

2024-08-01 13:30:00

2025-01-20 19:52:50

2024-06-28 13:42:07

2025-02-10 00:00:01

2025-04-10 10:02:43

2025-03-03 07:30:00

谷歌模型AI

2025-02-07 11:20:50

2025-02-18 09:00:00

2025-04-18 11:18:51

2025-02-03 14:06:32

2025-02-17 08:12:00

AI模型生成

2025-02-25 12:30:00

2024-12-23 15:00:00

模型數(shù)據(jù)訓(xùn)練

2025-01-20 08:45:00

AGI模型AI

2025-02-03 12:38:28

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號