力壓DeepSeek-R1!谷歌Gemini 2.0系列集體上新,全員躋身大模型競技場前10
終于,谷歌DeepMind坐不住了,出手就是超越DeepSeek-R1!
劈柴哥親自官宣Gemini 2.0家族更新,分別是Gemini 2.0 Flash、Gemini 2.0 Pro、Gemini 2.0 Flash-Lite。
同時,穩(wěn)居大模型競技場第1名的推理模型Gemini 2.0 Flash Thinking,已在Gemini App中推出。
至此,Gemini 2.0家族所有模型,全部躋身大模型競技場前10。
且Gemini 2.0 Pro超過了DeepSeek-R1。
谷歌首席科學家Jeff Dean表示:“與1.5系列模型相比,2.0系列的每一款通常都比1.5系列的同型號更好”。
而此次上新中,尤其值得關注的模型,有2個。
一個是Gemini 2.0 Pro,谷歌迄今為止在編碼和復雜指令任務中表現(xiàn)最好的模型,200萬tokens上下文窗口,支持調用谷歌搜索和代碼執(zhí)行等工具。
一個是Gemini 2.0 Flash-Lite,谷歌目前為止性價比最高的模型,針對大規(guī)模文本輸出用例進行了成本優(yōu)化(讓我們謝謝DeepSeek),還殺進了競技場總榜前十。
模型使用成本也一降再降,甚至被有的網(wǎng)友調侃,這些模型年紀輕輕就出來打工,還基本免費打工,為愛發(fā)電那種。
網(wǎng)友一邊直呼鵝妹子嚶,一邊玩兒得很開心。
上來就是最近o3-mini和DeepSeek-R1激烈對壘過的六邊形內晃小球。
Prompt:編寫一個腳本,顯示一個球在旋轉的六邊形內部彈跳。球應該受到重力和摩擦的影響,并且必須真實地彈跳 off 轉動的墻壁。使用 p5.js 實現(xiàn)。
你將得到:
而此前o3-mini和DeepSeek-R1的表現(xiàn)分別如下:
高下如何,大家自己評估。
現(xiàn)在起,Gemini 2.0所有人可用
展開來說,此次發(fā)布的Gemini 2.0家族三款模型,分別是:
- Gemini 2.0 Flash更新版:通用首選
- Gemini 2.0 Pro實驗版:谷歌最強
- Gemini 2.0 Flash-Lite:性價比首選
所有這些模型在發(fā)布時都將支持多模態(tài)輸入,并生成文本輸出。
加上此前就亮相了的Gemini 2.0 Flash Thinking,家族全家?,F(xiàn)在如下。
在通用、代碼、推理、多模態(tài)、數(shù)學、長文本、圖像、音視頻等方面,家族3名新成員的成績如下。
不愧是谷歌自己的新王者,Gemini 2.0 Pro在13項評測中,拿下11個第一。
同時,讓人眼前一亮的是,Gemini 2.0 Flash-Lite在Factuality的FACTS Grounding這一項,以84.6%的成績勇奪桂冠,力壓Gemini 2.0 Pro。
下面,我們來分別仔細看看新出現(xiàn)的3名家族成員的具體情況。
谷歌最強:Gemini 2.0 Pro實驗版
Gemini 2.0 Pro是谷歌DeepMind迄今為止最強的模型,不過官方暫且只放出了實驗版。
它具有最強的編碼性能和處理復雜提示的能力,對世界知識的理解和推理能力也是谷歌最強。
此外,Gemini 2.0 Pro實驗版配備了谷歌最大的上下文窗口,即200萬tokens。
這使得它能夠全面分析和理解大量信息,并具備調用如谷歌搜索和代碼執(zhí)行等工具的能力。
現(xiàn)在,作為實驗性模型,Gemini 2.0 Pro已經(jīng)在Google AI Studio和Vertex AI提供給開發(fā)者使用。
如果你是Gemini Advanced的用戶,可以在PC端和移動設備端的模型下拉菜單中選中它,進行使用。
最為通用:新版Gemini 2.0 Flash
去年2024年谷歌I/O大會上,Gemini 2.0 Flash實驗版首次亮相。
現(xiàn)在,Gemini 2.0 Flash已經(jīng)集成到谷歌的AI產(chǎn)品中,人人可用。
谷歌DeepMind的CTO,同時代表了Gemini團隊的Koray Kavukcuoglu在博客中表示,Gemini 2.0 Flash提供了全面的功能,適合大規(guī)模處理高容量、高頻率任務。
并且具備100萬tokens長文本能力,支持對海量信息進行多模態(tài)推理。
目前,Gemini 2.0 Flash支持多模態(tài)輸入和文本單模態(tài)輸出,而圖像生成和文本轉語音功能已經(jīng)在路上了,“未來幾個月,將提供Gemini 2.0 Flash的多模態(tài)Live API”。
當前用法如下:
- 普通用戶:Gemini App中試玩
- 開發(fā)者:Google AI Studio和Vertex AI中調用API
性價比首選:Gemini 2.0 Flash-Lite
基于“希望在保持1.5 Flash成本和速度的同時,繼續(xù)提高模型質量”,谷歌DeepMind推出了Gemini 2.0 Flash-Lite。
這個模型速度和成本與Gemini 1.5 Flash持平,但大多數(shù)基準測試中,模型能力優(yōu)于1.5 Flash。
雖然是Lite版本,但其長文本能力并沒有打折——和2.0 Flash一樣,它具備100萬tokens的上下文窗口,同時支持多模態(tài)輸入。
而且巨便宜。
便宜到什么地步呢?給大家一個更能感知的例子:
如果讓Gemini 2.0 Flash-Lite為4萬張左右的不同照片,各自生成一句描述簡介,按Google AI Studio定價,這個任務花費的總成本不超過1美元(約7.2751元)。
綜上,谷歌用一張圖明確表現(xiàn)了3名Gemini 2.0家族新成員的現(xiàn)有能力:
來自DeepSeek的無形壓力?
模型一登場,網(wǎng)友們已經(jīng)玩飛了!
身先士卒的Jeff Dean,第一個奉上他用Gemini 2.0 Pro編程做出的益智休閑類Boggle游戲(他的最愛)。
有人問生成代碼并解釋需要多長時間,Jeff還很直接地回應了網(wǎng)友,表示:答案是18.9秒。
他激情解說,只需一個相對簡單的提示詞,Gemini 2.0 Pro就能寫出完整的代碼,其中包括所有正確的數(shù)據(jù)結構和搜索算法;它還能找到Boggle棋盤上的所有有效單詞。
作為一名計算機科學家,我也很高興它在第一個前綴樹中就正確地使用了數(shù)據(jù)結構。
緊隨其后,還有網(wǎng)友搞了個狂野版貪吃蛇。“Google Gemini 2.0一次性生成,帶編碼器模式!創(chuàng)建一個自己爬行扭起來的貪吃蛇游戲,其中100條蛇競爭狂舞?!彪m然他沒有在評論區(qū)回復到底是用的是Gemini 2.0家族的哪個模型,但效果還是不錯滴!
另外值得重視的一個小點——
谷歌DeepMind的CTO在博客中寫道,這些發(fā)布是谷歌更廣泛推動提升AI Agent能力的一部分。
Gemini 2.0系列是用新的強化學習技術構建的,這讓模型有了更準確和更有針對性的輸出反饋,同時提高了模型處理敏感提示的能力。
他還表示,團隊利用自動化紅隊測試來評估系列模型的安全和安全風險。
其中包括間接提示注入等風險帶來的風險——這是一種網(wǎng)絡安全攻擊,攻擊者會將惡意指令隱藏在可能被AI系統(tǒng)檢索的數(shù)據(jù)中。
綜上總總,咱可以劃出兩個重點。
第一,“Gemini 2.0系列是用新的強化學習技術構建的”。
這條路是OpenAI o1第一個明確站出來表示自己在探索的,后來的o3、o3-mini,DeepSeek-R1等國內推理模型,都是追隨這條路線,并以其為基礎各有優(yōu)化和發(fā)展。
Gemini 2.0家族中最先出場的Gemini 2.0 Flash Thinking已經(jīng)是這樣做的,這次CTO更是直接打明牌。
第二,Gemini 2.0 Flash-Lite,幾乎被國內外所有媒體、網(wǎng)友視為DeepSeek-R1壓力下的產(chǎn)物。
DeepSeek-R1低成本、高性能、強推理帶來的滔天巨浪,不僅迫使OpenAI緊急發(fā)布了o3-mini、緊急加播讓ChatGPT上新深度搜索;還讓谷歌DeepMind也開始走上“AI大模型拼多多”的路線。
目前,DeepSeek-R1模型的輸入和輸出成本如下:
- 輸入成本:每百萬Tokens的輸入成本為4元。
- 輸出成本:每百萬Tokens的輸出成本為16元。
而Gemini 2.0 Flash-Lite的使用成本如下:
面對這種「神仙打架,凡人撿漏」的情況,我能說什么呢?
我只能說:
谷歌DeepMind CTO博文:https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/