DeepSeek逼出谷歌新推理模型:40分優(yōu)勢(shì)超GPT4.5登頂競(jìng)技場(chǎng),支持原生多模態(tài),但依然敗給了“竹竿問題”
又雙叒,搶在OpenAI直播之前,谷歌Gemini 2.5系列來(lái)了。
首個(gè)版本Pro Experimental一登場(chǎng)就搶下大模型競(jìng)技場(chǎng)第一名,并且整整比GPT-4.5高出40分!
圖片
Gemini 2.5同樣是推理模型,用Jeff Dean的說(shuō)法是:
這是我們最智能的模型,具有令人印象深刻的高級(jí)推理和編碼能力。
Be like,給出一段提示詞:
幫我制作一款吸引人的無(wú)盡跑酷游戲。屏幕上要有關(guān)鍵操作說(shuō)明。使用p5js,不要用HTML。我喜歡像素風(fēng)格的恐龍和有趣的背景。
1分鐘左右,就能得到:
圖片
圖片
谷歌“最先進(jìn)復(fù)雜任務(wù)模型”
谷歌介紹,相較于Gemini 2.0 Flash Thinking這個(gè)谷歌首個(gè)推理模型,Gemini 2.5在基礎(chǔ)模型和后訓(xùn)練技術(shù)上都有改進(jìn)。
不僅是在大模型競(jìng)技場(chǎng)上一舉拿下高分,在各種推理、數(shù)學(xué)、科學(xué)、編程基準(zhǔn)上,Gemini 2.5 Pro都表現(xiàn)出色,屬于是編程能跟Claude 3.7 Sonnet掰手腕,數(shù)學(xué)能跟Grok 3相媲美。
圖片
更詳細(xì)測(cè)試結(jié)果看這里:
圖片
Gemini 2.5 Pro的上下文窗口是1M tokens,并且支持原生多模態(tài):可以理解龐大數(shù)據(jù)集并處理來(lái)自不同信息源的復(fù)雜問題,包括文本、音頻、圖像、視頻,甚至是整個(gè)代碼庫(kù)。
在推理能力之外,谷歌官方還強(qiáng)調(diào)了一把Gemini 2.5 Pro的編程性能:
2.5 pro擅長(zhǎng)創(chuàng)造視覺上引人注目的Web應(yīng)用程序和智能體代碼。
谷歌DeepMind研究員們也釋出了更多案例,比如把“六邊形內(nèi)旋轉(zhuǎn)小球”這事整得更加酷炫:
Jeff Dean則興奮地放出了一個(gè)編程+數(shù)學(xué)的用例,還說(shuō):
我記起了小時(shí)候第一次了解到曼德布羅特集時(shí)的興奮之情。
(曼德布羅特集:一種在復(fù)平面上形成的分形集合)
p.s. 距離谷歌上新Gemini 2.0家族,也不過一個(gè)多月時(shí)間,怕不是讓DeepSeek給逼急了(doge)。
目前,Gemini 2.5 Pro已經(jīng)面向Gemini Advanced付費(fèi)用戶開放,開放人員也可以在Google AI Studio中試用。谷歌表示,未來(lái)幾周內(nèi)還將在Vertex AI上推出該模型。
不過,當(dāng)我們拿最新大模型難題“竹竿問題”測(cè)試Gemini 2.5 Pro時(shí),它并沒能順利通關(guān)。
圖片
試玩地址:http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
參考鏈接:https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025