剛剛,谷歌最強(qiáng)Gemini 2.5 Pro免費(fèi)了!數(shù)學(xué)碾壓人類研究生,拿下全球TOP 1
雖然又被GPT-4o吉卜力生圖的光芒掩蓋了,但毫無(wú)疑問,上周的另一技術(shù)核彈Gemini 2.5 Pro,也是無(wú)可爭(zhēng)議的強(qiáng)!
在試用過(guò)程中,網(wǎng)友們逐漸發(fā)現(xiàn),這個(gè)模型真的強(qiáng)到發(fā)指。
在門薩Norway的IQ測(cè)試中,它已經(jīng)突破了130。
隨后,更硬核的證據(jù)來(lái)了——在MathArena測(cè)試中,它直接獲得了第一名!
注意,這里用的基本都是LLM從未見過(guò)的題。
在哈佛-麻省理工大學(xué)數(shù)學(xué)競(jìng)賽(HMMT)中,領(lǐng)先第二名15%
AIME 2025 I和AIME 2025 II是今年美國(guó)全國(guó)數(shù)學(xué)奧林匹克競(jìng)賽的選拔賽
它在數(shù)學(xué)方面已經(jīng)比大多數(shù)研究生要強(qiáng),這已經(jīng)是一個(gè)可以公開驗(yàn)證的事實(shí)。
在這位網(wǎng)友統(tǒng)計(jì)的AI模型能力表上,Gemini的領(lǐng)先趨勢(shì)已經(jīng)非常明顯。
Gemini 2.5 Pro (exp),免費(fèi)用戶也能用
好消息是,現(xiàn)在所有用戶都能用上Gemini 2.5 Pro了。
就在今天,谷歌官宣:向所有Gemini用戶,推出Gemini 2.5 Pro實(shí)驗(yàn)版!
而且,還是全免費(fèi)。
唯一美中不足的是,Gemini 2.5 Pro目前還會(huì)有速率限制。
但Gemini Advanced用戶,就可以享有更高級(jí)的訪問權(quán)限,和更大的上下文窗口。
在上周三剛剛發(fā)布時(shí),Gemini 2.5 Pro,還僅僅面向Gemini Advanced訂閱者開放,訂閱價(jià)格為每月19.99美元。
而隨后,模型還會(huì)被推廣到安卓和iOS應(yīng)用上。
目前尚不清楚,谷歌是否會(huì)將2.5 Pro的穩(wěn)定版本免費(fèi)提供給所有Gemini用戶,還是說(shuō)今天的舉措僅針對(duì)測(cè)試階段。
在此之前,似乎2.0 Flash Thinking和2.0 Flash都將是免費(fèi)提供的版本。
社區(qū)網(wǎng)友公認(rèn):大模型賽,谷歌已經(jīng)領(lǐng)先了
AI社區(qū)Reddit上的網(wǎng)友們公認(rèn):在客觀上,谷歌的模型已經(jīng)領(lǐng)先了。
或許是有史以來(lái)第一次,OpenAI明確處于落后地位,Anthropic也是如此。
雖然憑吉卜力表情包搶了風(fēng)頭,但這種廉價(jià)的伎倆只會(huì)在短期內(nèi)有用。在大模型賽中,局面已經(jīng)從根本上改變了。
細(xì)數(shù)LiveBench、LMSYS、人類最后的考試、智商測(cè)試,幾乎一切投票都表明,Gemini是無(wú)可爭(zhēng)議的領(lǐng)軍者。
有媒體表示谷歌Gemini 2.5 Pro是最聰明的模型
根據(jù)Artificial Analysis的評(píng)估,Gemini 2.5在大部分測(cè)試中都遙遙領(lǐng)先,成績(jī)排名第一。
同時(shí),輸出速度僅次于 Gemini 2.0 Flash,位列第二。
當(dāng)然,如果從原理上看,LLM的確沒有在做數(shù)學(xué),因?yàn)樗鼈兊谋举|(zhì)仍然是概率性的,是做從訓(xùn)練數(shù)據(jù)中預(yù)測(cè)最可能的答案。
最強(qiáng)編程模型:模擬宇宙都可以
谷歌的技術(shù)主管Addy Osmani,表示Gemini 2.5 Pro是谷歌最好的編程模型,而且免費(fèi)!
他給出了一段Gemini制作的3D飛行小游戲。
只需提示一次,Gemini 2.5 Pro可以在Three.js中的物理模擬!
多次提示,還可以改進(jìn)編程效果。
開源鏈接:https://github.com/gemsjohn/physics-sims
網(wǎng)友Gadgetify直接復(fù)刻了自己「宇宙模擬器」,只需幾次提示。
建立AI智能體DAIR.AI的elvis,則認(rèn)為Gemini 2.5 Pro是Claude 3.7 Sonnet的最強(qiáng)對(duì)手。
Gemini 2.5 Pro是一款優(yōu)質(zhì)代碼模型:
- 代碼質(zhì)量真的很好
- 1M個(gè)token的上下文
- 原生多模態(tài)
- 長(zhǎng)代碼生成
- 理解大型代碼庫(kù)
利用Gemini和Windsurf,他生成了AI搜索代理應(yīng)用。
不少網(wǎng)友體驗(yàn)Gemini 2.5 Pro編程之后,表示Claude的確危險(xiǎn)了!
初步的編碼測(cè)試中的結(jié)果顯示,Gemini 2.5 Pro把行業(yè)水平提升了一個(gè)檔次。
對(duì)此,「AI智能體先驅(qū)」的創(chuàng)始人Silas Alberti,表示編程助手Devin正在引入Gemini 2.5 Pro。
而從事SEO行業(yè)的Julian Goldies放出Gemini 2.5 Pro MCP Servers教程,讓智能體自動(dòng)化一切。
甚至,有人用Gemini 2.5 Pro測(cè)試了一個(gè)項(xiàng)目,使用A*算法為高速列車尋找最優(yōu)解,這個(gè)過(guò)程中涉及了優(yōu)化坡度、轉(zhuǎn)彎半徑、多目標(biāo)優(yōu)化等難題。
令人驚喜的是,雖然它經(jīng)常搞亂語(yǔ)法,比如試圖把所有代碼壓縮到一行,但它完成了不少高質(zhì)量的工作。