數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!
嘿,大家好!這里是一個(gè)專注于前沿AI和智能體的頻道~
DeepSeek-V3-0324前天悄然發(fā)布,沒有任何預(yù)告和宣傳,卻因其極強(qiáng)的編碼能力,迅速火遍全網(wǎng)。
或許,它已成為目前最優(yōu)秀的"非推理"模型。
編碼性能直追目前基本唯一可用的Claude Sonnet 3.7。
到昨天晚上,官方終于發(fā)布公告,在LiveCodeBench編碼測試中,性能指標(biāo)已超越Claude Sonnet 3.7。官網(wǎng)已更新至最新版模型,不開啟深度推理時(shí),即使用的是這一最新版本。
昨晚上,Google發(fā)布了Gemini的重大版本更新,儼然一個(gè)"數(shù)值怪物",在推理能力、編碼能力和復(fù)雜任務(wù)處理能力上均實(shí)現(xiàn)大幅提升。延續(xù)Google一貫特色,該版本可在Google AI Studio上免費(fèi)使用。
在由人類投票的LMSYS大模型競技場上,Gemini 2.5 Pro已徹底領(lǐng)先一個(gè)身位(當(dāng)然,刷這個(gè)榜單一直是Google的強(qiáng)項(xiàng))。
- deepseek免費(fèi)試玩地址:https://aistudio.google.com/prompts/new_chat
- Gemini 2.5 pro免費(fèi)試玩地址:https://aistudio.google.com/prompts/new_chat
需要注意的是,Gemini 2.5 Pro是一個(gè)名字不帶thinking的推理模型
本來想對比一些用戶場景的效果,如海報(bào)、封面設(shè)計(jì)、Agent規(guī)劃等,但目前DeepSeek官網(wǎng)只能使用思考模型,而Chat模型總是提示??服務(wù)器繁忙,請稍后再試?
?,尷尬~
審美能力
封面
下圖輸入是本段前的文章內(nèi)容。從左到右分別對應(yīng)DeepSeek-R1、Gemini 2.5 Pro thinking、Claude Sonnet 3.7 thinking。不得不說,在審美方面,DeepSeek和Gemini 2.5仍落后Claude一大截。
天氣卡片
Gemini生成的效果只能說一般般:
任務(wù)規(guī)劃
任務(wù)規(guī)劃能力測試可以大致評估其是否適用于通用Agent的規(guī)劃模型。
我測試了一個(gè)簡單的prompt,下圖黑色部分是Gemini 2.5 Pro的結(jié)果,右側(cè)白色部分是Claude 3.7 Sonnet的結(jié)果??傮w而言,Gemini對需求理解更為透徹,內(nèi)容規(guī)劃更加完善全面,而Claude則提供了更詳細(xì)的網(wǎng)頁制作細(xì)節(jié)。
考慮到Google自家已有眾多領(lǐng)域Agent,而前置的TODOLIST基本是最前端的環(huán)節(jié),因此即便簡單的prompt也能獲得非常好的效果。相比之下,目前DeepSeek-R1的反饋較為隨意,故未展示。
文筆
這里引用昨天DeepSeek官方賬號的例子,盡管Gemini使用繁體字,但在文筆上,我更傾向于DeepSeek。
最后總結(jié)一下,因?yàn)橐恍﹩栴},沒法測試DeepSeek新版模型。
- Gemini 2.5新版本展現(xiàn)出優(yōu)秀的前置規(guī)劃能力,證明并非所有規(guī)劃任務(wù)都必須依賴Claude
- DeepSeek的代碼能力據(jù)稱極為強(qiáng)大,且作為非推理模型,為國產(chǎn)AI應(yīng)用帶來更多想象空間
- DeepSeek新版模型主要優(yōu)化了后訓(xùn)練環(huán)節(jié),而R系列模型是基于base模型,兩者的技術(shù)路線傳導(dǎo)不一定順暢,但R2版本值得期待
- Gemini 2.5 Pro首token生成延遲明顯增加,但開始生成后速度依舊很快(可能與排隊(duì)機(jī)制有關(guān)),推理速度仍是Google的強(qiáng)項(xiàng)
- 對于普通用戶而言,Gemini Pro 2.5雖然性能強(qiáng)勁,但實(shí)際獲得的收益可能有限,繼續(xù)使用2.0 Flash版本仍是合理選擇
本文轉(zhuǎn)載自探索AGI,作者:獼猴桃
