殺瘋了!Gemini 2.5狂飆「高爾頓板」測試,編碼橫掃所有OpenAI模型
編碼能力一直是頂尖模型宣傳的重點。
尤其是,AI大神Karpathy帶火vibe coding(氛圍編程)概念后,普通人也可以通過AI體驗到編程的樂趣。
游戲、網(wǎng)頁、3D建模,再加上最近爆火的MCP協(xié)議,大家玩得不亦樂乎。
不只是娛樂,很多AI專家、公司CEO、行業(yè)分析師甚至認為,AI可能會在2-3年內(nèi)取代絕大部分的程序員。
AI編程真的有那么強嗎?哪家的效果更好?
就在最近,網(wǎng)友RameshR通過高爾頓板(Galton board)測試,對比了Gemini 2.5 Flash、GPT-4o mini、o4-mini-high及o3等幾個最新的模型。
結(jié)果他發(fā)現(xiàn),Gemini 2.5 Flash在這項高爾頓板測試中表現(xiàn)炸裂,而OpenAI的幾個模型則完全不行,沒能搞定這個任務(wù)。
RameshR表示,Gemini 2.5 Flash幾乎瞬間就能get到意圖,生成的代碼簡潔又漂亮。
在Gemini 2.5 Flash上,他一共提示5次就搞定了。而在OpenAI的模型上,RameshR則折騰了半小時都沒有完成,最后直接選擇放棄。
可以看出,Gemini 2.5 Flash生成的動畫中,整個高爾頓板的排布都沒有明顯的問題,小球的運動、碰撞也基本符合物理規(guī)律。
當然,最后小球的排列也是遵循正態(tài)分布。
RameshR的高爾頓板測試帖子發(fā)出后立即點燃了網(wǎng)友們的興致,就連谷歌的首席科學(xué)家Jeff Dean也出來給他點贊。
當然,也是為了給Gemini 2.5 Flash站臺。
資深工程師Ray Fernando使用相同的提示詞在o4-mini-high上進行了測試,結(jié)果表現(xiàn)還是不太完美。
他不得不又在GPT-4.1上重新試了一次,表現(xiàn)還是差強人意。
圖片下邊柱子和固定的小球已經(jīng)重合到一起了,小球的排列也不符合正態(tài)分布的規(guī)律。
還有網(wǎng)友使用其他的模型做了測試,比如Alex Kotenko就使用了Claude 3.7。
他表示在使用了相同的初始提示和一次后續(xù)調(diào)整就完成了測試。只不過從結(jié)果來看,小球的排列并不怎么符合正態(tài)分布。
而Isaac Naor則使用Gork模型一次就完成了測試。
可以看出Gork模型生成的動畫在界面和小球的運動上表現(xiàn)還可以。
但小球最后的排列并不太符合正態(tài)分布規(guī)律,距離Gemini 2.5 Flash還有差距。
谷歌正勢如破竹
這還只是Gemini 2.5 Flash的表現(xiàn),Gemini 2.5 Pro的效果只會更好。
谷歌DeepMind正勢如破竹!在第七代TPU Ironwood的加持下,Gemini模型不僅性能很強,性價比也格外的高。
谷歌似乎是找到了最佳編碼模型的秘密。
剛剛,網(wǎng)友AshutoshShrivastava發(fā)帖稱,谷歌又又又推出了一個新模型「dayhush」,已在網(wǎng)頁開發(fā)領(lǐng)域上線。
更加夸張的是,這個新模型似乎比Gemini 2.5 Pro更出色。他還提供了新模型的一些更詳細信息。
測試過「dayhush」的網(wǎng)友Taro Bushidō表示,「這將是對AI編碼的一次地震性轉(zhuǎn)變?!?/span>
網(wǎng)友MuffinV也認為,Dayhush是一個大的飛躍。
它的思考時間更長,效果也最好,而且目前沒有任何其他模型能達到這種水平。
他使用Dayhush模型創(chuàng)建了一些知名網(wǎng)站,效果非常棒。
「沒有任何模型能夠如此精確地創(chuàng)建youtube和spotify的用戶界面。」他說。