自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

殺瘋了!Gemini 2.5狂飆「高爾頓板」測試,編碼橫掃所有OpenAI模型

人工智能 新聞
谷歌的AI編碼能力正在掀起一場風(fēng)暴!在高爾頓板 測試中,Gemini 2.5 Flash以驚艷表現(xiàn)擊敗OpenAI多款模型,連谷歌首席科學(xué)家Jeff Dean 都為其點贊。谷歌新模型「dayhush」已在網(wǎng)頁開發(fā)領(lǐng)域嶄露頭角,性能超越Gemini 2.5 Pro,被網(wǎng)友稱為「AI編碼的地震性突破」。

編碼能力一直是頂尖模型宣傳的重點。

尤其是,AI大神Karpathy帶火vibe coding(氛圍編程)概念后,普通人也可以通過AI體驗到編程的樂趣。

游戲、網(wǎng)頁、3D建模,再加上最近爆火的MCP協(xié)議,大家玩得不亦樂乎。

不只是娛樂,很多AI專家、公司CEO、行業(yè)分析師甚至認為,AI可能會在2-3年內(nèi)取代絕大部分的程序員。

AI編程真的有那么強嗎?哪家的效果更好?

就在最近,網(wǎng)友RameshR通過高爾頓板(Galton board)測試,對比了Gemini 2.5 Flash、GPT-4o mini、o4-mini-high及o3等幾個最新的模型。

結(jié)果他發(fā)現(xiàn),Gemini 2.5 Flash在這項高爾頓板測試中表現(xiàn)炸裂,而OpenAI的幾個模型則完全不行,沒能搞定這個任務(wù)。

圖片

RameshR表示,Gemini 2.5 Flash幾乎瞬間就能get到意圖,生成的代碼簡潔又漂亮。

在Gemini 2.5 Flash上,他一共提示5次就搞定了。而在OpenAI的模型上,RameshR則折騰了半小時都沒有完成,最后直接選擇放棄。

可以看出,Gemini 2.5 Flash生成的動畫中,整個高爾頓板的排布都沒有明顯的問題,小球的運動、碰撞也基本符合物理規(guī)律。

當然,最后小球的排列也是遵循正態(tài)分布。

圖片

RameshR的高爾頓板測試帖子發(fā)出后立即點燃了網(wǎng)友們的興致,就連谷歌的首席科學(xué)家Jeff Dean也出來給他點贊。

當然,也是為了給Gemini 2.5 Flash站臺。

圖片

資深工程師Ray Fernando使用相同的提示詞在o4-mini-high上進行了測試,結(jié)果表現(xiàn)還是不太完美。

他不得不又在GPT-4.1上重新試了一次,表現(xiàn)還是差強人意。

圖片下邊柱子和固定的小球已經(jīng)重合到一起了,小球的排列也不符合正態(tài)分布的規(guī)律。

圖片

還有網(wǎng)友使用其他的模型做了測試,比如Alex Kotenko就使用了Claude 3.7。

他表示在使用了相同的初始提示和一次后續(xù)調(diào)整就完成了測試。只不過從結(jié)果來看,小球的排列并不怎么符合正態(tài)分布。

圖片

而Isaac Naor則使用Gork模型一次就完成了測試。

圖片

可以看出Gork模型生成的動畫在界面和小球的運動上表現(xiàn)還可以。

但小球最后的排列并不太符合正態(tài)分布規(guī)律,距離Gemini 2.5 Flash還有差距。

谷歌正勢如破竹

這還只是Gemini 2.5 Flash的表現(xiàn),Gemini 2.5 Pro的效果只會更好。

谷歌DeepMind正勢如破竹!在第七代TPU Ironwood的加持下,Gemini模型不僅性能很強,性價比也格外的高。

谷歌似乎是找到了最佳編碼模型的秘密。

剛剛,網(wǎng)友AshutoshShrivastava發(fā)帖稱,谷歌又又又推出了一個新模型「dayhush」,已在網(wǎng)頁開發(fā)領(lǐng)域上線。

更加夸張的是,這個新模型似乎比Gemini 2.5 Pro更出色。他還提供了新模型的一些更詳細信息。

圖片

圖片

測試過「dayhush」的網(wǎng)友Taro Bushidō表示,「這將是對AI編碼的一次地震性轉(zhuǎn)變?!?/span>

圖片

網(wǎng)友MuffinV也認為,Dayhush是一個大的飛躍。

它的思考時間更長,效果也最好,而且目前沒有任何其他模型能達到這種水平。

圖片

他使用Dayhush模型創(chuàng)建了一些知名網(wǎng)站,效果非常棒。

「沒有任何模型能夠如此精確地創(chuàng)建youtube和spotify的用戶界面。」他說。

圖片圖片圖片圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-03-26 06:56:56

2024-05-20 08:28:10

2023-12-07 11:48:00

2023-03-27 13:42:22

2025-04-10 10:44:00

2023-08-01 07:45:52

2025-04-10 10:41:36

2025-03-14 12:14:38

2021-05-13 09:29:03

FragAttacks漏洞WiFi設(shè)備

2025-04-10 06:16:33

2025-04-15 09:03:00

2025-03-31 10:08:00

AI模型測試

2025-04-09 13:19:29

2023-12-09 14:30:50

2023-01-18 16:02:41

ChatGPT

2013-09-23 10:07:52

英特爾Avoton解析

2023-03-02 14:00:03

AI繪畫

2022-05-17 16:12:33

英偉達模型開源

2025-04-16 09:30:16

點贊
收藏

51CTO技術(shù)棧公眾號