自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<thead id="9tblc"></thead>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

殺瘋了！Gemini 2.5狂飆「高爾頓板」測試，編碼橫掃所有OpenAI模型

作者：新智元 2025-04-21 09:15:00

人工智能新聞

谷歌的AI編碼能力正在掀起一場風(fēng)暴！在高爾頓板測試中，Gemini 2.5 Flash以驚艷表現(xiàn)擊敗OpenAI多款模型，連谷歌首席科學(xué)家Jeff Dean 都為其點贊。谷歌新模型「dayhush」已在網(wǎng)頁開發(fā)領(lǐng)域嶄露頭角，性能超越Gemini 2.5 Pro，被網(wǎng)友稱為「AI編碼的地震性突破」。

編碼能力一直是頂尖模型宣傳的重點。

尤其是，AI大神Karpathy帶火vibe coding（氛圍編程）概念后，普通人也可以通過AI體驗到編程的樂趣。

游戲、網(wǎng)頁、3D建模，再加上最近爆火的MCP協(xié)議，大家玩得不亦樂乎。

不只是娛樂，很多AI專家、公司CEO、行業(yè)分析師甚至認為，AI可能會在2-3年內(nèi)取代絕大部分的程序員。

AI編程真的有那么強嗎？哪家的效果更好？

就在最近，網(wǎng)友RameshR通過高爾頓板（Galton board）測試，對比了Gemini 2.5 Flash、GPT-4o mini、o4-mini-high及o3等幾個最新的模型。

結(jié)果他發(fā)現(xiàn)，Gemini 2.5 Flash在這項高爾頓板測試中表現(xiàn)炸裂，而OpenAI的幾個模型則完全不行，沒能搞定這個任務(wù)。

RameshR表示，Gemini 2.5 Flash幾乎瞬間就能get到意圖，生成的代碼簡潔又漂亮。

在Gemini 2.5 Flash上，他一共提示5次就搞定了。而在OpenAI的模型上，RameshR則折騰了半小時都沒有完成，最后直接選擇放棄。

可以看出，Gemini 2.5 Flash生成的動畫中，整個高爾頓板的排布都沒有明顯的問題，小球的運動、碰撞也基本符合物理規(guī)律。

當然，最后小球的排列也是遵循正態(tài)分布。

RameshR的高爾頓板測試帖子發(fā)出后立即點燃了網(wǎng)友們的興致，就連谷歌的首席科學(xué)家Jeff Dean也出來給他點贊。

當然，也是為了給Gemini 2.5 Flash站臺。

資深工程師Ray Fernando使用相同的提示詞在o4-mini-high上進行了測試，結(jié)果表現(xiàn)還是不太完美。

他不得不又在GPT-4.1上重新試了一次，表現(xiàn)還是差強人意。

圖片下邊柱子和固定的小球已經(jīng)重合到一起了，小球的排列也不符合正態(tài)分布的規(guī)律。

還有網(wǎng)友使用其他的模型做了測試，比如Alex Kotenko就使用了Claude 3.7。

他表示在使用了相同的初始提示和一次后續(xù)調(diào)整就完成了測試。只不過從結(jié)果來看，小球的排列并不怎么符合正態(tài)分布。

而Isaac Naor則使用Gork模型一次就完成了測試。

可以看出Gork模型生成的動畫在界面和小球的運動上表現(xiàn)還可以。

但小球最后的排列并不太符合正態(tài)分布規(guī)律，距離Gemini 2.5 Flash還有差距。

谷歌正勢如破竹

這還只是Gemini 2.5 Flash的表現(xiàn)，Gemini 2.5 Pro的效果只會更好。

谷歌DeepMind正勢如破竹！在第七代TPU Ironwood的加持下，Gemini模型不僅性能很強，性價比也格外的高。

谷歌似乎是找到了最佳編碼模型的秘密。

剛剛，網(wǎng)友AshutoshShrivastava發(fā)帖稱，谷歌又又又推出了一個新模型「dayhush」，已在網(wǎng)頁開發(fā)領(lǐng)域上線。

更加夸張的是，這個新模型似乎比Gemini 2.5 Pro更出色。他還提供了新模型的一些更詳細信息。

測試過「dayhush」的網(wǎng)友Taro Bushidō表示，「這將是對AI編碼的一次地震性轉(zhuǎn)變?！?/span>

網(wǎng)友MuffinV也認為，Dayhush是一個大的飛躍。

它的思考時間更長，效果也最好，而且目前沒有任何其他模型能達到這種水平。

他使用Dayhush模型創(chuàng)建了一些知名網(wǎng)站，效果非常棒。

「沒有任何模型能夠如此精確地創(chuàng)建youtube和spotify的用戶界面。」他說。

責(zé)任編輯：張燕妮來源：新智元

谷歌 AI 編程

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="napun"><li id="napun"></li></s>

<cite id="napun"></cite>

<style id="napun"></style>

^{<sub id="napun"></sub>}

<sub id="napun"></sub>

<sub id="napun"></sub>