自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

官方承認(rèn)系統(tǒng)「作弊」,世界首個(gè)「AI CUDA工程師」翻車?o3-mini 11秒發(fā)現(xiàn)bug

人工智能 新聞
高調(diào)亮相的世界首個(gè)「AI CUDA工程師」,宣稱能讓模型訓(xùn)練速度飆升100倍,如今卻上演了一場(chǎng)「作弊」鬧劇。OpenAI研究員用o3-mini,11秒便發(fā)現(xiàn)了內(nèi)核代碼有bug!

近日,獲英偉達(dá)支持、已獲數(shù)億美元風(fēng)投資金的Sakana AI爆出戲劇性反轉(zhuǎn)。

此前,該公司宣稱開發(fā)出「AI CUDA工程師」,能將特定模型訓(xùn)練速度提升最高達(dá)100倍,引發(fā)行業(yè)關(guān)注。

然而,網(wǎng)友卻發(fā)現(xiàn),這個(gè)系統(tǒng)根本不管用。

圖片

「AI CUDA工程師」實(shí)際表現(xiàn)堪稱翻車現(xiàn)場(chǎng),不僅未能實(shí)現(xiàn)加速,甚至出現(xiàn)訓(xùn)練速度不升反降的情況。

網(wǎng)友反饋,使用該系統(tǒng)后,訓(xùn)練速度慢了3倍。

圖片

問(wèn)題出在哪里呢?

經(jīng)過(guò)一系列的驗(yàn)證,網(wǎng)友「main」發(fā)現(xiàn):「AI CUDA工程師」寫的內(nèi)核有bug!

「它似乎竊取了即時(shí)實(shí)現(xiàn)的結(jié)果(可能是以某種方式的內(nèi)存重用?),從而繞過(guò)了正確性檢查?!?/span>

如果嘗試以不同的順序執(zhí)行,只有下列第一種順序有效。

  • torch, cuda
  • cuda, torch

圖片

隨后,網(wǎng)友「miru」進(jìn)一步發(fā)現(xiàn),「AI CUDA工程師」之所以能實(shí)現(xiàn)100倍加速,是因?yàn)樗@了評(píng)估腳本的漏洞。

圖片

圖片

比如,上面這個(gè)任務(wù)的結(jié)果,是下面這個(gè)評(píng)估腳本跑出來(lái)的:

圖片

其中,這段代碼會(huì)分配包含答案的中間內(nèi)存,同時(shí)分配正確答案的副本并返回,而中間內(nèi)存則被歸還給PyTorch。

圖片

然后,這段有問(wèn)題的代碼會(huì)重用包含正確答案的中間內(nèi)存,并運(yùn)行一個(gè)空操作內(nèi)核,使答案保持不變。

圖片

從而讓這段有bug的「AI CUDA工程師」內(nèi)核,被評(píng)估腳本誤判為「正確」,并錯(cuò)誤地顯示出超過(guò)100×的加速。

圖片

這里的「hacking」是指把代碼弄得慘不忍睹,導(dǎo)致評(píng)估腳本失靈,而不是刻意設(shè)計(jì)的漏洞利用。

Sakana在遵循KernelBench評(píng)估流程和發(fā)布可復(fù)現(xiàn)的評(píng)估代碼方面做得很好,只是沒(méi)有人工檢查那些異常的結(jié)果。

目前只剩一個(gè)>100×的加速結(jié)果,是任務(wù)23_Conv3d_GroupNorm_Mean。

在這個(gè)任務(wù)中,「AI CUDA工程師」完全遺漏了卷積部分,但評(píng)估腳本并未檢測(cè)出這個(gè)問(wèn)題。

圖片

這段代碼(卷積+組歸一化+均值計(jì)算),實(shí)際上跑的卷積。

圖片

與這段「AI CUDA工程師」生成的代碼對(duì)比,后者忘記了卷積。卷積的權(quán)重/偏置輸入未被使用,實(shí)際并未執(zhí)行任何卷積操作。

圖片

它成功通過(guò)了正確性檢查并實(shí)現(xiàn)了100×加速,因?yàn)樵谠u(píng)估腳本測(cè)試的特定輸入上,兩個(gè)內(nèi)核的輸出都是一個(gè)恒定值0.02。

圖片

與此同時(shí),OpenAI研究員Lucas Beyer則用o3-mini-high發(fā)現(xiàn)了「AI CUDA工程師」的問(wèn)題:

「o3-mini-high在11秒內(nèi)找出了CUDA內(nèi)核的問(wèn)題。它快150倍是個(gè)bug,實(shí)際上是慢了3倍?!?/span>

圖片

他指出,Sakana代碼存在關(guān)鍵的錯(cuò)誤,兩次基準(zhǔn)測(cè)試結(jié)果差異極大,如此異常本應(yīng)讓其警醒反思:

  1. 這種超直白的CUDA代碼根本不可能比優(yōu)化過(guò)的cublas內(nèi)核更快。如果它快了,那一定是哪里出了問(wèn)題。
  2. 如果你的基準(zhǔn)測(cè)試結(jié)果表現(xiàn)得神秘又不一致,那一定是哪里出了問(wèn)題。
  3. o3-mini-high真的很強(qiáng)!它只用了11秒就找出了問(wèn)題,而我花了大約10分鐘來(lái)寫這篇總結(jié)。

圖片

Sakana承認(rèn)錯(cuò)誤

Sakana目前正在進(jìn)行更全面的修復(fù)工作,以解決評(píng)估腳本漏洞,并重新評(píng)估他們的技術(shù)。

在周五發(fā)布的事后分析報(bào)告中,Sakana承認(rèn)系統(tǒng)存在「作弊」行為,并將其歸咎于系統(tǒng)的「獎(jiǎng)勵(lì)作弊」傾向。

系統(tǒng)利用了評(píng)估代碼中的漏洞,繞過(guò)準(zhǔn)確性驗(yàn)證等檢查環(huán)節(jié),通過(guò)「獎(jiǎng)勵(lì)作弊」獲得高指標(biāo),卻并未真正實(shí)現(xiàn)加速模型訓(xùn)練的目標(biāo)。

類似「鉆空子」現(xiàn)象,在訓(xùn)練下棋的AI系統(tǒng)中也曾出現(xiàn)。

圖片

Sakana稱已著手解決該問(wèn)題,并計(jì)劃在更新材料中修改此前的說(shuō)法。

公司在X平臺(tái)上發(fā)文稱:

「將進(jìn)化優(yōu)化與LLM結(jié)合使用確實(shí)非常強(qiáng)大,但它也可能找到繞過(guò)驗(yàn)證沙盒的方法。幸運(yùn)的是,我們的讀者幫助測(cè)試了我們的CUDA內(nèi)核,并發(fā)現(xiàn)系統(tǒng)找到了某種作弊方式。例如,系統(tǒng)在評(píng)估代碼中發(fā)現(xiàn)了一個(gè)內(nèi)存漏洞,在某些情況下,它能夠繞過(guò)正確性檢查。

此外,我們還發(fā)現(xiàn),系統(tǒng)可以在基準(zhǔn)測(cè)試任務(wù)中找到其他新的漏洞利用方法。

針對(duì)這些問(wèn)題,我們已經(jīng)加強(qiáng)了評(píng)估和運(yùn)行時(shí)分析框架,修復(fù)了許多此類漏洞。目前,我們正在修改論文和實(shí)驗(yàn)結(jié)果,以反映并討論LLM在CUDA內(nèi)核優(yōu)化中的獎(jiǎng)勵(lì)機(jī)制被濫用的問(wèn)題,以及相應(yīng)的應(yīng)對(duì)措施。

我們對(duì)這一疏忽向讀者深表歉意。我們將很快提供修訂版,并分享經(jīng)驗(yàn)和思考?!?/span>

AI CUDA工程師

上周,Sakana AI剛剛發(fā)布了世界上首個(gè)「AI CUDA工程師」。

「AI CUDA工程師」是一個(gè)基于前沿LLM的AI智能體框架,它能將PyTorch代碼自動(dòng)轉(zhuǎn)換為高度優(yōu)化的CUDA內(nèi)核,速度比PyTorch原生實(shí)現(xiàn)快10-100倍。

通過(guò)LLM驅(qū)動(dòng)的進(jìn)化代碼優(yōu)化技術(shù),「AI CUDA工程師」將PyTorch代碼轉(zhuǎn)換為CUDA內(nèi)核,并通過(guò)進(jìn)化算法優(yōu)化CUDA內(nèi)核的執(zhí)行效率,實(shí)現(xiàn)多個(gè)運(yùn)算操作的融合。

這項(xiàng)工作分為4個(gè)階段,分別是轉(zhuǎn)換和翻譯,進(jìn)化優(yōu)化以及創(chuàng)新檔案。

圖片

「AI CUDA工程師」首先將PyTorch代碼轉(zhuǎn)換為可運(yùn)行的CUDA內(nèi)核,采用進(jìn)化的方法來(lái)保留最優(yōu)秀的CUDA內(nèi)核。團(tuán)隊(duì)創(chuàng)新性地提出了內(nèi)核交叉提示策略,能將多個(gè)優(yōu)化后的內(nèi)核進(jìn)行有效組合。

通過(guò)構(gòu)建一個(gè)高性能CUDA內(nèi)核的創(chuàng)新檔案庫(kù),以積累的優(yōu)化經(jīng)驗(yàn)為基礎(chǔ),實(shí)現(xiàn)更進(jìn)一步的轉(zhuǎn)換和性能突破。

團(tuán)隊(duì)相信這項(xiàng)技術(shù)能帶來(lái)性能加速,加快LLM或其他AI模型的訓(xùn)練和推理速度,最終讓AI模型在英偉達(dá)GPU上運(yùn)行得更快。

這次大翻車表明,「AI CUDA工程師」通過(guò)作弊實(shí)現(xiàn)了>100×的性能。

Sakana AI也勇敢地承認(rèn)了錯(cuò)誤。

此次事件為AI行業(yè)敲響警鐘,如果一種說(shuō)法聽(tīng)起來(lái)好得令人難以置信,那很可能就是假的。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-02-21 09:00:00

2025-01-20 19:52:50

2024-12-24 16:15:04

2025-02-03 00:15:00

DeepSeek?o3-mini?資源

2025-02-08 17:00:11

2025-04-21 16:25:58

OpenAI測(cè)試模型

2023-12-06 15:40:17

AI

2024-11-18 08:30:00

2025-02-18 09:00:00

2025-02-07 11:20:50

2025-02-10 00:00:01

2025-02-03 14:06:32

2025-02-17 08:12:00

AI模型生成

2025-03-04 10:15:00

2025-02-14 10:47:40

2025-03-13 09:12:35

2021-03-15 08:39:25

AI 數(shù)據(jù)人工智能

2025-02-25 12:30:00

2025-01-20 08:45:00

AGI模型AI

2025-02-03 12:38:28

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)