自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="h15oi"><i id="h15oi"></i></sub>

<blockquote id="h15oi"><p id="h15oi"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

o3被曝「無(wú)視」前成果？華人博士生實(shí)名指控，謝賽寧等大牛激烈爭(zhēng)辯

作者：新智元 2025-04-21 16:32:29

人工智能新聞

o3和o4-mini視覺(jué)推理突破，竟未引用他人成果？一名華盛頓大學(xué)博士生發(fā)出質(zhì)疑，OpenAI研究人員對(duì)此回應(yīng)：不存在。

在視覺(jué)感知方面，o3和o4-mini在思維鏈中進(jìn)行圖像推理，代表了一個(gè)重要突破。

華盛頓大學(xué)計(jì)算機(jī)科學(xué)博士生施惟佳站出來(lái)表示，o3和o4-mini可能用到了她之前的研究Visual Sketchpad 。

論文鏈接：https://visualsketchpad.github.io/

這項(xiàng)發(fā)表于24年研究中，曾提出通過(guò)可視化輔助增強(qiáng)模型推理。一時(shí)間，這一猜測(cè)如同一石激起千層浪。

更猛烈的炮火來(lái)自滑鐵盧大學(xué)CS助理教授、谷歌DeepMind高級(jí)研究科學(xué)家陳文虎。

他表示，「OpenAI既不承認(rèn)也不引用任何相關(guān)工作。這真可悲?！?/span>

領(lǐng)導(dǎo)OpenAI感知團(tuán)隊(duì)的華人科學(xué)家Jiahui Yu表示：「確實(shí)不知道，但看起來(lái)很酷?！?/span>

OpenAI的內(nèi)部員工Brandon McKinzie表示，一眼看上去，與我們研究的有很大不同。而且o3和o4-mini行為都是自發(fā)的表現(xiàn)。

隨后，這引發(fā)了關(guān)于o3視覺(jué)推理能力的大討論。

但OpenAI陷入爭(zhēng)議的不止是視覺(jué)推理，在數(shù)學(xué)基準(zhǔn)測(cè)試中被爆出「作弊」！

視覺(jué)推理大辯論

首先登場(chǎng)的是Brandon McKinzie。

他瞥過(guò)一眼Visual Sketchpad，認(rèn)為OpenAI的技術(shù)與之完全不同：

與我們之前做的事情完全不同，值得注意的是，o3和o4-mini中的行為完全是由大規(guī)模強(qiáng)化學(xué)習(xí)（RL）產(chǎn)生的。

我們只是給它們提供了訪問(wèn)Python和操作圖像的能力，其余的都交給了模型自己去處理。

但華盛頓大學(xué)的博士生胡雨石（Yushi Hu），對(duì)此并不完全認(rèn)同。

模型又是如何學(xué)會(huì)操作圖像的？

他猜測(cè)到OpenAI可能使用了SFT數(shù)據(jù)，和謝賽寧V*論文或可視化草稿本論文類似。

此時(shí)，另一個(gè)華人AI大牛謝賽寧加入了辯論。

他提出了「用圖思考」的更深入的思考。

謝賽寧：識(shí)別已死，視覺(jué)永生

關(guān)于「用圖思考」的概念，謝賽寧有5點(diǎn)進(jìn)一步的思考。

1. 零樣本工具使用有局限性。

不能僅僅調(diào)用一個(gè)物體檢測(cè)器就實(shí)現(xiàn)視覺(jué)搜索。

這也是為什么像VisProg、ViperGPT、Visual-sketchpad這樣的方式難以泛化或擴(kuò)展的原因。

它們更像是「外掛式工具調(diào)用」，而不是系統(tǒng)性能力。

謝賽寧在V*項(xiàng)目中就專注于這一點(diǎn)，但兩年前他還沒(méi)有意識(shí)到強(qiáng)化學(xué)習(xí)（RL）會(huì)變得這么強(qiáng)大，因此只能依靠監(jiān)督微調(diào)（SFT）來(lái)訓(xùn)練檢測(cè)頭。

這種方式雖然能跑通，但速度慢，訓(xùn)練過(guò)程也頗為痛苦。

論文鏈接：https://arxiv.org/abs/2312.14135

2. 視覺(jué)搜索必須是多模態(tài)大模型的原生組件，且要端到端整合。

3. 如果所使用的工具本身是簡(jiǎn)單、低層次的——比如基礎(chǔ)的Python圖像處理函數(shù)，而不是像Faster R-CNN 這樣的大模型——它們就可以直接被整合進(jìn)端到端系統(tǒng)。

一旦強(qiáng)化學(xué)習(xí)規(guī)?；?，這些簡(jiǎn)單工具就能變成「視覺(jué)基元」（visual primitives），模型可以自由組合它們，從而構(gòu)建出可擴(kuò)展的視覺(jué)能力。

4. 大家應(yīng)該繼續(xù)發(fā)掘這些視覺(jué)基元。

它們絕不僅僅是圖像處理函數(shù)，也應(yīng)該包括對(duì)視頻、三維數(shù)據(jù)的處理方式，未來(lái)的視覺(jué)系統(tǒng)需要構(gòu)建在更廣泛的「感知基礎(chǔ)件」之上。

5. 謝賽寧認(rèn)為大多數(shù)傳統(tǒng)的視覺(jué)識(shí)別模型已經(jīng)「過(guò)時(shí)」了。

正如Ross Girshick所說(shuō)，它們本質(zhì)上就是「解析器」（parsers）。但視覺(jué)本身沒(méi)有死，反而比以往任何時(shí)候都更有生命力、更令人興奮。

視覺(jué)識(shí)別模型已過(guò)時(shí)

此外，謝賽寧爆出了更大的消息：為OpenAI新模型「用圖思考」奠定基礎(chǔ)的Bowen Cheng、Ji Lin，的確與他討論過(guò)多模態(tài)基礎(chǔ)相關(guān)話題。

而謝賽寧的V*從GPT-4V的55%性能躍升至o3的95.7%。

看到一個(gè)艱難的基準(zhǔn)測(cè)試被解決，他感到一種深深的滿足感：

這意味著視覺(jué)搜索，正成為多模態(tài)模型推理的一個(gè)基本組成部分，就像視覺(jué)對(duì)人類的意義一樣。

然而，他認(rèn)為不要只是緊跟OpenAI的步伐。

學(xué)術(shù)界需要向前推進(jìn)，構(gòu)建那些不僅僅是眼下相關(guān)的東西，而是能夠塑造未來(lái)的事物——

也許還能夠啟發(fā)像OpenAI這樣的偉大公司。

V*證明學(xué)術(shù)界可以做到。

謝賽寧的推文停留在轉(zhuǎn)發(fā)微軟VP Nando de Freitas的推文：

強(qiáng)化學(xué)習(xí)并非一切……

類似的說(shuō)法只是宣傳。

這就是對(duì)OpenAI的Brandon McKinzie的「一切能力都從RL訓(xùn)練涌現(xiàn)」的一種委婉的反駁。

o3數(shù)學(xué)成績(jī)僅為10%，評(píng)測(cè)結(jié)果再陷爭(zhēng)議

除了圖像推理，o3在數(shù)學(xué)基準(zhǔn)的成績(jī)單，也受到了外界質(zhì)疑。

去年12月，OpenAI官宣o3時(shí)，聲稱模型在FrontierMath基準(zhǔn)測(cè)試中正確率超25%。

當(dāng)時(shí)，業(yè)內(nèi)其他頂尖模型的得分普遍低于2%，o3的表現(xiàn)無(wú)疑令人矚目。

然而，這一亮眼的成績(jī)似乎只是OpenAI內(nèi)部測(cè)試的「理想狀態(tài)」。

OpenAI首席研究官M(fèi)ark Chen在直播中稱，「為o3配置激進(jìn)的測(cè)試時(shí)計(jì)算（test-time compute）后，我們能把成績(jī)提高到25%以上?！?/span>

顯然，25%得分來(lái)自一個(gè)計(jì)算資源更強(qiáng)大的o3版本，也就是上周發(fā)布的滿血版。

針對(duì)滿血o3，創(chuàng)建FrontierMath基準(zhǔn)的研究機(jī)構(gòu)Epoch AI，發(fā)布了獨(dú)立測(cè)試結(jié)果：o3得分僅為10%，遠(yuǎn)低于OpenAI聲稱最高成績(jī)25%。

這并不意味著，OpenAI故意造假。

OpenAI去年12月公布的基準(zhǔn)測(cè)試中，也給出了一個(gè)與Epoch實(shí)測(cè)一致的「下界得分」。

Epoch補(bǔ)充說(shuō)，測(cè)試結(jié)果的差異可能源于以下原因：

OpenAI內(nèi)部測(cè)試使用了更強(qiáng)大的框架，投入了更多測(cè)試時(shí)計(jì)算
測(cè)試所采用的FrontierMath數(shù)據(jù)集版本不同：OpenAI可能使用的是290題的frontiermath?2025?02?28?private；Epoch使用的是180題的frontiermath?2024?11?26。

與此同時(shí)，ARC Prize基金會(huì)在X上發(fā)帖證實(shí)，預(yù)發(fā)布版o3與公開(kāi)版并非同一模型，后者「專門為聊天／產(chǎn)品場(chǎng)景調(diào)?！?。

他們還指出，目前發(fā)布的各檔o3計(jì)算級(jí)別（compute tiers），都比跑基準(zhǔn)時(shí)用的版本小。

一般而言，算力檔位越高，基準(zhǔn)成績(jī)也會(huì)越好。

此外，OpenAI技術(shù)團(tuán)隊(duì)成員Wenda Zhou在上周一次直播中坦言，相較于去年12月，經(jīng)過(guò)優(yōu)化后的o3更適合現(xiàn)實(shí)世界的用例，更側(cè)重于真實(shí)使用場(chǎng)景與推理速度。因此，它在基準(zhǔn)測(cè)試上可能會(huì)出現(xiàn)一些「偏差」。

這樣的成績(jī)落差，引起了不少網(wǎng)友質(zhì)疑。

但嚴(yán)格來(lái)說(shuō)，問(wèn)題并不在于o3的實(shí)際表現(xiàn)。OpenAI旗下的其他模型，如o3?mini?high和o4?mini，在FrontierMath上的表現(xiàn)都優(yōu)于o3。

而且，奧特曼表示，計(jì)劃在未來(lái)幾周推出更強(qiáng)大的o3?pro。

這意味著，o3的基準(zhǔn)測(cè)試爭(zhēng)議更多地是「面子問(wèn)題」，而非OpenAI技術(shù)短板。

不過(guò)，這再次提醒我們：AI基準(zhǔn)測(cè)試的結(jié)果不能只看表面，尤其當(dāng)數(shù)據(jù)來(lái)自一家急于推廣服務(wù)的公司時(shí)。

基準(zhǔn)測(cè)試，權(quán)威性何在？

其實(shí)，o3的風(fēng)波并非是孤例。

科技大廠競(jìng)相推出新模型吸引眼球，「基準(zhǔn)測(cè)試爭(zhēng)議」在AI行業(yè)已屢見(jiàn)不鮮。

今年1月，Epoch還曾因在o3發(fā)布后，才披露得到了OpenAI資金支持而飽受批評(píng)。

甚至，許多為FrontierMath貢獻(xiàn)題目的學(xué)者，包括陶哲軒等大牛在內(nèi)，直到消息公開(kāi)后才得知OpenAI的介入，瞬間引發(fā)全網(wǎng)關(guān)于基準(zhǔn)測(cè)試公平性質(zhì)疑。

還有前段時(shí)間，Grok 3發(fā)布之后，其基準(zhǔn)測(cè)試遭到OpenAI研究員譴責(zé)——用基于64個(gè)樣本進(jìn)行多數(shù)投票刷分。

還有最近一次的烏龍，Meta用「特供版」Llama 4去刷分登上了Chatbot Arena榜單TOP 2。

有趣的是，在最新榜單中，Llama 4排名跌至32位，不滾動(dòng)屏幕根本找不到它。

總而言之，基準(zhǔn)測(cè)試「水分」已成為一個(gè)不可忽視的問(wèn)題，關(guān)鍵在于每個(gè)人理性看待AI成績(jī)單。

責(zé)任編輯：張燕妮來(lái)源：新智元

視覺(jué)模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)