自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="gvxtr"><rt id="gvxtr"><li id="gvxtr"></li></rt></sub>

<var id="gvxtr"><button id="gvxtr"><span id="gvxtr"></span></button></var>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

o3挑戰(zhàn)ARC-AGI，遇見大網(wǎng)格就懵圈？英國工程師：ARC-AGI不適合大模型

2024-12-26 11:42:56

來自英國的ML工程師Mikel Bober-Irizar（不妨叫他米哥），對(duì)ARC題目進(jìn)行了細(xì)致觀察。結(jié)果米哥發(fā)現(xiàn)，題目中的網(wǎng)格規(guī)模越大，大模型的表現(xiàn)也就越差。而且不僅是o3，o1和o1 mini，還有隔壁的Claude，都出現(xiàn)了這樣的現(xiàn)象。

o3在超難推理任務(wù)ARC-AGI上的成績，屬實(shí)給人類帶來了不少震撼。

但有人專門研究了它不會(huì)做的題之后，有了更有趣的發(fā)現(xiàn)——

o3之所以不會(huì)做這些題，原因可能不是因?yàn)樘y，而是題目的規(guī)模太大了。

來自英國的ML工程師Mikel Bober-Irizar（不妨叫他米哥），對(duì)ARC題目進(jìn)行了細(xì)致觀察。

結(jié)果米哥發(fā)現(xiàn)，題目中的網(wǎng)格規(guī)模越大，大模型的表現(xiàn)也就越差。

而且不僅是o3，o1和o1 mini，還有隔壁的Claude，都出現(xiàn)了這樣的現(xiàn)象。

米哥的這項(xiàng)研究，引起了人們對(duì)大模型工作機(jī)制的許多討論。

世界首位全職提示詞工程師Riley Goodside看到后，也認(rèn)為這是一項(xiàng)很好的研究。

大模型被困在了網(wǎng)格規(guī)模上

還是先簡(jiǎn)單回顧一下ARC挑戰(zhàn)，題目帶有色塊的網(wǎng)格陣列（以文本形式表述，用數(shù)字代表顏色），大模型需要觀察每道題目中3個(gè)輸入-輸出示例，然后根據(jù)規(guī)律填充新的空白網(wǎng)格。

米哥發(fā)現(xiàn)，在ARC挑戰(zhàn)中，規(guī)模越大，也就是網(wǎng)格的數(shù)量越多，大模型的表現(xiàn)也就越差。

o3也逃不過這樣的魔咒，但相比于其他模型，o3表現(xiàn)的明顯下降出現(xiàn)得更晚，大約在網(wǎng)格數(shù)量達(dá)到1024個(gè)之后（請(qǐng)記住這個(gè)位置，后面還會(huì)講到）。

為了進(jìn)一步驗(yàn)證這個(gè)發(fā)現(xiàn)，米哥還用o1-mini進(jìn)行了實(shí)際測(cè)試。

下圖當(dāng)中，左右兩欄的題目乍一看上去好像沒什么區(qū)別，但在右邊，米哥對(duì)網(wǎng)格進(jìn)行了細(xì)粒度的切割，原來的一個(gè)格子被切成了4（2×2）個(gè)。

結(jié)果原來能做對(duì)的題，切成小塊之后，o1-mini還真就不靈了。

進(jìn)一步地，米哥還對(duì)ARC數(shù)據(jù)集中的規(guī)模分布進(jìn)行了統(tǒng)計(jì)，結(jié)果剛好是規(guī)模在1024個(gè)像素的題目數(shù)量最多。

還記得前面o3成績下降趨勢(shì)突然變大的位置吧，剛好就是在1024附近。

米哥認(rèn)為，這就是o3在ARC挑戰(zhàn)上取得優(yōu)異成績的重要因素，而其他模型成績不佳，是因?yàn)閷?duì)應(yīng)的小規(guī)模試題占比較少。

所以在米哥看來，ARC挑戰(zhàn)并不能完全反映大模型真實(shí)的推理能力——有不少模型都被低估，o3則是被高估了。

ARC挑戰(zhàn)不適合大模型？

那么，為什么題目中網(wǎng)格數(shù)量一多，大模型的表現(xiàn)就不好了呢？

先來看米哥的分析。

米哥引用了紐約大學(xué)的一項(xiàng)研究結(jié)果（arXiv：2409.01374），這項(xiàng)研究發(fā)現(xiàn)人類在挑戰(zhàn)這樣的問題時(shí)并不會(huì)出現(xiàn)這種現(xiàn)象。

如果在人類和模型之間做個(gè)比較，那么在規(guī)模較小時(shí)o3的表現(xiàn)可以說完勝人類，但規(guī)模較大時(shí)優(yōu)勝方就變成了人類。

這說明，大模型在解決此類問題時(shí)，思考方式和人類依然存在差別。

當(dāng)然，大模型在挑戰(zhàn)ARC時(shí)看到的不是圖像，而是用數(shù)字代表的矩陣，這是顯而易見的，但差別還不止于此。

人類在面對(duì)ARC問題時(shí)，即使是用這種數(shù)字矩陣來表示，也能夠看出視覺信息，理解其中的位置關(guān)系。

在空間中，ARC是一個(gè)二維問題，需要跨行和列進(jìn)行推理，但大模型在處理token時(shí)是以一維格式進(jìn)行的。

這意味著，大模型進(jìn)行跨列推理時(shí)，需要組合較長的上下文信息。

而隨著網(wǎng)格變得更大，模型需要對(duì)更長的上下文進(jìn)行推理，并且必須對(duì)相距較遠(yuǎn)的數(shù)字進(jìn)行組合和推理。

米哥之前曾經(jīng)和劍橋大學(xué)高級(jí)研究員Soumya Banerjee此前進(jìn)行的一項(xiàng)研究（arXiv：2402.03507）表明，通過對(duì)矩陣進(jìn)行90度旋轉(zhuǎn)，讓模型分別基于行和列進(jìn)行推理，比直接做題成績提高了一倍。

所以米哥認(rèn)為，是觀察問題的維度影響了大模型的成績，ARC這種任務(wù)并不適合大模型。

他還表示在NeurIPS上聽到了一個(gè)很好的類比——

將二維的ARC任務(wù)交給大模型，就像期望人類在四維空間中進(jìn)行推理。

同時(shí)網(wǎng)友們還指出，雖然本質(zhì)上涉及了維度差異，但視覺依然是一個(gè)重要因素。

想象一下，如果人沒有視覺能力，單純依靠聽或其他方式獲得關(guān)于其中網(wǎng)格的信息，也很難直接構(gòu)建出二維的矩陣。

不過說到這，即便模型擁有“視覺”能力，也是將視覺信息轉(zhuǎn)換為Token，和人類的視覺也未必相同。

網(wǎng)友認(rèn)為，真正的視覺需要能夠處理并行輸入的信息，而不是逐個(gè)Token的串行輸入，二進(jìn)制IO數(shù)據(jù)流或許是一種解決方案。

One More Thing

根據(jù)ARC挑戰(zhàn)官方的說法，ARC-AGI的下一代ARC-AGI-2即將推出。

早期測(cè)試表明，其將對(duì)o3構(gòu)成重大挑戰(zhàn)——

即使在高計(jì)算量模式下，o3的得分也可能會(huì)降低到30%以下（而聰明人仍然能夠得分超過95%）。

責(zé)任編輯：姜華來源：量子位

ARC-AGI 大模型人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="bonl6"><i id="bonl6"></i></sub>

<style id="bonl6"></style>