自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Anthropic聯(lián)創(chuàng):Scaling Law沒崩,但推理成天價(jià)!有了TTT,2025年AI更加速

人工智能 新聞
Anthropic聯(lián)創(chuàng)發(fā)文表示,誰(shuí)要是說(shuō)Scaling Law撞墻了,那他絕對(duì)錯(cuò)了!在25年,AI靠測(cè)試時(shí)計(jì)算還會(huì)繼續(xù)加速。不過(guò),隨之而來(lái)的推理成本也是天價(jià),o3的每個(gè)任務(wù)成本高達(dá)20美元,怎么辦?

Scaling Law要撞墻了?

Anthropic聯(lián)創(chuàng)Jack Clark反駁了這一說(shuō)法:絕非如此!

在他看來(lái),目前的AI發(fā)展還遠(yuǎn)遠(yuǎn)沒到極限,「所有告訴你AI進(jìn)展正在放緩,或者Scaling Law正在撞墻的人,都是錯(cuò)誤的?!?/span>

圖片

o3仍有很大的增長(zhǎng)空間,但采用了不同的方法。

OpenAI的技術(shù)秘訣并不是讓模型變得更大,而是讓它們?cè)谶\(yùn)行時(shí),使用強(qiáng)化學(xué)習(xí)和額外的計(jì)算能力。

這種「大聲思考」的能力,為Scaling開辟了全新的可能性。

而Jack Clark預(yù)計(jì),這一趨勢(shì)在2025年還會(huì)加速,屆時(shí),科技公司都會(huì)開始將大模型的傳統(tǒng)方法跟在訓(xùn)練和推理時(shí)使用計(jì)算的新方法相結(jié)合。

這個(gè)論斷,跟OpenAI首次推出o系列模型時(shí)的說(shuō)法完全吻合了。

在同一時(shí)間,MIT的研究者也發(fā)現(xiàn),采用測(cè)試時(shí)訓(xùn)練(TTT)技術(shù),能顯著提高LLM進(jìn)行邏輯推理和解決問(wèn)題的能力。

圖片

論文地址:https://ekinakyurek.github.io/papers/ttt.pdf

Scaling Law撞墻,絕對(duì)錯(cuò)了

在他的新聞通訊《Import AI》中,Clark對(duì)關(guān)于AI發(fā)展已到達(dá)瓶頸的觀點(diǎn)進(jìn)行了反駁。

圖片

博文地址:https://jack-clark.net/

比如OpenAI的o3模型,就證明了AI極大的發(fā)展空間。

在現(xiàn)有強(qiáng)大基礎(chǔ)模型之上,采用一種新方法——讓大語(yǔ)言模型在推理時(shí)「邊思考邊執(zhí)行」,即測(cè)試時(shí)計(jì)算(test-time compute)。這種方式能帶來(lái)巨大的回報(bào)。

因此Clark預(yù)計(jì),下一個(gè)合理的發(fā)展方向?qū)⑹峭瑫r(shí)擴(kuò)展強(qiáng)化學(xué)習(xí)(RL)和底層基礎(chǔ)模型,這將帶來(lái)更為顯著的性能提升。

這意味著,隨著現(xiàn)有方法(大模型scaling)與新方法(強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的測(cè)試時(shí)計(jì)算等)的結(jié)合,2025年的AI進(jìn)展相對(duì)2024年會(huì)進(jìn)一步加速。

OpenAI著名研究員Jason Wei也表示,更加關(guān)鍵的是,從o1到o3的進(jìn)步也僅僅只用了3個(gè)月,這說(shuō)明了在推動(dòng)人工智能領(lǐng)域發(fā)展方面來(lái)講,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的推理擴(kuò)展計(jì)算范式,會(huì)比預(yù)訓(xùn)練基礎(chǔ)模型的傳統(tǒng)擴(kuò)展范式快得多。

圖片

這并非空談,Clark列舉了不少o3的亮眼成績(jī)來(lái)證明他的觀點(diǎn)。

首先,o3有效突破了「GPQA」科學(xué)理解基準(zhǔn)(88%),這彰顯了它在科學(xué)領(lǐng)域進(jìn)行常識(shí)推理和解答的能力。

它在「ARC-AGI」這一任務(wù)上的表現(xiàn)優(yōu)于亞馬遜眾包平臺(tái)(MTurk)雇傭的人類工作者。

甚至,o3在FrontierMath上達(dá)到了25%的成績(jī)——這是一個(gè)由菲爾茲獎(jiǎng)得主設(shè)計(jì)的數(shù)學(xué)測(cè)試,就在幾個(gè)月前,SOTA的成績(jī)僅為2%。

并且,在Codeforces上,o3獲得了2727分,排名第175。這讓它成為這一極其困難基準(zhǔn)上的最佳競(jìng)技程序員之一。

模型成本將更難預(yù)測(cè)

Clark認(rèn)為,大多數(shù)人還沒有意識(shí)到未來(lái)進(jìn)展的速度將會(huì)有多快。

「我認(rèn)為,基本上沒有人預(yù)見到——從現(xiàn)在開始,AI進(jìn)展將會(huì)有多么急劇?!?/span>

同時(shí),他也指出,算力成本是急速進(jìn)展中的一個(gè)主要挑戰(zhàn)。

o3之所以如此優(yōu)秀,其中的一個(gè)原因是,它在推理時(shí)的運(yùn)行成本更高。

o3的最先進(jìn)版本需要的算力比基礎(chǔ)版多170倍,而基礎(chǔ)版的算力需求已經(jīng)超出了o1的需求,而o1本身所需的算力又超過(guò)了GPT-4。

圖片

o系列模型的性能與成本

Clark解釋說(shuō),這些基于推理擴(kuò)展范式的新模型使得成本預(yù)測(cè)變得更加困難。

過(guò)去,模型的成本費(fèi)用是很直觀的,主要取決于模型的大小和輸出長(zhǎng)度。

但在o3這類模型中,由于其資源需求會(huì)根據(jù)具體任務(wù)的不同而變化,所以也更難直觀地給出模型執(zhí)行任務(wù)時(shí)的花費(fèi)。

o3推理成本達(dá)新高

除了FrontierMath和Codeforces上的成績(jī),o3在GPT Diamond Benchmar上,對(duì)于博士級(jí)的科學(xué)問(wèn)題也拿到了87.7%,遠(yuǎn)高于各自領(lǐng)域博士專家70%的平均分。

圖片

ARC-AGI基準(zhǔn)測(cè)試開發(fā)者、Keras之父Fran?ois Chollet,將o3的性能稱為「AI能力中令人驚訝且重要的階躍函數(shù)增長(zhǎng)」

而這背后付出的代價(jià),就是運(yùn)行o3極高的成本。

之所以會(huì)造成如此高的成本,就是源于o3和其他模型處理問(wèn)題方式的不同。

傳統(tǒng)的LLM主要依靠的是檢索存儲(chǔ)模式,但o3處理問(wèn)題時(shí),卻是靠實(shí)時(shí)創(chuàng)建新程序,來(lái)解決不熟悉的挑戰(zhàn)。

Chollet表示,o3系統(tǒng)的工作原理,似乎和谷歌DeepMind的AlphaZero國(guó)際象棋程序類似。后者會(huì)有條不紊地搜索可能的解決方案,直到找到正確方法。

圖片

這個(gè)過(guò)程也就解釋了,為什么o3需要如此多的算力——只為單個(gè)任務(wù),模型就需要處理多達(dá)3300萬(wàn)個(gè)token。

跟當(dāng)前的AI系統(tǒng)相比,這種密集的token處理成本,簡(jiǎn)直是天價(jià)!

高強(qiáng)度推理版本的每個(gè)任務(wù),運(yùn)行費(fèi)用約為20美元。

也就是說(shuō),100個(gè)測(cè)試任務(wù)的成本為2012美元,全套400個(gè)公共任務(wù)的成本則達(dá)到了6677美元(按平均每個(gè)任務(wù)花費(fèi)17美元計(jì)算)。

而對(duì)于低強(qiáng)度推理版本,OpenAI尚未透露確切的成本,但測(cè)試顯示,此模型可以處理33至1.11億個(gè)token,每個(gè)任務(wù)需要約1.3分鐘的計(jì)算時(shí)間。

圖片

o3在ARC-AGI基準(zhǔn)測(cè)試中必須解決的視覺邏輯問(wèn)題示例

等待Anthropic的下一步

所以,Anthropic下一步會(huì)給我們帶來(lái)什么呢?

目前,由于Anthropic尚未發(fā)布推理模型(reasoning model)或測(cè)試時(shí)模型(test-time model),來(lái)與OpenAI的o系列或Google的Gemini Flash Thinking競(jìng)爭(zhēng),Clark的這一番預(yù)測(cè),不禁讓人好奇Anthropic的計(jì)劃。

他們之前宣布的Opus 3.5旗艦?zāi)P椭两袢詻]有確切消息。

開發(fā)周期長(zhǎng)達(dá)一個(gè)月,過(guò)程充滿不確定性

在11月,Anthropic CEO Dario Amodei曾證實(shí),公司正在開發(fā)Claude Opus的新版本。

起初,Opus 3.5定于今年發(fā)布,但后來(lái)Amodei再提到它時(shí),只是說(shuō)它會(huì)在「某個(gè)時(shí)刻」到來(lái)。

不過(guò)Amodei倒是透露,公司最近更新和發(fā)布的Haiku 3.5,性能已經(jīng)跟原始的Opus 3相匹敵,同時(shí)運(yùn)行速度還更快,成本也更低。

圖片

其實(shí),這也不僅僅是Anthropic面臨的問(wèn)題。

自GPT-4亮相以來(lái),LLM的功能并沒有取得重大飛躍,這種停滯已經(jīng)成為AI行業(yè)內(nèi)一種普遍的廣泛趨勢(shì)。

更多時(shí)候,新發(fā)布的模型只是微小的進(jìn)步,跟之前有一些細(xì)微的差別。

開發(fā)更先進(jìn)的LLM,為何如此復(fù)雜

在Lex Fridman的播客訪問(wèn)中,Amodei詳細(xì)講述了開發(fā)這些AI模型的復(fù)雜性。

圖片

他表示,僅訓(xùn)練階段,就有可能會(huì)拖延數(shù)個(gè)月,還會(huì)需要大量的計(jì)算能力,用上數(shù)以萬(wàn)計(jì)的專用芯片,如GPU或TPU。

預(yù)訓(xùn)練過(guò)后,模型將經(jīng)歷復(fù)雜的微調(diào)的過(guò)程,一個(gè)關(guān)鍵部分就是RLHF。

人類專家會(huì)煞費(fèi)苦心地審查模型的輸出,根據(jù)不同標(biāo)準(zhǔn)對(duì)其進(jìn)行評(píng)分,幫助模型學(xué)習(xí)和改進(jìn)。

接下來(lái),就是一系列內(nèi)部測(cè)試和外部審計(jì),來(lái)檢查模型的安全問(wèn)題,通常是與美國(guó)和英國(guó)的AI安全組織合作。

總之,Amodei總結(jié)道:雖然AI的突破在圈外人士看來(lái),像一個(gè)巨大的科學(xué)飛躍,但其實(shí)很多進(jìn)步都可以歸結(jié)為枯燥和無(wú)聊的技術(shù)細(xì)節(jié)。

在此過(guò)程中,最困難的部分通常是軟件開發(fā)、讓模型運(yùn)行得更快,而不是重大的概念進(jìn)步。

而且,每個(gè)新版本模型的「智能」和「?jìng)€(gè)性」,也都會(huì)發(fā)生不可預(yù)測(cè)的變化。在他看來(lái),正確訓(xùn)練模型與其說(shuō)是一門科學(xué),不如說(shuō)是一門藝術(shù)。

即使真正發(fā)布的Opus 3.5的性能有了提升,卻也不足以證明其高昂的運(yùn)營(yíng)成本是合理的。

不過(guò),雖然有人認(rèn)為Anthropic沒有緊跟推理模型的步伐,已經(jīng)足以反映LLM擴(kuò)展的巨大挑戰(zhàn);但不得不說(shuō),Opus 3.5也并非毫無(wú)意義。

顯然,它幫助訓(xùn)練了全新的Sonnet 3.5,它已經(jīng)成為了當(dāng)今市場(chǎng)上最受歡迎的LLM。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-12-16 07:15:00

2024-09-20 16:20:00

2024-11-11 14:00:00

AI模型

2024-11-11 17:35:11

2025-04-11 09:15:00

語(yǔ)言模型AI數(shù)據(jù)

2024-09-29 13:07:16

2024-11-27 13:40:00

模型訓(xùn)練

2025-02-07 10:13:16

2025-03-17 09:25:00

AI模型谷歌

2024-03-29 06:39:43

2024-03-22 14:52:02

AI人工智能

2024-08-06 14:07:40

2025-01-06 12:59:52

2024-11-14 18:40:57

2024-11-13 15:00:42

2025-04-09 10:11:57

2020-02-21 14:15:40

SimpleDateFJava多線程

2025-02-06 16:33:04

2024-08-15 15:45:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)