自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Claude 3.5兩小時暴虐50多名專家,編程10倍速飆升!但8小時曝出驚人短板

人工智能 新聞
AI自主研發(fā)會真的「失控」了嗎?最新研究顯示,Claude 3.5 Sonnet和o1-preview在2小時內(nèi)的研發(fā)任務(wù)中,擊敗了50多位人類專家。但另一個耐人尋味的現(xiàn)象是,給予更長時間周期后,人類專家在8小時任務(wù)中優(yōu)勢顯現(xiàn)。

AI智能體離自主研發(fā),還有多遠?

Nature期刊的一篇研究曾證明了,GPT-4能自主設(shè)計并開展化學(xué)實驗,還能閱讀文檔學(xué)習(xí)如何使用實驗室設(shè)備。

圖片

另有Transformer作者之一研發(fā)的「世界首個AI科學(xué)家」,一口氣肝出10篇論文,完全不用人類插手。

如今,AI在研發(fā)領(lǐng)域的入侵速度,遠超人類預(yù)期。

圖片

來自非營利組織METR的最新研究稱:

同時給定2個小時,Claude 3.5 Sonnet和o1-preview在7項具有挑戰(zhàn)性研究工程中,擊敗了50多名人類專家。

圖片

論文地址:https://metr.org/AI_R_D_Evaluation_Report.pdf

令人印象深刻的是,AI編程速度能以超越人類10倍速度生成并測試各種方案。

在一個需要編寫自定義內(nèi)核以優(yōu)化前綴和運算的任務(wù)中,o1-preview不僅完成了任務(wù),還創(chuàng)造了驚人的成績:將運行時間壓縮到0.64毫秒,甚至超越了最優(yōu)秀的人類專家解決方案(0.67毫秒)。

不過,當(dāng)比賽時間延長至8小時,人類卻展現(xiàn)出了明顯的優(yōu)勢。

由下可以看出,隨著時間逐漸拉長,Claude 3.5 Sonnet和o1-preview的性能提升逐漸趨于平緩。

圖片

有趣的是,為了獲得更高的分?jǐn)?shù),AI智能體居然會違反規(guī)則「作弊」。

原本針對一個任務(wù),智能體應(yīng)該減少訓(xùn)練腳本運行時間,o1-preview直接復(fù)制了輸出的代碼。

頂級預(yù)測者看到這一結(jié)果驚嘆道,基于這個進步速度,AI達到高水平人類能力的時間可能會比之前預(yù)計的更短。

圖片

RE-Bench設(shè)計架構(gòu),遍歷七大任務(wù)

為了能夠快速迭代,并以合理的成本收集數(shù)據(jù),研究人員設(shè)定了運行限制:人類專家的評估不超過8小時,且所有環(huán)境都只能使用8個或更少的H100 GPU運行。

在環(huán)境設(shè)計時,主要考慮最大化覆蓋前沿AI難題,同時確保人類專家與智能體能夠持續(xù)推進任務(wù),不會遇到研究瓶頸或得分上限。

RE-Bench包含了七個精心設(shè)計的評估環(huán)境,其中每個環(huán)境都提出了一個獨特的機器學(xué)習(xí)優(yōu)化問題,要取得高分需要大量的實驗、實現(xiàn)和高效使用計算資源。

圖片

每個評估環(huán)境包括三部分:

1、評分函數(shù)(scoring function),定義了環(huán)境的目標(biāo),智能體可以隨時運行該函數(shù)。每次運行評分函數(shù)時,都會在得分日志中添加一個帶時間戳的事項。智能體可以看到得分日志,并檢查評分函數(shù)的細(xì)節(jié),有助于理解研究目標(biāo)。

2、簡單但性能不佳的初始解決方案(starting solution),提供給智能體,以展示有效的解決方案是什么樣子,有助于說明環(huán)境設(shè)置,可以讓智能體更快地開始研究問題中更具挑戰(zhàn)性的部分。比如說,在「優(yōu)化核函數(shù)」環(huán)境中,智能體的輸入為一個簡單但運行緩慢的Python解決方案。

3、由任務(wù)作者創(chuàng)建的參考解決方案(reference solution),得分很高。但該解決方案不會提供給智能體,只用于歸一化得分(normalize score),作為一個優(yōu)秀解決方案的示例。下式中ys為初始方案得分,yr為參考方案得分,y為模型得分,yn為歸一化分?jǐn)?shù)。

圖片

除了「Scaling Law Experiment」采用最終分?jǐn)?shù)進行評估外,其他實驗都使用得分日志中的最高分。

8小時極限,人類專家吊打AI

研究人員使用開源的Vivaria平臺來設(shè)置安全的虛擬機,配備20-48個虛擬CPU、200-400 GB的RAM,以及0到6個H100 GPU,對比模型選擇了claude-3-5-sonnet-20241022以及o1-preview,框架選擇為METR和AIDE

時間限制下的性能

在相同時間下,可以看到,o1-preview和Claude 3.5 Sonnet在最初階段進展迅速,但在幾個小時后速度減慢;而人類專家起步較慢,但隨后迅速取得進展。

圖片

采樣限制下的性能

除了長時間運行外,研究人員還評估了模型是否能在更短的時間限制下取得更好的性能:對每個環(huán)境進行k次采樣,并選擇所有k次運行中取得的最高分?jǐn)?shù)。

圖片

結(jié)果發(fā)現(xiàn),模塊化框架中的智能體在30分鐘嘗試中表現(xiàn)得更好,而AIDE框架中的智能體則在2小時嘗試中表現(xiàn)最佳。

還可以發(fā)現(xiàn),在AIDE框架中的o1-preview和在模塊化框架中的Claude 3.5 Sonnet總體上取得了最高的分?jǐn)?shù),分別達到了人類專家的第36和第37百分位。

隨著樣本數(shù)量的增加,最佳-k次分?jǐn)?shù)(score@k)也會發(fā)生變化:Claude 3.5 Sonnet在30分鐘時,樣本數(shù)量增加,性能也穩(wěn)步提高,但即使在k=128個樣本下,智能體的表現(xiàn)也遠遠落后于頂尖人類的表現(xiàn)。

圖片

圖片

總體而言,人類起步較慢,但改進軌跡更陡峭,即進步更快,并且在32小時的時間預(yù)算內(nèi)達到了比任何智能體都更高的分?jǐn)?shù)。

按環(huán)境評估

研究人員對比了兩個智能體(模塊化框架中的Claude 3.5 Sonnet和AIDE框架中的o1-preview)在32小時內(nèi)的最高性能分配與人類結(jié)果(四次8小時運行中的最佳表現(xiàn))以匹配智能體的時間預(yù)算。

圖片

結(jié)果發(fā)現(xiàn)不同智能體在不同環(huán)境中的表現(xiàn)存在顯著差異:Claude 3.5 Sonnet智能體在「微調(diào)GPT-2進行問答」和「擴展法則實驗」環(huán)境中接近人類的表現(xiàn),而o1-preview在這些環(huán)境中表現(xiàn)不佳;o1-preview在「優(yōu)化核函數(shù)」環(huán)境中的表現(xiàn)超過了人類。

人類-AI差距之間定性分析

為了更好地了解人類專家在哪些條件下,比AI智能體做得更好或更差的原因,研究人員對智能體成績和解決方案進行了定性分析。

AI智能體:知識儲備大,嘗試頻率37次/h

雖然AI智能體通常無法找到與頂級人類專家相匹配的解決方案,但它們也取得了一些顯著的成功。

比如,在AIDE加持下,Claude 3.5 Sonnet(新版)和o1-preview都能找到「優(yōu)化內(nèi)核」的解決方案,運行速度約為參考解決方案的2倍。

如下圖所示,其中,o1-preview的解決方案甚至超過了9位人類專家。

這些都是復(fù)雜且新穎的算法,能有效繞過GPU通信限制,并使用一種缺少良好公開文檔的低資源編程語言(Triton)。

圖片

這個令人驚訝的結(jié)果可能部分歸因于,AI智能體和許多人類專家之間的專業(yè)知識差距,因為大多數(shù)人類專家并不具備編程GPU內(nèi)核的專門知識。

這種情況在多個環(huán)境中都有體現(xiàn):一些不太熟悉該領(lǐng)域的人類專家需要花費大量時間學(xué)習(xí)或復(fù)現(xiàn)標(biāo)準(zhǔn)方法(有時甚至完全失?。?,而AI智能體憑借其廣泛的知識基礎(chǔ)往往能輕松完成。

AI智能體成功的另一個關(guān)鍵因素可能是,它們能比人類專家嘗試更多的解決方案。

平均而言,AIDE和模塊化智能體每小時分別運行36.8次和25.3次,而人類專家僅為3.4次。

這通常導(dǎo)致智能體找到高度優(yōu)化的「局部最優(yōu)」解決方案,僅通過調(diào)整初始解決方案的參數(shù)和代碼,就能實現(xiàn)顯著的改進。

例如,許多智能體在解決「優(yōu)化內(nèi)核」環(huán)境時,并非通過編寫成功的Triton解決方案(這很困難),而是通過仔細(xì)調(diào)整初始的Pytorch解決方案,使其運行速度顯著提高。

也就是說,它們能夠有效優(yōu)化現(xiàn)有解決方案。

如下,是「微調(diào)GPT-2用于問答」最佳智能體解決方案中,Claude 3.5 Sonnet調(diào)整了初始解決方案的參數(shù),并在訓(xùn)練軌跡和評估中獲得了準(zhǔn)確結(jié)果。

不過,這一高分有可能是對噪聲過度擬合的結(jié)果。

圖片

總而言之,AI智能體的成功在于能夠進行大量參數(shù)微調(diào)和代碼優(yōu)化,偶爾還會提出創(chuàng)造性有效的解決方案,尤其是在評估成本低的環(huán)境在非常有效。

失敗因素

但在大多數(shù)環(huán)境中,智能體仍然沒有達到強大的人類專家的水平。

造成這種情況的原因之一是,AI智能體提出的解決方案缺乏多樣性。

例如,在「受限架構(gòu)MLM」任務(wù)中,智能體在84%的情況下,都在嘗試使用稍作修改的Transformer架構(gòu)。即使在不能使用除法和指數(shù)運算的情況下,仍固守這種方案。

另一個局限性是,持續(xù)性的指令理解錯誤,特別是在「受限架構(gòu)MLM」和「優(yōu)化LLM Foundry」任務(wù)中。

在某些情況下,這些對環(huán)境的誤讀可能導(dǎo)致智能體找到令人印象深刻且意想不到的漏洞,這些漏洞在自動評估中得分很高,但在人工檢查時明顯違反了環(huán)境規(guī)則。

圖片

縮小差距

基于以上的觀察,研究人員認(rèn)為AI智能體在以下特征的環(huán)境中,會比人類表現(xiàn)更好:

- 短期且高保真循環(huán)反饋,可以讓AI智能體充分發(fā)揮嘗試多個解決方案的優(yōu)勢

- 工程復(fù)雜度低,使得AI智能體通過幾個步驟就解決問題

- 需要專業(yè)知識的任務(wù),AI智能體比人類專家具備更全的知識

- 環(huán)境中有顯著的噪聲,這種情況下AI智能體可以進行大量嘗試的優(yōu)勢會超過人類專家較少的嘗試次數(shù)。

- 不易出現(xiàn)意外情況,不需要太多的探索和發(fā)現(xiàn)

Re-Bench局限性

評估環(huán)境的代表性不足

為了創(chuàng)建符合設(shè)計標(biāo)準(zhǔn)的高可靠性評估,研究人員需要努力確保指令和評分容易理解,8小時內(nèi)可以取得顯著進展,并且提供所有必要的資源,還必須選擇易于構(gòu)建和評估的環(huán)境。

這些限制使得評估環(huán)境不太能代表真實的研究,常見問題包括不明確的目標(biāo)、糟糕的指令、慢反饋和無法解決的問題。

結(jié)果噪聲

由于環(huán)境數(shù)量較少,且智能體得分嚴(yán)重向右傾斜,大多數(shù)運行得分為0,只有少數(shù)得分非常高,所以結(jié)果評估對抽樣噪聲很敏感。

評估的成本和復(fù)雜性

使用H100 GPU運行智能體數(shù)小時需要相應(yīng)的基礎(chǔ)設(shè)施和大量預(yù)算,對于普通研究人員來說壓力很大,運行大規(guī)模實驗來對比多個模型、框架和參數(shù)也更具挑戰(zhàn)性。

缺乏框架迭代

選擇不同的智能體框架或提示,有可能導(dǎo)致模型在相近的時間內(nèi),在基準(zhǔn)測試上取得更好的成績。

研究人員的預(yù)期是,通過為智能體提供管理GPU資源的工具,或是通過并行探索解決方案來利用更多的token等來實現(xiàn)更好的性能。

覆蓋前沿研究的局限性

由于硬件訪問有限,并且前沿AI研究也大多是閉源的,評估所涵蓋的研究類型與推動前沿AI進步的研究類型之間可能存在差異。

方案可能過度擬合

除了「擴展法則實驗」之外,所有環(huán)境都向智能體提供了測試分?jǐn)?shù)輸出,以最小化誤解或混淆的風(fēng)險;在未來的迭代中,研究人員考慮只在大多數(shù)環(huán)境中向智能體提供驗證分?jǐn)?shù),把測試分?jǐn)?shù)隱藏起來。

「擴展法則實驗」得分存在運氣成分

雖然良好的實驗可以幫助人類專家在環(huán)境中做出明智的預(yù)測,但智能體還是主要依賴猜測,更多是運氣而不是技巧的問題。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-05-20 12:44:53

編程軟件開發(fā)JavaScript

2009-03-24 09:12:15

2015-10-26 11:53:36

OpenStackOpenStack部署RDO

2021-08-08 11:17:58

谷歌Matt編程

2023-07-02 14:47:26

AI速通效率

2016-11-14 14:10:15

電信斷網(wǎng)寬帶網(wǎng)絡(luò)

2009-07-28 09:18:17

2024-11-25 12:50:14

2024-10-28 22:28:21

2011-10-25 15:49:57

VPN

2021-10-18 22:07:05

裝機顯卡硬件

2009-04-24 14:11:53

清理專家2.7殺毒金山

2009-03-09 09:27:16

Facebook社交網(wǎng)站健康

2010-12-24 10:09:04

2014-12-19 16:08:18

2009-05-08 08:59:47

微軟Windows 7操作系統(tǒng)

2015-12-03 09:02:22

掌握新事物100小時

2009-04-30 13:37:38

安全掛馬技術(shù)沙龍

2013-03-13 10:15:02

應(yīng)用經(jīng)濟調(diào)查數(shù)據(jù)智能機

2022-06-08 10:01:23

性能優(yōu)化慢查詢
點贊
收藏

51CTO技術(shù)棧公眾號