自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI掀「百萬美金」編程大戰(zhàn)!Claude 3.5 Sonnet狂賺40萬拿下第一

人工智能 新聞
OpenAI剛剛發(fā)布SWE-Lancer編碼基準(zhǔn)測(cè)試,直接讓AI模型挑戰(zhàn)真實(shí)外包任務(wù)!這些任務(wù)總價(jià)值高達(dá)100萬美元。有趣的是,測(cè)試結(jié)果顯示,Anthropic的Claude 3.5 Sonnet在「賺錢」能力上竟然超越了OpenAI自家的GPT-4o和o1模型。

昨天馬斯克剛剛發(fā)布了號(hào)稱「地表最聰明」的Grok 3模型,搶走了所有關(guān)注。

這邊OpenAI就開始坐不住了,立刻扔出了SWE-Lancer(AI編碼測(cè)試基準(zhǔn)),看一下AI到底能在現(xiàn)實(shí)任務(wù)中掙到多少錢。

SWE-Lance是一個(gè)全新的、更貼近現(xiàn)實(shí)的基準(zhǔn)測(cè)試,用于評(píng)估AI模型的編碼性能。它包含了來自Upwork的1400多個(gè)自由軟件工程任務(wù),這些任務(wù)在現(xiàn)實(shí)世界中的總報(bào)酬價(jià)值100萬美元。

參加評(píng)測(cè)的包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在內(nèi)的前沿模型,結(jié)果多少有些尷尬,掙到最多錢的竟是隔壁Anthropic的Claude 3.5 Sonnet。

下圖5展示了各模型在完整的SWE-Lancer數(shù)據(jù)集上所獲得的報(bào)酬總額,其中Claude 3.5 Sonnet掙到了最高的403,325美元,高于OpenAI自家的GPT-4o以及o1。

不過這也基本符合大家對(duì)這幾款模型的真實(shí)感受。

眾所周知,現(xiàn)實(shí)世界中軟件工程師的工作涵蓋整個(gè)技術(shù)棧,并且必須對(duì)復(fù)雜的跨代碼庫(kù)交互和權(quán)衡進(jìn)行推理。

為了更好地衡量AI編碼的能力和影響,OpenAI提出了SWE-Lancer——第一個(gè)使用由專業(yè)工程師創(chuàng)建的E2E(端到端)測(cè)試的基準(zhǔn),提供更全面、真實(shí)的評(píng)估,更難并且更難被鉆空子。

SWE-Lancer包含兩種任務(wù)類型:IC SWE(獨(dú)立開發(fā)者)任務(wù)和SWE管理任務(wù)。IC SWE任務(wù)要求模型生成代碼補(bǔ)丁以解決實(shí)際問題,而SWE管理任務(wù)要求模型作為技術(shù)負(fù)責(zé)人,選擇給定問題的最佳實(shí)現(xiàn)方案。

論文地址:https://arxiv.org/abs/2502.12115

開源項(xiàng)目:https://github.com/openai/SWELancer-Benchmark

基準(zhǔn)構(gòu)建

SWE-Lancer的基準(zhǔn)構(gòu)建過程旨在確保數(shù)據(jù)集包含高質(zhì)量和代表性的任務(wù)。

研究團(tuán)隊(duì)首先選擇Expensify開源存儲(chǔ)庫(kù),因?yàn)樗且粋€(gè)擁有大量用戶的上市公司,并且在Upwork上提供具有實(shí)際報(bào)酬的軟件工程任務(wù)。然后,100名專業(yè)軟件工程師審查任務(wù),確保其清晰、明確和可執(zhí)行,高價(jià)值任務(wù)會(huì)經(jīng)過更嚴(yán)格的驗(yàn)證。

該流程還包括從經(jīng)過驗(yàn)證的Github問題生成IC SWE任務(wù)和SWE管理任務(wù)。研究團(tuán)隊(duì)為IC SWE任務(wù)開發(fā)全面的端到端Playwright測(cè)試,模擬真實(shí)世界的用戶流程,并由專業(yè)工程師進(jìn)行三次驗(yàn)證。

此外,每個(gè)IC SWE任務(wù)都配備一個(gè)用戶工具,允許模型模擬用戶操作并查看結(jié)果,從而進(jìn)行迭代調(diào)試。

下圖展示了SWE-Lancer基準(zhǔn)測(cè)試中多樣化的任務(wù):涵蓋了不同的目標(biāo)、類型、角色,并提供了具體示例。

實(shí)驗(yàn)結(jié)果

根據(jù)下圖5顯示,所有模型在完整的SWE-Lancer數(shù)據(jù)集上獲得的報(bào)酬都遠(yuǎn)低于100萬美元的潛在總報(bào)酬。

為了展示模型在各項(xiàng)實(shí)驗(yàn)中的表現(xiàn),研究人員在下表1中列出了IC SWE任務(wù)和SWE管理任務(wù)的通過率(pass@1)、相應(yīng)的「報(bào)酬」(即總報(bào)酬)和報(bào)酬率(即獲得的報(bào)酬與潛在總報(bào)酬之比)。

如下圖6所示,所有模型在SWE管理任務(wù)上的表現(xiàn)都優(yōu)于IC SWE任務(wù),后者的性能仍有較大提升空間。在IC SWE任務(wù)中,通過率和報(bào)酬率均低于30%。

SWE管理任務(wù)中,表現(xiàn)最優(yōu)的模型——Claude 3.5 Sonnet——在高質(zhì)量數(shù)據(jù)集(Diamond set)上達(dá)到了45%的得分。

3.5 Sonnet在這兩類任務(wù)上都展現(xiàn)出最強(qiáng)的性能,優(yōu)于其他所有模型。

提高嘗試次數(shù)

為了評(píng)估性能如何隨著嘗試次數(shù)的增加而變化,研究團(tuán)隊(duì)使用通過率指標(biāo)(pass@k)評(píng)估了GPT-4o和o1。

如下圖7所示,所有模型的通過率都隨著嘗試次數(shù)的增加而持續(xù)提升。

這種趨勢(shì)在o1模型中特別明顯,增加6次嘗試后,解決任務(wù)的比例提高了近兩倍。GPT-4o在允許6次嘗試時(shí)(pass@6)達(dá)到了與o1首次嘗試(pass@1)相同的得分(16.5%)。

增加測(cè)試計(jì)算資源

在高質(zhì)量數(shù)據(jù)集的IC SWE任務(wù)中,啟用o1和用戶工具的實(shí)驗(yàn)表明,增加推理計(jì)算量能將通過率從9.3%(低計(jì)算量)提升至16.5%(高計(jì)算量),相應(yīng)的報(bào)酬也從16,000美元增加到29,000美元,報(bào)酬率從6.8%提升至12.1%。

下圖8展示了不同計(jì)算資源水平下各價(jià)格區(qū)間任務(wù)的通過率分布,結(jié)果表明增加測(cè)試計(jì)算資源能特別提高在較難且報(bào)酬較高問題上的性能表現(xiàn)。

移除用戶工具

如下圖9所示,在IC SWE任務(wù)中,移除用戶工具對(duì)通過率(pass@1)的影響較小。

不過,研究人員觀察到較強(qiáng)的模型能夠更有效地利用用戶工具,因此在此消融實(shí)驗(yàn)下會(huì)經(jīng)歷更大的性能下降。

討論

結(jié)果表明,在基準(zhǔn)測(cè)試中的真實(shí)自由職業(yè)工作對(duì)于前沿大語言模型來說仍具有相當(dāng)?shù)奶魬?zhàn)性。

表現(xiàn)最優(yōu)的模型Claude 3.5 Sonnet在SWE-Lancer高質(zhì)量數(shù)據(jù)集上獲得了208,050美元的報(bào)酬,成功解決了26.2%的IC SWE任務(wù)問題。然而,其大部分解決方案仍存在錯(cuò)誤,要達(dá)到可信部署的標(biāo)準(zhǔn)還需要提高可靠性。

最強(qiáng)大的模型在各類任務(wù)中都表現(xiàn)出色。

下表2將任務(wù)按照應(yīng)用程序邏輯(客戶端)、UI/UX、服務(wù)器端邏輯和系統(tǒng)范圍的質(zhì)量和可靠性任務(wù)進(jìn)行分類,并列出了GPT-4o、o1和Claude 3.5 Sonnet在每種任務(wù)類型上的pass@1通過率以及對(duì)應(yīng)任務(wù)數(shù)量。

數(shù)據(jù)顯示,所有模型在SWE管理任務(wù)上的表現(xiàn)均優(yōu)于IC SWE任務(wù),且Claude 3.5 Sonnet表現(xiàn)最佳。

下表3將任務(wù)按照Bug修復(fù)、新功能或增強(qiáng)以及維護(hù)、QA、測(cè)試或可靠性改進(jìn)進(jìn)行分類。

數(shù)據(jù)顯示,各模型在Bug修復(fù)類型的任務(wù)上表現(xiàn)相對(duì)較好,而在新功能或增強(qiáng)類型的IC SWE任務(wù)上表現(xiàn)較差。

這些模型在SWE管理任務(wù)上的通過率通常是IC SWE任務(wù)的兩倍以上。特別是在用戶界面/用戶體驗(yàn)(UI/UX)任務(wù)上,Sonnet 3.5比o1的表現(xiàn)高出近15%;在實(shí)施新功能或功能增強(qiáng)的任務(wù)上,也領(lǐng)先將近10%。

有效使用工具是區(qū)分頂級(jí)表現(xiàn)的關(guān)鍵。

研究發(fā)現(xiàn),最強(qiáng)大的模型經(jīng)常使用用戶工具,并能高效解析輸出結(jié)果來重現(xiàn)、定位和迭代調(diào)試問題。

用戶工具通常需要90到120秒的運(yùn)行時(shí)間,在這段等待期間,像GPT-4o這樣相對(duì)較弱的模型往往會(huì)完全放棄使用該工具。表現(xiàn)最優(yōu)的模型會(huì)考慮到這種延遲,設(shè)置合理的超時(shí)時(shí)間,并在結(jié)果可用時(shí)進(jìn)行復(fù)查。

AI智能體在問題定位方面表現(xiàn)突出,但往往未能找出根本原因,導(dǎo)致解決方案不完整或存在缺陷。這些智能體能夠通過在整個(gè)代碼庫(kù)中進(jìn)行關(guān)鍵詞搜索,以驚人的速度準(zhǔn)確定位相關(guān)文件和函數(shù)。

然而,它們對(duì)問題如何跨越多個(gè)組件或文件的理解往往有限,未能解決根本原因,從而導(dǎo)致解決方案不正確或不夠全面。研究人員很少發(fā)現(xiàn)AI智能體嘗試重現(xiàn)問題或因找不到正確的修改位置而失敗的情況。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-27 09:50:00

模型數(shù)據(jù)測(cè)試

2025-02-19 09:34:01

2024-12-26 14:42:23

2013-12-23 15:11:34

創(chuàng)業(yè)客戶

2024-12-27 10:27:58

2024-06-24 13:17:09

2025-02-28 09:22:00

2024-06-21 09:58:38

2025-02-26 08:20:41

2025-02-25 09:43:19

2024-06-21 09:57:00

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2024-06-21 13:11:30

2024-10-25 13:30:00

2024-12-09 08:00:00

AI大模型人工智能

2025-01-03 11:02:38

OpenAIAgent大模型

2024-12-31 12:35:46

2025-01-22 16:57:32

字節(jié)跳動(dòng)豆包大模型

2023-03-28 09:53:59

Meta年薪

2013-03-20 14:26:52

獨(dú)立開發(fā)者手機(jī)游戲手游
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)