自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Claude掙錢強于o1!OpenAI開源百萬美元編碼基準,檢驗大模型鈔能力

人工智能 新聞
模型在定位問題方面表現(xiàn)出色,但在追根溯源方面失敗,導致解決方案不完整或存在缺陷。

昨天,AI 圈可以說非常熱鬧。中午,馬斯克 xAI 發(fā)布了地表最強旗艦大模型 Grok-3;下午,DeepSeek 梁文鋒親自掛名的論文公開了全新注意力架構 NSA。

這下子,OpenAI 坐不住了,推出并開源了一個真實的、用于評估 AI 大模型編碼性能的全新基準 SWE-Lancer。該基準包含了來自全球性自由職業(yè)平臺 Upwork 的 1400 多個自由軟件工程任務,在現(xiàn)實世界中總價值達到了 100 萬美元。

這意味著,如果大模型能夠全部完成這些任務,則可以像人類一樣獲得百萬美元報酬。

具體來講,SWE-Lancer 包括了獨立工程任務(從 50 美元的 bug 修復到 32,000 美元的功能實現(xiàn))和管理任務,其中模型選擇各種技術實施方案。獨立工程任務由經(jīng)驗豐富的軟件工程師經(jīng)過三重驗證的端到端測試進行評級,而管理任務則根據(jù)最初聘請的工程經(jīng)理的選擇進行評估。

下圖為 SWE-Lancer 基準中的任務目標、任務類型、任務角色以及任務示例。

SWE-Lancer 任務更真實地反映了現(xiàn)代軟件工程的復雜性。任務是全棧式的,而且很復雜。自由職業(yè)者平均需要 21 天以上的時間才能完成每項任務。

SWE-Lancer 任務價格反映了真實市場價值。任務越難,報酬越高。

OpenAI 的評估結果顯示,包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在內(nèi)的前沿模型仍然無法解決大多數(shù)任務。從下圖中可以看到,Claude 3.5 Sonnet 完成的任務最多,并且掙到了最高的 403,325 美元。

為了進一步促進未來的相關研究,OpenAI 開源了一個統(tǒng)一的 Docker 鏡像和一個公共評估分割 ——SWE-Lancer Diamond。通過將模型性能與現(xiàn)實世界的貨幣價值聯(lián)系起來,OpenAI 希望能夠更好地研究 AI 模型開發(fā)的經(jīng)濟效益。

  • 論文標題:SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
  • 論文地址:https://arxiv.org/pdf/2502.12115
  • 項目地址:https://github.com/openai/SWELancer-Benchmark

對于 OpenAI 開源的這個基準測試,有人認為很棒,并表示隨著軟件工程中 AI 能力的擴展,擁有標準化的評估方法非常重要,但應該是獨立的。期待看到社區(qū)對 SWE-Lancer Diamond 的使用反饋。

SWE-Lancer 簡介

SWE-Lancer 數(shù)據(jù)集包含來自 Expensify 開源庫在 Upwork(美國的一個自由職業(yè)平臺)上發(fā)布的 1,488 個軟件工程任務。

這些任務總價值為 100 萬美元,分為兩類:

個人貢獻者(IC)任務(解決 bug 或?qū)崿F(xiàn)功能),包含 764 個任務,總價值為 414,775 美元。模型會獲得以下信息:(1) 問題文本描述(包括復現(xiàn)步驟和期望行為),(2) 問題修復前的代碼庫 checkpoint,以及 (3) 修復問題的目標。模型在評估期間無法訪問端到端測試。

管理任務(模型扮演經(jīng)理的角色,選擇最佳方案來解決問題),這一類包含 724 個任務,總價值為 585,225 美元。模型需要扮演軟件工程經(jīng)理的角色,選擇解決任務的最佳提案。模型會獲得以下信息:(1) 針對同一問題的多個解決方案(來自原始討論),(2) 問題修復前的代碼庫 checkpoint,以及 (3) 選擇最佳解決方案的目標。

圖 3 中使用 Diamond Set 中的示例對 SWE-Lancer 中不同類型的 IC SWE 問題進行細分。左側藍色代表任務主題,右側綠色代表任務類型。

OpenAI 研究人員和 100 名其他專業(yè)軟件工程師在 Upwork 上識別了潛在的任務,并在不更改任何文字的情況下,將這些任務輸入到 Docker 容器中,從而創(chuàng)建了 SWE-Lancer 數(shù)據(jù)集。該容器沒有網(wǎng)絡訪問權限,也無法訪問 GitHub,以避免模型抓取代碼差異或拉取請求詳情的可能。

研究者追蹤了模型解決的任務百分比以及模型通過解決這些任務所獲得的總報酬。由于這些任務來自真實場景,SWE-Lancer 的報酬能夠獨特地反映真實經(jīng)濟價值,而不是理論上的估算。

研究人員寫道:他們的基準測試結果表明,現(xiàn)實世界中的自由職業(yè)工作對前沿語言模型來說仍然是一個挑戰(zhàn)。測試顯示,基礎模型還無法完全取代人類工程師。盡管它們可以幫助解決漏洞,但還沒有達到能夠獨立賺取自由職業(yè)收入的水平。

實驗結果

實驗使用了多個前沿語言模型,包括 Claude 3.5 Sonnet、GPT-4o 和 o1。

評估方法分為兩類:

  • IC 任務通過端到端測試評估,這些測試由專業(yè)軟件工程師編寫,模擬真實世界的應用行為。
  • 管理任務通過與原始工程經(jīng)理的選擇對比來評估。

如圖 5 所示,在完整的 SWE-Lancer 數(shù)據(jù)集上,沒有一個模型能獲得 100 萬美元的全部任務價值。

如圖 6 所示,所有模型在 SWE Manager 任務上的表現(xiàn)均優(yōu)于 IC SWE 任務。Claude 3.5 Sonnet 在 IC SWE 和 SWE Manager 任務上均表現(xiàn)最強,分別超出次佳模型(o1)9.7%(IC SWE 任務)和 3.4%(SWE Manager 任務)。

圖 8 展示了不同測試時計算量(test-time compute)水平下,按任務價格范圍劃分的 pass@1。結果表明,增加測試時計算量可以顯著提升模型在更復雜、更高價值任務上的表現(xiàn)。

如圖 9 所示,研究者觀察到性能更強的模型能更有效地利用用戶工具,因此在移除用戶工具后,它們的表現(xiàn)下降幅度更大。

報告指出:模型在定位問題方面表現(xiàn)出色,但在追根溯源方面失敗,導致解決方案不完整或存在缺陷。此外,模型能夠非常迅速地定位問題的源頭,通過在整個代碼庫中搜索關鍵詞來快速找到相關的文件和函數(shù) —— 這通常比人類工程師更快。然而,它們往往對問題涉及的多個組件或文件缺乏深入理解,無法解決根本原因,從而導致解決方案不正確或不夠全面。

有趣的是,這些模型在需要推理以評估技術理解的管理任務上表現(xiàn)更好。

這些基準測試表明,AI 模型可以解決一些低級的編程問題,但還不能取代低級軟件工程師。這些模型仍然需要時間,但研究人員表示這種情況可能不會持續(xù)太久。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-19 15:40:00

OpenAI編程模型

2025-02-03 14:17:27

2024-09-24 11:01:03

2025-02-21 11:08:46

2024-09-19 17:44:04

2024-09-13 10:06:21

2025-02-19 09:34:01

2024-09-18 09:17:00

OpenAI模型開源

2024-12-26 17:13:17

AI模型訓練

2024-09-13 06:32:25

2024-10-05 00:00:00

2024-12-05 10:16:14

2024-12-09 11:06:31

2024-12-09 08:00:00

AI大模型人工智能

2023-06-05 12:27:20

2024-11-07 15:40:00

2024-09-13 09:26:17

2025-01-20 08:46:00

代碼測試模型

2025-04-29 09:06:00

2025-01-23 10:45:52

點贊
收藏

51CTO技術棧公眾號