OpenAI推出真實世界百萬報酬AI編程能力測試基準:實測Claude 3.5 最強!
OpenAI 聯(lián)合一眾大佬發(fā)布了一項重磅研究,直接把目光瞄準了 真實世界的軟件工程!?? 他們推出了一個全新的、價值百萬美元的超硬核 benchmark —— SWE-Lancer!
具體是啥,我們來扒一扒
劃重點:什么是 SWE-Lancer?
簡單來說,SWE-Lancer 就是一個專門用來評估 前沿大型語言模型(LLM) 在 真實 Freelance 軟件工程任務(wù) 中表現(xiàn)的基準測試。它從著名的 Freelance 平臺 Upwork 上精選了 超過 1400 個 真實的軟件工程任務(wù),總價值 高達 100 萬美元!
這些任務(wù)不是那種簡單的編程題,而是實打?qū)嵉?nbsp;真實項目,難度和復(fù)雜程度都遠超以往的 benchmark。SWE-Lancer 包含了兩種類型的任務(wù):
- ? IC SWE Tasks (個人貢獻者任務(wù)):模擬獨立軟件工程師解決實際問題的場景。任務(wù)難度跨度極大,從 15 分鐘的 Bug 修復(fù)到耗時數(shù)周的新功能開發(fā)都有!更絕的是,評估方式也超級硬核,采用 端到端測試 (E2E tests),模擬真實的軟件 review 流程,確保模型提交的代碼在真實環(huán)境中跑得通!這些測試還經(jīng)過資深軟件工程師三重驗證,質(zhì)量杠杠的!
- ? SWE Manager Tasks (軟件經(jīng)理任務(wù)):這個更厲害了!直接讓模型扮演技術(shù) Leader的角色,面對同一個問題,需要從多個 Freelancer 提交的方案中選擇最佳方案!這不僅考驗?zāi)P偷拇a理解能力,更考驗它的 技術(shù)判斷和決策能力!評估標準也直接對標真實項目經(jīng)理的選擇,簡直是神還原!
SWE-Lancer VS 傳統(tǒng) Benchmark:真實戰(zhàn)場 vs 訓(xùn)練場
傳統(tǒng)的代碼 benchmark,比如 SWE-Bench,大多關(guān)注的是 孤立的、自包含的任務(wù),更像是訓(xùn)練場上的科目考核。而 SWE-Lancer 則直接把 AI 模型拉到了 真實的軟件工程戰(zhàn)場!
- ? 真金白銀的報酬: SWE-Lancer 的任務(wù)都對應(yīng)著 Upwork 上的真實支付報酬,從 250 美元到 32000 美元不等!這不是模擬的,而是真金白銀!任務(wù)難度和價值直接掛鉤,更真實地反映了軟件工程的經(jīng)濟價值
- ? 管理能力評估: 首次引入 SWE Manager 任務(wù),評估模型在技術(shù)管理和方案決策方面的能力。這在以往的 benchmark 中是看不到的,但卻是真實軟件工程中至關(guān)重要的一環(huán)
- ? 全棧工程能力: 任務(wù)場景更貼近真實世界,來自用戶級產(chǎn)品,需要模型理解完整的技術(shù)棧,處理復(fù)雜的代碼庫交互和權(quán)衡。任務(wù)類型涵蓋移動端、Web 端、API 交互、瀏覽器操作等等,真正考驗全棧工程能力
- ? 更嚴格的 E2E 測試: 拋棄了容易被 “作弊” 的單元測試,采用端到端測試,模擬真實用戶行為,確保代碼在真實環(huán)境中真正解決問題。這種評估方式更貼近實際,也更難被攻破
實驗結(jié)果:前沿 LLM 表現(xiàn)如何?離百萬美元目標還有多遠?
論文中,研究人員用最先進的模型,包括 OpenAI 的 GPT-4o 和 o1,以及 Anthropic 的 Claude 3.5 Sonnet 在 SWE-Lancer 上進行了測試。結(jié)果顯示:
模型表現(xiàn)仍有提升空間: 即使是最強的模型,也 遠未達到解決大多數(shù)任務(wù)的水平。Claude 3.5 Sonnet 在 IC SWE 任務(wù)上的通過率只有 26.2%,在 SWE Manager 任務(wù)上稍好,但也只有 44.9%
Claude 3.5 Sonnet 表現(xiàn)最佳: 在所有模型中,Claude 3.5 Sonnet 表現(xiàn)最為出色,在 SWE-Lancer Diamond 數(shù)據(jù)集上總共 “賺” 到了 20.8 萬美元,在完整數(shù)據(jù)集上更是超過 40 萬美元!
任務(wù)難度和報酬成正比: 難度越高、報酬越高的任務(wù),模型表現(xiàn)越差,這也符合預(yù)期,畢竟高難度任務(wù)需要更強的專業(yè)知識和推理能力
工具使用至關(guān)重要: 實驗表明,用戶工具(User Tool) 對模型解決 IC SWE 任務(wù)至關(guān)重要。更強大的模型能更有效地利用工具,從而提升性能
寫在最后
OpenAI還 開源了 SWE-Lancer Diamond 數(shù)據(jù)集 和 統(tǒng)一的 Docker 鏡像,方便更多研究者參與到這個領(lǐng)域的研究中來
SWE-Lancer 的發(fā)布,無疑為 AI 軟件工程領(lǐng)域的研究注入了新的活力!它不僅是一個更 真實、更全面、更硬核的 benchmark,更重要的是,它將模型性能與真實的經(jīng)濟價值聯(lián)系起來,讓我們能夠更直觀地評估 AI 在軟件工程領(lǐng)域的經(jīng)濟潛力和社會影響
最后,靈魂拷問: 你覺得 AI 程序員會在未來取代你嗎?