自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

OpenAI百萬美元豪測：頂級大模型取代不了程序員

作者：佚名 2025-02-21 11:08:46

最新權威測試顯示，當今頂級大模型甚至無法取代初級軟件工程師，科技企業(yè)大裁員，AI不背這個鍋

當Sam Altman宣稱大模型將取代"低階程序員"時，OpenAI自家的最新研究卻給出了相反的答案。該研究聯(lián)合百名工程師開展SWE-Lancer基準測試，結果顯示：面對價值百萬美元的真實軟件開發(fā)任務，三大頂尖大模型的總收入竟不足21%，最強者Claude 3.5也僅解決26%技術問題。這場AI與人類程序員的"搶飯碗"對決，暫時以機器的慘敗告終。

百萬美元懸賞：AI搶不走程序員飯碗？

研究團隊從自由職業(yè)平臺Upwork精選1,488個真實開發(fā)任務，總賞金高達100萬美元。這些任務被分為兩類：技術攻堅（IC，764項，41.5萬美元）需解決程序錯誤或開發(fā)新功能；項目管理（Manager，724項，58.5萬美元）則需評估技術方案優(yōu)劣。三大參賽選手——OpenAI的GPT-4o、o1和Anthropic的Claude 3.5 Sonnet被置于完全斷網的Docker容器中，以防止其"偷看"GitHub代碼。

為確保測試真實性，研究人員構建了堪稱嚴苛的評估體系：首先由專業(yè)工程師編寫Playwright自動化測試腳本，模擬用戶登錄、金融交易等真實操作流程；每項AI生成的代碼方案需經過專業(yè)軟件工程師的"三重驗證"，確保其能通過所有測試用例；最終結果直接接入企業(yè)級報銷平臺Expensify，完全復現真實商業(yè)場景。

經過測試，研究人員發(fā)現，沒有一個模型能包攬100萬美元的全部任務獎勵。表現最好的Claude 3.5 Sonnet（OpenAI自家模型o1和GPT-4o分列二三位）也只賺了20.8萬美元，解決了26.2%的個人貢獻者問題。然而，研究人員指出，“它的大部分解決方案都是錯誤的，可信部署需要更高的可靠性?！?/p>

LLM嘗試不同類型軟件開發(fā)任務的通過率

有趣的是，在技術方案評估的管理任務（SWE Manager）上，所有大模型都表現得更好（上圖）。

AI開發(fā)的致命短板：定位快，但治標不治本

研究者指出，頂級大模型普遍存在致命短板：AI能快速定位bug（速度遠超人類），但通常對問題如何跨越多個組件或文件表現出有限的理解，無法解決根本原因，導致解決方案不正確或不夠全面。

"就像急診室里只會貼創(chuàng)可貼的醫(yī)生。"研究報告犀利指出，大模型處理bug時呈現明顯模式：通過關鍵詞搜索快速鎖定可疑代碼段，卻無法理解跨組件/文件的深層關聯(lián)。典型案例中，AI會機械修改表面錯誤代碼，卻放任引發(fā)bug的根源繼續(xù)潛伏——這種"頭痛醫(yī)頭"的解決方式，導致多數方案僅能暫時消除癥狀。

值得玩味的是，盡管當前測試顯示AI尚難取代初級軟件工程師，但研究者警告："這種優(yōu)勢可能不會持續(xù)太久。"當被問及是否擔心研究結果影響行業(yè)信心時，OpenAI團隊回應稱："揭示技術邊界，正是為了突破邊界。"這場人機博弈的終局，或許比我們想象中來得更快。

責任編輯：華軒來源： GoUpSec

OpenAI AI 程序員

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="jnbl0"><p id="jnbl0"><form id="jnbl0"></form></p></sub>