限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

2024-11-25 12:50:14

人工智能

前2小時，基于Claude 3.5 Sonnet和o1-preview構(gòu)建的Agent（智能體）表現(xiàn)遠超人類。但拐點過后，AI能力增速（在8小時內(nèi)）卻始終追不上人類。

2小時內(nèi)，Claude和o1就能超過人類專家平均科研水平。

甚至AI還會偷摸兒“作弊”（doge）。事情是這樣的——

人類 VS AI科研能力大比拼，也有新的評估基準了。

代號“RE-Bench”，由非營利研究機構(gòu)METR推出，目的是搞清：當前AI智能體在自動化科研方面有多接近人類專家水平。

注意看，一聲令下之后，AI和50多位人類專家開始暗自較勁：

前2小時，基于Claude 3.5 Sonnet和o1-preview構(gòu)建的Agent（智能體）表現(xiàn)遠超人類。

但拐點過后，AI能力增速（在8小時內(nèi)）卻始終追不上人類。

時間拉得更長（至32小時）之后，研究得出結(jié)論，目前AI智能體更適合并行處理大量獨立短實驗。

看完上述結(jié)果，知名預測師Eli Lifland認為這“顯著縮短”了他關(guān)于AGI的時間表（連續(xù)兩年將2027年作為中位數(shù)），由此也在Reddit引起熱議。

??上也有人表示，AI自動搞科研可能對推動爆炸性經(jīng)濟增長至關(guān)重要。

甚至有人腦洞大開，開始美滋滋暢想躺著賺錢的生活(doge)：

以后AI智能體來做科研，然后雇一群人類寫代碼……

AI更適合大量并行短時間任務，長期科研還得靠人類

在RE-Bench上，研究對比了基于大語言模型構(gòu)建的Agent（目前主要公布了Claude 3.5 Sonnet、o1-preview）和50+人類專家的科研能力。

值得注意的是，這些專家都有強大機器學習背景，其中很多人在頂級行業(yè)實驗室或機器學習博士項目中工作。

一番PK后，研究得出了以下主要結(jié)論：

2小時內(nèi)，Claude和o1表現(xiàn)遠超人類專家。但隨著時間增加，人類專家的能力提升更顯著；
在提交新解決方案的速度上，AI是人類專家的十倍以上，且偶爾能找到非常成功的解決方案；
在編寫高效GPU內(nèi)核方面，AI表現(xiàn)超越所有人類；
AI的運行成本遠低于人類專家；
……

總之一句話，不僅AI和人類各有所長，且不同AI都有自己最佳的科研節(jié)奏。

人類更適應更復雜、更長時間的科研，AI更適應大量并行短任務。

回到研究起點，METR之所以提出RE-Bench主要是發(fā)現(xiàn)：雖然很多政府和公司都在強調(diào)，AI智能體能否自動研發(fā)是一項關(guān)鍵能力。但問題是：

現(xiàn)有的評估往往側(cè)重于短期、狹窄的任務，并且缺乏與人類專家的直接比較。

因此，RE-Bench想做的事兒，就是全面評估AI科研所需的技能。本次研究一共提出了7項：

高效編程：特別是在優(yōu)化算法和內(nèi)核函數(shù)（如GPU內(nèi)核）方面。
機器學習理論與實踐：熟悉機器學習模型的訓練、調(diào)優(yōu)和評估，包括神經(jīng)網(wǎng)絡架構(gòu)、超參數(shù)選擇和性能優(yōu)化；
數(shù)據(jù)處理與分析。
創(chuàng)新思維：能夠在面對復雜問題時提出新的方法和策略，以及跨領(lǐng)域思考。
技術(shù)設計：能夠設計和實現(xiàn)復雜的系統(tǒng)和解決方案，包括軟件架構(gòu)和研究流程。
問題解決。
自動化與工具開發(fā)：能夠開發(fā)和使用自動化工具來加速研究流程。

這些任務被設計在≤8小時內(nèi)，以便人類專家可以使用合理的計算資源完成，從而實現(xiàn)人類與AI的直接比較。

而且主辦方特意提醒，要想獲得高分，就必須最大化利用計算資源來完成這些復雜任務。

通常來說，RE-Bench的運行機制如下：

首先，7項任務都是一個獨立的評估環(huán)境，各自都有一個清晰的目標，比如優(yōu)化一個GPU內(nèi)核或者調(diào)整一個機器學習模型的超參數(shù)。

為了確保任務的可比性，每個環(huán)境都提供了一個參考解決方案，這個解決方案是有效的，但效率較低，為Agent和人類專家提供了一個基準點。

AI和人類專家都可以訪問這些環(huán)境，并且都有權(quán)限使用所需的計算資源，如GPU。

然后，AI通過自然語言處理和編程能力來執(zhí)行任務，而人類專家則通過編碼和實驗來完成任務。

執(zhí)行結(jié)束后，每個環(huán)境都有一個評分函數(shù)，用于衡量Agent或人類專家提交的解決方案的效果。

當然，評分函數(shù)會根據(jù)解決方案的性能給出一個數(shù)值得分，這個得分隨后會被歸一化，以便于在不同環(huán)境之間進行比較。

需要注意，過程中還涉及時間預算分配（time budget）。實際情況是，人類專家通常被分配8小時來完成任務，而AI則根據(jù)實驗設計在不同的時間限制下進行評估。

舉個例子，對AI來說，8小時的預算可以用于一次8小時的嘗試，也可以分成16次、每次30分鐘的嘗試。

最后，由于在任務執(zhí)行過程中，研究會收集AI和人類專家的解決方案日志，以及它們的得分記錄。因此最終將根據(jù)這些記錄來評估不同參與者的進步和表現(xiàn)。

實驗結(jié)果顯示，在2小時內(nèi)，基于Claude 3.5 Sonnet和o1-preview構(gòu)建的智能體表現(xiàn)遠超人類。

更具體來看，如果不取多次運行中的最佳結(jié)果（每個單獨繪制8小時運行），AI最初比人類進步更快，但提高分數(shù)的速度較慢。

擴大時間線來看，整體上人類專家在較少的長時間嘗試中表現(xiàn)更佳，而AI則從大量并行、獨立的短時間嘗試中受益。

令人印象深刻的是，盡管大多數(shù)AI只能輕微改進參考解決方案，但一個o1-preview智能體在優(yōu)化Triton內(nèi)核運行時間的任務中超越了人類專家的最佳解決方案。

與此同時，評估過程中甚至發(fā)現(xiàn)了AI存在“作弊”行為。例如，o1-preview智能體在應該減少訓練腳本運行時間的任務中，編寫了只是復制最終輸出的代碼。

來自非營利研究機構(gòu)METR

以上這項新的基準出自METR，作為一家非營利研究機構(gòu)，他們主要通過實證測試評估可能對社會造成災難性危害的AI系統(tǒng)。

目前，RE-Bench只包含7項任務，基準的劣勢也很明顯：

而且還伴隨著一個老生常談的問題：

一旦7項任務公開，如何防止基準測試數(shù)據(jù)污染問題？

對此，METR特別提出了幾項措施，來避免將這些任務包含在LLM訓練數(shù)據(jù)中，并防止過擬合。

用戶應避免發(fā)布未受保護的解決方案，以減少過擬合的風險。
用戶不應將評估材料提供給可能用于訓練的API或服務。
評估材料不應用于訓練或提高前沿模型的能力，除非是為了開發(fā)或?qū)嵤┪ｋU能力評估。

更多細節(jié)歡迎查閱原論文。

論文：https://metr.org/AI_R_D_Evaluation_Report.pdf。
博客：https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/。
GitHub：https://github.com/METR/ai-rd-tasks/tree/main。
實驗詳細記錄：https://transcripts.metr.org/。

參考鏈接：
[1]https://twitter.com/METR_Evals/status/1860061711849652378。
[2]https://www.reddit.com/r/singularity/comments/1gxzslg/top_forecaster_significantly_shortens_his/。

責任編輯：姜華來源：量子位

AI 人工智能 Claude 3.5

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

AI更適合大量并行短時間任務，長期科研還得靠人類

來自非營利研究機構(gòu)METR

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

AI更適合大量并行短時間任務，長期科研還得靠人類