AI科學家太多,誰靠譜一試便知!普林斯頓新基準CORE-Bench:最強模型僅有21%準確率
大模型的能力越來越強,用戶在一些重要的任務中也可以依賴大模型,比如說輔助做科研。
不過現(xiàn)有科研輔助相關的基準測試都太簡單,跟現(xiàn)實世界的任務差距還是比較大的。
最近,普林斯頓大學的研究人員發(fā)布了一個新的基準測試CORE-Bench(Computational Reproducibility Agent Benchmark,計算可重復性智能體基準測試),主要關注模型在處理科研問題中的計算可重復/可復現(xiàn)(computational reproducibility)的問題。論文鏈接:https://arxiv.org/pdf/2409.11363v1
對其他論文進行重復是科研活動的基礎,研究人員需要使用提供的代碼和數(shù)據(jù)來對論文中報告的結果進行復現(xiàn)。
CORE-Bench基于90篇科學論文,包含了270個任務,覆蓋了三個學科(計算機科學、社會科學和醫(yī)學),其任務被劃分為三個難度等級,覆蓋純文本和視覺-語言任務。
文中還提供了一個評估系統(tǒng),可以快速、并行地測試智能體的準確性,與順序實現(xiàn)相比,每次測試可以節(jié)省數(shù)天的評估時間。
在評估過程中,研究人員設計了兩個基線智能體:通用的AutoGPT和基于該任務設計的CORE-Agent,其中底層語言模型用到了GPT-4o和GPT-4o-mini,結果顯示,最佳智能體在最難級別的任務上達到了21%的準確率,即模型在常規(guī)科學任務自動化方面仍然有很大的改進空間。
CORE-Bench
圖片
基準構造
驗證可重復性需要深度專業(yè)的領域知識,即使是對于經驗豐富的研究人員來說,其過程可能也算是勞動密集型的任務,驗證一篇論文最快也需要幾個小時,就算只是給100篇不同領域的論文建立可重復性基準測試,也是不現(xiàn)實的。簡單來說,研究人員的目標是找到一些比較困難的基準任務,雖然這些任務在現(xiàn)實中很難驗證其可重復性,但其基準測試的建立要相對簡單一點。為了解決這個問題,研究人員基于CodeOcean capsules構建了基準測試,可以輕松地進行復現(xiàn)。
圖片
研究人員從CodeOcean中選擇了90篇可復現(xiàn)的論文,然后將數(shù)據(jù)集分為45篇用于訓練和45篇用于測試。
在論文的選擇標準上,由于CodeOcean包含來自不同學科和編程語言的論文,為了創(chuàng)建一個真實且健壯的基準測試,研究人員提出十個標準,可以確保CORE-Bench能夠代表多樣化但可行的計算可重復性任務子集。
圖片
- 對應于可公開獲取的研究論文;對于基準測試的范圍是必要的
- 來自計算機科學、醫(yī)學或社會科學領域;測試由于分布變化導致的準確性變化
- 用Python或R編寫;測試由于分布變化導致的準確性變化
- 包含一個README文件;提高構建有效性,雖然并非所有CodeOcean上的膠囊都有README文件,但現(xiàn)實世界中的大多數(shù)論文都有5. 在CodeOcean的硬件上運行代碼不超過45分鐘;確保在給定的時間和硬件限制下膠囊(capsule)是可復現(xiàn)的
- 需要一個相對簡單的Bash命令來正確復現(xiàn)代碼;允許輕松設計一個英文任務提示,指明在智能體無法訪問運行文件的情況下應該如何運行代碼
- 結果在代碼輸出中有充分標記的圖表、表格或文件名;消除了為無組織或未標記的數(shù)據(jù)設計任務問題的需求
- 運行代碼時結果的方差低;確保所有包含的膠囊都可以由人類驗證和復現(xiàn)
- 膠囊大小不超過10GB;確保在給定的資源限制下膠囊是可復現(xiàn)的
- 膠囊的結果可以在本地運行代碼時復現(xiàn);確保膠囊是可復現(xiàn)的
數(shù)據(jù)集中可以確保每個任務至少有一個不能通過猜測來解決的問題(比如開放式的數(shù)值答案),并且只有當所有任務問題都正確回答時,任務才會被標記為正確,也能夠保證任務無法通過隨機猜測來完成。
研究人員從網站CodeOcean.com中獲取的論文,CORE-Bench中的所有任務都來自于可復現(xiàn)的論文。
由于基準測試是衡量智能體復現(xiàn)與論文相關代碼運行結果的能力,而不是為了確保論文中報告結果的正確性,所以研究人員認為沒有必要在基準測試中包含不可復現(xiàn)的論文。
CORE-Bench的優(yōu)勢
能力要求高、多模態(tài)(Skills and modalities)
解決CORE-Bench中的任務需要多種能力,包括理解指令、調試代碼、檢索以及跨學科解釋結果,模型只有具備這些技能才能在CORE-Bench上拿到更高分數(shù),而這些技能對于復現(xiàn)新的研究成果來說也是必要的。
并且任務需要解釋代碼輸出的文本和圖像:基于視覺的問題需要從圖形、圖表、圖或PDF表格的屬性中提取結果;基于文本的問題包括從命令行文本、PDF文本、表格或HTML、Markdown或LaTeX中的文本提取結果。
例如,一個基于視覺的問題可能是「從室內空氣質量 - 廚房 - 秋季圖表中,報告濕度和氣體之間的相關性」,而一個基于文本的問題可能是「報告第10個epochs后神經網絡的測試準確率」。
現(xiàn)實世界中的計算可重復性任務
在構建基準測試時,研究人員主要關注其建構有效性(construct validity),即如何有效地衡量模型在現(xiàn)實世界中的表現(xiàn),即CORE-Bench的任務與研究人員必須完成的任務密切相關,而其他編碼基準測試中設計的玩具問題,并不能反映軟件工程的復雜性。
在CORE-Bench上提高表現(xiàn)將直接轉化為計算可重復性的改善,也是科學研究的基石。
邁向科研智能體的第一步
完成新科學研究的第一步是能夠復制現(xiàn)有的科學工作,在實現(xiàn)能夠進行新穎研究的智能體的過程中,這一步是非常有必要的。
實驗結果
研究人員按照難度把CORE-Bench劃分為CORE-Bench-Easy、CORE-Bench-Medium和CORE-Bench-HardCORE-Bench-Easy只包括最簡單的任務,代碼輸出已經提供在環(huán)境中,智能體只需要導航環(huán)境以找到相關結果來回答任務問題。
在CORE-Bench-Medium上,智能體輸入一個Docker命令來復制論文的代碼,測試智能體與Bash終端交互的能力,如果智能體擅長與終端交互,這些任務應該也不算難。
CORE-Bench-Hard,智能體必須安裝所有依賴項和庫,并輸出正確的命令以復現(xiàn)結果。
研究人員并選擇了兩個基線模型進行評估:
1. AutoGPT,研究人員基本沒有修改原始模型,創(chuàng)建了query_vision_language_model工具,輸入位一張圖片和一個查詢,并利用OpenAI API輸出對該圖片查詢的回復,以分析圖表和插圖中的結果,該模型的查詢視覺語言模型的能力并不特定于CORE-Bench。
2. CORE-Agent,研究人員在AutoGPT的基礎上創(chuàng)建了CORE-Agent,為CORE-Bench的不同難度級別進行定制,主要修改了程序檢查,以確保正確提交和報告復制結果的文件(即report.json)。
圖片
對于不同的難度級別,研究人員添加了特定的提示來引導智能體的行為,可以根據(jù)模型在訓練集上的表現(xiàn)進行定性分析,并調整指令,其中最耗時的部分是分析失敗日志以確定有效的提示策略。
評估指標
任務準確率,即所有任務問題都回答正確的任務比例;智能體的平均成本,即請求智能體的平均API成本。
評估結果
總體來說,使用GPT-4o的CORE-Agent在基準測試集的所有三個級別上都是表現(xiàn)最佳的智能體,其在CORE-Bench-Easy上解決了60.00%的任務,在CORE-Bench-Medium上解決了57.78%,但在CORE-Bench-Hard上僅解決了21.48%
圖片
實驗結果表明,通用智能體可以通過簡單地調整就能適應特定任務,從而獲得顯著的性能提升,作為對比,使用GPT-4o的AutoGPT在CORE-Bench-Hard上僅得分6.7%
文本問題比視覺問題簡單
智能體在基于文本的問題上的表現(xiàn)始終優(yōu)于基于視覺的問題。在測試集上,使用GPT-4o的CORE-Agent在CORE-Bench-Easy中正確回答了59.26%的視覺問題和87.88%的書面問題;使用GPT-4o-mini的CORE-Agent正確回答了37.78%的視覺問題和81.81%的書面問題。視覺問題之所以更難,主要因為模型需要分析圖表中的結果,而書面答案通??梢灾苯釉诮K端輸出中找到。如果生成了多個輸出文件,智能體有時無法找到相關的圖表;即使找到了,分析輸出也可能很困難。
Python比R更簡單
智能體在Python任務上的表現(xiàn)遠勝于R任務,可能的原因是R的輸出通常更難解析,因為許多R任務生成了完整的PDF手稿,智能體需要閱讀;另一個可能原因是安裝R包的依賴項可能比Python花費的時間要長得多。
圖片
計算機科學任務在Python中的比例過高,也可能解釋了為什么與其他兩個學科相比,往往更容易被復現(xiàn)。