自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

AI科學家太多，誰靠譜一試便知！普林斯頓新基準CORE-Bench：最強模型僅有21%準確率

作者：新智元 2024-09-25 14:41:15

普林斯頓大學新發(fā)布的CORE-Bench基準測試，通過270個基于90篇跨學科科學論文的任務，可評估AI智能體在計算可重復性方面的表現(xiàn)，最簡單任務的準確率可以達到60%，最難任務準確率僅有21%。

大模型的能力越來越強，用戶在一些重要的任務中也可以依賴大模型，比如說輔助做科研。

不過現(xiàn)有科研輔助相關的基準測試都太簡單，跟現(xiàn)實世界的任務差距還是比較大的。

最近，普林斯頓大學的研究人員發(fā)布了一個新的基準測試CORE-Bench（Computational Reproducibility Agent Benchmark，計算可重復性智能體基準測試），主要關注模型在處理科研問題中的計算可重復/可復現(xiàn)（computational reproducibility）的問題。論文鏈接：https://arxiv.org/pdf/2409.11363v1

對其他論文進行重復是科研活動的基礎，研究人員需要使用提供的代碼和數(shù)據(jù)來對論文中報告的結果進行復現(xiàn)。

CORE-Bench基于90篇科學論文，包含了270個任務，覆蓋了三個學科（計算機科學、社會科學和醫(yī)學），其任務被劃分為三個難度等級，覆蓋純文本和視覺-語言任務。

文中還提供了一個評估系統(tǒng)，可以快速、并行地測試智能體的準確性，與順序實現(xiàn)相比，每次測試可以節(jié)省數(shù)天的評估時間。

在評估過程中，研究人員設計了兩個基線智能體：通用的AutoGPT和基于該任務設計的CORE-Agent，其中底層語言模型用到了GPT-4o和GPT-4o-mini，結果顯示，最佳智能體在最難級別的任務上達到了21%的準確率，即模型在常規(guī)科學任務自動化方面仍然有很大的改進空間。

CORE-Bench

圖片

基準構造

驗證可重復性需要深度專業(yè)的領域知識，即使是對于經驗豐富的研究人員來說，其過程可能也算是勞動密集型的任務，驗證一篇論文最快也需要幾個小時，就算只是給100篇不同領域的論文建立可重復性基準測試，也是不現(xiàn)實的。簡單來說，研究人員的目標是找到一些比較困難的基準任務，雖然這些任務在現(xiàn)實中很難驗證其可重復性，但其基準測試的建立要相對簡單一點。為了解決這個問題，研究人員基于CodeOcean capsules構建了基準測試，可以輕松地進行復現(xiàn)。

圖片

研究人員從CodeOcean中選擇了90篇可復現(xiàn)的論文，然后將數(shù)據(jù)集分為45篇用于訓練和45篇用于測試。

在論文的選擇標準上，由于CodeOcean包含來自不同學科和編程語言的論文，為了創(chuàng)建一個真實且健壯的基準測試，研究人員提出十個標準，可以確保CORE-Bench能夠代表多樣化但可行的計算可重復性任務子集。

圖片

對應于可公開獲取的研究論文；對于基準測試的范圍是必要的
來自計算機科學、醫(yī)學或社會科學領域；測試由于分布變化導致的準確性變化
用Python或R編寫；測試由于分布變化導致的準確性變化
包含一個README文件；提高構建有效性，雖然并非所有CodeOcean上的膠囊都有README文件，但現(xiàn)實世界中的大多數(shù)論文都有5. 在CodeOcean的硬件上運行代碼不超過45分鐘；確保在給定的時間和硬件限制下膠囊（capsule）是可復現(xiàn)的
需要一個相對簡單的Bash命令來正確復現(xiàn)代碼；允許輕松設計一個英文任務提示，指明在智能體無法訪問運行文件的情況下應該如何運行代碼
結果在代碼輸出中有充分標記的圖表、表格或文件名；消除了為無組織或未標記的數(shù)據(jù)設計任務問題的需求
運行代碼時結果的方差低；確保所有包含的膠囊都可以由人類驗證和復現(xiàn)
膠囊大小不超過10GB；確保在給定的資源限制下膠囊是可復現(xiàn)的
膠囊的結果可以在本地運行代碼時復現(xiàn)；確保膠囊是可復現(xiàn)的

雖然并非現(xiàn)實世界中的所有論文都符合這些標準，但這些標準可以提高任務的清晰度，確保了在當前智能體發(fā)展水平下，達到基準測試的高準確率是可行的，對于每篇論文，手動創(chuàng)建了一組關于成功復現(xiàn)論文生成的輸出的任務問題，可以評估智能體是否正確執(zhí)行了代碼并檢索了結果。比如說，可以要求智能體報告模型的測試準確率、圖表的軸標簽或其他復現(xiàn)的結果，其中有些是單一任務問題，有些任務則包含多個問題。

數(shù)據(jù)集中可以確保每個任務至少有一個不能通過猜測來解決的問題（比如開放式的數(shù)值答案），并且只有當所有任務問題都正確回答時，任務才會被標記為正確，也能夠保證任務無法通過隨機猜測來完成。

研究人員從網站CodeOcean.com中獲取的論文，CORE-Bench中的所有任務都來自于可復現(xiàn)的論文。

由于基準測試是衡量智能體復現(xiàn)與論文相關代碼運行結果的能力，而不是為了確保論文中報告結果的正確性，所以研究人員認為沒有必要在基準測試中包含不可復現(xiàn)的論文。

CORE-Bench的優(yōu)勢

能力要求高、多模態(tài)（Skills and modalities）

解決CORE-Bench中的任務需要多種能力，包括理解指令、調試代碼、檢索以及跨學科解釋結果，模型只有具備這些技能才能在CORE-Bench上拿到更高分數(shù)，而這些技能對于復現(xiàn)新的研究成果來說也是必要的。

并且任務需要解釋代碼輸出的文本和圖像：基于視覺的問題需要從圖形、圖表、圖或PDF表格的屬性中提取結果；基于文本的問題包括從命令行文本、PDF文本、表格或HTML、Markdown或LaTeX中的文本提取結果。

例如，一個基于視覺的問題可能是「從室內空氣質量 - 廚房 - 秋季圖表中，報告濕度和氣體之間的相關性」，而一個基于文本的問題可能是「報告第10個epochs后神經網絡的測試準確率」。

現(xiàn)實世界中的計算可重復性任務

在構建基準測試時，研究人員主要關注其建構有效性（construct validity），即如何有效地衡量模型在現(xiàn)實世界中的表現(xiàn)，即CORE-Bench的任務與研究人員必須完成的任務密切相關，而其他編碼基準測試中設計的玩具問題，并不能反映軟件工程的復雜性。

在CORE-Bench上提高表現(xiàn)將直接轉化為計算可重復性的改善，也是科學研究的基石。

邁向科研智能體的第一步

完成新科學研究的第一步是能夠復制現(xiàn)有的科學工作，在實現(xiàn)能夠進行新穎研究的智能體的過程中，這一步是非常有必要的。

實驗結果

研究人員按照難度把CORE-Bench劃分為CORE-Bench-Easy、CORE-Bench-Medium和CORE-Bench-HardCORE-Bench-Easy只包括最簡單的任務，代碼輸出已經提供在環(huán)境中，智能體只需要導航環(huán)境以找到相關結果來回答任務問題。

在CORE-Bench-Medium上，智能體輸入一個Docker命令來復制論文的代碼，測試智能體與Bash終端交互的能力，如果智能體擅長與終端交互，這些任務應該也不算難。

CORE-Bench-Hard，智能體必須安裝所有依賴項和庫，并輸出正確的命令以復現(xiàn)結果。

研究人員并選擇了兩個基線模型進行評估：

1. AutoGPT，研究人員基本沒有修改原始模型，創(chuàng)建了query_vision_language_model工具，輸入位一張圖片和一個查詢，并利用OpenAI API輸出對該圖片查詢的回復，以分析圖表和插圖中的結果，該模型的查詢視覺語言模型的能力并不特定于CORE-Bench。

2. CORE-Agent，研究人員在AutoGPT的基礎上創(chuàng)建了CORE-Agent，為CORE-Bench的不同難度級別進行定制，主要修改了程序檢查，以確保正確提交和報告復制結果的文件（即report.json）。

圖片

對于不同的難度級別，研究人員添加了特定的提示來引導智能體的行為，可以根據(jù)模型在訓練集上的表現(xiàn)進行定性分析，并調整指令，其中最耗時的部分是分析失敗日志以確定有效的提示策略。

評估指標

任務準確率，即所有任務問題都回答正確的任務比例；智能體的平均成本，即請求智能體的平均API成本。

評估結果

總體來說，使用GPT-4o的CORE-Agent在基準測試集的所有三個級別上都是表現(xiàn)最佳的智能體，其在CORE-Bench-Easy上解決了60.00%的任務，在CORE-Bench-Medium上解決了57.78%，但在CORE-Bench-Hard上僅解決了21.48%

圖片

實驗結果表明，通用智能體可以通過簡單地調整就能適應特定任務，從而獲得顯著的性能提升，作為對比，使用GPT-4o的AutoGPT在CORE-Bench-Hard上僅得分6.7%

文本問題比視覺問題簡單

智能體在基于文本的問題上的表現(xiàn)始終優(yōu)于基于視覺的問題。在測試集上，使用GPT-4o的CORE-Agent在CORE-Bench-Easy中正確回答了59.26%的視覺問題和87.88%的書面問題；使用GPT-4o-mini的CORE-Agent正確回答了37.78%的視覺問題和81.81%的書面問題。視覺問題之所以更難，主要因為模型需要分析圖表中的結果，而書面答案通?？梢灾苯釉诮K端輸出中找到。如果生成了多個輸出文件，智能體有時無法找到相關的圖表；即使找到了，分析輸出也可能很困難。

Python比R更簡單

智能體在Python任務上的表現(xiàn)遠勝于R任務，可能的原因是R的輸出通常更難解析，因為許多R任務生成了完整的PDF手稿，智能體需要閱讀；另一個可能原因是安裝R包的依賴項可能比Python花費的時間要長得多。

圖片

計算機科學任務在Python中的比例過高，也可能解釋了為什么與其他兩個學科相比，往往更容易被復現(xiàn)。

參考資料：

https://x.com/sayashk/status/1836430461003792485

責任編輯：武曉燕來源：新智元

AI 智能計算

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="lhtnl"><track id="lhtnl"></track></legend>