科研也完了,AI暴虐170位人類專家!Nature子刊:大模型精準預測研究結果,準確率高達81%
在現(xiàn)代化工具的幫助下,科研人員的群體規(guī)模、效率都有顯著提升,發(fā)表科學文獻的數(shù)量幾乎是呈指數(shù)級增長,而人類的閱讀效率卻幾乎沒有提升,新入行的研究人員一下子就要面對過去數(shù)十年的研究成果。
為了更快地掌握行業(yè)動態(tài),研究者往往會考慮優(yōu)先閱讀那些更知名的、影響力更大的論文,從而會忽視掉很多潛在的、具有顛覆性的發(fā)現(xiàn)。
以ChatGPT為首的大模型算是一個很有潛力的輔助閱讀、科研的解決方案,其通用能力覆蓋了專業(yè)考試、有限推理、翻譯、解決數(shù)學問題,甚至還能寫代碼。
已有的研究考察了大模型在科研領域的表現(xiàn),但基準數(shù)據(jù)集大多屬于「回顧性質」的,比如MMLU、PubMedQA和MedMCQA,主要以問答的形式來評估模型的核心知識檢索和推理能力,
然而,這些基準都不適合評估模型前瞻的能力,輔助科研需要整合嘈雜但相互關聯(lián)的發(fā)現(xiàn),比人類專家更擅長預測新結果。
最近,倫敦大學學院(UCL)的研究人員在Nature Human Behaviour期刊上發(fā)布了一個前瞻性基準BrainBench,在神經(jīng)科學領域考察模型的預測能力。
論文鏈接:https://www.nature.com/articles/s41562-024-02046-9
結果發(fā)現(xiàn),大模型的表現(xiàn)遠遠超越了人類專家水平,平均準確率達到了81%,而人類的平均準確率只有63%
即使研究團隊將人類的反饋限制為僅對特定神經(jīng)科學領域、具有最高專業(yè)知識的人,神經(jīng)科學家的準確率仍然低于大模型,為 66%
和人類專家類似的是,如果大模型對預測結果表示具有高度自信時,回答結果的正確率也更高,也就是說,大模型完全可以輔助人類做科研新發(fā)現(xiàn)。
最重要的是,這種方法并不特定于某一個學科,其他知識密集型任務上也可以使用。
科研結果預測
即使是人類專家,在神經(jīng)科學領域進行預測時,仍然是非常有挑戰(zhàn)性的,主要有五個難題:
1. 領域內通常有成千上萬篇的相關科學論文;
2. 存在個別不可靠的研究結果,可能無法復制;
3. 神經(jīng)科學是跨領域學科(multi-level endeavour),涵蓋行為(behaviour)和分子機制(molecular mechanisms);
4. 分析方法多樣且可能非常復雜;
5. 可用的實驗方法很多,包括不同的腦成像技術、損傷研究、基因修改、藥理干預等。
為了滿足對大模型的測試需要,針對上述難題,研究人員開發(fā)的BrainBench基準總共納入了200個由人類專家精心設計的、2023年發(fā)表在《神經(jīng)科學雜志》上的測試案例,以及額外100個由GPT-4生成的測試案例,涵蓋了五個神經(jīng)科學領域:行為/認知、系統(tǒng)/回路、疾病神經(jīng)生物學、細胞/分子以及發(fā)展/可塑性/修復。
對于每個測試案例,研究人員會修改已發(fā)表的摘要,創(chuàng)建一個變更后的版本,在不改變方法和背景的情況下,大幅改變研究結論。
比如說,與原始摘要相比,變更后的摘要可能會交換兩個大腦區(qū)域在結果中的作用,反轉結果的方向(將「減少」替換為「增加」)等。任何改動都需要保持摘要的連貫性,有時還需要進行多次改動(比如將多個減少替換為增加)。
也就是說,變更后的摘要需要在實證上有所不同,但邏輯上并不矛盾。
測試者需要在原始摘要和修改版本之間做出選擇,人類專家和大型語言模型的任務是從兩個選項中選擇正確的,即原始版本;人類專家需要做出選擇,并提供信心和專業(yè)水平的評分;大型語言模型則根據(jù)選擇的摘要的困惑度(即模型認為文本段落的驚訝程度較低)來評分,自信程度與兩個選項之間困惑度差異成正比。
部分GPT-4提示如下:
你的任務是修改一篇神經(jīng)科學研究論文的摘要,使得修改后的內容顯著改變研究結果,但不改變方法和背景。這樣我們可以測試人工智能對摘要主題領域的理解能力。
... ... 摘要的開頭是背景和方法,所以這部分摘要不應被修改。不要改變前幾句話。
我們希望摘要在實證上是錯誤的,但邏輯上并不矛盾。
要找到論文的原始結果,需要一些神經(jīng)科學的洞察力,而不僅僅是一般的推理能力。因此,你所做的修改不應該評估人工智能的推理能力,而是它對神經(jīng)科學和大腦工作原理的知識。
注意不要做出改變結果但可能在作者的研究中仍然發(fā)生的修改。例如,關于學習的fMRI摘要可能提到海馬體而不是紋狀體。然而,紋狀體可能也是活躍的,但沒有在摘要中報告,因為它不是研究的重點。
你所做的修改不應該從摘要的其余部分被識別或解碼出來。因此,如果你做了修改,確保你改變了所有可以揭示原始摘要的內容。
在你改變單詞時注意冠詞的使用(a/an)。
確保你的修改保持句子間的一致性和正確的語法,修改不應該與摘要的整體意義相矛盾或混淆。
避免進行不需要理解科學概念的瑣碎修改,修改應該反映出對主題的深刻理解。
在進行修改時,不要錯過摘要中的任何重要結果或發(fā)現(xiàn)。每一個重要點都應該在你的修改中得到體現(xiàn)。
實驗結果
人類神經(jīng)科學專家經(jīng)過專業(yè)能力和參與度的篩選,共有171名參與者通過了所有檢查并被納入分析結果,大多數(shù)人類專家是博士生、博士后研究員或教職/學術人員。
在BrainBench上,大型語言模型的性能表現(xiàn)都超過了人類專家,平均準確率為81.4%,而人類專家的平均準確率為63.4%;當把人類回答限制在那些自報專業(yè)水平在前20%的測試項時,準確率上升到了66.2%,但仍然低于大型語言模型的水平。
參數(shù)較小的模型,比如70億參數(shù)的Llama2-7B和Mistral-7B,表現(xiàn)得與更大的模型相當,其性能也比尺寸更小的模型要好,小模型可能缺乏捕捉關鍵數(shù)據(jù)模式的能力;而為聊天或指令優(yōu)化的模型表現(xiàn)得比基準模型要差。
研究人員推測,讓大型語言模型適應自然語言對話可能會阻礙其科學推理能力。
按子領域和參與者類型劃分時,大型語言模型在每個子領域中的表現(xiàn)也都優(yōu)于人類專家。
在測試時,為了防止基準測試本身可能是訓練集的一部分,研究人員采用zlib-perplexity ratio(困惑度比率)來評估大型語言模型是否記住了某些段落。
該值可以衡量文本數(shù)據(jù)不可知壓縮率與大型語言模型計算的特定數(shù)據(jù)困惑度之間的差異,如果某個段落難以壓縮,但模型給出的困惑度教低,就代表模型是通過記憶來回答問題。
從結果來看,沒有跡象表明大型語言模型見過并記住了BrainBench
研究人員還進一步確認了大語言模型在2023年早些時候發(fā)表的項目上并沒有表現(xiàn)得更好(2023年1月與10月相比)
總之,檢查結果表明,對于大型語言模型來說,BrainBench的數(shù)據(jù)是新的,沒見過的。
為了評估大型語言模型的預測是否經(jīng)過校準,研究人員檢查了置信度與準確性之間的關聯(lián)性,結果發(fā)現(xiàn)與人類專家一樣,所有大型語言模型都展現(xiàn)出準確性和置信度之間的正相關性。
當大型語言模型對自己的決策有信心時,更有可能做出正確的選擇。
此外,研究人員還在個體層面上擬合了模型困惑度差異與正確性之間的邏輯回歸,以及人類置信度與正確性之間的邏輯回歸,能夠觀察到顯著的正相關性,證實了模型和人類都是經(jīng)過校準的。