自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

科研黨狂喜!AI預(yù)測神經(jīng)學(xué)研究結(jié)論超過人類專家水平 | Nature子刊

人工智能 新聞
最近,來自倫敦大學(xué)學(xué)院、劍橋大學(xué)、牛津大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)發(fā)布了一個神經(jīng)學(xué)專用基準(zhǔn)BrainBench,登上了Nature子刊《自然人類行為(Nature human behavior)》。

LLM可以比科學(xué)家更準(zhǔn)確地預(yù)測神經(jīng)學(xué)的研究結(jié)果!

最近,來自倫敦大學(xué)學(xué)院、劍橋大學(xué)、牛津大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)發(fā)布了一個神經(jīng)學(xué)專用基準(zhǔn)BrainBench,登上了Nature子刊《自然人類行為(Nature human behavior)》。

結(jié)果顯示,經(jīng)過該基準(zhǔn)訓(xùn)練的LLM在預(yù)測神經(jīng)科學(xué)結(jié)果的準(zhǔn)確度方面高達(dá)81.4%,遠(yuǎn)超人類專家的63%。

在神經(jīng)學(xué)常見的5個子領(lǐng)域:行為/認(rèn)知、細(xì)胞/分子、系統(tǒng)/回路、神經(jīng)疾病的神經(jīng)生物學(xué)以及發(fā)育/塑性和修復(fù)中,LLM的表現(xiàn)也都全方位超過了人類專家。

更重要的是,這些模型被證實(shí)對于數(shù)據(jù)沒有明顯的記憶。

也就是說,它們已經(jīng)掌握了一般科研的普遍模式,可以做更多的前瞻性(Forward-looking)預(yù)測、預(yù)測未知的事物。

圖片

這立馬引發(fā)科研圈的圍觀。

多位教授和博士后博士后也表示,以后就可以讓LLM幫忙判斷更多研究的可行性了,nice!

圖片
圖片

LLM預(yù)測能力全面超越人類專家

讓我們先來看看論文的幾個重要結(jié)論:

總體結(jié)果:LLMs在BrainBench上的平均準(zhǔn)確率為81.4%,而人類專家的平均準(zhǔn)確率63.4%。LLMs的表現(xiàn)顯著優(yōu)于人類專家

圖片

子領(lǐng)域表現(xiàn):在神經(jīng)科學(xué)的幾個重要的子領(lǐng)域:行為/認(rèn)知、細(xì)胞/分子、系統(tǒng)/回路、神經(jīng)疾病的神經(jīng)生物學(xué)以及發(fā)育/塑性和修復(fù)中,LLMs在每個子領(lǐng)域的表現(xiàn)均優(yōu)于人類專家,特別是在行為認(rèn)知和系統(tǒng)/回路領(lǐng)域。

圖片

模型對比:較小的模型如Llama2-7B和Mistral-7B與較大的模型表現(xiàn)相當(dāng),而聊天或指令優(yōu)化模型的表現(xiàn)不如其基礎(chǔ)模型。

人類專家的表現(xiàn):大多數(shù)人類專家是博士學(xué)生、博士后研究員或教職員工。當(dāng)限制人類響應(yīng)為自我報(bào)告專業(yè)知識的最高20%時,準(zhǔn)確率上升到66.2%,但仍低于LLMS。

置信度校準(zhǔn):LLMs和人類專家的置信度都校準(zhǔn)良好,高置信度的預(yù)測更有可能是正確的。

圖片

記憶評估:沒有跡象表明LLMs記憶了BrainBench項(xiàng)目。使用zlib壓縮率和困惑度比率的分析表明,LLMs學(xué)習(xí)的是廣泛的科學(xué)模式,而不是記憶訓(xùn)練數(shù)據(jù)。

全新神經(jīng)學(xué)基準(zhǔn)

本論文的一個重要貢獻(xiàn),就是提出了一個前瞻性的基準(zhǔn)測試BrainBench,可以專門用于評估LLM在預(yù)測神經(jīng)科學(xué)結(jié)果方面的能力。

圖片

那么,具體是怎么做到的呢?

數(shù)據(jù)收集

首先,團(tuán)隊(duì)利用PubMed獲取了2002年至2022年間332807篇神經(jīng)科學(xué)研究相關(guān)的摘要,從PubMed Central Open Access Subset(PMC OAS)中提取了123085篇全文文章,總計(jì)13億個tokens。

評估LLM和人類專家

其次,在上面收集的數(shù)據(jù)的基礎(chǔ)上,團(tuán)隊(duì)為BrainBench創(chuàng)建了測試用例,主要通過修改論文摘要來實(shí)現(xiàn)。

具體來說,每個測試用例包括兩個版本的摘要:一個是原始版本,另一個是經(jīng)過修改的版本。修改后的摘要會顯著改變研究結(jié)果,但保持整體連貫性。

測試者的任務(wù)是選擇哪個版本包含實(shí)際的研究結(jié)果。

團(tuán)隊(duì)使用Eleuther Al Language Model EvaluationHaress框架,讓LLM在兩個版本的摘要之間進(jìn)行選擇,通過困惑度(perplexity)來衡量其偏好。困惑度越低,表示模型越喜歡該摘要。

對人類專家行為的評估也是在相同測試用例上進(jìn)行選擇,他們還需要提供自信度和專業(yè)知識評分。最終參與實(shí)驗(yàn)的神經(jīng)科學(xué)專家有171名。

實(shí)驗(yàn)使用的LLM是經(jīng)過預(yù)訓(xùn)練的Mistral-7B-v0.1模型。通過LoRA技術(shù)進(jìn)行微調(diào)后,準(zhǔn)確度還能再增加3%。

圖片

評估LLM是否純記憶

為了衡量LLM是否掌握了思維邏輯,團(tuán)隊(duì)還使用zlib壓縮率和困惑度比率來評估LLMs是否記憶了訓(xùn)練數(shù)據(jù)。公式如下:

圖片

其中,ZLIB(X)表示文本X的zlib壓縮率,PPL(X)表示文本X的困惑度。

部分研究者認(rèn)為只能當(dāng)作輔助

這篇論文向我們展示了神經(jīng)科學(xué)研究的一個新方向,或許未來在前期探索的時候,神經(jīng)學(xué)專家都可以借助LLM的力量進(jìn)行初步的科研想法篩選,剔除一些在方法、背景信息等方面存在明顯問題的計(jì)劃等。

但同時也有很多研究者對LLM的這個用法表示了質(zhì)疑。

有人認(rèn)為實(shí)驗(yàn)才是科研最重要的部分,任何預(yù)測都沒什么必要:

圖片

還有研究者認(rèn)為科研的重點(diǎn)可能在于精確的解釋。

圖片此外,也有網(wǎng)友指出實(shí)驗(yàn)中的測試方法只考慮到了簡單的AB假設(shè)檢驗(yàn),真實(shí)研究中還有很多涉及到平均值/方差的情況。

圖片

整體來看,這個研究對于神經(jīng)學(xué)科研工作的發(fā)展還是非常有啟發(fā)意義的,未來也有可能擴(kuò)展到更多的學(xué)術(shù)研究領(lǐng)域。

研究人員們怎么看呢?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-09 08:30:00

AI模型

2014-02-25 10:35:37

神經(jīng)學(xué)程序語言

2025-01-13 13:00:00

AI模型訓(xùn)練

2022-07-06 14:51:07

人工智能技術(shù)研究

2020-11-17 14:53:54

騰訊 蛋白質(zhì)AI

2024-08-14 14:43:00

2024-01-07 18:00:33

AI模型特點(diǎn)

2023-12-11 19:08:03

AI模型

2013-05-16 09:44:15

神經(jīng)學(xué)家超級人腦超級計(jì)算機(jī)

2024-01-16 17:23:39

AI數(shù)據(jù)

2022-07-12 14:56:30

AI模型研究

2014-07-29 10:22:11

大數(shù)據(jù)工具分析

2022-02-24 13:54:12

機(jī)器學(xué)習(xí)基因研究

2022-11-13 12:48:40

AI模型模塊

2021-11-22 17:40:08

AI 神經(jīng)網(wǎng)絡(luò)人工智能

2023-04-12 15:58:58

2022-05-05 09:10:00

AI芯片設(shè)計(jì)

2023-03-06 13:59:38

模型參數(shù)

2021-04-07 14:11:04

AI 數(shù)據(jù)人工智能

2014-05-04 13:39:15

人臉識別算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號