大腦分層預(yù)測讓大模型更卷!
1000億個(gè)神經(jīng)元,每個(gè)神經(jīng)元有8000個(gè)左右的突觸,大腦的復(fù)雜結(jié)構(gòu)為人工智能研究帶來啟發(fā)。
當(dāng)前,多數(shù)深度學(xué)習(xí)模型的架構(gòu),便是一種受生物大腦神經(jīng)元啟發(fā)的人工神經(jīng)網(wǎng)絡(luò)。
生成式AI大爆發(fā),可以看到深度學(xué)習(xí)算法在生成、總結(jié)、翻譯和分類文本的能力越來越強(qiáng)大。
然而,這些語言模型仍然無法與人類的語言能力相匹配。
恰恰預(yù)測編碼理論(Predictive coding)為這種差異提供了一個(gè)初步的解釋:
雖然語言模型可以預(yù)測附近的詞,但人腦會(huì)不斷預(yù)測跨越多個(gè)時(shí)間尺度的表征層次。
為了驗(yàn)證這一假設(shè),Meta AI的科學(xué)家分析了304位聽完短篇故事的人的大腦功能磁共振成像信號(hào)。
得出結(jié)論是,分層預(yù)測編碼在語言處理中發(fā)揮至關(guān)重要的作用。
與此同時(shí),研究說明了神經(jīng)科學(xué)和人工智能之間的協(xié)同作用如何能夠揭示人類認(rèn)知的計(jì)算基礎(chǔ)。
最新研究已發(fā)表在Nature子刊Nature Human Behavior上。
論文地址:https://www.nature.com/articles/s41562-022-01516-2
值得一提的是,實(shí)驗(yàn)過程中用上了GPT-2,說不定未來這一研究能夠啟發(fā)到OpenAI未開源的模型。
到時(shí)候ChatGPT豈不是更強(qiáng)了。
大腦預(yù)測編碼分層
不到3年的時(shí)間,深度學(xué)習(xí)在文本生成、翻譯等方面取得重大進(jìn)展,要?dú)w功于一個(gè)訓(xùn)練有素的算法:根據(jù)附近語境預(yù)測單詞。
值得注意的是,這些模型的激活已被證明可以線性地映射到大腦對語音和文字的反應(yīng)上。
此外,這種映射主要取決于算法預(yù)測未來單詞的能力,因此表明這一目標(biāo)足以使它們收斂到類似大腦的計(jì)算。
然而,這些算法和大腦之間仍然存在著差距:盡管有大量的訓(xùn)練數(shù)據(jù),但目前的語言模型在長篇故事生成、總結(jié)和連貫對話以及信息檢索方面遇到挑戰(zhàn)。
因算法無法捕捉一些句法結(jié)構(gòu)和語義屬性,而且對語言的理解也很膚淺。
比如,算法傾向于將動(dòng)詞錯(cuò)誤地分配給嵌套短語中的主語。
「the keys that the man holds ARE here」
同樣,當(dāng)文本生成只針對下一個(gè)詞的預(yù)測進(jìn)行優(yōu)化時(shí),深度語言模型會(huì)生成平淡無奇、不連貫的序列,或者會(huì)陷入無限重復(fù)的循環(huán)中。
當(dāng)前,預(yù)測編碼理論為這一缺陷提供了一個(gè)潛在的解釋:
雖然深層語言模型主要是為了預(yù)測下一個(gè)詞,但這個(gè)框架表明,人腦可以在多個(gè)時(shí)間尺度和皮層層次的表征上進(jìn)行預(yù)測。
此前研究已經(jīng)證明了大腦中的語音預(yù)測,即一個(gè)詞或音素,與功能磁共振成像(fMRI),腦電圖,腦磁圖和皮質(zhì)電圖相關(guān)聯(lián)。
為預(yù)測下一個(gè)單詞或音素而訓(xùn)練的模型,可以將其輸出簡化為一個(gè)數(shù)字,即下一個(gè)符號(hào)的概率。
然而,預(yù)測表征的性質(zhì)和時(shí)間范圍在很大程度上是未知的。
在這項(xiàng)研究中,研究人員提取了304個(gè)人的fMRI信號(hào),讓每個(gè)人聽約26分鐘的短篇小說 (Y) ,并且輸入相同內(nèi)容激活語言算法 (X)。
然后,通過「大腦分?jǐn)?shù)」量化X和Y之間的相似性,即最佳線性映射W后的皮爾遜相關(guān)系數(shù)(R)。
為了測試添加預(yù)測單詞的表示是否改善了這種相關(guān)性,將網(wǎng)絡(luò)的激活 (黑色矩形 X) 連接到預(yù)測窗口 (彩色矩形~X) ,再使用PCA將預(yù)測窗口的維數(shù)降低到X的維數(shù)。
最后F量化了通過通過增強(qiáng)語言算法對該預(yù)測窗口的激活而獲得的大腦得分增益。我們用不同的距離窗口重復(fù)這個(gè)分析(d)。
通過用跨越多個(gè)時(shí)間尺度的預(yù)測,即遠(yuǎn)距離預(yù)測和分層預(yù)測,來增強(qiáng)這些算法,發(fā)現(xiàn)可以改善這種大腦映射。
最后,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)這些預(yù)測是分層組織的:額葉皮層比顳葉皮層預(yù)測更高層次、更大范圍和更多的上下文表征。
實(shí)驗(yàn)結(jié)果
深度語言模型映射到大腦活動(dòng)中
科研人員定量了研究輸入內(nèi)容相同時(shí)深度語言模型和大腦之間的相似性。
使用Narratives數(shù)據(jù)集,分析了304個(gè)聽短故事的人的fMRI(功能性磁共振成像)。
對每個(gè)體素和每個(gè)實(shí)驗(yàn)個(gè)體的結(jié)果進(jìn)行獨(dú)立的線性嶺回歸,以預(yù)測由幾個(gè)深度語言模型激活而得到的fMRI信號(hào)。
使用保留的數(shù)據(jù)計(jì)算了相應(yīng)的 「大腦分?jǐn)?shù)」,即fMRI信號(hào)和輸入指定語言模型刺激所得的嶺回歸預(yù)測結(jié)果之間的相關(guān)性。
為清晰起見,首先關(guān)注GPT-2第八層的激活,這是一個(gè)由HuggingFace2提供的12層因果深度神經(jīng)網(wǎng)絡(luò),最能預(yù)測大腦活動(dòng)。
與以前的研究一致,GPT-2的激活結(jié)果準(zhǔn)確地映射到一組分布式雙邊大腦區(qū)域,大腦分?jǐn)?shù)在聽覺皮層和前顳區(qū)和上顳區(qū)達(dá)到高峰。
Meta團(tuán)隊(duì)接著測試了增強(qiáng)對具有長距離預(yù)測功能的語言模型的刺激是否能使其獲得更高的大腦分?jǐn)?shù)。
對于每個(gè)詞,研究人員將當(dāng)前詞的模型激活和一個(gè)由未來詞組成「預(yù)測窗口」連接起來。預(yù)測窗口的表示參數(shù)包括表示當(dāng)前詞和窗口中最后一個(gè)未來詞之間距離的d和所串聯(lián)詞數(shù)量的w。對于每個(gè)d,比較有和沒有預(yù)測表征時(shí)的大腦分?jǐn)?shù),計(jì)算「預(yù)測分?jǐn)?shù)」。
結(jié)果顯示,d=8時(shí)預(yù)測分?jǐn)?shù)最高,峰值出現(xiàn)在與語言處理有關(guān)的大腦區(qū)域。
d=8對應(yīng)于3.15秒的音頻,即兩個(gè)連續(xù)的fMRI掃描的時(shí)間。預(yù)測分?jǐn)?shù)在大腦中呈雙邊分布,除了額葉下部和邊緣上回。
通過補(bǔ)充分析,團(tuán)隊(duì)還得到如下結(jié)果:(1)與當(dāng)前詞距離0到10的每個(gè)未來詞都對預(yù)測結(jié)果有明顯貢獻(xiàn);(2)預(yù)測表征最好用8個(gè)左右的詞的窗口大小來捕捉;(3)隨機(jī)預(yù)測表征不能提高大腦得分;(4)比起真正的未來詞,GPT-2生成的詞能夠取得類似的結(jié)果,但得分較低。
預(yù)測的時(shí)間范圍沿著大腦的層次發(fā)生變化
解剖學(xué)和功能學(xué)研究都表明,大腦皮層分層次的。不同層次的皮層,預(yù)測的時(shí)間窗口是否相同呢?
研究人員估計(jì)了每個(gè)體素預(yù)測分?jǐn)?shù)的峰值,將其對應(yīng)的距離表示為d。
結(jié)果顯示,前額葉區(qū)的預(yù)測峰值出現(xiàn)時(shí)對應(yīng)的d平均而言要大于顳葉區(qū)(圖2e),顳下回的d就要大于顳上溝。
最佳預(yù)測距離沿顳-頂-額軸的變化在大腦兩個(gè)半球上基本是對稱的。
對于每個(gè)詞及其前文語境,生成十個(gè)可能的未來詞,這與真正未來詞的句法相匹配。對于每個(gè)可能的未來詞,提取相應(yīng)的GPT-2激活并取其平均值。這種方法能夠?qū)⒔o定語言模型激活分解為句法成分和語義成分,從而計(jì)算其各自的預(yù)測分?jǐn)?shù)。
結(jié)果顯示,語義預(yù)測是長距離的(d = 8),涉及一個(gè)分布式網(wǎng)絡(luò),在額葉和頂葉達(dá)到峰值,而句法預(yù)測的范圍較短(d = 5),集中在上顳區(qū)和左額區(qū)。
這些結(jié)果揭示了大腦中多層次的預(yù)測,其中上顳皮層主要預(yù)測短期、淺層和句法表征,而下額葉和頂葉區(qū)域主要預(yù)測長期、上下文、高層和語義表征。
預(yù)測的背景沿著大腦層次變得更復(fù)雜
仍按照之前的方法計(jì)算預(yù)測分?jǐn)?shù),但改變了GPT-2的使用層,為每個(gè)體素確定k,即預(yù)測分?jǐn)?shù)最大化的深度。
我們的結(jié)果表明,最佳預(yù)測深度沿著預(yù)期的皮質(zhì)層次而變化,聯(lián)想皮層比低級(jí)語言區(qū)有更深的預(yù)測的最佳模型。區(qū)域之間的差異雖然平均很小,但在不同的個(gè)體中是非常明顯的。
總的來說,額葉皮層的長程預(yù)測比低水平腦區(qū)的短期預(yù)測背景更復(fù)雜,水平更高。
將GPT-2調(diào)整為預(yù)測性編碼結(jié)構(gòu)
將GPT-2的當(dāng)前詞和未來詞的表征串聯(lián)起來可以得到更好的大腦活動(dòng)模型,特別是在額葉區(qū)。
對GPT-2進(jìn)行微調(diào)以預(yù)測距離更遠(yuǎn)、背景更豐富、層次更高的表征,能否改善這些區(qū)域的大腦映射呢?
在調(diào)整中,不僅使用了語言建模,還使用了高層次和長距離的目標(biāo),這里的高層次目標(biāo)是預(yù)訓(xùn)練的GPT-2模型的第8層。
結(jié)果顯示,用高層次和遠(yuǎn)距離建模對進(jìn)行GPT-2微調(diào)最能改善額葉的反應(yīng),而聽覺區(qū)和較低層次的腦區(qū)并沒有從這種高層次的目標(biāo)中明顯受益,進(jìn)一步反映了額葉區(qū)在預(yù)測語言的長程、語境和高層次表征方面的作用。