谷歌對(duì)齊大模型與人腦信號(hào)！語言理解生成機(jī)制高度一致，成果登Nature子刊

作者：量子位 2025-03-23 22:01:30

人工智能新聞

他們將真實(shí)對(duì)話中的人腦活動(dòng)與語音到文本 LLM 的內(nèi)部嵌入進(jìn)行了比較，結(jié)果兩者之間呈現(xiàn)線性相關(guān)關(guān)系。

谷歌最新發(fā)現(xiàn)，大模型竟意外對(duì)應(yīng)人腦語言處理機(jī)制？！

他們將真實(shí)對(duì)話中的人腦活動(dòng)與語音到文本 LLM 的內(nèi)部嵌入進(jìn)行了比較，結(jié)果兩者之間呈現(xiàn)線性相關(guān)關(guān)系。

比如語言理解順序，首先是語音，然后是詞義；又或者生成順序：先計(jì)劃，再發(fā)音，然后聽到自己的聲音。還有像在上下文預(yù)測單詞，也表現(xiàn)出了驚人的一致性。

其論文發(fā)表在了Nature子刊。

網(wǎng)友表示：這個(gè)問題比大多數(shù)人意識(shí)到的要重要得多。

谷歌對(duì)齊大模型與人腦信號(hào)

他們引入了一個(gè)統(tǒng)一的計(jì)算框架，將聲學(xué)、語音和單詞級(jí)語言結(jié)構(gòu)聯(lián)系起來，以研究人腦中日常對(duì)話的神經(jīng)基礎(chǔ)。

他們一邊使用皮層電圖記錄了參與者在進(jìn)行開放式真實(shí)對(duì)話時(shí)語音生成和理解過程中的神經(jīng)信號(hào)，累計(jì)100小時(shí)。另一邊，Whisper中提取了低級(jí)聲學(xué)、中級(jí)語音和上下文單詞嵌入。

然后開發(fā)編碼模型，將這些嵌入詞線性映射到語音生成和理解過程中的大腦活動(dòng)上，這一模型能準(zhǔn)確預(yù)測未用于訓(xùn)練模型的數(shù)小時(shí)新對(duì)話中語言處理層次結(jié)構(gòu)各層次的神經(jīng)活動(dòng)。

結(jié)果他們就有了一些有意思的發(fā)現(xiàn)。

對(duì)于聽到的（語音理解過程中）或說出的（語音生成過程中）每個(gè)單詞，都會(huì)從語音到文本模型中提取兩種類型的嵌入：

來自模型語音編碼器的語音嵌入和來自模型解碼器的基于單詞的語言嵌入。

通過估計(jì)線性變換，可以根據(jù)語音到文本的嵌入來預(yù)測每次對(duì)話中每個(gè)單詞的大腦神經(jīng)信號(hào)。

比如聽到「How are you doing？」，大腦對(duì)語言理解的神經(jīng)反應(yīng)序列be like：

當(dāng)每個(gè)單詞發(fā)音時(shí)，語音嵌入能夠預(yù)測沿顳上回（STG）的語音區(qū)域的皮層活動(dòng)。

幾百毫秒后，當(dāng)聽者開始解碼單詞的含義時(shí)，語言嵌入會(huì)預(yù)測布羅卡區(qū)（位于額下回；IFG）的皮層活動(dòng)。

不過對(duì)于回答者，則是完全相反的神經(jīng)反應(yīng)序列。

在準(zhǔn)備發(fā)音「Feeling Fantastic」之前，在發(fā)音前約 500 毫秒（受試者準(zhǔn)備發(fā)音下一個(gè)單詞時(shí)），語言嵌入（藍(lán)色）預(yù)測布羅卡區(qū)的皮層活動(dòng)。

幾百毫秒后（仍在單詞發(fā)音之前），當(dāng)說話者計(jì)劃發(fā)音時(shí)，語音嵌入（紅色）預(yù)測運(yùn)動(dòng)皮層（MC）的神經(jīng)活動(dòng)。

最后，在說話者發(fā)音后，當(dāng)聽者聆聽自己的聲音時(shí)，語音嵌入會(huì)預(yù)測 STG 聽覺區(qū)域的神經(jīng)活動(dòng)。

這種動(dòng)態(tài)變化反映了神經(jīng)處理的順序——

首先是在語言區(qū)計(jì)劃說什么，然后是在運(yùn)動(dòng)區(qū)如何發(fā)音，最后是在感知語音區(qū)監(jiān)測說了什么。

全腦分析的定量結(jié)果顯示，對(duì)于每個(gè)單詞，根據(jù)其語音嵌入（紅色）和語言嵌入（藍(lán)色），團(tuán)隊(duì)預(yù)測了每個(gè)電極在單詞出現(xiàn)前 -2 秒到出現(xiàn)后 +2 秒（圖中 x 軸值為 0）的時(shí)滯范圍內(nèi)的神經(jīng)反應(yīng)。這是在語音生成（左圖）和語音理解（右圖）時(shí)進(jìn)行的。相關(guān)圖表說明了他們對(duì)所有單詞的神經(jīng)活動(dòng)（相關(guān)性）的預(yù)測準(zhǔn)確度與不同腦區(qū)電極滯后的函數(shù)關(guān)系。

在語音生成過程中，IFG 中的語言嵌入（藍(lán)色）明顯先于感覺運(yùn)動(dòng)區(qū)的語音嵌入（紅色）達(dá)到峰值，隨后 STG 中的語音編碼達(dá)到峰值。相反，在語音理解過程中，編碼峰值轉(zhuǎn)移到了單詞開始之后，STG 中的語音嵌入（紅色）峰值明顯早于 IFG 中的語言編碼（藍(lán)色）峰值。

總之研究結(jié)果表明，語音到文本模型嵌入為理解自然對(duì)話過程中語言處理的神經(jīng)基礎(chǔ)提供了一個(gè)連貫的框架。

令人驚訝的是，雖然 Whisper 完全是為語音識(shí)別而開發(fā)的，并沒有考慮大腦是如何處理語言的，但他們發(fā)現(xiàn)它的內(nèi)部表征與自然對(duì)話過程中的神經(jīng)活動(dòng)是一致的。

盡管大模型在并行層中處理單詞，但人類大腦以串行方式處理它們，但反映了類似的統(tǒng)計(jì)規(guī)律。

大模型與人類大腦之間的吻合揭示了神經(jīng)處理中的 「軟層次」這一概念，大腦中較低級(jí)別的聲學(xué)處理和較高級(jí)別的語義處理部分重疊。

大模型與人腦之間的異同

日常生活中，人類大腦如何處理自然語言？從理論上講，大語言模型和人類的符號(hào)心理語言學(xué)模型是兩種完全不同的計(jì)算框架。

但受到大模型成功的啟發(fā)，谷歌研究院與普林斯頓大學(xué)、紐約大學(xué)等合作，試圖探索人腦和大模型處理字眼語言的異同。

經(jīng)過過去五年一系列研究，他們探索了特定特定深度學(xué)習(xí)模型的內(nèi)部表征（嵌入）與自然自由對(duì)話過程中人腦神經(jīng)活動(dòng)之間的相似性，證明了深度語言模型的嵌入，可以作為「理解人腦如何處理語言」的框架。

在此之前，他們就完成了多項(xiàng)研究。

比如2022年發(fā)表在Nature Neuroscience上論文顯示，他們發(fā)現(xiàn)與大模型相似，聽者大腦的語言區(qū)域也會(huì)嘗試在下一個(gè)單詞說出之前對(duì)其進(jìn)行預(yù)測；而在單詞發(fā)音前對(duì)預(yù)測的信心會(huì)改變他們?cè)趩卧~發(fā)音后的驚訝程度（預(yù)測誤差）。

這些發(fā)現(xiàn)證明了自回歸語言模型與人腦共有的起始前預(yù)測、起始后驚訝和基于嵌入的上下文表征等基本計(jì)算原理。

還有發(fā)表在Nature Communications另一篇論文中還發(fā)現(xiàn)，大模型的嵌入空間幾何圖形所捕捉到的自然語言中單詞之間的關(guān)系，與大腦在語言區(qū)誘導(dǎo)的表征（即大腦嵌入）的幾何圖形一致。

不過即便計(jì)算原理類似，但他們底層神經(jīng)回路架構(gòu)卻明顯不同。

在一項(xiàng)后續(xù)研究中，他們調(diào)查了與人腦相比，基于Transformer的大模型是如何跨層處理信息的。

結(jié)果發(fā)現(xiàn)，雖然跨層非線性變換在 LLMs 和人腦語言區(qū)中相似，但實(shí)現(xiàn)方式卻大相徑庭。Transformer架構(gòu)可同時(shí)處理成百上千個(gè)單詞，而人腦語言區(qū)似乎是按順序、逐字、循環(huán)和時(shí)間來分析語言的。

基于這些積累的研究成果，他們的目標(biāo)是創(chuàng)建創(chuàng)新的、受生物啟發(fā)的人工神經(jīng)網(wǎng)絡(luò)，提高其在現(xiàn)實(shí)世界中處理信息和發(fā)揮作用的能力。

責(zé)任編輯：張燕妮來源：量子位