MIT:LLM的思考方式竟然和大腦相似 精華
一、背景
1. 人工智能與神經(jīng)科學的融合
在當今科技飛速發(fā)展的時代,人工智能與神經(jīng)科學的交叉領域正成為科研的熱點方向。大語言模型(LLMs)作為人工智能領域的重要成果,其與人類大腦語言處理機制的關系備受關注。從本質上講,這一研究方向旨在探尋機器如何像人類大腦一樣理解和處理語言,這不僅有助于提升人工智能技術的性能,更有助于揭示人類認知的奧秘。過往研究已發(fā)現(xiàn)LLMs與大腦在某些方面存在相似之處,如特征提取和表征等,但這些研究尚未觸及到LLMs具備類腦處理能力的核心計算原理。
2. 研究目的與價值
本研究聚焦于揭示LLM性能、神經(jīng)可預測性、解剖結構對齊以及上下文編碼之間的內在聯(lián)系。通過深入研究,期望能夠明確促使LLMs在語言處理上既高效又類腦的關鍵因素,進而挖掘人工與生物系統(tǒng)在語言理解方面更精細的相似之處。這一研究成果將為LLMs的優(yōu)化提供全新的理論依據(jù),推動自然語言處理技術向更高水平發(fā)展,同時也為神經(jīng)科學研究提供獨特的視角,助力人類對自身語言處理機制的深入理解。
3.研究方法
研究選取了12個開源、預訓練且參數(shù)規(guī)模相近但語言能力有別的LLMs,涵蓋了當下流行的多種模型。在實驗過程中,借助顱內腦電圖(iEEG)技術,記錄神經(jīng)外科患者聆聽語音時的神經(jīng)活動。然后將這些神經(jīng)反應與LLMs處理相同語言輸入時各層提取的嵌入表示進行對比分析。這種方法能夠精準定位LLMs中與大腦活動關聯(lián)緊密的層和特征,為后續(xù)研究奠定堅實基礎。
圖片
二、與大腦相似性
1. 模型選擇與性能評估體系
研究精心挑選了12個近期熱門且開源的LLMs,其參數(shù)規(guī)模均約為70億。為全面評估模型的語言處理能力,研究構建了一套細致的評估體系,將任務劃分為閱讀理解和常識推理等與英語語言理解密切相關的類別。在計算總體LLM性能時,取閱讀理解和常識推理得分的平均值作為綜合指標。這一體系的建立旨在模擬人類語言理解的多維度需求,確保評估結果能真實反映模型的語言處理水平。
圖片
2. 神經(jīng)反應采集與數(shù)據(jù)預處理
實驗對象為八名耐藥性癲癇患者,電極通過顱內植入(iEEG)方式置于其聽覺皮層和語音處理區(qū)域,位置依據(jù)臨床需求確定。患者聆聽20 - 30分鐘的語音素材,包括故事和對話。將語音對應的文本輸入LLMs,提取各層每個單詞的因果嵌入表示,并使用PCA降至500個組件,以統(tǒng)一數(shù)據(jù)維度。針對每個對語音有反應的電極,提取其在單詞中心周圍100毫秒窗口內的平均高伽馬波段包絡響應,通過嶺回歸模型預測神經(jīng)反應,以留存折疊的平均預測相關性作為大腦相似性得分。研究還驗證了嵌入表示主成分數(shù)量和計算神經(jīng)反應窗口大小對結果無顯著影響,確保了數(shù)據(jù)處理方法的可靠性。
3. 模型性能與大腦相似性的關聯(lián)機制
研究發(fā)現(xiàn),LLMs的神經(jīng)反應可從模型表示中預測,大腦相似性在層間呈上升趨勢,在中間或后期層達峰值。性能出色的LLMs在預測大腦活動時更準確,提取的語言特征更類腦。通過皮爾遜相關系數(shù)計算,LLM性能與大腦相似性峰值呈顯著正相關(Pearson (r = 0.92),(p = 2.24 × 10^{-5}))。這表明模型在基準任務上表現(xiàn)越好,其處理語言時與大腦的相似性越高,為理解LLMs的語言處理機制提供了重要依據(jù)。
4. 模型層與大腦處理區(qū)域的映射關系
大腦的聽覺和語言處理通路呈層次化組織,初級聽覺皮層位于后內側顳橫回(pmHG,或TE1.1)。研究人員以pmHG為參考點,計算電極與pmHG的距離來量化其在語言處理通路中的深度。此前研究已發(fā)現(xiàn)LLMs深層與大腦深層語言處理區(qū)域有對應關系,本研究進一步發(fā)現(xiàn)性能好的LLMs在較早層達到大腦相似性峰值,差的模型則需更深層。這表明LLMs在進化中,特征提取層次與大腦的對齊方式發(fā)生了變化,為探究LLMs語言處理機制提供了新視角。
三、LLM 與大腦語言層次對齊
1. 層次對齊的計算策略
受視覺皮層研究啟發(fā),研究人員計算大腦與LLMs層次特征提取通路的對齊程度。由于大腦精確層次處理階段不完全明確,仍以與pmHG的距離為量化指標。具體操作是將電極按距離pmHG分組,對每組電極各層的大腦相似性得分歸一化并平均,得到層得分矩陣。通過計算質心確定與大腦層次最相似的LLM層,比較其與大腦層次結構的距離關系,發(fā)現(xiàn)部分模型在LLM層與大腦層次結構的對齊上呈更線性的增加趨勢,為理解兩者關系提供了線索。
2. 模型性能與層次對齊的相關性驗證
以XwinLM(最高對齊得分)和Galactica(最低對齊得分)為例,兩者基準性能差異顯著。研究發(fā)現(xiàn)XwinLM在特征提取過程中從早期到晚期與大腦處理更一致。通過計算LLM層質心與距離pmHG的皮爾遜相關系數(shù),發(fā)現(xiàn)大腦對齊程度與LLM性能呈顯著正相關(Pearson (r = 0.79),(p = 0.0021))。用電極潛伏期替代距離pmHG進行分析,結果仍一致(Pearson (r = 0.89),(p = 0.0001)),且將受試者分組分析后,大腦層次對齊與LLM性能在兩組中均顯著相關。這充分證明了性能優(yōu)的LLMs在特征提取時與大腦語言處理層次通路更線性對齊,為模型優(yōu)化提供了方向。
3. 模型間特征提取層次的比較方法
研究采用中心核對準(CKA)方法比較不同LLMs的特征提取層次。CKA類似于典型相關分析(CCA),但通過非線性核函數(shù)(如RBF)能更好測量高維數(shù)據(jù)相似性。對于兩個模型,計算一個模型某層與另一個模型各層的CKA相似性,得到層間相似性矩陣,其元素反映模型在相應層的特征相似程度,為深入比較提供豐富信息。
4. 模型特征提取效率的差異剖析?
按LLM基準性能將模型分前5名和后5名兩組,分析其相似性矩陣。前5名模型在對角線方向高度相似,表明處理語言策略較一致;后5名模型早期層相似性低,后期一致性也不如前5名。對比前5名和后5名模型,最大相似性在對角線上有偏移,說明差的模型需更多層達與好模型相似的特征提取水平。計算各模型與最佳性能模型Mistral的對角線相似性,發(fā)現(xiàn)與LLM性能呈強烈正相關(Pearson (r = 0.79),(p = 0.0022)),揭示了LLMs特征提取層次的差異及低效特征提取或早期層學習不足對模型性能和大腦相似性的影響。
四、上下文信息
1. 上下文信息與層次對齊的關聯(lián)分析
鑒于上下文信息對LLM大腦相似性的關鍵作用,研究推測其影響模型與大腦層次特征提取通路的對齊。通過限制LLMs的因果注意力機制,提供不同長度(1 - 100個詞)的上下文窗口提取嵌入表示。實驗發(fā)現(xiàn),除1個詞上下文情況外,上下文窗口長度與LLM性能和大腦層次對齊呈正相關,且在50個詞及以上時顯著。這表明上下文信息的豐富程度對模型的層次特征提取機制有重要影響,為優(yōu)化模型提供了思考方向。
2. 上下文信息對模型性能和大腦相似性的影響
因長上下文長度下LLM性能與層次對齊正相關,研究預期好的模型能更好融入上下文信息。通過測量全上下文與1個詞上下文情況下嵌入表示的CKA差異,定義為模型表示的上下文內容。研究發(fā)現(xiàn)上下文內容與LLM性能呈顯著正相關(Spearman (r = 0.66),(p = 0.020)),與大腦相似性呈極強正相關(Spearman (r = 0.84),(p = 0.0006))。這表明上下文信息對自然和人工語言模型均至關重要,上下文特征提取能力是LLMs實現(xiàn)與大腦層次對齊的關鍵因素。研究還發(fā)現(xiàn)上下文信息對大腦相似性的影響在語言處理層次中越往后越關鍵,支持了大腦和LLMs均沿層次提取上下文的觀點,也為模型改進提供了理論依據(jù)。
3. 研究結果總結與展望
本研究通過對12個LLMs的深入分析,揭示了LLMs與大腦語言處理機制在多個方面的趨同現(xiàn)象。在模型性能與大腦相似性方面,兩者存在顯著正相關,且模型層與大腦處理區(qū)域的對應關系隨模型性能變化。在層次對齊上,性能好的模型與大腦的層次結構更線性對齊,模型間特征提取層次也存在明顯差異。上下文信息對模型的影響研究表明,其對模型性能和大腦相似性至關重要,且在不同層次的語言處理中有不同作用。未來研究可進一步探索模型架構、訓練策略等因素對這些趨同現(xiàn)象的影響,以推動LLMs向更類腦、高效的方向發(fā)展,同時也為神經(jīng)科學研究提供更多啟示。
論文地址:https://arxiv.org/pdf/2401.17671
Contextual Feature Extraction Hierarchies Converge in Large Language Models and the Brain
論文地址:https://arxiv.org/pdf/2410.19750
THE GEOMETRY OF CONCEPTS: SPARSE AUTOENCODER FEATURE
STRUCTURE
本文轉載自??AIGC前沿技術追蹤??,作者: 愛讀論文的吳彥祖 ????
