Transformer模仿大腦,在預(yù)測大腦成像上超越42個(gè)模型,還能夠模擬感官與大腦之間的傳輸
現(xiàn)在很多AI應(yīng)用模型,都不得不提到一個(gè)模型結(jié)構(gòu):
Transformer。
它拋棄了傳統(tǒng)的CNN和RNN,完全由Attention機(jī)制組成。
Transformer不僅賦予了各種AI應(yīng)用模型寫文作詩的功能,而且在多模態(tài)方面也大放異彩。
尤其是ViT(Vision Transformer)出來之后,CV和NLP之間的模型壁壘被打破,僅使用Transformer一個(gè)模型就能夠處理多模態(tài)的任務(wù)。
(誰看完不得感嘆一句它的強(qiáng)大啊)
雖然一開始Transformer是為語言任務(wù)而設(shè)計(jì)的,但它在模仿大腦方面也有著很大的潛力。
這不,有位科學(xué)作家寫了篇博客,就是關(guān)于Transformer是如何進(jìn)行大腦建模的。
來康康他是怎么說的?
Transformer:做大腦做的事
首先,還得梳理一下它的演變過程。
Transformer機(jī)制在5年前首次出現(xiàn),它能夠有這么強(qiáng)大的表現(xiàn),很大程度上歸功于其Self-attention機(jī)制。
至于Transformer是如何模仿大腦的,繼續(xù)往下看。
在2020年,奧地利計(jì)算機(jī)科學(xué)家Sepp Hochreiter的研究團(tuán)隊(duì)利用Transformer重組了Hopfield神經(jīng)網(wǎng)絡(luò) (一種記憶檢索模型,HNN)。
其實(shí),Hopfield神經(jīng)網(wǎng)絡(luò)在40年前就已經(jīng)被提出,而研究團(tuán)隊(duì)之所以時(shí)隔數(shù)十年選擇重組這個(gè)模型原因如下:
其一,這個(gè)網(wǎng)絡(luò)遵循一個(gè)普遍的規(guī)律:同時(shí)活躍的神經(jīng)元之間彼此會建立很強(qiáng)的聯(lián)系。
其二,Hopfield神經(jīng)網(wǎng)絡(luò)在檢索記憶的過程中與Transformer執(zhí)行Self-attention機(jī)制時(shí)有一定的相似之處。
所以研究團(tuán)隊(duì)便將HNN進(jìn)行重組,讓各個(gè)神經(jīng)元之間建立更好的聯(lián)系,以便存儲和檢索更多的記憶。
重組的過程,簡單來說,就是把Transformer的注意力機(jī)制融合進(jìn)HNN,使原來不連續(xù)的HNN變?yōu)榭蛇B續(xù)態(tài)。
△圖源:維基百科
重組之后的Hopfield網(wǎng)絡(luò)可以作為層集成到深度學(xué)習(xí)架構(gòu)中,以允許存儲和訪問原始輸入數(shù)據(jù)、中間結(jié)果等。
因此,Hopfield本人和麻省理工學(xué)院沃森人工智能實(shí)驗(yàn)室的Dmitry Krotov都稱:
基于Transformer的Hopfield神經(jīng)網(wǎng)絡(luò)在生物學(xué)上是合理的。
雖說這在一定程度上與大腦的工作原理相像,但在某些方面還不夠準(zhǔn)確。
因此,計(jì)算神經(jīng)科學(xué)家Whittington和Behrens調(diào)整了Hochreiter的方法,對重組后的Hopfield網(wǎng)絡(luò)做出了一些修正,進(jìn)一步提高了該模型在神經(jīng)科學(xué)任務(wù)中(復(fù)制大腦中的神經(jīng)放電模式)的表現(xiàn)。
△Tim Behrens (左) James Whittington(右) 圖源:quantamagazine
簡單來說,就是在編碼-解碼時(shí),模型不再把記憶編碼為線性序列,而是將其編碼為高維空間中的坐標(biāo)。
具體而言,就是在模型中引入了TEM(Tolman-Eichenbaum Machine)。
TEM是為了模仿海馬體的空間導(dǎo)航作用而構(gòu)建的一個(gè)關(guān)聯(lián)記憶系統(tǒng)。
它能夠概括空間和非空間的結(jié)構(gòu)知識,預(yù)測在空間和關(guān)聯(lián)記憶任務(wù)中觀察到的神經(jīng)元表現(xiàn),并解釋在海馬和內(nèi)嗅皮層中的重新映射現(xiàn)象。
將擁有這么多功能的TEM與Transformer合并,組成TEM-transformer(TEM-t)。
然后,再讓TEM-t模型在多個(gè)不同的空間環(huán)境中進(jìn)行訓(xùn)練,環(huán)境的結(jié)構(gòu)如下圖所示。
在TEM-t中,它依舊擁有Transformer的Self-attention機(jī)制。這樣一來,模型的學(xué)習(xí)成果便能遷移到新環(huán)境中,用于預(yù)測新的空間結(jié)構(gòu)。
研究也顯示,相較于TEM,TEM-t在進(jìn)行神經(jīng)科學(xué)任務(wù)時(shí)效率更高,而且它也能在更少學(xué)習(xí)樣本的情況下處理更多的問題。
Transformer在模仿大腦模式的道路上越來越深入,其實(shí)換句話說,Transformer模式的發(fā)展也在不斷促進(jìn)我們理解大腦功能的運(yùn)作原理。
不僅如此,在某些方面,Transformer還能提高我們對大腦其他功能的理解。
Transformer幫助我們理解大腦
比如說,在去年,計(jì)算神經(jīng)科學(xué)家Martin Schrimpf分析了43種不同的神經(jīng)網(wǎng)絡(luò)模型,以觀察它們對人類神經(jīng)活動測量結(jié)果:功能磁共振成像(fMRI)和皮層腦電圖(EEG)報(bào)告的預(yù)測能力。
其中,Transformer模型幾乎可以預(yù)測成像中發(fā)現(xiàn)的所有變化。
倒推一下,或許我們也可以從Transformer模型中預(yù)見大腦對應(yīng)功能的運(yùn)作。
除此之外,最近計(jì)算機(jī)科學(xué)家Yujin Tang和 David Ha設(shè)計(jì)了一個(gè)模型,可以通過Transformer模型以隨機(jī)、無序的方式有意識地發(fā)送大量數(shù)據(jù),模擬人體如何向大腦傳輸感官觀察結(jié)果。
這個(gè)Transformer就像人類的大腦一樣,能夠成功地處理無序的信息流。
雖然Transformer模型在不斷進(jìn)步,但也只是朝著精確大腦模型邁出的一小步,到達(dá)終點(diǎn)還需要更深入的研究。
如果想詳細(xì)了解Transformer是如何模仿人腦的,可以戳下方鏈接~
參考鏈接:
[1]https://www.quantamagazine.org/how-ai-transformers-mimic-parts-of-the-brain-20220912/
[2]https://www.pnas.org/doi/10.1073/pnas.2105646118
[3]https://openreview.net/forum?id=B8DVo9B1YE0?