AI讀心術(shù)震撼登頂會!模型翻譯腦電波,人類思想被投屏|NeurIPS 2023
我們今天的AI能做到哪些事情?
AI畫圖、AI作曲、AI生成視頻、AI寫小說、AI做主播......
然而,在最近的NeurIPS大會上,來自GrapheneX-UTS的研究人員帶來了更震撼的應(yīng)用場景——AI讀心術(shù)BrainGPT!
論文地址:https://arxiv.org/pdf/2309.14030v2.pdf
如果AI能知道你心中所想,會發(fā)生什么事情?小編可不敢想象。
視頻里研究團(tuán)隊為大家展示了AI讀心術(shù)的現(xiàn)場。
參加測試的人在心中默念一個文本段落,通過一套傳感器采樣腦電波,然后由一個名為DeWave的AI模型,將腦電波翻譯成語言,并投射到屏幕上。
整個過程有點科幻的味道了,尤其是背景音樂,讓小編莫名想到了《星際穿越》。
這項研究被選為今年NeurIPS會議的焦點論文(Spotlight ),研究團(tuán)隊來自悉尼科技大學(xué)的GrapheneX-UTS(以人為本的人工智能中心)。
UTS計算機(jī)科學(xué)學(xué)院杰出教授,兼GrapheneX-UTS HAI中心主任Chin-Teng Lin教授表示,這項研究代表了將原始腦電波直接翻譯成語言的開創(chuàng)性努力,標(biāo)志著該領(lǐng)域的重大突破。
「這是第一個將離散編碼技術(shù)納入腦到文本翻譯過程的方法,引入了一種創(chuàng)新的神經(jīng)解碼方法,與大型語言模型的集成也為神經(jīng)科學(xué)和人工智能開辟了新的領(lǐng)域?!?/span>
——還好還好,需要戴個頭套,AI才能「聽見」人類心里在想什么,這要是能隔空攝取意念可就麻煩了。
如果是小編參加這個測試,估計壓力挺大的,
——畢竟不知道默念文本和心里的想法是不是一回事,AI會不會把我腦袋里的其他想法也順道給讀出來?
小編不由得想起了霍金老前輩,也許在某個平行世界里,他老人家可以用上這樣的一套BrainGPT吧。
而小編我呢?還需要面對著電腦屏幕敲鍵盤嗎?不需要了!小編只需躺在床上,動動腦子,就把這班給上了。
在這項工作中,模型把腦電波信號分割成不同的單元,從中捕獲特定的特征和模式。
DeWave模型通過從大量腦電數(shù)據(jù)中學(xué)習(xí),獲得了將腦電圖信號轉(zhuǎn)換為單詞和句子的能力。
除了可以幫助因疾病或受傷(中風(fēng)、癱瘓等)而無法說話的人進(jìn)行交流,BrainGPT還可以實現(xiàn)人與機(jī)器之間的無縫通信,例如仿生手臂或機(jī)器人的操作。
以前將大腦信號轉(zhuǎn)換為語言的技術(shù),要么需要手術(shù)在大腦中植入電極(例如馬斯克的Neuralink),要么在MRI機(jī)器中掃描。
前者為侵入性,而后者體積大,價格昂貴,且難以在日常生活中使用。
另外,這些方法一般需要眼動追蹤等額外輔助工具,來幫助將大腦信號轉(zhuǎn)換為單詞級片段,而BrainGPT并沒有這個限制。
這項研究測試了29名參與者。因為腦電波因人而異,所以BrainGPT所表現(xiàn)出的解碼技術(shù)更強(qiáng)大、適應(yīng)性也更強(qiáng)。
當(dāng)然,比起向大腦植入電極,通過這種外部設(shè)備接收到的腦電圖信號會更嘈雜,——不過從翻譯結(jié)果來看,準(zhǔn)確率也很不錯。
BrainGPT在BLEU-1的翻譯準(zhǔn)確率得分,目前約為40%。
(BLEU分?jǐn)?shù)是一個介于0和1之間的數(shù)字,用于衡量機(jī)器翻譯文本與一組高質(zhì)量參考翻譯的相似性。)
研究人員認(rèn)為這套系統(tǒng)將來有望把準(zhǔn)確率做到接近90%,——這將是與傳統(tǒng)語言翻譯,或語音識別程序相當(dāng)?shù)乃健?/span>
論文作者認(rèn)為,目前的模型更擅長匹配動詞,而涉及到名詞時可能不夠精確。這是因為當(dāng)大腦處理這些單詞時,語義上相似的單詞可能會產(chǎn)生相似的腦電波模式。
論文細(xì)節(jié)
論文引入了一個新的框架——DeWave,它將離散編碼序列集成到開放詞匯的腦電圖到文本的翻譯任務(wù)中。
DeWave使用量化變分編碼器來派生離散的編碼,并將其與預(yù)先訓(xùn)練的語言模型對齊。
這種離散表示有兩個優(yōu)點:1)通過引入文本-腦電對比對齊訓(xùn)練,實現(xiàn)了無標(biāo)記原始波的平移;2)通過不變的離散編碼,減輕了腦電波個體差異引起的干擾。
利用離散編碼,DeWave是第一個實現(xiàn)原始腦電波到文本翻譯的工作,同時引入了自監(jiān)督波編碼模型,和基于對比學(xué)習(xí)的腦電到文本對齊,以提高編碼能力。
DeWave模型在使用ZuCo數(shù)據(jù)集的測試中,BLEU-1分?jǐn)?shù)達(dá)到了41.35,Rouge-F分?jǐn)?shù)達(dá)到了33.71,比之前的基線分別高出了3.06%和6.34%
另外,論文首次在沒有單詞級順序標(biāo)記(例如,眼睛注視)的情況下,進(jìn)行了整個腦電圖信號周期的翻譯測試,分別獲得了20.5(BLEU-1)和29.5(Rouge-1)。
研究方法
DeWave的整個過程如下圖所示,原始EEG特征被矢量化為嵌入的序列,并送到離散的編碼中,語言模型基于離散的編碼表示形式生成翻譯輸出。
DeWave模型結(jié)構(gòu)涉及將詞級腦電圖特征,或原始腦電圖波矢量化為嵌入,然后將矢量化的特征編碼為一個潛在變量,該變量通過索引轉(zhuǎn)換為離散的編碼。最后,預(yù)先訓(xùn)練的BART模型將這種離散的編碼表示轉(zhuǎn)換為文本。
給定一系列單詞級腦電圖特征E,目的是解碼相應(yīng)的開放詞匯文本標(biāo)記W。這些腦電圖文本對(E、W)是在自然閱讀期間收集的,
這里設(shè)置兩個訓(xùn)練任務(wù):(1)單詞級腦電圖到文本翻譯,其中腦電圖特征序列E被分割,并根據(jù)序列W中的每個單詞的標(biāo)記,進(jìn)行重新排序;
(2)原始腦電波到文本翻譯,其中腦電特征序列E直接矢量化為嵌入序列進(jìn)行翻譯,沒有任何事件標(biāo)記。
離散編碼
DeWave是第一個將離散編碼引入EEG信號表示的工作。
離散表示有利于詞級腦電圖特征和原始腦電波轉(zhuǎn)換。將離散編碼引入腦電波可以帶來兩個方面的優(yōu)勢:
第一點,腦電圖特征在不同人類受試者之間具有很強(qiáng)的數(shù)據(jù)分布差異。同時,由于數(shù)據(jù)收集的費(fèi)用,數(shù)據(jù)集只能包含來自少數(shù)人類受試者的樣本,這嚴(yán)重削弱了基于腦電圖的深度學(xué)習(xí)模型的泛化能力。
而通過引入離散編碼,可以在很大程度上緩解輸入方差。
第二點,編碼包含較少的時間屬性,可以緩解事件標(biāo)記(如眼睛注視)和語言輸出之間的順序不匹配問題。
腦電圖矢量化
為了得到帶有事件標(biāo)記的單詞級腦電圖特征,首先根據(jù)注釋中給出的單詞序列的眼動追蹤標(biāo)記,將腦電波切片。
這里計算了4個頻段濾波器的統(tǒng)計結(jié)果(Theta波段(5-7Hz)、Alpha波段(8-13Hz)、Beta波段(12-30Hz)和Gamma波段(30Hz-)),得到每個片段的統(tǒng)計頻率特征。
需要注意的是,盡管不同的片段可能具有不同的腦電圖窗口大小,但統(tǒng)計結(jié)果是相同的(嵌入大小840)。
應(yīng)用多頭Transformer層將嵌入投影到大小為512的特征序列中。
使用自監(jiān)督腦電波編碼器,將原始腦電信號轉(zhuǎn)換為一系列嵌入:
上圖展示了原始波的自監(jiān)督預(yù)訓(xùn)練過程。左邊的子圖詳細(xì)介紹了通過對比學(xué)習(xí),利用自我重建和文本對齊來引導(dǎo)編碼器的策略。
這里有兩個指導(dǎo)原則:一個是自我重建,訓(xùn)練編碼器能力的同時,也從離散編碼中重建原始波形;
另一個是文本對齊,編碼在語義上與詞向量對齊。
在結(jié)構(gòu)方面,采用了基于一致性的多層編碼器,這個編碼器具有專門設(shè)計的超參數(shù)。
一維卷積層用來處理腦電波以生成嵌入序列,然后將腦電通道融合為每個周期的唯一嵌入。這里將雙向Transformer注意力層應(yīng)用于序列以捕獲時間關(guān)系。
通過這種方式,該模型不僅可以學(xué)習(xí)重建腦電圖信號,還可以學(xué)習(xí)與相應(yīng)文本嵌入一致的信號的魯棒表示。
這種跨模態(tài)學(xué)習(xí)可以彌合腦電圖信號和文本語義內(nèi)容之間的差距,并改善翻譯系統(tǒng)。
實驗結(jié)果
DeWave利用ZuCo 1.0和2.0進(jìn)行實驗。該數(shù)據(jù)集同時記錄了正常閱讀(NR)和特定任務(wù)閱讀(TSR)任務(wù)期間的文本和腦電圖語料庫。
腦電波是用128通道系統(tǒng),在500Hz的采樣率下通過0.1Hz至100Hz的頻帶濾波器收集的。不過在降噪之后,只有105個通道用于翻譯。
實驗中根據(jù)眼睛注視對腦電波進(jìn)行切片,并計算頻率特征。對于原始腦電波,信號被歸一化為0-1的值范圍以進(jìn)行解碼。
閱讀任務(wù)的數(shù)據(jù)分別分為訓(xùn)練(80%)、發(fā)展(10%)和測試(10%),句子數(shù)量分別為10874、1387和1387個,沒有交集。
這里使用NLP指標(biāo)BLEU和ROUGE評估翻譯性能,如上表所示。
對于單詞級腦電圖特征,將結(jié)果與腦電圖轉(zhuǎn)文本進(jìn)行比較,以保持一致的語言模型。
在缺乏原始腦電波的方法的情況下,通過使用200毫秒的時間窗口和100毫秒的重疊,將整個腦電波分割成序列嵌入,來建立基線(腦電圖到文本)。
實驗中將最初為語音識別開發(fā)的Wave2Vec改編為腦電波,并將其與DeWave進(jìn)行比較。
此外,實驗還采用無監(jiān)督的原始腦電波分類方法BENDR和SCL,使用SSL預(yù)訓(xùn)練和特征提取進(jìn)行比較,強(qiáng)調(diào)了離散編碼的影響。
因為跨學(xué)科性能對于實際應(yīng)用至關(guān)重要,所以這里進(jìn)一步提供了與基線方法,和具有代表性的元學(xué)習(xí)方法MAML的比較。
上表展示了18 名人類受試者的平均表現(xiàn),指標(biāo)越低越好。我們可以看出DeWave模型在兩種設(shè)置(直接測試和使用MAML)中都顯示出卓越的性能。
為了進(jìn)一步說明不同受試者的表現(xiàn)差異,這里僅使用受試者YAG的數(shù)據(jù)來訓(xùn)練模型,并測試所有其他受試者的指標(biāo)。
結(jié)果如上圖所示,我們可以從雷達(dá)圖中看出,對于不同受試者,模型的表現(xiàn)比較穩(wěn)定。