AI讀心術(shù)震撼登頂會！模型翻譯腦電波，人類思想被投屏｜NeurIPS 2023

作者：新智元 2023-12-20 14:02:00

人工智能新聞

在最近舉辦的NeurIPS大會上，研究人員展示了當(dāng)代AI更震撼的應(yīng)用場景——AI讀心術(shù)！

我們今天的AI能做到哪些事情？

AI畫圖、AI作曲、AI生成視頻、AI寫小說、AI做主播......

然而，在最近的NeurIPS大會上，來自GrapheneX-UTS的研究人員帶來了更震撼的應(yīng)用場景——AI讀心術(shù)BrainGPT！

論文地址：https://arxiv.org/pdf/2309.14030v2.pdf

如果AI能知道你心中所想，會發(fā)生什么事情？小編可不敢想象。

視頻里研究團(tuán)隊為大家展示了AI讀心術(shù)的現(xiàn)場。

參加測試的人在心中默念一個文本段落，通過一套傳感器采樣腦電波，然后由一個名為DeWave的AI模型，將腦電波翻譯成語言，并投射到屏幕上。

整個過程有點科幻的味道了，尤其是背景音樂，讓小編莫名想到了《星際穿越》。

這項研究被選為今年NeurIPS會議的焦點論文（Spotlight ），研究團(tuán)隊來自悉尼科技大學(xué)的GrapheneX-UTS（以人為本的人工智能中心）。

UTS計算機(jī)科學(xué)學(xué)院杰出教授，兼GrapheneX-UTS HAI中心主任Chin-Teng Lin教授表示，這項研究代表了將原始腦電波直接翻譯成語言的開創(chuàng)性努力，標(biāo)志著該領(lǐng)域的重大突破。

「這是第一個將離散編碼技術(shù)納入腦到文本翻譯過程的方法，引入了一種創(chuàng)新的神經(jīng)解碼方法，與大型語言模型的集成也為神經(jīng)科學(xué)和人工智能開辟了新的領(lǐng)域?！?/span>

——還好還好，需要戴個頭套，AI才能「聽見」人類心里在想什么，這要是能隔空攝取意念可就麻煩了。

如果是小編參加這個測試，估計壓力挺大的，

——畢竟不知道默念文本和心里的想法是不是一回事，AI會不會把我腦袋里的其他想法也順道給讀出來？

小編不由得想起了霍金老前輩，也許在某個平行世界里，他老人家可以用上這樣的一套BrainGPT吧。

而小編我呢？還需要面對著電腦屏幕敲鍵盤嗎？不需要了！小編只需躺在床上，動動腦子，就把這班給上了。

在這項工作中，模型把腦電波信號分割成不同的單元，從中捕獲特定的特征和模式。

DeWave模型通過從大量腦電數(shù)據(jù)中學(xué)習(xí)，獲得了將腦電圖信號轉(zhuǎn)換為單詞和句子的能力。

除了可以幫助因疾病或受傷（中風(fēng)、癱瘓等）而無法說話的人進(jìn)行交流，BrainGPT還可以實現(xiàn)人與機(jī)器之間的無縫通信，例如仿生手臂或機(jī)器人的操作。

以前將大腦信號轉(zhuǎn)換為語言的技術(shù)，要么需要手術(shù)在大腦中植入電極（例如馬斯克的Neuralink），要么在MRI機(jī)器中掃描。

前者為侵入性，而后者體積大，價格昂貴，且難以在日常生活中使用。

另外，這些方法一般需要眼動追蹤等額外輔助工具，來幫助將大腦信號轉(zhuǎn)換為單詞級片段，而BrainGPT并沒有這個限制。

這項研究測試了29名參與者。因為腦電波因人而異，所以BrainGPT所表現(xiàn)出的解碼技術(shù)更強(qiáng)大、適應(yīng)性也更強(qiáng)。

當(dāng)然，比起向大腦植入電極，通過這種外部設(shè)備接收到的腦電圖信號會更嘈雜，——不過從翻譯結(jié)果來看，準(zhǔn)確率也很不錯。

BrainGPT在BLEU-1的翻譯準(zhǔn)確率得分，目前約為40%。

（BLEU分?jǐn)?shù)是一個介于0和1之間的數(shù)字，用于衡量機(jī)器翻譯文本與一組高質(zhì)量參考翻譯的相似性。）

研究人員認(rèn)為這套系統(tǒng)將來有望把準(zhǔn)確率做到接近90%，——這將是與傳統(tǒng)語言翻譯，或語音識別程序相當(dāng)?shù)乃健?/span>

論文作者認(rèn)為，目前的模型更擅長匹配動詞，而涉及到名詞時可能不夠精確。這是因為當(dāng)大腦處理這些單詞時，語義上相似的單詞可能會產(chǎn)生相似的腦電波模式。

論文細(xì)節(jié)

論文引入了一個新的框架——DeWave，它將離散編碼序列集成到開放詞匯的腦電圖到文本的翻譯任務(wù)中。

DeWave使用量化變分編碼器來派生離散的編碼，并將其與預(yù)先訓(xùn)練的語言模型對齊。

這種離散表示有兩個優(yōu)點：1）通過引入文本-腦電對比對齊訓(xùn)練，實現(xiàn)了無標(biāo)記原始波的平移；2）通過不變的離散編碼，減輕了腦電波個體差異引起的干擾。

利用離散編碼，DeWave是第一個實現(xiàn)原始腦電波到文本翻譯的工作，同時引入了自監(jiān)督波編碼模型，和基于對比學(xué)習(xí)的腦電到文本對齊，以提高編碼能力。

DeWave模型在使用ZuCo數(shù)據(jù)集的測試中，BLEU-1分?jǐn)?shù)達(dá)到了41.35，Rouge-F分?jǐn)?shù)達(dá)到了33.71，比之前的基線分別高出了3.06%和6.34%

另外，論文首次在沒有單詞級順序標(biāo)記（例如，眼睛注視）的情況下，進(jìn)行了整個腦電圖信號周期的翻譯測試，分別獲得了20.5（BLEU-1）和29.5（Rouge-1）。

研究方法

DeWave的整個過程如下圖所示，原始EEG特征被矢量化為嵌入的序列，并送到離散的編碼中，語言模型基于離散的編碼表示形式生成翻譯輸出。

DeWave模型結(jié)構(gòu)涉及將詞級腦電圖特征，或原始腦電圖波矢量化為嵌入，然后將矢量化的特征編碼為一個潛在變量，該變量通過索引轉(zhuǎn)換為離散的編碼。最后，預(yù)先訓(xùn)練的BART模型將這種離散的編碼表示轉(zhuǎn)換為文本。

給定一系列單詞級腦電圖特征E，目的是解碼相應(yīng)的開放詞匯文本標(biāo)記W。這些腦電圖文本對（E、W）是在自然閱讀期間收集的，

這里設(shè)置兩個訓(xùn)練任務(wù)：（1）單詞級腦電圖到文本翻譯，其中腦電圖特征序列E被分割，并根據(jù)序列W中的每個單詞的標(biāo)記，進(jìn)行重新排序;

（2）原始腦電波到文本翻譯，其中腦電特征序列E直接矢量化為嵌入序列進(jìn)行翻譯，沒有任何事件標(biāo)記。

離散編碼

DeWave是第一個將離散編碼引入EEG信號表示的工作。

離散表示有利于詞級腦電圖特征和原始腦電波轉(zhuǎn)換。將離散編碼引入腦電波可以帶來兩個方面的優(yōu)勢：

第一點，腦電圖特征在不同人類受試者之間具有很強(qiáng)的數(shù)據(jù)分布差異。同時，由于數(shù)據(jù)收集的費(fèi)用，數(shù)據(jù)集只能包含來自少數(shù)人類受試者的樣本，這嚴(yán)重削弱了基于腦電圖的深度學(xué)習(xí)模型的泛化能力。

而通過引入離散編碼，可以在很大程度上緩解輸入方差。

第二點，編碼包含較少的時間屬性，可以緩解事件標(biāo)記（如眼睛注視）和語言輸出之間的順序不匹配問題。

腦電圖矢量化

為了得到帶有事件標(biāo)記的單詞級腦電圖特征，首先根據(jù)注釋中給出的單詞序列的眼動追蹤標(biāo)記，將腦電波切片。

這里計算了4個頻段濾波器的統(tǒng)計結(jié)果（Theta波段（5-7Hz）、Alpha波段（8-13Hz）、Beta波段（12-30Hz）和Gamma波段（30Hz-）），得到每個片段的統(tǒng)計頻率特征。

需要注意的是，盡管不同的片段可能具有不同的腦電圖窗口大小，但統(tǒng)計結(jié)果是相同的（嵌入大小840）。

應(yīng)用多頭Transformer層將嵌入投影到大小為512的特征序列中。

使用自監(jiān)督腦電波編碼器，將原始腦電信號轉(zhuǎn)換為一系列嵌入：

上圖展示了原始波的自監(jiān)督預(yù)訓(xùn)練過程。左邊的子圖詳細(xì)介紹了通過對比學(xué)習(xí)，利用自我重建和文本對齊來引導(dǎo)編碼器的策略。

這里有兩個指導(dǎo)原則：一個是自我重建，訓(xùn)練編碼器能力的同時，也從離散編碼中重建原始波形；

另一個是文本對齊，編碼在語義上與詞向量對齊。

在結(jié)構(gòu)方面，采用了基于一致性的多層編碼器，這個編碼器具有專門設(shè)計的超參數(shù)。

一維卷積層用來處理腦電波以生成嵌入序列，然后將腦電通道融合為每個周期的唯一嵌入。這里將雙向Transformer注意力層應(yīng)用于序列以捕獲時間關(guān)系。

通過這種方式，該模型不僅可以學(xué)習(xí)重建腦電圖信號，還可以學(xué)習(xí)與相應(yīng)文本嵌入一致的信號的魯棒表示。

這種跨模態(tài)學(xué)習(xí)可以彌合腦電圖信號和文本語義內(nèi)容之間的差距，并改善翻譯系統(tǒng)。

實驗結(jié)果

DeWave利用ZuCo 1.0和2.0進(jìn)行實驗。該數(shù)據(jù)集同時記錄了正常閱讀（NR）和特定任務(wù)閱讀（TSR）任務(wù)期間的文本和腦電圖語料庫。

腦電波是用128通道系統(tǒng)，在500Hz的采樣率下通過0.1Hz至100Hz的頻帶濾波器收集的。不過在降噪之后，只有105個通道用于翻譯。

實驗中根據(jù)眼睛注視對腦電波進(jìn)行切片，并計算頻率特征。對于原始腦電波，信號被歸一化為0-1的值范圍以進(jìn)行解碼。

閱讀任務(wù)的數(shù)據(jù)分別分為訓(xùn)練（80%）、發(fā)展（10%）和測試（10%），句子數(shù)量分別為10874、1387和1387個，沒有交集。

這里使用NLP指標(biāo)BLEU和ROUGE評估翻譯性能，如上表所示。

對于單詞級腦電圖特征，將結(jié)果與腦電圖轉(zhuǎn)文本進(jìn)行比較，以保持一致的語言模型。

在缺乏原始腦電波的方法的情況下，通過使用200毫秒的時間窗口和100毫秒的重疊，將整個腦電波分割成序列嵌入，來建立基線（腦電圖到文本）。

實驗中將最初為語音識別開發(fā)的Wave2Vec改編為腦電波，并將其與DeWave進(jìn)行比較。

此外，實驗還采用無監(jiān)督的原始腦電波分類方法BENDR和SCL，使用SSL預(yù)訓(xùn)練和特征提取進(jìn)行比較，強(qiáng)調(diào)了離散編碼的影響。

因為跨學(xué)科性能對于實際應(yīng)用至關(guān)重要，所以這里進(jìn)一步提供了與基線方法，和具有代表性的元學(xué)習(xí)方法MAML的比較。

上表展示了18 名人類受試者的平均表現(xiàn)，指標(biāo)越低越好。我們可以看出DeWave模型在兩種設(shè)置（直接測試和使用MAML）中都顯示出卓越的性能。

為了進(jìn)一步說明不同受試者的表現(xiàn)差異，這里僅使用受試者YAG的數(shù)據(jù)來訓(xùn)練模型，并測試所有其他受試者的指標(biāo)。

結(jié)果如上圖所示，我們可以從雷達(dá)圖中看出，對于不同受試者，模型的表現(xiàn)比較穩(wěn)定。

責(zé)任編輯：張燕妮來源：新智元

AI 訓(xùn)練