UC伯克利腦機接口新突破!利用腦電波即可復(fù)現(xiàn)歌曲,語言障礙者有福了?
腦機接口時代,天天都有新鮮玩意兒。
今天帶來四個字:腦植音樂。
具體來說,就是先用AI來觀察某段音樂會讓人的大腦中產(chǎn)生什么樣的電波,然后直接在有需要的人的大腦里模擬這個電波的活動,以此來達到治療某類疾病的目的。
讓我們把目光轉(zhuǎn)向若干年前的Albany醫(yī)療中心,看看里面的神經(jīng)科學(xué)家們是怎么做的。
語言障礙者的福音!
在Albany醫(yī)療中心,一首名叫「Another Brick in the Wall」的音樂悠然響起,充斥著整個醫(yī)院病房。
而聆聽者卻不是醫(yī)生,而是躺在病床上準備接受癲癇手術(shù)的病人們。
神經(jīng)科學(xué)家們圍聚在旁,從電腦屏幕上觀察病人大腦中的電極活動。
主要觀察的內(nèi)容,就是大腦部分區(qū)域在聽到一些獨屬于音樂的東西后所產(chǎn)生的電極活動,然后看看通過這些記錄下來的電極活動能不能復(fù)現(xiàn)出他們在聽什么音樂。
上面提到的屬于音樂的東西,包括音調(diào)、節(jié)奏、和聲,以及歌詞。
這項研究進行了十來年。加利福尼亞大學(xué)伯克利分校的神經(jīng)科學(xué)家們對29位接受過該實驗的癲癇患者的數(shù)據(jù)進行了詳細分析。
結(jié)果是肯定的——科學(xué)家們可以根據(jù)病人大腦中的電極活動,重建這段音樂。
在復(fù)現(xiàn)的歌曲中,其中的一句歌詞「All in all it was just a brick in the wall」的節(jié)奏非常完整,雖說歌詞不算太清晰,但研究人員表示,可以破譯出來,并非混沌一片。
而這首歌曲也是科學(xué)家們第一個通過大腦電極活動重建歌曲成功的案例。
結(jié)果表明,通過對腦電波的記錄和解除,是可以捕捉到一些音樂元素以及音節(jié)的。
用專業(yè)術(shù)語來說,這些音樂元素也叫韻律(prosody),即節(jié)奏、重音、抑揚頓挫等等。這些元素是無法單靠語言來表達其中的意義的。
此外,由于這些顱內(nèi)腦電圖(iEEG)只記錄在大腦表層進行的活動(也就是最接近聽覺中心的部分),因此朋友們不用擔(dān)心短期內(nèi)會有人通過這個手段來偷聽你在聽什么歌(笑)。
但是,對于那些得了中風(fēng),或者癱瘓,導(dǎo)致交流困難的人來說,這種從大腦表層電極活動進行的復(fù)現(xiàn),可以幫助他們重現(xiàn)樂曲的音樂性。
顯然,這比之前那種機器人式的、語調(diào)呆呆的復(fù)現(xiàn)要好得多。就像上面提到的一樣,有些東西光靠文字真不夠,咱聽的是那個調(diào)調(diào)。
Helen Wills神經(jīng)科學(xué)研究所的神經(jīng)科學(xué)家,兼加州大學(xué)伯克利分校的心理學(xué)教授Robert Knight表示,這是一項了不起的成果。
「對于我來說,音樂的魅力之一就在于它的前奏和所要表達的情感內(nèi)容。而隨著腦機接口領(lǐng)域的不斷突破,這項技術(shù)就可以給有需要的人,通過植入的方式提供只有音樂才能提供的東西。受眾可能包括患有漸凍人癥的病人,或是癲癇病人,總之一切因為病癥影響到語言輸出神經(jīng)的人?!?/span>
「換句話說,現(xiàn)在我們能做到的已經(jīng)不僅僅是語言本身了,和音樂性相比,文字所表達的情感可能就稍顯單薄了。我認為,從此刻開始,我們才真正開始了破譯之旅?!?/span>
而隨著腦電波記錄技術(shù)的更迭,未來的某一天我們也有可能在不打開大腦的情況下,通過附著在頭皮上的電極進行記錄。
Knight表示,目前的頭皮腦電圖已經(jīng)可以測量并記錄一些大腦活動,比方說從一大串字母中檢測出單個字母。雖說效率不高,每個字母都得花上至少20秒鐘,但總歸是個開始。
之所以要大力發(fā)展頭皮電極,是因為現(xiàn)在的無創(chuàng)技術(shù)還不夠嫻熟。也就是說,開顱的測量并不能保證100%的安全性。
而頭皮電極的測量準度,尤其是對大腦深層的測量,還不太夠。只能說,成功了但也沒完全成功。
能讀心嗎?
直接給答案:no。
打個比方,對于那些說話有障礙的人來說,腦機接口技術(shù)相當于給了他們一把「鍵盤」,通過捕捉腦電波的活動,他們就可以在這把「鍵盤」上打字,表達他們所想表達的。
比如霍金,他用的那個東西就是這樣,通過捕捉他的腦電波來生成機器人聲的語音。
類比到這里你應(yīng)該能明白了,光看這把「鍵盤」,你是不知道他在想什么的。現(xiàn)在的技術(shù)是他想,「鍵盤」啟動,輸出語音。他不想,「鍵盤」就不會啟動,你也不能知道他在想啥。
所以說,讀心不行。
實驗內(nèi)容
下圖中,圖A上即為實驗所用歌曲的整體波形圖。A下是該歌曲的聽覺頻譜圖,最上端的橙色條代表有人聲出現(xiàn)。
圖B為X光片下,一名患者的電極覆蓋圖。每一個點代表著一個電極。
圖C即為圖B中4個電極分別的電極信號。此外,圖中還顯示了歌曲刺激所引起的HFA(High-Frequency Activity),即高頻活動,在圖中用下滑的黑色短線表示,頻率在70到150赫茲之間。
圖D是A中一小段(10秒)歌曲播放的放大的聽覺頻譜圖以及電極神經(jīng)活動圖。我們可以發(fā)現(xiàn),HFA的時間點與頻譜圖中每個標出來的矩形的右側(cè)紅色線條對上了。
這些配對情況就構(gòu)成了研究人員用于訓(xùn)練和評估編碼模型的示例。
研究人員的實驗結(jié)果顯示,解碼模型中用作預(yù)測因子的電極數(shù)量與預(yù)測準確率之間存在對數(shù)關(guān)系,如下圖所示。
例如,使用43個電極(或12.4%)可以獲得80%的最佳預(yù)測準確率(最佳預(yù)測準確率即為使用所有347個電極的結(jié)果)。
研究人員在單個患者上觀察到了相同的關(guān)系。
此外,通過引導(dǎo)分析,研究人員觀察到數(shù)據(jù)集持續(xù)的時間與預(yù)測準確率之間也存在類似的對數(shù)關(guān)系,如下圖所示。
例如,使用長度69秒(百分比為36.1%)的數(shù)據(jù)可以獲得90%的最佳性能(最佳性能即為使用整首歌190.72秒的的長度得出)。
而關(guān)于模型類型,線性解碼的平均解碼準確率為0.325,而使用雙層全連接神經(jīng)網(wǎng)絡(luò)的非線性解碼的平均解碼準確率則為0.429。
總體而言,線性音樂歌曲重建(音頻S2)聽起來悶悶的,對一些音樂元素(指人聲音節(jié)和主音吉他)的存在有很強的節(jié)奏提示,但可能對另外一些元素的感知有限。
非線性歌曲重建的(音頻S3)則復(fù)現(xiàn)出了一首可識別的歌曲,與線性重建相比,細節(jié)也更加豐富。音高和音色等頻譜元素的感知質(zhì)量得到了明顯的改善,音素特征也更加清晰可辨。線性重建中存在的一些識別盲區(qū)也有一定程度的改進。
如下圖所示:
所以研究人員使用非線性模型通過第29個患者的61個電極重建了歌曲。
這些模型的表現(xiàn)優(yōu)于基于所有患者電極的線性重建,但解碼準確性低于使用所有患者的347個電極所獲得的準確性。
在感知方面,這些基于單個患者的模型提供了足夠高的頻譜-時間的細節(jié),足以讓研究人員識別出歌曲(音頻S4)。
同時,為了評估基于單個患者的解碼下限,研究人員從另外3位患者的腦神經(jīng)活動中重建了歌曲,這3位患者的電極數(shù)量較少,分別為23、17和10個,而上述第29個患者的電極數(shù)量為61個,電極密度也相對較低。當然,還是覆蓋了歌曲的反應(yīng)區(qū)域,線性解碼的準確性也算良好。
在重建的波形圖(音頻文件S5、S6 和 S7)中,研究人員檢索到了部分人聲。然后,他們將原始歌曲與解碼歌曲的頻譜圖進行關(guān)聯(lián),對解碼歌曲的可識別性進行了量化。
線性重構(gòu)(下圖A)和非線性重構(gòu)(下圖B)都提供了較高比例的正確識別率。
另外,研究人員分析了所有347個重要電極的STRF(頻譜-時間接受域)系數(shù),以評估不同音樂元素在不同腦區(qū)的編碼情況。
這項分析揭示了各種頻譜-時間的調(diào)諧模式。
為了全面描述歌曲頻譜圖與神經(jīng)活動之間的關(guān)系,研究人員對所有重要的STRFs進行了獨立成分分析(ICA)。
研究人員發(fā)現(xiàn)了3個具有不同頻譜-時間調(diào)諧模式的組成部分,每個部分的方差解釋率均超過了5%,合計方差解釋率達52.5%,如下圖所示。
第一個部分(解釋方差為28%)顯示了一個正系數(shù)集群,該集群分布在大約500Hz到7000Hz的寬頻率范圍內(nèi),以及觀察到HFA之前90ms左右的這一個狹窄時間窗口內(nèi)。
這個瞬時集群顯示了聲音起始的調(diào)諧。該部分被稱為起始部分,只出現(xiàn)在雙側(cè)STG后部的電極上,如下圖所示的位置。
最后,研究人員表示,未來的研究可能會將電極覆蓋范圍擴大到其他區(qū)域,改變模型的特征和目標,或添加新的行為維度。