科學(xué)家研發(fā)出“讀心術(shù)”,直接將腦電波翻譯成文本,錯誤率低至3%
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
美國加州大學(xué)舊金山分校的科學(xué)家,已經(jīng)訓(xùn)練出一種算法,可以直接將受試者的腦電波實時翻譯成句子,錯誤率僅為 3% 。
這項研究發(fā)表在《自然神經(jīng)科學(xué)》(Nature Neuroscience)雜志上,他們招募了 4 位志愿者,這些志愿者被要求多次朗讀 30-50 個固定句子,而電極記錄下他們的大腦活動。[1]
【 雷鋒網(wǎng)注:人類對大腦所知甚少。圖片來源:Pixabay 所有者:Gerd Altmann 】
這些數(shù)據(jù)隨后被輸入到機器學(xué)習(xí)算法,它將每個句子的大腦活動數(shù)據(jù)轉(zhuǎn)換成一串?dāng)?shù)字和字符串。
系統(tǒng)從這些大腦活動數(shù)據(jù)再推導(dǎo)出聲音,并和實際記錄的音頻進行比較。數(shù)字和字符串則被再次輸入到系統(tǒng),轉(zhuǎn)換成一個單詞序列。
起初,系統(tǒng)會吐出毫無意義的句子。但是當(dāng)系統(tǒng)將每個單詞序列與實際朗讀的句子進行比較時,它得到了改進,學(xué)會了數(shù)字字符串與單詞的關(guān)系,以及哪些單詞是有上下文關(guān)系的。
算法不斷的訓(xùn)練,直到從說話時的大腦活動中產(chǎn)生書面文本,類似機器翻譯。
新系統(tǒng)的準(zhǔn)確性遠遠高于以前的方法。雖然準(zhǔn)確性因人而異,但對于其中一位志愿者來說,平均每個句子只有 3% 需要糾正,高于速記員 5% 的單詞錯誤率。
當(dāng)然,目前這個系統(tǒng)還是有很大局限,算法還只能處理少量的句子。系統(tǒng)也不能用于嚴重殘疾失去語言能力的患者,因為它依賴于記錄大聲說出句子的人的大腦活動。
然而,每個志愿者只用了不到 40 分鐘來訓(xùn)練,在有限的小數(shù)據(jù)集情況下,達到了迄今為止最大的精確度。
腦機接口
從人類大腦信號到外部設(shè)備之間建立連接通路并不是新鮮事,腦機接口的研究已持續(xù)了 30 年。
【 雷鋒網(wǎng)注:腦機接口近30年來一直是研究熱點。圖片來源:Pixabay 所有者:aytuguluturk 】
在過去的十年,我們已經(jīng)能夠解碼語音信號,但是局限于孤立音素或者單音節(jié)詞,在一段 100 個單詞的連續(xù)語音的情況下,解碼正確的單詞少于 40% 。
科學(xué)家們此次找到的是一個更直接的方法,就是采取機器翻譯類似的算法。機器翻譯就是將文本從一種語言到另一種語言的算法翻譯,只不過這次輸入的文本變成了腦電波信號。此次發(fā)表的論文《使用編碼器-解碼器框架:大腦皮層活動到文本的機器翻譯》,正是詳細描述了這一過程。
在系統(tǒng)對一個志愿者進行訓(xùn)練之后,再對另外一個志愿者訓(xùn)練時,解碼結(jié)果得到了改善,這表明該技術(shù)可以在人和人之間進行遷移。
在 GitHub 上,放置了論文對應(yīng)的代碼。
ecog2txt 模塊,用于從神經(jīng)數(shù)據(jù)中將語音解碼為文本。它用 Python 代碼實現(xiàn)了跨主題的遷移學(xué)習(xí)的高級功能。[2]
【雷鋒網(wǎng)注:ecog2txt是論文對應(yīng)的開源實現(xiàn)模塊】
而訓(xùn)練本身則是通過另一個 machine_learning 軟件包,它在 TensorFlow 里實現(xiàn)了一個序列到序列的網(wǎng)絡(luò)。[3]
這些軟件包的作者,也是論文的聯(lián)合作者之一約瑟夫·馬金(Joseph Makin)博士,他目前是加州大學(xué)舊金山分校整合神經(jīng)科學(xué)中心的研究科學(xué)家。他的專業(yè)是電機工程和計算機科學(xué),專門研究控制理論,包括腦機接口的算法開發(fā)。[4]
【雷鋒網(wǎng)注:上圖為張愛德博士】
論文的另外一個聯(lián)合作者是張愛德(Edward Chang)博士,他是醫(yī)學(xué)博士和神經(jīng)外科醫(yī)生,擅長為患有癲癇病,腦瘤,三叉神經(jīng)痛,面肌痙攣和運動障礙的成年人提供治療。他目前是加州大學(xué)舊金山分校威爾神經(jīng)科學(xué)研究所的神經(jīng)外科教授,還領(lǐng)導(dǎo)了一個神經(jīng)工程與假肢中心,以恢復(fù)癱瘓和言語障礙等神經(jīng)疾病患者的功能。[5]
網(wǎng)友評論
科學(xué)家們曾經(jīng)認為將大腦信號轉(zhuǎn)換為可理解的語音可能需要數(shù)十年,而現(xiàn)在這個間隔可以用幾年來衡量。在 reddit 的科學(xué)板塊,該消息引發(fā)了 3 萬多次點贊和上千條評論。[6]
網(wǎng)友 derlumpenhund 評論說,這并不表示思想閱讀機發(fā)明出來了。它主要依賴于解碼口舌運動時對應(yīng)的大腦皮層活動,需要收集給定主題的數(shù)據(jù),并且提前進行訓(xùn)練,并不會直接解碼你的思想活動。話雖這么說,這一進展也很了不起。
網(wǎng)友 boointhehouse 則說,如果這項技術(shù)早點用于斯蒂芬·霍金,在他的一生中還能完成更多的工作。