自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Meta全新腦機接口模型，挑戰(zhàn)Neuralink！無需植入芯片實現(xiàn)「心靈感應」

作者：新智元 2025-02-14 09:15:00

人工智能新聞

腦機接口技術(shù)炙手可熱，馬斯克的Neuralink更是吸引了全球目光。然而其侵入式方案的風險不容忽視。Meta AI則另辟蹊徑，近日推出了非侵入式的Brain2Qwerty深度學習模型，它能通過分析腦電圖或腦磁圖「讀」出人們在鍵盤上輸入的文字。

腦機接口一直是全球關(guān)注的新技術(shù)。尤其是有著馬斯克光環(huán)加持下的Neuralink，更是備受矚目。

幾天前，Neuralink發(fā)文稱，過去一年中已經(jīng)有三名癱瘓患者接受了Neuralink的植入。

通過植入物，這幾位患者僅憑思想就能控制手機和電腦，這種能力被Neuralink稱之為「心靈感應」（Telepathy）。

參與者已經(jīng)累計使用「心靈感應」超過4900小時，其中大部分是獨立使用，這表明了該技術(shù)在現(xiàn)實生活中具有應用潛力。

其中一位名為Brad的參與者通過該項技術(shù)成功擺脫了對眼動追蹤器的依賴，能夠在各種環(huán)境下與人交流，甚至可以外出參加活動（下圖）。

盡管這些案例都清楚地表明了腦機接口近年來取得的顯著進展，然而，Neuralink的方案也并非完美。

主要的問題在于其使用的侵入性方法，如電極植入，這會帶來包括感染和長期維護問題在內(nèi)的醫(yī)療風險。

Meta AI團隊幾天前剛剛發(fā)布的名為「Brain2Qwerty」的全新深度學習架構(gòu)，正是為解決這一挑戰(zhàn)而來！

論文地址：https://ai.meta.com/research/publications/brain-to-text-decoding-a-non-invasive-approach-via-typing/

實驗表明效果還不錯。

這個新架構(gòu)可以解碼參與者的腦電圖（EEG）或腦磁圖（MEG）信號。對于表現(xiàn)最好的參與者，該模型實現(xiàn)了19%的字符錯誤率，并且可以完美解碼訓練集之外的各種句子。

最關(guān)鍵的是，Brain2Qwerty是非侵入式的，它大大縮小了與侵入式方法之間的差距，為開發(fā)更加安全的腦機接口技術(shù)開辟了道路！

Meta團隊怎么做到的？

首先，研究者讓35名參與者在鍵盤上打出他們短暫記住的句子，同時通過腦電圖（EEG）或腦磁圖（MEG）記錄下他們的大腦活動。

然后，研究者開始訓練Brain2Qwerty——一個三階段的深度神經(jīng)網(wǎng)絡——來從這些大腦信號中解碼出文字，并評估效果。

首先，第一階段卷積模塊（Convolutional Module）接收500毫秒的腦電圖(EEG)或腦磁圖(MEG)信號作為輸入，提取這些信號的特征。

然后，轉(zhuǎn)換器模塊（Transformer Module）利用自注意力機制捕捉句子級別的上下文信息，優(yōu)化按鍵預測，并輸出每個字符的logits。最后，預訓練語言模型（Pretrained Language Model）利用統(tǒng)計規(guī)律，修正轉(zhuǎn)換器的輸出，從而進一步提高解碼的準確性。

具體過程如下圖1，Brain2Qwerty模型利用腦電圖或腦磁圖信號，通過卷積、轉(zhuǎn)換器和語言模型3個階段來解碼鍵盤上輸入的文本。

實驗結(jié)果

研究人員首先關(guān)注左右手按鍵引起的誘發(fā)反應差異，結(jié)果顯示，腦磁圖（MEG）在手分類的準確率上優(yōu)于腦電圖（EEG）。MEG的峰值準確率為74%（±1.3%標準誤差均值），而EEG的峰值準確率為64%（±0.8%）。

這些結(jié)果驗證了當前的實驗方法確實能在腦中產(chǎn)生預期的按鍵反應。

Brain2Qwerty在腦磁圖（MEG）數(shù)據(jù)上的表現(xiàn)明顯優(yōu)于腦電圖（EEG ）。具體來說，MEG的平均字符錯誤率（CER）為32%（±0.6%），EEG的平均字符錯誤率（CER）為67%（±1.5%）。

這種性能差異在統(tǒng)計學上非常顯著。

盡管平均性能上存在顯著差異，研究人員也注意到了個體之間的差異。EEG表現(xiàn)最差和最好受試者的CER分別為61%（±2.0%）和71%（±2.3%）。MEG表現(xiàn)最差和最好受試者的CER分別為45%（±1.2%）和19%（±1.1%）。也十分明顯。

不同模型的對比

為了評估Brain2Qwerty模型的性能，研究人員選擇了兩種經(jīng)典的基線模型進行比較：線性模型和EEGNet（一種在腦機接口領域經(jīng)常用的緊湊型卷積神經(jīng)網(wǎng)絡）。

結(jié)果顯示，EEGNet在MEG數(shù)據(jù)上優(yōu)于線性模型，但在EEG數(shù)據(jù)上的優(yōu)勢不明顯。Brain2Qwerty模型在EEG和MEG數(shù)據(jù)上的表現(xiàn)均顯著優(yōu)于EEGNet和線性模型。

這種優(yōu)勢表明，Brain2Qwerty模型的三階段架構(gòu)（卷積模塊、轉(zhuǎn)換器模塊和語言模型）對于解碼腦活動中的文本具有重要作用。

下圖A和B表明，左右手按鍵會在大腦皮層產(chǎn)生不同的神經(jīng)活動模式，這些活動模式可以通過EEG和MEG檢測到；C和D驗證了分類器可以有效地區(qū)分左右手和不同字符的腦活動；

E-H比較了不同架構(gòu)（包括線性模型、EEGNet以及Brain2Qwerty模型的不同變體）在手錯誤率（HER）和字符錯誤率（CER）上的表現(xiàn)。每個點代表一個受試者的平均得分。

消融實驗

研究人員重新訓練并評估了以下兩種消融版本的模型：(i)僅卷積模塊（Conv）：移除了轉(zhuǎn)換器模塊和語言模型，僅使用卷積模塊進行解碼；(ii)卷積模塊+轉(zhuǎn)換器模塊(Conv+Trans)：移除了語言模型，使用卷積模塊和轉(zhuǎn)換器模塊進行解碼。

然后研究者使用相同的數(shù)據(jù)集和超參數(shù)對這些消融模型進行訓練和評估，并使用手錯誤率（HER）和字符錯誤率（CER）來衡量性能。

結(jié)果顯示，僅卷積模塊 (Conv)在EEG和MEG數(shù)據(jù)上的性能均優(yōu)于EEGNet。添加轉(zhuǎn)換器模塊后，卷積模塊+轉(zhuǎn)換器模塊 (Conv+Trans)在EEG和MEG數(shù)據(jù)上的CER均得到改善，這表明轉(zhuǎn)換器模塊在利用上下文信息方面發(fā)揮了關(guān)鍵作用。

使用語言模型后，完整的Brain2Qwerty在EEG的CER進一步改善了4%，MEG的CER進一步改善了6%。語言模型通過利用自然語言的統(tǒng)計規(guī)律性，有效地提高了解碼準確性。

解碼句子展示

研究人員指出，MEG可以完美解碼一些句子。這表明Brain2Qwerty模型在MEG數(shù)據(jù)上具有相當高的解碼精度。例如，「la silla ocasiona las lesiones」這句話就被完美解碼。

更有趣的是，Brain2Qwerty的語言模型可以糾正受試者的輸入錯誤。例如，即使受試者輸入了「ek benefucui syoera kis ruesgis」，仍然被完美解碼出「el beneficio supera los riesgos」了。

相比之下，EEG的解碼效果較差，很少能產(chǎn)生可理解的文本。這與之前報告的統(tǒng)計結(jié)果一致，即MEG的解碼性能明顯優(yōu)于EEG。

在EEG的例子中，解碼結(jié)果通常包含大量錯誤，如「la ciencia de la idea las mas de esos」，與原句「la ciencia de la idea rompe la vision」相差甚遠。

下圖3A顯示了Best(最佳)、Median(中位數(shù))和Worst(最差)MEG受試者的句子字符錯誤率。每個點代表一個獨特的句子。圖3B顯示了兩個例句的解碼預測結(jié)果，其中使用了多個分割種子來獲取跨句子的預測。

鍵盤布局對Brain2Qwerty的影響

如果Brain2Qwerty模型依賴于運動皮層的腦活動，那么其解碼錯誤應該與QWERTY鍵盤的物理布局相關(guān)。也就是說，模型更容易將一個按鍵錯誤地預測為鍵盤上物理位置接近的按鍵。

研究人員分析了錯誤預測字符的混淆模式，并計算了解碼字符和實際按鍵在鍵盤上的距離。

結(jié)果顯示，距離和混淆率之間存在顯著的相關(guān)性。這意味著，鍵盤上物理距離越近的按鍵，越容易被混淆。

下圖A表明模型解碼錯誤與鍵盤的物理布局有關(guān)，模型傾向于將按鍵混淆為物理位置接近的按鍵。圖B進一步證實了模型依賴運動表征。圖C顯示打字錯誤與較長的按鍵間隔相關(guān)。圖D證明打字錯誤會導致解碼性能下降，表明運動過程的準確性直接影響解碼質(zhì)量。

打字錯誤對Brain2Qwerty的影響

研究人員發(fā)現(xiàn)，打字錯誤占總按鍵次數(shù)的3.9%，65%的句子中都存在打字錯誤，實驗中不允許參與者使用退格鍵糾正錯誤。

錯誤按鍵的按鍵間隔明顯長于正確按鍵。具體而言，正確按鍵的平均間隔時間為50±7毫秒，而錯誤按鍵的平均間隔時間為114±12毫秒。

這種現(xiàn)象反映了打字錯誤時，參與者會出現(xiàn)猶豫或?qū)﹀e誤進行監(jiān)控的行為。

為了評估打字錯誤對解碼性能的影響，研究人員分別評估了正確按鍵和錯誤按鍵的字符錯誤率（CER）。使用 Conv+Trans模型時，正確按鍵的CER為38%，而錯誤按鍵的CER為65%。

這表明，正確按鍵的解碼性能顯著優(yōu)于錯誤按鍵。

為了減少句子上下文對錯誤分析的影響，研究人員還評估了卷積模塊（Conv）的性能。即使僅使用卷積模塊，正確按鍵的CER（52%）仍然低于錯誤按鍵的CER（71%）。

這些結(jié)果表明，當運動過程執(zhí)行不準確時，解碼性能就會下降。

發(fā)現(xiàn)、意義與局限性

Meta AI團隊開發(fā)的這款Brain2Qwerty模型可以通過非侵入式腦機接口解碼句子生成。為開發(fā)更安全、更易于訪問的非侵入式腦機接口打下了基礎。

雖然Brain2Qwerty模型的解碼性能縮小了與侵入式腦機接口之間的差距，但是差距仍然顯著。最新的侵入式腦機接口字符錯誤率僅為15.2%，使用糾錯模型時，打字速度可達每分鐘90個字符，離線字符錯誤率更是低于1%。

雖然腦磁圖（MEG）的效果優(yōu)于腦電圖（EEG），但目前的腦磁圖系統(tǒng)，包括本研究中使用的系統(tǒng)，都還還不能穿戴。不過，隨著基于光泵磁力儀（OPM）的新型腦磁圖傳感器的發(fā)展有望解決這個問題。

Meta AI的Brain2Qwerty深度學習新架構(gòu)展示了非侵入式腦機接口技術(shù)的巨大潛力。

這項研究不僅是技術(shù)上的突破，更是對未來人與機器交互方式的探索。

責任編輯：張燕妮來源：新智元

腦機接口技術(shù)AI

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營