自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

腦波解碼延遲僅80毫秒,實時「意念對話」技術(shù)登Nature子刊

人工智能 新聞
腦機接口的最新研究在社交網(wǎng)絡(luò)上引發(fā)了人們的熱烈討論,一位推特博主的帖子瀏覽量突破了 150 萬。

無法說話的人,現(xiàn)在可以通過大腦掃描的方式實時地用自己的聲音說話了。整個過程沒有延遲,也不需要打字,不用發(fā)出任何聲音。

本周,腦機接口的最新研究在社交網(wǎng)絡(luò)上引發(fā)了人們的熱烈討論,一位推特博主的帖子瀏覽量突破了 150 萬。

先來看效果。視頻中的受試者嚴重癱瘓,不能講話。她的大腦活動被解碼為目標句子,然后使用文本到語音模型一次合成一個單詞。

我們可以看到連接受試者頭部的設(shè)備(connector)。屏幕上出現(xiàn)了目標句子(target sentence),然后從大腦活動解碼文本,并應(yīng)用「單詞級文本到語音合成」。

接下來是更多的示例:

論文一作 Kaylo T. Littlejohn 發(fā)推宣傳團隊的成果,他表示,這種流式「腦轉(zhuǎn)語音」(brain-to-voice)神經(jīng)假體可以讓癱瘓患者恢復(fù)自然、流利和清晰的語言能力。

同時他強調(diào),泛化能力至關(guān)重要,隨著快速改進設(shè)備,現(xiàn)在構(gòu)建的解碼方法應(yīng)能跨用例轉(zhuǎn)換(比如非侵入式與侵入式的權(quán)衡),并為未來的臨床語音神經(jīng)假體打好基礎(chǔ)。

圖片

這項技術(shù)成果「?!乖谀睦??

要知道在此之前,最好的腦機接口系統(tǒng)也只能讓患者以每分鐘 8-14 個字的速度「打字」。而這個新系統(tǒng)輸出語音的速度可以達到每分鐘 90+ 個英文單詞,而且它不使用任何可聽見的訓(xùn)練數(shù)據(jù),用戶甚至不需要嘗試發(fā)出聲音。

該研究來自加州大學伯克利分校(UC Berkeley),已經(jīng)登上了最新一期《自然》子刊 Nature Neuroscience。

圖片

  • 論文:A streaming brain-to-voice neuroprosthesis to restore naturalistic communication
  • 論文鏈接:https://www.nature.com/articles/s41593-025-01905-6

該系統(tǒng)轉(zhuǎn)錄的目標是患者大腦的言語運動皮層,采用 253 通道 ECoG 陣列,深度學習神經(jīng)解碼器經(jīng)過 2.3 萬次轉(zhuǎn)語音訓(xùn)練,構(gòu)建了延遲僅 80ms 的 RNN-T 架構(gòu),既可以合成語音也可以進行實時轉(zhuǎn)錄,音色模仿自患者受傷之前的錄音。

大多數(shù)腦機接口的系統(tǒng)在輸出任何內(nèi)容之前都需要等待人想出完整句子,但在新的系統(tǒng)上,人類正在思考中的內(nèi)容就可以被轉(zhuǎn)為語音,延遲大約為 1 秒。因此該系統(tǒng)可以稱得上是實時的意念轉(zhuǎn)語音了。

在實際測試中可以看到,語音轉(zhuǎn)錄的效果快速、流暢且準確:在 50 個短語集(護理需要)的測試中,新方法達到了 91 WPM 、12% 字錯率 (WER)、 11% 字符錯誤率。在 1024 字集的自然句子測試中,該方法也達到了 47 WPM、59% WER 和 45% 字符錯誤率。雖然還不是很準確,但已經(jīng)證明了該系統(tǒng)的有效性。

圖片

此外,該系統(tǒng)成功地合成了在訓(xùn)練過程中未曾見過的新詞匯。當給定 24 個新的詞匯,例如 Zulu、Romeo,它正確識別出這些詞匯的概率為 46%,而僅憑偶然猜測的概率為 3.8%。這一切僅通過神經(jīng)活動就得以實現(xiàn)。

圖片

此外,該系統(tǒng)采用了統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠跨多種技術(shù)平臺解碼語音信號,具體包括:

  • ECoG(皮層腦電圖),通過植入大腦表面的電極陣列讀取神經(jīng)信號,無需穿透腦組織,創(chuàng)傷性較低;
  • MEA(皮層內(nèi)微電極),通過植入大腦皮層的微型電極記錄單個神經(jīng)元活動;
  • EMG(面部表面電極,無需手術(shù))。

圖片

一直以來,很多研究僅僅局限于試驗階段,相比之下,該系統(tǒng)能夠持續(xù)工作,不需要預(yù)先編程就能夠通過大腦活動檢測到受試者何時開始和停止說話。研究者用時長 6 分鐘的連續(xù)無聲語音塊對其進行了測試。結(jié)果顯示,系統(tǒng)能夠準確解碼,幾乎沒有任何誤報。

圖片

這項研究的解碼速度達到了新的標桿,此前最佳解碼速度為 28 詞 / 分鐘(WPM),該系統(tǒng)的表現(xiàn)達到 90 詞 / 分鐘(WPM),且延遲更低。

更重要的是,受試者無需發(fā)聲,借助該系統(tǒng),受試者用意念就能「說話」。

從臨床角度看,這項研究能讓失去語言能力的人重新獲得說話的權(quán)力。從技術(shù)角度看,它解決了實時、流暢的神經(jīng)語音解碼問題。大家期待已久的無聲交流正在實現(xiàn),這也表明了語言可以完全基于神經(jīng)信號來傳達。

如果這項技術(shù)普及開來,我們可以想象 20 年后的世界,那將是不再需要手機、不再需要鍵盤、不再需要語音指令等等,你要做的只是思考,你的話語便能被實時感知。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2013-11-11 11:17:45

AngularJS性能優(yōu)化

2025-02-04 19:26:41

2020-04-27 10:37:53

機器翻譯腦機接口腦波

2017-10-31 15:28:27

RUDP傳輸優(yōu)化實踐

2012-03-11 15:27:57

微軟

2023-03-06 13:59:38

模型參數(shù)

2024-04-22 07:30:00

藥物分子模型

2023-03-13 13:24:34

智能Nature

2022-07-12 14:56:30

AI模型研究

2024-01-07 18:00:33

AI模型特點

2024-01-16 17:23:39

AI數(shù)據(jù)

2021-03-05 14:56:31

技術(shù)人工智能透視術(shù)

2025-01-13 13:00:00

AI模型訓(xùn)練

2021-04-27 06:20:25

MySQL集群優(yōu)化

2021-12-31 14:30:30

人工智能機器學習技術(shù)

2024-02-04 09:20:00

AI量子計算

2023-04-12 15:58:58

2023-05-10 15:30:34

自動駕駛

2022-02-23 14:36:31

AI數(shù)據(jù)研究
點贊
收藏

51CTO技術(shù)棧公眾號