自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta:不用插管!AI看看腦電圖就知道你在想啥

人工智能 新聞
Meta表示,以后AI就能讀懂你在想啥了。

每年,全世界有超過(guò) 6900 萬(wàn)人飽受創(chuàng)傷性腦損傷的折磨,他們中的許多人無(wú)法通過(guò)語(yǔ)音、打字或手勢(shì)進(jìn)行交流。如果研究人員開(kāi)發(fā)出一種技術(shù),可以通過(guò)非侵入性的方式直接從大腦活動(dòng)解碼語(yǔ)言,這些人的生活將會(huì)大大改善。 現(xiàn)在,Meta搞了個(gè)新研究,就是要解決這個(gè)事兒。 

剛剛,Meta AI官方博客發(fā)文,介紹了可利用AI從大腦活動(dòng)中直接解碼語(yǔ)音的新技術(shù)。

 圖片 

從一段時(shí)間為3秒的大腦活動(dòng)中,這個(gè)AI可以從人們?nèi)粘J褂玫?793 個(gè)單詞的詞匯表中解碼相應(yīng)的語(yǔ)音片段,準(zhǔn)確率高達(dá) 73%。 

以往,從大腦活動(dòng)中解碼語(yǔ)音一直是神經(jīng)科學(xué)家和臨床醫(yī)生的長(zhǎng)期目標(biāo),但大部分進(jìn)展依賴(lài)于侵入性大腦記錄技術(shù),例如立體定向腦電圖和皮層電圖。 

這些設(shè)備可以提供比無(wú)創(chuàng)方法更清晰的信號(hào),但需要神經(jīng)外科干預(yù)。 

雖然這項(xiàng)工作的結(jié)果表明從大腦活動(dòng)記錄中解碼語(yǔ)音是可行的,但使用非侵入性方法解碼語(yǔ)音將提供一種更安全、更具可擴(kuò)展性的解決方案,最終可以使更多人受益。 

然而,這是非常具有挑戰(zhàn)性的,因?yàn)榉乔秩胧戒浺羰浅隽嗣泥须s,并且由于各種原因,包括每個(gè)人的大腦和傳感器放置位置的差異,錄音會(huì)話(huà)和個(gè)人之間可能會(huì)有很大差異。 Meta通過(guò)創(chuàng)建一個(gè)經(jīng)過(guò)對(duì)比學(xué)習(xí)訓(xùn)練的深度學(xué)習(xí)模型來(lái)應(yīng)對(duì)這些挑戰(zhàn),然后使用它來(lái)最大限度地對(duì)齊非侵入性大腦記錄和語(yǔ)音。 

圖片 

為此,Meta使用一個(gè)由 FAIR 團(tuán)隊(duì)于 2020 年開(kāi)發(fā)的、開(kāi)源的自我監(jiān)督學(xué)習(xí)模型wave2vec 2.0,來(lái)識(shí)別聽(tīng)有聲讀物的在志愿者大腦中語(yǔ)音的復(fù)雜表示。 Meta主要關(guān)注兩種非侵入性技術(shù):腦電圖和腦磁圖(簡(jiǎn)稱(chēng) EEG 和 MEG),分別測(cè)量由神經(jīng)元活動(dòng)引起的電場(chǎng)和磁場(chǎng)的波動(dòng)。 

在實(shí)踐中,這兩個(gè)系統(tǒng)每秒可以使用數(shù)百個(gè)傳感器拍攝大約 1000 個(gè)宏觀大腦活動(dòng)的快照。 Meta利用了來(lái)自學(xué)術(shù)機(jī)構(gòu)的四個(gè)開(kāi)源 EEG 和 MEG 數(shù)據(jù)集,利用了 169 名健康志愿者的 150 多個(gè)小時(shí)的錄音,在這些錄音中,是他們正在聽(tīng)有聲讀物和英語(yǔ)和荷蘭語(yǔ)的孤立句子。 

然后,Meta將這些 EEG 和 MEG 記錄輸入到一個(gè)「大腦」模型中,該模型由一個(gè)帶有殘差連接的標(biāo)準(zhǔn)深度卷積網(wǎng)絡(luò)組成。 

眾所周知,EEG 和 MEG 記錄在個(gè)體之間存在很大差異,因?yàn)閭€(gè)體大腦解剖結(jié)構(gòu)、大腦區(qū)域神經(jīng)功能的位置和時(shí)間差異以及記錄期間傳感器的位置。 

在實(shí)踐中,這意味著分析大腦數(shù)據(jù)通常需要一個(gè)復(fù)雜的工程管道,用于重新調(diào)整模板大腦上的大腦信號(hào)。在以前的研究中,大腦解碼器接受了少量錄音的訓(xùn)練,以預(yù)測(cè)一組有限的語(yǔ)音特征,例如詞性類(lèi)別或少量詞匯中的單詞。 

為了方便研究,Meta設(shè)計(jì)了一個(gè)新的主題嵌入層,它被訓(xùn)練成端到端,將所有的大腦記錄排列在一個(gè)共同的空間。

圖片

為了從非侵入性大腦信號(hào)中解碼語(yǔ)音,Meta訓(xùn)練了一個(gè)具有對(duì)比學(xué)習(xí)的模型,以校準(zhǔn)語(yǔ)音及其相應(yīng)的大腦活動(dòng) 最后,Meta的架構(gòu)學(xué)會(huì)了將大腦模型的輸出,與呈現(xiàn)給參與者的語(yǔ)音的深度表征相匹配。 

在Meta之前的工作中,我們使用wav2vec 2.0,表明這種語(yǔ)音算法會(huì)自動(dòng)學(xué)習(xí)生成與大腦一致的語(yǔ)音表示。 

wav2vec 2.0中出現(xiàn)的語(yǔ)音“類(lèi)腦”表示,使Meta的研究人員自然而然地選擇構(gòu)建自己的解碼器,因?yàn)樗兄谧孧eta的研究人員了解,應(yīng)該從大腦信號(hào)中提取哪些表示。 

圖片

Meta最近展示了 wav2vec 2.0(左)的激活映射到大腦(右)以響應(yīng)相同的語(yǔ)音。算法的第一層(冷色)的表示映射到早期聽(tīng)覺(jué)皮層,而最深層映射到高級(jí)大腦區(qū)域(例如前額葉和頂葉皮層) 

訓(xùn)練后,Meta的系統(tǒng)執(zhí)行所謂的零樣本分類(lèi):給定一個(gè)大腦活動(dòng)片段,它可以從大量新音頻片段中確定該人實(shí)際聽(tīng)到的是哪個(gè)片段。 

算法推斷出這個(gè)人最有可能聽(tīng)到的詞。這是一個(gè)令人興奮的步驟,因?yàn)樗砻魅斯ぶ悄芸梢猿晒Φ貙W(xué)會(huì)在感知語(yǔ)音時(shí)解碼大腦活動(dòng)的嘈雜和可變的非侵入性記錄。 

下一步是看看研究人員是否可以擴(kuò)展這個(gè)模型,直接從大腦活動(dòng)中解碼語(yǔ)音,而不需要音頻剪輯池,即,轉(zhuǎn)向安全和多功能的語(yǔ)音解碼器。 研究人員的分析進(jìn)一步表明,我們算法的幾個(gè)組成部分,包括使用 wav2vec 2.0 和主題層,對(duì)解碼性能是有益的。 

此外,Meta的算法隨著 EEG 和 MEG 記錄的數(shù)量而改進(jìn)。 實(shí)際上,這意味著Meta研究人員的方法受益于大量異構(gòu)數(shù)據(jù)的提取,并且原則上可以幫助改進(jìn)小型數(shù)據(jù)集的解碼。 

這很重要,因?yàn)樵谠S多情況下,很難讓給定的參與者收集大量數(shù)據(jù)。例如,要求患者在掃描儀上花費(fèi)數(shù)十個(gè)小時(shí)來(lái)檢查系統(tǒng)是否適合他們是不切實(shí)際的。 相反,算法可以在包括許多個(gè)人和條件的大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后在數(shù)據(jù)很少的情況下為新患者的大腦活動(dòng)提供解碼支持。 

Meta的研究令人鼓舞,因?yàn)榻Y(jié)果表明,經(jīng)過(guò)自我監(jiān)督訓(xùn)練的人工智能可以成功地從大腦活動(dòng)的非侵入性記錄中解碼感知到的語(yǔ)音,盡管這些數(shù)據(jù)中存在固有的噪聲和可變性。 當(dāng)然,這些結(jié)果只是第一步。在這項(xiàng)研究工作中,Meta專(zhuān)注于解碼語(yǔ)音感知,但實(shí)現(xiàn)患者交流的最終目標(biāo)需要將這項(xiàng)工作擴(kuò)展到語(yǔ)音生產(chǎn)。 

這一研究領(lǐng)域甚至可以超越幫助患者,潛在地包括啟用與計(jì)算機(jī)交互的新方式。 

從更大的視野來(lái)看,Meta的工作是科學(xué)界使用人工智能更好地理解人類(lèi)大腦的努力的一部分。Meta希望公開(kāi)分享這項(xiàng)研究,以加快應(yīng)對(duì)未來(lái)挑戰(zhàn)的進(jìn)展。

論文解析

圖片

論文鏈接:https://arxiv.org/pdf/2208.12266.pdf 

本文提出了一個(gè)單一的端到端架構(gòu),在大量的個(gè)體群中進(jìn)行對(duì)比性學(xué)習(xí)訓(xùn)練,以預(yù)測(cè)自然語(yǔ)音的自監(jiān)督表示。 

我們?cè)谒膫€(gè)公共數(shù)據(jù)集上評(píng)估了模型,其中包括169名志愿者在聽(tīng)自然語(yǔ)音時(shí)用腦磁圖或腦電圖(M/EEG)記錄的數(shù)據(jù)。 

這為從非侵入性的大腦活動(dòng)記錄中實(shí)時(shí)解碼自然語(yǔ)言處理提供了一條新的思路。 

方法和架構(gòu) 

我們首先正式確定了神經(jīng)解碼的通用任務(wù),并激勵(lì)使用對(duì)比性損失進(jìn)行訓(xùn)練。在介紹用于大腦解碼的深度學(xué)習(xí)架構(gòu)之前,我們介紹了由預(yù)訓(xùn)練的自我監(jiān)督模塊wav2vec 2.0提供的豐富的語(yǔ)音表示。 

我們的目標(biāo)是在健康志愿者被動(dòng)地聽(tīng)他們的母語(yǔ)口語(yǔ)句子時(shí),從用無(wú)創(chuàng)腦磁圖(MEG)或腦電圖(EEG)記錄的高維大腦信號(hào)的時(shí)間序列中解碼語(yǔ)音。

圖片 

口語(yǔ)是如何在大腦中表示的在很大程度上是未知的,因此,通常以監(jiān)督的方式訓(xùn)練解碼器,以預(yù)測(cè)已知與大腦有關(guān)的語(yǔ)音的潛在表示。 

從經(jīng)驗(yàn)上看,我們觀察到這種直接回歸的方法面臨幾個(gè)挑戰(zhàn):當(dāng)語(yǔ)音出現(xiàn)時(shí),解碼預(yù)測(cè)似乎被一個(gè)不可區(qū)分的寬帶成分所支配(圖2.A-B)。 

這一挑戰(zhàn)促使我們做出三個(gè)主要貢獻(xiàn):引入對(duì)比性損失、預(yù)訓(xùn)練好的深層語(yǔ)音表征和專(zhuān)門(mén)的大腦解碼器。 

1、對(duì)比性損失 

首先,我們推斷,回歸可能是一種無(wú)效的損失,因?yàn)樗x了我們的目標(biāo):從大腦活動(dòng)中解碼語(yǔ)音。因此,我們用一種對(duì)比性損失來(lái)代替它,即 "CLIP "損失,它最初被設(shè)計(jì)用來(lái)匹配文本和圖像這兩種模式中的潛在表征。 

2、預(yù)訓(xùn)練的深度語(yǔ)音表征 

其次,Mel頻譜是語(yǔ)音的低層次表征,因此不太可能與豐富的皮質(zhì)表征相匹配。 因此,我們用語(yǔ)音的潛在表征取代了Mel頻譜Y,這些表征要么是端到端學(xué)習(xí)的("Deep Mel "模型),要么是用一個(gè)獨(dú)立的自我監(jiān)督的語(yǔ)音模型學(xué)習(xí)的。 在實(shí)踐中,我們使用wav2vec2-large-xlsr-531,它已經(jīng)對(duì)53種不同語(yǔ)言的56k小時(shí)的語(yǔ)音進(jìn)行了預(yù)訓(xùn)練。

 3、專(zhuān)門(mén)的「大腦解碼器」 

最后,對(duì)于大腦模塊,我們使用一個(gè)深度神經(jīng)網(wǎng)絡(luò)fclip,輸入原始的M/EEG時(shí)間序列X和相應(yīng)的主題s的單次編碼,并輸出潛在的大腦表示Z,其采樣率與X相同。

 圖片 

這個(gè)架構(gòu)包括(1)在M/EEG傳感器上的空間注意力層,然后由一個(gè)針對(duì)特定對(duì)象的1x1卷積設(shè)計(jì),以利用對(duì)象間的變異性,其輸入是卷積塊的堆疊。 

圖片 

結(jié)果顯示,wav2vec 2.0 模型可以從3秒的腦電信號(hào)中識(shí)別出相應(yīng)的語(yǔ)音片段,在1,594個(gè)不同的片段中,準(zhǔn)確率高達(dá)72.5%,在2,604個(gè)腦電記錄片段中,準(zhǔn)確率高達(dá)19.1%,可以對(duì)訓(xùn)練集中沒(méi)有的短語(yǔ)進(jìn)行解碼。 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-07-27 08:40:45

PawSQL數(shù)據(jù)庫(kù)

2019-08-20 13:45:01

阿里巴巴面試Java

2023-03-09 10:20:00

AI

2020-07-20 10:20:30

this前端代碼

2023-09-28 08:42:56

PyQt6Python語(yǔ)言

2023-07-26 08:22:17

JavaIO流

2020-09-11 16:17:02

產(chǎn)品定價(jià)AI人工智能

2016-11-28 11:19:48

術(shù)語(yǔ)神秘

2019-11-01 09:30:21

AI 數(shù)據(jù)人工智能

2015-10-21 13:17:50

2024-03-14 12:09:59

火山引擎公共云

2015-10-23 09:34:16

2016-03-03 17:42:10

DockerDCOS

2019-12-25 10:45:30

Java悲觀鎖

2019-12-19 17:00:01

Java線(xiàn)程

2022-07-28 10:39:50

OpenApiSwaggerSpringDoc

2020-10-13 15:20:09

人工智能技術(shù)就業(yè)

2024-08-01 17:34:56

Promiseaxios請(qǐng)求

2024-04-26 09:03:31

Node.jsCurrent發(fā)布版

2020-11-03 18:17:15

技術(shù)人才企業(yè)學(xué)院
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)