自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視覺 「讀腦術(shù)」:從大腦活動中重建你眼中的世界

人工智能 新聞
在這篇 NeurIPS23 論文中,來自魯汶大學(xué)、新加坡國立大學(xué)和中科院自動化所的研究者提出了一種視覺 「讀腦術(shù)」,能夠從人類的大腦活動中以高分辨率出解析出人眼觀看到的圖像。

人類的感知不僅由客觀刺激塑造,而且深受過往經(jīng)驗的影響,這些共同促成了大腦中的復(fù)雜活動。在認知神經(jīng)科學(xué)領(lǐng)域,解碼大腦活動中的視覺信息成為了一項關(guān)鍵任務(wù)。功能性磁共振成像(fMRI)作為一種高效的非侵入性技術(shù),在恢復(fù)和分析視覺信息,如圖像類別方面發(fā)揮著重要作用。

然而,由于 fMRI 信號的噪聲特性和大腦視覺表征的復(fù)雜性,這一任務(wù)面臨著不小的挑戰(zhàn)。針對這一問題,本文提出了一個雙階段 fMRI 表征學(xué)習(xí)框架,旨在識別并去除大腦活動中的噪聲,并專注于解析對視覺重建至關(guān)重要的神經(jīng)激活模式,成功從大腦活動中重建出高分辨率且語義上準確的圖像。

圖片

論文鏈接:https://arxiv.org/abs/2305.17214

項目鏈接:https://github.com/soinx0629/vis_dec_neurips/

論文中提出的方法基于雙重對比學(xué)習(xí)、跨模態(tài)信息交叉及擴散模型,在相關(guān) fMRI 數(shù)據(jù)集上取得了相對于以往最好模型接近 40% 的評測指標提升,在生成圖像的質(zhì)量、可讀性及語義相關(guān)性相對于已有方法均有肉眼可感知的提升。該工作有助于理解人腦的視覺感知機制,有益于推動視覺的腦機接口技術(shù)的研究。相關(guān)代碼均已開源。

功能性磁共振成像(fMRI)雖廣泛用于解析神經(jīng)反應(yīng),但從其數(shù)據(jù)中準確重建視覺圖像仍具挑戰(zhàn),主要因為 fMRI 數(shù)據(jù)包含多種來源的噪聲,這些噪聲可能掩蓋神經(jīng)激活模式,增加解碼難度。此外,視覺刺激引發(fā)的神經(jīng)反應(yīng)過程復(fù)雜多階段,使得 fMRI 信號呈現(xiàn)非線性的復(fù)雜疊加,難以逆轉(zhuǎn)并解碼。

傳統(tǒng)的神經(jīng)解碼方式,例如嶺回歸,盡管被用于將 fMRI 信號與相應(yīng)刺激關(guān)聯(lián),卻常常無法有效捕捉刺激和神經(jīng)反應(yīng)之間的非線性關(guān)系。近期,深度學(xué)習(xí)技術(shù),如生成對抗網(wǎng)絡(luò)(GAN)和潛在擴散模型(LDMs),已被采用以更準確地建模這種復(fù)雜關(guān)系。然而,將視覺相關(guān)的大腦活動從噪聲中分離出來,并準確進行解碼,依然是該領(lǐng)域的主要挑戰(zhàn)之一。

為了應(yīng)對這些挑戰(zhàn),該工作提出了一個雙階段 fMRI 表征學(xué)習(xí)框架,該方法能夠有效識別并去除大腦活動中的噪聲,并專注于解析對視覺重建至關(guān)重要的神經(jīng)激活模式。該方法在生成高分辨率及語義準確的圖像方面,其 50 分類的 Top-1 準確率超過現(xiàn)有最先進技術(shù) 39.34%。

方法概述

fMRI 表征學(xué)習(xí) (FRL)

第一階段:預(yù)訓(xùn)練雙對比掩模自動編碼器 (DC-MAE) 

為了在不同人群中區(qū)分共有的大腦活動模式和個體噪聲,本文引入了 DC-MAE 技術(shù),利用未標記數(shù)據(jù)對 fMRI 表征進行預(yù)訓(xùn)練。DC-MAE 包含一個編碼器圖片和一個解碼器圖片,其中圖片以遮蔽的 fMRI 信號為輸入,圖片 則被訓(xùn)練以預(yù)測未遮蔽的 fMRI 信號。所謂的 “雙重對比” 是指模型在 fMRI 表征學(xué)習(xí)中優(yōu)化對比損失并參與了兩個不同的對比過程。

在第一階段的對比學(xué)習(xí)中,每個包含 n 個 fMRI 樣本 v 的批次中的樣本圖片被隨機遮蔽兩次,生成兩個不同的遮蔽版本圖片圖片,作為對比的正樣本對。隨后,1D 卷積層將這兩個版本轉(zhuǎn)換為嵌入式表示,分別輸入至 fMRI 編碼器圖片。解碼器圖片 接收這些編碼的潛在表示,產(chǎn)生預(yù)測值圖片圖片。通過 InfoNCE 損失函數(shù)計算的第一次對比損失,即交叉對比損失,來優(yōu)化模型:

圖片

在第二階段對比學(xué)習(xí)中,每個未遮蔽的原始圖像圖片及其相應(yīng)的遮蔽圖像圖片形成一對天然正樣本。這里的圖片代表解碼器圖片預(yù)測出的圖像。第二次對比損失,也就是自對比損失,根據(jù)以下公式進行計算:

圖片

優(yōu)化自對比損失圖片能夠?qū)崿F(xiàn)遮蔽重建。無論是圖片還是圖片,負樣本圖片都來自同一批次的實例。圖片圖片共同按如下方式優(yōu)化:圖片,其中超參數(shù)圖片圖片用于調(diào)節(jié)各損失項的權(quán)重。

第二階段:使用跨模態(tài)指導(dǎo)進行調(diào)整

考慮到 fMRI 記錄的信噪比較低且高度卷積的特性,專注于與視覺處理最相關(guān)且對重建最有信息價值的大腦激活模式對 fMRI 特征學(xué)習(xí)器來說至關(guān)重要。

在第一階段預(yù)訓(xùn)練后,fMRI 自編碼器通過圖像輔助進行調(diào)整,以實現(xiàn) fMRI 的重建,第二階段同樣遵循此過程。具體而言,從 n 個樣本批次中選擇一個樣本圖片及其對應(yīng)的 fMRI 記錄的神經(jīng)反應(yīng)圖片。圖片圖片經(jīng)過分塊和隨機遮蔽處理,分別轉(zhuǎn)變?yōu)?/span>圖片圖片,然后分別輸入到圖像編碼器圖片和 fMRI 編碼器圖片中,生成圖片圖片。為重建 fMRI圖片,利用交叉注意力模塊將圖片圖片進行合并:

圖片

W 和 b 分別代表相應(yīng)線性層的權(quán)重和偏置。圖片是縮放因子,圖片是鍵向量的維度。CA 是交叉注意力(cross-attention)的縮寫。圖片加上圖片后,輸入到 fMRI 解碼器中以重建圖片,得到圖片

圖片

圖像自編碼器中也進行了類似的計算,圖像編碼器圖片的輸出圖片通過交叉注意力模塊圖片圖片的輸出合并,然后用于解碼圖像圖片,得到圖片

圖片

通過優(yōu)化以下?lián)p失函數(shù),fMRI 和圖像自編碼器共同進行訓(xùn)練:

圖片

使用潛在擴散模型 (LDM) 生成圖像

圖片

在完成 FRL 第一階段和第二階段的訓(xùn)練后,使用 fMRI 特征學(xué)習(xí)器的編碼器圖片來驅(qū)動一個潛在擴散模型(LDM),從大腦活動生成圖像。如圖所示,擴散模型包括一個向前的擴散過程和一個逆向去噪過程。向前過程逐漸將圖像降解為正態(tài)高斯噪聲,通過逐漸引入變方差的高斯噪聲。

該研究通過從預(yù)訓(xùn)練的標簽至圖像潛在擴散模型(LDM)中提取視覺知識,并利用 fMRI 數(shù)據(jù)作為條件生成圖像。這里采用交叉注意力機制,將 fMRI 信息融入 LDM,遵循穩(wěn)定擴散研究的建議。為了強化條件信息的作用,這里采用了交叉注意力和時間步條件化的方法。在訓(xùn)練階段,使用 VQGAN 編碼器圖片和經(jīng) FRL 第一和第二階段訓(xùn)練的 fMRI 編碼器圖片 處理圖像 u 和 fMRI v,并在保持 LDM 不變的情況下微調(diào) fMRI 編碼器,損失函數(shù)為:

圖片

其中,圖片是擴散模型的噪聲計劃。在推理階段,過程從時間步長 T 的標準高斯噪聲開始,LDM 依次遵循逆向過程逐步去除隱藏表征的噪聲,條件化在給定的 fMRI 信息上。當?shù)竭_時間步長零時,使用 VQGAN 解碼器圖片將隱藏表征轉(zhuǎn)換為圖像。

實驗

重建結(jié)果 

圖片

通過與 DC-LDM、IC-GAN 和 SS-AE 等先前研究的對比,并在 GOD 和 BOLD5000 數(shù)據(jù)集上的評估中顯示,該研究提出的模型在準確率上顯著超過這些模型,其中相對于 DC-LDM 和 IC-GAN 分別提高了 39.34% 和 66.7%

圖片

在 GOD 數(shù)據(jù)集的其他四名受試者上的評估顯示,即使在允許 DC-LDM 在測試集上進行調(diào)整的情況下,該研究提出的模型在 50 種方式的 Top-1 分類準確率上也顯著優(yōu)于 DC-LDM,證明了提出的模型在不同受試者大腦活動重建方面的可靠性和優(yōu)越性。

實驗結(jié)果表明,利用所提出的 fMRI 表示學(xué)習(xí)框架和預(yù)先訓(xùn)練的 LDM,可以更好的重建大腦的視覺活動,大大優(yōu)于目前的基線。該工作有助于進一步挖掘神經(jīng)解碼模型的潛力。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-08-18 14:31:00

模型論文

2021-07-21 16:49:17

腦機接口機器人工智能

2023-03-06 12:35:45

AI大腦畫面圖像

2020-12-23 13:26:53

代碼麻省理工學(xué)院語言

2016-12-02 08:54:18

Lambda代碼云計算

2022-11-04 13:10:45

大腦神經(jīng)元網(wǎng)絡(luò)

2015-08-19 13:31:14

SDN

2012-08-29 11:24:51

2024-11-25 08:50:00

2019-03-25 11:40:06

程序員全棧工程師書籍清單

2019-10-30 21:19:42

技術(shù)數(shù)據(jù)結(jié)構(gòu)設(shè)計

2014-07-21 09:18:26

谷歌Google Brai

2023-03-04 21:51:27

圖像研究

2016-11-23 12:55:09

京東活動系統(tǒng)流量

2009-02-25 19:52:37

IT認證華為認證IT產(chǎn)業(yè)

2024-02-05 22:56:16

C++拷貝開發(fā)

2011-06-03 12:38:05

GeekApp

2022-02-21 10:07:26

單元測試項目

2018-05-30 09:54:40

2009-02-13 09:45:27

程序員JavaPHP
點贊
收藏

51CTO技術(shù)棧公眾號