小紅書(shū)多模態(tài)團(tuán)隊(duì)建立新「擴(kuò)散模型」:解碼腦電波,高清還原人眼所見(jiàn)
近些年,研究人員們對(duì)探索大腦如何解讀視覺(jué)信息,并試圖還原出原始圖像一直孜孜不倦。去年一篇被 CVPR 錄用的論文,通過(guò)擴(kuò)散模型重建視覺(jué)影像,給出了非常炸裂的效果—— AI 不光通過(guò)腦電波知道你看到了什么,并且?guī)湍惝?huà)了出來(lái)。
第一行:人眼所見(jiàn)畫(huà)面,第二行:AI 重現(xiàn)的畫(huà)面
簡(jiǎn)而言之,AI 利用 fMRI 信號(hào)(全稱(chēng)為功能性核磁共振成像)+ Diffusion Model,就能一定程度上實(shí)現(xiàn)「讀腦術(shù)」。
不過(guò),如何有效提取并利用 fMRI 信號(hào)中隱含的語(yǔ)義和輪廓信息,仍然是業(yè)界的一個(gè)關(guān)鍵挑戰(zhàn)。
在上月揭曉的 AAAI 2024 上,小紅書(shū)多模態(tài)團(tuán)隊(duì)提出了一種新方法——可控腦視覺(jué)擴(kuò)散模型(Controllable Mind Visual Diffusion Model,CMVDM)。該模型能很好地將 fMRI 信號(hào)還原為與原始視覺(jué)刺激語(yǔ)義屬性一致,空間結(jié)構(gòu)對(duì)齊的高質(zhì)量圖片,可以使得生成的圖像清晰度更高、也更接近人眼所見(jiàn)的原始圖像。
具體來(lái)說(shuō),CMVDM 首先使用屬性對(duì)齊和輔助網(wǎng)絡(luò),從 fMRI 數(shù)據(jù)中提取語(yǔ)義和輪廓信息。其次,引入一個(gè)控制模型并結(jié)合殘差塊,充分利用提取的信息進(jìn)行圖像合成,生成與原始視覺(jué)刺激在語(yǔ)義內(nèi)容和輪廓特征上高度相似的高質(zhì)量圖像。
通過(guò)大量實(shí)驗(yàn),小紅書(shū)多模態(tài)團(tuán)隊(duì)證明了 CMVDM 在可視化質(zhì)量和技術(shù)指標(biāo)上都優(yōu)于現(xiàn)有的最先進(jìn)的方法(SOTA)。此外,團(tuán)隊(duì)還發(fā)現(xiàn)大腦的高級(jí)視覺(jué)皮層(HVC) 主要關(guān)注視覺(jué)刺激的語(yǔ)義信息,而低級(jí)視覺(jué)皮層(LVC)則主要關(guān)注視覺(jué)刺激的結(jié)構(gòu)信息。
一、背景
理解人類(lèi)大腦在觀察視覺(jué)刺激(例如自然圖像)時(shí)發(fā)生的認(rèn)知過(guò)程,一直是神經(jīng)科學(xué)家的主要關(guān)注點(diǎn)。客觀的視覺(jué)刺激和主觀的認(rèn)知活動(dòng),都能在大腦的視覺(jué)皮層中引發(fā)復(fù)雜的神經(jīng)信號(hào)傳遞,從而為更高層次的認(rèn)知認(rèn)知和決策過(guò)程奠定基礎(chǔ)。隨著功能性磁共振成像(fMRI)等技術(shù)的進(jìn)步,人們已經(jīng)能夠以更高的精度和更細(xì)的粒度捕獲實(shí)時(shí)的大腦活動(dòng)信號(hào),從而加速了神經(jīng)科學(xué)研究的進(jìn)程。然而,對(duì)于認(rèn)知神經(jīng)科學(xué)和下游應(yīng)用(如腦機(jī)接口 BCI)來(lái)說(shuō),解讀和重構(gòu)這些復(fù)雜的信號(hào)仍然是一個(gè)巨大的挑戰(zhàn)。
早期嘗試在分析視覺(jué)任務(wù)的大腦活動(dòng)時(shí),主要關(guān)注將在人類(lèi)受試者的大腦活動(dòng)與觀察到的自然圖像相匹配,或者重構(gòu)簡(jiǎn)單幾何形狀的視覺(jué)模式。這些探索證明了從大腦信號(hào)中獲取感知圖像的語(yǔ)義信息的可行性,然而它們對(duì)未見(jiàn)過(guò)的語(yǔ)義類(lèi)別或復(fù)雜的重構(gòu)任務(wù)的泛化能力較差。
近期研究在從大腦信號(hào)重構(gòu)視覺(jué)刺激方面取得了重要進(jìn)展。Roman Beliy、Guy Gaziv 等工作能夠生成與原始視覺(jué)刺激形狀相似的圖像,但這些圖像存在嚴(yán)重的扭曲和模糊問(wèn)題。文獻(xiàn) IC-GAN, Mind-Vis 等研究采用了常用的生成模型,如生成對(duì)抗網(wǎng)絡(luò)(GAN)或擴(kuò)散模型,生成的高質(zhì)量 RGB 圖像在語(yǔ)義上與原始視覺(jué)刺激保持一致,條件是對(duì)應(yīng)的 fMRI 信號(hào)。然而,如圖所示,這些方法在位置一致性上存在問(wèn)題。 總的來(lái)說(shuō),現(xiàn)有方法未能有效地利用 fMRI 信號(hào)中固有的語(yǔ)義和空間特征。
為了解決上述問(wèn)題,我們提出了一種可控腦視覺(jué)擴(kuò)散模型(CMVDM),該模型通過(guò)控制網(wǎng)絡(luò)使擴(kuò)散模型能夠利用提取出可信的語(yǔ)義和輪廓信息,從而完成高度逼真的人類(lèi)視覺(jué)重構(gòu)。我們?cè)趦蓚€(gè)數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn)來(lái)評(píng)估 CMVDM 的性能。與現(xiàn)有的方法相比,它在定性和定量結(jié)果上都達(dá)到了最先進(jìn)的水平(SOTA),證明了 CMVDM 從 fMRI 信號(hào)中解碼高質(zhì)量和可控圖像的有效性。
二、方法
CMVDM 框架示意圖
具體來(lái)說(shuō),我們的方法可以被拆解為:
● 我們首先對(duì)一個(gè)預(yù)訓(xùn)練的潛在擴(kuò)散模型(Latent Diffusion Model,LDM)進(jìn)行微調(diào),使用語(yǔ)義對(duì)齊損失來(lái)提高性能,并預(yù)訓(xùn)練一個(gè)輪廓提取器來(lái)估計(jì) fMRI 數(shù)據(jù)的準(zhǔn)確語(yǔ)義和輪廓信息。
● 受 ControlNet 的啟發(fā),我們引入一個(gè)控制網(wǎng)絡(luò),該網(wǎng)絡(luò)將輪廓信息作為條件輸入到預(yù)訓(xùn)練的 LDM 中,以指導(dǎo)擴(kuò)散過(guò)程生成所需的圖像,這些圖像在語(yǔ)義和輪廓信息方面都與原始視覺(jué)刺激相匹配。
● 此外,我們構(gòu)建了一個(gè)殘差模塊來(lái)提供超出語(yǔ)義和輪廓的信息。
2.1 預(yù)訓(xùn)練 LDM 調(diào)整以及語(yǔ)義信息提取
我們引入在 HCP 數(shù)據(jù)集上預(yù)訓(xùn)練的 fMRI 信號(hào)特征提取器以及預(yù)訓(xùn)練的 LDM 網(wǎng)絡(luò),通過(guò)下述監(jiān)督損失優(yōu)化 fMRI 信號(hào)特征提取器以及 LDM 網(wǎng)絡(luò)中的 cross attention 層,從而基本實(shí)現(xiàn)將腦電信號(hào)還原為視覺(jué)刺激。
我們將上文從 fMRI 信號(hào)提取器中得到的特征定義為從 fMRI 信號(hào)中提取的語(yǔ)義信息。由于缺乏直接的語(yǔ)義監(jiān)督,只憑上文提到的監(jiān)督函數(shù)可能無(wú)法提供足夠的語(yǔ)義信息。因此,我們?cè)O(shè)計(jì)了一個(gè)語(yǔ)義對(duì)齊損失來(lái)進(jìn)一步增強(qiáng)語(yǔ)義信息和余弦相似度,如下所示。
核心思路是將從 fMRI 信號(hào)中提取出的語(yǔ)義信息與 CLIP 處理圖片得到的特征進(jìn)行對(duì)齊??梢詤⒖肌窩MVDM 框架示意圖」中的“Finetuning LDM”部分。
2.2 輪廓信息提取
由于缺乏明確的位置條件指導(dǎo),Latent Diffusion Model 生成與輪廓匹配的結(jié)果仍然是一個(gè)挑戰(zhàn)。因此,我們提出了輪廓估計(jì)網(wǎng)絡(luò)來(lái)提取輪廓信息。我們的輪廓估計(jì)網(wǎng)絡(luò)由兩個(gè)對(duì)稱(chēng)的部分組成:一個(gè)編碼器 ε 和一個(gè)解碼器 。編碼器將輸入圖像投影到 fMRI 信號(hào)空間,而解碼器則正相反。我們采用結(jié)構(gòu)相似性(SSIM)損失和平均絕對(duì)誤差(MAE)損失來(lái)優(yōu)化圖像和 Ground Truth 圖像之間的空間距離,具體公示如下。我們采用解碼器從 fMRI 信號(hào)中提取輪廓信息。
可以參考「CMVDM 框架示意圖」中的 “Silhouette Extraction” 部分。
2.3 控制網(wǎng)絡(luò)訓(xùn)練
在從 fMRI 信號(hào)中獲取增強(qiáng)的語(yǔ)義信息和可靠的輪廓信息后,我們使用它們來(lái)控制生成的結(jié)果。受 ControlNet 的啟發(fā),我們?cè)O(shè)計(jì)了一個(gè)控制模型來(lái)控制生成圖像的整體構(gòu)成。具體來(lái)說(shuō),我們固定了 LDM 中去噪網(wǎng)絡(luò)中的所有參數(shù),并將去噪網(wǎng)絡(luò)的 U-Net 編碼器克隆到可訓(xùn)練的控制模塊中??刂颇K的輸入包括噪聲潛在代碼、語(yǔ)義信息和輪廓信息。此外,為了彌補(bǔ)在屬性提取中丟失的 fMRI 信息,我們采用了一個(gè)可訓(xùn)練的殘差塊來(lái)添加超出語(yǔ)義和輪廓的信息。推理過(guò)程和監(jiān)督控制模型的訓(xùn)練損失表示為:
可以參考「CMVDM 框架示意圖」中的 “Control Model” 以及 部分。
三、實(shí)驗(yàn)
我們考慮在不同復(fù)雜度數(shù)據(jù)集上進(jìn)行視覺(jué)信號(hào)重建測(cè)試,考慮的數(shù)據(jù)集有兩個(gè):Generic Objects Dataset (GOD)、BOLD5000 (Brain, Object, Landscape Dataset)。前者多為受試者對(duì)簡(jiǎn)單圖片物體的腦電信號(hào)-圖片對(duì),后者則增加了場(chǎng)景復(fù)雜度和數(shù)據(jù)量。我們將 CMVDM 與四種 SOTA 方法進(jìn)行比較:Beliy、Gaziv、IC-GAN、MinD-Vis。為評(píng)估模型的性能,在評(píng)價(jià)指標(biāo)上我們考慮 N-way 分類(lèi)準(zhǔn)確度(Acc),皮爾森相關(guān)系數(shù)(PCC),結(jié)構(gòu)相似性度量(SSIM)來(lái)評(píng)價(jià)生成圖像的語(yǔ)義準(zhǔn)確度和結(jié)構(gòu)相似性。
3.1 指標(biāo)對(duì)比結(jié)果
如圖所示,實(shí)驗(yàn)結(jié)果揭示了 CMVDM 總體上顯著優(yōu)于其他方法。與 IC-GAN、MinD-Vis 相比,盡管兩者都產(chǎn)生了良好的結(jié)果,但 CMVDM 在 SSIM 方面顯著優(yōu)于它們。這表明 CMVDM 生成的圖像在物體輪廓和圖像結(jié)構(gòu)方面與視覺(jué)刺激的相似度更高。Gaziv 在 SSIM 方面取得了顯著的結(jié)果,但視覺(jué)結(jié)果表明,Gaziv 方法無(wú)法生成高保真度的圖像。
3.2 可視化對(duì)比結(jié)果
● GOD 上的可視化對(duì)比
● BOLD5000 對(duì)比結(jié)果
3.3 實(shí)驗(yàn)分析
本工作對(duì)提出的損失函數(shù)與引入的模塊進(jìn)行了消融實(shí)驗(yàn),并結(jié)合不同視覺(jué)皮層的腦電信號(hào)進(jìn)行實(shí)驗(yàn)對(duì)比與可視化驗(yàn)證,證明了所提出方法的有效性。
● 消融實(shí)驗(yàn)指標(biāo)分析
消融實(shí)驗(yàn)表明,CMVDM 在引入了新的對(duì)齊損失與結(jié)構(gòu)控制模塊后實(shí)現(xiàn)了對(duì)原始刺激更高的語(yǔ)義準(zhǔn)確度和結(jié)構(gòu)相似性。
引入的殘差模塊 有效提高了模型的表現(xiàn):
● 重建結(jié)果一致性可視化分析
我們的方法相比于 MinD-Vis 在生成一致性上更佳,表現(xiàn)出了對(duì)生成圖片結(jié)構(gòu)的有效控制。
● 不同視覺(jué)皮層區(qū)域信號(hào)的重建分析
V1,V2, V3 均屬于低級(jí)視覺(jué)皮層 LVC 的主要組成區(qū)域,F(xiàn)FA,PPA,LOC則屬于高級(jí)視覺(jué)皮層 HVC 的主要組成區(qū)域,VC 代表全視覺(jué)皮層
實(shí)驗(yàn)結(jié)果與可視化表明:LVC 在結(jié)構(gòu)指標(biāo)上(如 SSIM )表現(xiàn)優(yōu)于 HVC,表明低級(jí)視覺(jué)皮層捕獲視覺(jué)信息的結(jié)構(gòu)等低級(jí)特征;HVC 在語(yǔ)義指標(biāo)上(如 Acc )表現(xiàn)明顯優(yōu)于 LVC,表明高級(jí)視覺(jué)皮層用于處理更抽象的語(yǔ)義特征;借助全視覺(jué)皮層 VC 的信號(hào),我們的方法可以有效重建出語(yǔ)義、結(jié)構(gòu)與原始視覺(jué)刺激相近的高質(zhì)量圖像。
四、結(jié)束
我們提出了可控腦視覺(jué)擴(kuò)散模型(CMVDM)。這項(xiàng)工作將腦電信號(hào)重建問(wèn)題分解為特征提取和圖像重建兩個(gè)子任務(wù)。通過(guò)采取自監(jiān)督與半監(jiān)督方法,我們分別提取信號(hào)的語(yǔ)義和結(jié)構(gòu)特征,并利用預(yù)訓(xùn)練擴(kuò)散模型的豐富知識(shí)進(jìn)行多條件視覺(jué)信號(hào)重建,實(shí)現(xiàn)了與原始視覺(jué)刺激語(yǔ)義匹配且結(jié)構(gòu)相似的高質(zhì)量圖像生成。
更進(jìn)一步,CMVDM 在腦電信號(hào)重建相關(guān)的數(shù)據(jù)集上取得了最先進(jìn)成果(SOTA),展現(xiàn)了其在復(fù)雜場(chǎng)景視覺(jué)信號(hào)可控重建方面的良好泛化性,突出其在神經(jīng)科學(xué)和計(jì)算機(jī)視覺(jué)交叉領(lǐng)域的創(chuàng)新性和實(shí)用性。本文提出的 Diffusion-based 生成方案可拓展至泛化的條件可控生成領(lǐng)域,為小紅書(shū)發(fā)布端文生圖新玩法提供更多方案。
論文地址:https://arxiv.org/pdf/2305.10135.pdf
五、作者簡(jiǎn)介
- 曾博涵
現(xiàn)為北京航空航天大學(xué)碩士研究生,小紅書(shū)創(chuàng)作發(fā)布團(tuán)隊(duì)實(shí)習(xí)生,曾在 ECCV、CVPR、NeurIPS 等發(fā)表論文。主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)生成。 - 李尚霖
現(xiàn)為北京航空航天大學(xué)碩士研究生,小紅書(shū)創(chuàng)作發(fā)布團(tuán)隊(duì)實(shí)習(xí)生,曾在 AAAI 發(fā)表多篇論文。主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)生成、聯(lián)邦學(xué)習(xí)等。 - 萊戈(賈一亮)
小紅書(shū)生態(tài)算法團(tuán)隊(duì)負(fù)責(zé)人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等會(huì)刊發(fā)表 10 余篇論文,曾獲 YouTube-VOS 視頻分割競(jìng)賽 Top-3 排名,曾獲天池視覺(jué)分割大獎(jiǎng)賽復(fù)賽第 1 名。主要研究方向:目標(biāo)跟蹤、視頻分割、多模態(tài)分類(lèi)/檢索等。 - 湯神(田不易)
小紅書(shū)創(chuàng)作發(fā)布團(tuán)隊(duì)負(fù)責(zé)人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等會(huì)議與期刊發(fā)表近 20 篇論文。多次刷新 WiderFace 和 FDDB 國(guó)際榜單世界記錄,ICCV Wider Challenge 人臉檢測(cè)國(guó)際競(jìng)賽冠軍,ICCV VOT 單目標(biāo)跟蹤冠軍,CVPR UG2+ 亞軍。