自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS 2024 Oral | 還原所見(jiàn)!揭秘從腦信號(hào)重建高保真流暢視頻

人工智能 新聞
本文創(chuàng)新性地提出了 NeuroClips,這是一種用于 fMRI-to-video 重建的新穎框架。

本篇論文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2024 會(huì)議接收為 Oral Presentation (64/15671=0.4%) 。本文主要作者來(lái)自同濟(jì)大學(xué)苗奪謙,張奇團(tuán)隊(duì),其余作者來(lái)自俄亥俄州州立大學(xué)、悉尼科技大學(xué)、中科院自動(dòng)化所、北京安定醫(yī)院。其中,第一作者龔子璇就讀于同濟(jì)大學(xué)計(jì)算機(jī)學(xué)院,研究方向涉及 fMRI 解碼和多模態(tài)學(xué)習(xí)。

從大腦信號(hào)還原視覺(jué)刺激一直是神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)研究人員們津津樂(lè)道的話題。然而,基于非侵入式大腦活動(dòng) fMRI(功能性磁共振成像)到視頻的重建研究仍然有限,因?yàn)榻獯a連續(xù)視覺(jué)刺激的時(shí)空感知是一項(xiàng)艱巨的挑戰(zhàn)。為此,本文提出了一種名為 NeuroClips 的創(chuàng)新框架,用于從 fMRI 數(shù)據(jù)中解碼高保真和流暢的視頻。

圖片


  • 論文題目:NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
  • 論文鏈接:https://arxiv.org/abs/2410.19452
  • 項(xiàng)目主頁(yè):https://github.com/gongzix/NeuroClips

從 fMRI 重建視頻具有哪些挑戰(zhàn)?

1.fMRI 的低時(shí)間分辨率。功能性磁共振成像 fMRI 相比于常用的 EEG 腦電信號(hào)而言,具有極高的空間分辨率,可以對(duì)全腦進(jìn)行細(xì)致的掃描。但是由于全腦掃描更加耗時(shí),fMRI 擁有較低的時(shí)間分辨率,通常 2s 才能完成一次采樣,幀率只有 0.5。然而,需要重建視頻的時(shí)間分辨率是極高的,通常達(dá)到 30~60 的幀率。因此 fMRI 的低時(shí)間分辨率(0.5fps)和真實(shí)視頻采樣的高時(shí)間分辨率(30fps)之間存在嚴(yán)重沖突。

2. 重建視頻的低級(jí)視覺(jué)感知缺乏控制。以往的研究對(duì)于視頻重建,已經(jīng)實(shí)現(xiàn)了較為精準(zhǔn)的語(yǔ)義重建。例如,當(dāng)采集被試看見(jiàn)一個(gè)男人的 fMRI 信號(hào)并用于重建,可以獲得一段男人的視頻。然而,視頻更難的點(diǎn)在于物體形狀變化,人物動(dòng)作以及場(chǎng)景的變化。因此過(guò)往的研究缺乏對(duì)重建視頻的低級(jí)視覺(jué)感知的控制。

為了解決上述挑戰(zhàn),我們主張利用關(guān)鍵幀圖像作為過(guò)渡視頻重建的錨點(diǎn),與大腦的認(rèn)知機(jī)制相吻合。此外,fMRI 到視頻重建考慮低級(jí)感知特征,從大腦活動(dòng)解碼低級(jí)感知流,如運(yùn)動(dòng)和動(dòng)態(tài)場(chǎng)景,以補(bǔ)充關(guān)鍵幀,從而增強(qiáng)高保真幀的重建,生成平滑的視頻。我們提出了一種新穎的 fMRI-to-video 重建框架 NeuroClips,引入了兩個(gè)可訓(xùn)練的組件 —— 感知重建器(Perception Reconstructor)和語(yǔ)義重建器(Semantics Reconstructor),分別用于重建低級(jí)感知流和語(yǔ)義關(guān)鍵幀。而在推理過(guò)程中,采用一個(gè)預(yù)先訓(xùn)練好的 T2V 擴(kuò)散模型,注入關(guān)鍵幀和低級(jí)感知流,以實(shí)現(xiàn)高保真度、平滑度和一致性的視頻重建。該模型不僅在各項(xiàng)指標(biāo)上實(shí)現(xiàn)了 SOTA 性能,還通過(guò)使用多 fMRI 融合,開創(chuàng)了長(zhǎng)達(dá) 6 秒、8 幀率視頻重建的探索。

研究方法

NeuroClips 的整體框架如下圖所示:

圖片

圖 1:NeuroClips 的整體框架。紅色的線代表推理過(guò)程。

NeuroClips 包括三個(gè)關(guān)鍵組件:感知重建器(PR)從感知層面生成模糊但連續(xù)的粗略視頻,同時(shí)確保其連續(xù)幀之間的一致性;語(yǔ)義重建器(SR)從語(yǔ)義層面重建高質(zhì)量的關(guān)鍵幀圖像;推理過(guò)程是 fMRI 到視頻的重建過(guò)程,它使用 T2V 擴(kuò)散模型,并結(jié)合 PR 和 SR 的重建結(jié)果,以高保真度、平滑度和一致性重建最終的保真視頻。

1、感知重建器(Perception Reconstructor,PR)

將視頻按兩秒間隔分割成多個(gè)片段(即 fMRI 的時(shí)間分辨率)。通過(guò)在 Stable Diffusion 的 VAE 解碼器中添加時(shí)間注意力層,獲得對(duì)齊的 fMRI 模糊嵌入,這些嵌入可以用于生成模糊視頻,其缺乏語(yǔ)義內(nèi)容,但能感知場(chǎng)景的通用動(dòng)作信息,在位置、形狀、場(chǎng)景等感知指標(biāo)上表現(xiàn)出最先進(jìn)的水平。

2、語(yǔ)義重建器(Semantics Reconstructor , SR)

語(yǔ)義重構(gòu)器(SR)的核心目標(biāo)是重建高質(zhì)量的關(guān)鍵幀圖像,以解決視覺(jué)刺激和 fMRI 信號(hào)之間的幀率不匹配的問(wèn)題,從而提高最終視頻的保真度?,F(xiàn)有愈發(fā)成熟的 fMRI 到圖像重建研究促進(jìn)了我們的目標(biāo),包括將 fMRI 進(jìn)行低維處理、關(guān)鍵幀圖像與 fMRI 的對(duì)齊、重建嵌入生成以及文本模態(tài)的重建增強(qiáng)。受到對(duì)比學(xué)習(xí)的啟發(fā),我們?cè)?img src="https://s6.51cto.com/oss/202411/24/12d4c28058aeb145202349dc933361a0d42570.webp" alt="圖片" title="圖片" style="visibility: visible; width: 128px;" data-type="inline">和圖片之間進(jìn)行對(duì)比學(xué)習(xí),通過(guò)額外的文本模態(tài)來(lái)增強(qiáng)重建嵌入圖片。對(duì)比損失作為這一過(guò)程的訓(xùn)練損失圖片。我們?cè)O(shè)置混合系數(shù)圖片圖片來(lái)平衡多個(gè)損失。

圖片

其中,圖片是關(guān)鍵幀圖像和 fMRI 對(duì)齊采用的結(jié)合了 MixCo 和對(duì)比損失的雙向損失,圖片是重建時(shí)與 DALLE?2 相同的擴(kuò)散先驗(yàn)損失。

3、推理過(guò)程(Inference Process)

我們結(jié)合模糊的粗略視頻(PR 輸出)、高質(zhì)量的關(guān)鍵幀圖像(模糊視頻第一幀嵌入圖片和 fMRI 嵌入輸入到 SR 中的 SDXL unCLIP 生成)和額外的文本模態(tài)分別作為圖片圖片圖片Guidance 來(lái)重建具有高保真度、平滑度和一致性的最終視頻。我們采用 text-to-video(T2V)的擴(kuò)散模型來(lái)幫助重建視頻,而由于嵌入的語(yǔ)義僅來(lái)自文本模態(tài)。我們還需要通過(guò)增強(qiáng)來(lái)自視頻和圖像模態(tài)的語(yǔ)義來(lái)創(chuàng)建 “綜合語(yǔ)義” 嵌入,以幫助實(shí)現(xiàn) T2V 擴(kuò)散模型的可控生成。

4、多 fMRI 融合(Multi-fMRI Fusion)

如何從 fMRI 中重建更長(zhǎng)的視頻呢?在推理過(guò)程中,我們考慮來(lái)自兩個(gè)相鄰的 fMRI 樣本的兩個(gè)重建關(guān)鍵幀的語(yǔ)義相似性,如果語(yǔ)義相似,我們就用前一個(gè) fMRI 重建視頻的尾幀替換后一個(gè) fMRI 的關(guān)鍵幀,該幀將作為后一個(gè) fMRI 的第一幀來(lái)生成視頻。如圖 2 所示,通過(guò)這一策略,我們首次實(shí)現(xiàn)了長(zhǎng)達(dá) 6 秒的連續(xù)視頻重建。

圖片

圖 2:多 fMRI 融合的可視化。

實(shí)驗(yàn)結(jié)果

本文使用開源的 fMRI-video 數(shù)據(jù)集(cc2017 數(shù)據(jù)集)進(jìn)行了 fMRI-to-video 的重建實(shí)驗(yàn),通過(guò)基于幀的和基于視頻的指標(biāo)進(jìn)行了定量評(píng)估,并進(jìn)行了全面分析。

圖片

從 fMRI 重建視頻的 Demos

圖片

圖片

表 1:NeuroClips 重建性能與其他方法的定量比較。

結(jié)果如上表所示,NeuroClips 在 7 個(gè)指標(biāo)中的 5 個(gè)上顯著優(yōu)于先前的方法,SSIM 性能大幅提升,表明其補(bǔ)充了像素級(jí)控制的不足。語(yǔ)義層面的指標(biāo)也總體上優(yōu)于先前的方法,證明了 NeuroClips 更好的語(yǔ)義對(duì)齊范式。在評(píng)估視頻平滑度的 ST 級(jí)指標(biāo)上,由于我們引入的模糊的粗略視頻( Guidance),NeuroClips 遠(yuǎn)超 MinD-Video,重建視頻更加流暢。

神經(jīng)科學(xué)解釋性

此外,為了探究神經(jīng)層面的可解釋性,本文在腦平面上可視化了體素級(jí)別的權(quán)重以觀察整個(gè)大腦的關(guān)注度??梢杂^察到,任何任務(wù)視覺(jué)皮層都占據(jù)著重要的位置,以及 SR 和 PR 的不同權(quán)重。

圖片

結(jié)論

本文創(chuàng)新性地提出了 NeuroClips,這是一種用于 fMRI-to-video 重建的新穎框架。通過(guò)感知重建和語(yǔ)義重建兩條路徑實(shí)現(xiàn)了體素級(jí)和語(yǔ)義級(jí)的 fMRI 視覺(jué)學(xué)習(xí)。我們可以在不進(jìn)行額外訓(xùn)練的情況下將它們配置到最新的視頻擴(kuò)散模型中,以生成更高質(zhì)量、更高幀率和更長(zhǎng)的視頻。NeuroClips 能夠在語(yǔ)義級(jí)精度和像素級(jí)匹配程度上恢復(fù)視頻,從而在該領(lǐng)域建立了新的最佳水平,我們還可視化了 NeuroClips 的神經(jīng)科學(xué)可解釋性。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-08-21 12:10:08

算法AI

2024-12-23 15:46:59

2023-04-14 14:02:40

視覺(jué)AI

2024-11-11 11:05:00

大語(yǔ)言模型系統(tǒng)

2024-05-22 16:01:32

2023-06-20 16:26:21

2024-08-07 09:30:00

2021-01-06 10:51:56

量子互聯(lián)網(wǎng)網(wǎng)絡(luò)安全

2024-09-10 11:21:30

2021-08-06 08:20:38

微軟Teams音樂(lè)傳輸

2021-04-14 15:03:16

數(shù)據(jù)性能存儲(chǔ)

2023-01-09 13:18:59

AI

2025-04-01 09:40:00

2023-12-24 13:34:59

AI讀腦術(shù)

2021-04-14 14:50:27

計(jì)算機(jī)模型 技術(shù)

2024-11-26 09:43:37

2024-07-22 08:22:00

2025-02-20 09:36:45

2024-04-03 14:11:49

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)