自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

你大腦中的畫面,現(xiàn)在可以高清還原了

人工智能 新聞
AI 直接把你腦中的創(chuàng)意畫出來(lái)的時(shí)刻,已經(jīng)到來(lái)了。

近幾年,圖像生成領(lǐng)域取得了巨大的進(jìn)步,尤其是文本到圖像生成方面取得了重大突破:只要我們用文本描述自己的想法,AI 就能生成新奇又逼真的圖像。

但其實(shí)我們可以更進(jìn)一步 —— 將頭腦中的想法轉(zhuǎn)化為文本這一步可以省去,直接通過(guò)腦活動(dòng)(如 EEG(腦電圖)記錄)來(lái)控制圖像的生成創(chuàng)作。

這種「思維到圖像」的生成方式有著廣闊的應(yīng)用前景。例如,它能極大提高藝術(shù)創(chuàng)作的效率,并幫助人們捕捉稍縱即逝的靈感;它也有可能將人們夜晚的夢(mèng)境進(jìn)行可視化;它甚至可能用于心理治療,幫助自閉癥兒童和語(yǔ)言障礙患者。

最近,來(lái)自清華大學(xué)深圳國(guó)際研究生院、騰訊 AI Lab 和鵬城實(shí)驗(yàn)室的研究者們聯(lián)合發(fā)表了一篇「思維到圖像」的研究論文,利用預(yù)訓(xùn)練的文本到圖像模型(比如 Stable Diffusion)強(qiáng)大的生成能力,直接從腦電圖信號(hào)生成了高質(zhì)量的圖像。

圖片圖片

論文地址:https://arxiv.org/pdf/2306.16934.pdf

項(xiàng)目地址:https://github.com/bbaaii/DreamDiffusion

方法概述

近期一些相關(guān)研究(例如 MinD-Vis)嘗試基于 fMRI(功能性磁共振成像信號(hào))來(lái)重建視覺(jué)信息。他們已經(jīng)證明了利用腦活動(dòng)重建高質(zhì)量結(jié)果的可行性。然而,這些方法與理想中使用腦信號(hào)進(jìn)行快捷、高效的創(chuàng)作還差得太遠(yuǎn),這主要有兩點(diǎn)原因:

首先,fMRI 設(shè)備不便攜,并且需要專業(yè)人員操作,因此捕捉 fMRI 信號(hào)很困難;

其次,fMRI 數(shù)據(jù)采集的成本較高,這在實(shí)際的藝術(shù)創(chuàng)作中會(huì)很大程度地阻礙該方法的使用。

相比之下,EEG 是一種無(wú)創(chuàng)、低成本的腦電活動(dòng)記錄方法,并且現(xiàn)在市面上已經(jīng)有獲得 EEG 信號(hào)的便攜商用產(chǎn)品。

但實(shí)現(xiàn)「思維到圖像」的生成還面臨兩個(gè)主要挑戰(zhàn):

1)EEG 信號(hào)通過(guò)非侵入式的方法來(lái)捕捉,因此它本質(zhì)上是有噪聲的。此外,EEG 數(shù)據(jù)有限,個(gè)體差異不容忽視。那么,如何從如此多的約束條件下的腦電信號(hào)中獲得有效且穩(wěn)健的語(yǔ)義表征呢?

2)由于使用了 CLIP 并在大量文本 - 圖像對(duì)上進(jìn)行訓(xùn)練,Stable Diffusion 中的文本和圖像空間對(duì)齊良好。然而,EEG 信號(hào)具有其自身的特點(diǎn),其空間與文本和圖像大不相同。如何在有限且?guī)в性肼暤?EEG - 圖像對(duì)上對(duì)齊 EEG、文本和圖像空間?

為了解決第一個(gè)挑戰(zhàn),該研究提出,使用大量的 EEG 數(shù)據(jù)來(lái)訓(xùn)練 EEG 表征,而不是僅用罕見(jiàn)的 EEG 圖像對(duì)。該研究采用掩碼信號(hào)建模的方法,根據(jù)上下文線索預(yù)測(cè)缺失的 token。

不同于將輸入視為二維圖像并屏蔽空間信息的 MAE 和 MinD-Vis,該研究考慮了 EEG 信號(hào)的時(shí)間特性,并深入挖掘人類大腦時(shí)序變化背后的語(yǔ)義。該研究隨機(jī)屏蔽了一部分 token,然后在時(shí)間域內(nèi)重建這些被屏蔽的 token。通過(guò)這種方式,預(yù)訓(xùn)練的編碼器能夠?qū)Σ煌瑐€(gè)體和不同腦活動(dòng)的 EEG 數(shù)據(jù)進(jìn)行深入理解。

對(duì)于第二個(gè)挑戰(zhàn),先前的解決方法通常直接對(duì) Stable Diffusion 模型進(jìn)行微調(diào),使用少量噪聲數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練。然而,僅通過(guò)最終的圖像重構(gòu)損失對(duì) SD 進(jìn)行端到端微調(diào),很難學(xué)習(xí)到腦信號(hào)(例如 EEG 和 fMRI)與文本空間之間的準(zhǔn)確對(duì)齊。因此,研究團(tuán)隊(duì)提出采用額外的 CLIP 監(jiān)督,幫助實(shí)現(xiàn) EEG、文本和圖像空間的對(duì)齊。

具體而言,SD 本身使用 CLIP 的文本編碼器來(lái)生成文本嵌入,這與之前階段的掩碼預(yù)訓(xùn)練 EEG 嵌入非常不同。利用 CLIP 的圖像編碼器提取豐富的圖像嵌入,這些嵌入與 CLIP 的文本嵌入很好地對(duì)齊。然后,這些 CLIP 圖像嵌入被用于進(jìn)一步優(yōu)化 EEG 嵌入表征。因此,經(jīng)過(guò)改進(jìn)的 EEG 特征嵌入可以與 CLIP 的圖像和文本嵌入很好地對(duì)齊,并更適合于 SD 圖像生成,從而提高生成圖像的質(zhì)量。

基于以上兩個(gè)精心設(shè)計(jì)的方案,該研究提出了新方法 DreamDiffusion。DreamDiffusion 能夠從腦電圖(EEG)信號(hào)中生成高質(zhì)量且逼真的圖像。

圖片圖片

具體來(lái)說(shuō),DreamDiffusion 主要由三個(gè)部分組成:

1)掩碼信號(hào)預(yù)訓(xùn)練,以實(shí)現(xiàn)有效和穩(wěn)健的 EEG 編碼器;

2)使用預(yù)訓(xùn)練的 Stable Diffusion 和有限的 EEG 圖像對(duì)進(jìn)行微調(diào);

3)使用 CLIP 編碼器,對(duì)齊 EEG、文本和圖像空間。

首先,研究人員利用帶有大量噪聲的 EEG 數(shù)據(jù),采用掩碼信號(hào)建模,訓(xùn)練 EEG 編碼器,提取上下文知識(shí)。然后,得到的 EEG 編碼器通過(guò)交叉注意力機(jī)制被用來(lái)為 Stable Diffusion 提供條件特征。

圖片圖片

為了增強(qiáng) EEG 特征與 Stable Diffusion 的兼容性,研究人員進(jìn)一步通過(guò)在微調(diào)過(guò)程中減少 EEG 嵌入與 CLIP 圖像嵌入之間的距離,進(jìn)一步對(duì)齊了 EEG、文本和圖像的嵌入空間。

實(shí)驗(yàn)與分析

與 Brain2Image 對(duì)比

研究人員將本文方法與 Brain2Image 進(jìn)行比較。Brain2Image 采用傳統(tǒng)的生成模型,即變分自編碼器(VAE)和生成對(duì)抗網(wǎng)絡(luò)(GAN),用于實(shí)現(xiàn)從 EEG 到圖像的轉(zhuǎn)換。然而,Brain2Image 僅提供了少數(shù)類別的結(jié)果,并沒(méi)有提供參考實(shí)現(xiàn)。

鑒于此,該研究對(duì) Brain2Image 論文中展示的幾個(gè)類別(即飛機(jī)、南瓜燈和熊貓)進(jìn)行了定性比較。為確保比較公平,研究人員采用了與 Brain2Image 論文中所述相同的評(píng)估策略,并在下圖 5 中展示了不同方法生成的結(jié)果。

下圖第一行展示了 Brain2Image 生成的結(jié)果,最后一行是研究人員提出的方法 DreamDiffusion 生成的??梢钥吹?DreamDiffusion 生成的圖像質(zhì)量明顯高于 Brain2Image 生成的圖像,這也驗(yàn)證了本文方法的有效性。

圖片圖片

消融實(shí)驗(yàn)

預(yù)訓(xùn)練的作用:為了證明大規(guī)模 EEG 數(shù)據(jù)預(yù)訓(xùn)練的有效性,該研究使用未經(jīng)訓(xùn)練的編碼器來(lái)訓(xùn)練多個(gè)模型進(jìn)行驗(yàn)證。其中一個(gè)模型與完整模型相同,而另一個(gè)模型只有兩層的 EEG 編碼層,以避免數(shù)據(jù)過(guò)擬合。在訓(xùn)練過(guò)程中,這兩個(gè)模型分別進(jìn)行了有 / 無(wú) CLIP 監(jiān)督的訓(xùn)練,結(jié)果如表 1 中 Model 列的 1 到 4 所示。可以看到,沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練的模型準(zhǔn)確性有所降低。

圖片

mask ratio:本文還研究了用 EEG 數(shù)據(jù)確定 MSM 預(yù)訓(xùn)練的最佳掩碼比。如表 1 中的 Model 列的 5 到 7 所示,過(guò)高或過(guò)低的掩碼比會(huì)對(duì)模型性能都會(huì)產(chǎn)生不利影響。當(dāng)掩碼比為 0.75 達(dá)到最高的整體準(zhǔn)確率。這一發(fā)現(xiàn)至關(guān)重要,因?yàn)檫@表明,與通常使用低掩碼比的自然語(yǔ)言處理不同,在對(duì) EEG 進(jìn)行 MSM 時(shí),高掩碼比是一個(gè)較好的選擇。

CLIP 對(duì)齊:該方法的關(guān)鍵之一是通過(guò) CLIP 編碼器將 EEG 表征與圖像對(duì)齊。該研究進(jìn)行實(shí)驗(yàn)驗(yàn)證了這種方法的有效性,結(jié)果如表 1 所示??梢杂^察到,當(dāng)沒(méi)有使用 CLIP 監(jiān)督時(shí),模型的性能明顯下降。實(shí)際上,如圖 6 右下角所示,即使在沒(méi)有預(yù)訓(xùn)練的情況下,使用 CLIP 對(duì)齊 EEG 特征仍然可以得到合理的結(jié)果,這凸顯了 CLIP 監(jiān)督在該方法中的重要性。

圖片圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器學(xué)習(xí)
相關(guān)推薦

2019-11-01 12:36:14

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-03-19 13:29:19

2022-12-04 17:37:15

Arch LinuxUnity 7.6

2023-05-05 13:10:16

3D數(shù)字人

2021-08-23 13:19:24

算法大數(shù)據(jù)技術(shù)

2020-08-04 06:32:21

JavaScript代碼開發(fā)

2024-01-11 11:14:57

WaylandShutter

2021-03-11 09:46:45

人工智能AI神經(jīng)網(wǎng)絡(luò)

2011-05-07 13:42:55

W5500明基DLP

2021-11-04 23:14:42

人工智能機(jī)器學(xué)習(xí)技術(shù)

2016-09-21 08:26:27

LinuxGoogleUbuntu

2020-10-22 09:16:21

VMware虛擬化Nvidia vGPU

2021-04-13 10:20:13

Edge Canary瀏覽器微軟

2015-10-15 09:39:06

2009-03-17 08:46:57

Windows 7微軟發(fā)布

2019-06-12 18:30:17

LinuxLutris開源游戲平臺(tái)

2012-06-12 14:23:02

面向?qū)ο?/a>編程開發(fā)

2023-03-06 12:35:45

AI大腦畫面圖像

2020-11-11 07:52:04

CSS功能瀏覽器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)