Stable Diffusion讀你大腦信號(hào)就能重現(xiàn)圖像,研究還被CVPR接收了
如果人工智能可以解讀你的想象,將你腦海中的圖像變成現(xiàn)實(shí),那會(huì)怎樣?
雖然這聽起來有點(diǎn)賽博朋克。但最近發(fā)表的一篇論文,讓 AI 圈吵翻了天。
這篇論文發(fā)現(xiàn),他們使用最近非常火的 Stable Diffusion,就能重建大腦活動(dòng)中的高分辨率、高精準(zhǔn)圖像。作者寫道,與之前的研究不同,他們不需要訓(xùn)練或微調(diào)人工智能模型來創(chuàng)建這些圖像。
- 論文地址:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf
- 網(wǎng)頁地址:https://sites.google.com/view/stablediffusion-with-brain/
他們是怎么做到的呢?
在此研究中,作者基于 Stable Diffusion 來重建通過功能磁共振成像 (fMRI) 而獲得的人腦活動(dòng)圖像。作者也表示,通過研究與大腦相關(guān)功能的不同組成部分(例如圖像 Z 的潛在向量等),也有助于了解隱擴(kuò)散模型的機(jī)制。
這篇論文也已經(jīng)被 CVPR 2023 接收。
該研究的主要貢獻(xiàn)包括:
- 證明了其簡(jiǎn)單框架可以從具有高語義保真度的大腦活動(dòng)中重建高分辨率(512×512)圖像,而無需訓(xùn)練或微調(diào)復(fù)雜的深度生成模型,如下圖所示;
- 通過將特定組成部分映射到不同的大腦區(qū)域,該研究從神經(jīng)科學(xué)的角度定量解釋了 LDM 的每個(gè)組成部分;
- 該研究客觀地解釋了 LDM 實(shí)現(xiàn)的文本到圖像轉(zhuǎn)換過程如何結(jié)合條件文本表達(dá)的語義信息,同時(shí)保持原始圖像的外觀。
方法概覽
該研究的總體方法如下圖 2 所示。圖 2(上)是該研究中使用的 LDM 示意圖,其中,ε 表示圖像編碼器,D 表示圖像解碼器,τ 表示文本編碼器(CLIP)。
圖 2(中)是該研究的解碼分析示意圖。研究者分別從早期(藍(lán)色)和高級(jí)(黃色)視覺皮層內(nèi)的 fMRI 信號(hào)中解碼了呈現(xiàn)圖像 (z) 和相關(guān)文本 c 的潛在表征。這些潛在表征被用作生成重建圖像 X_zc 的輸入。
圖 2(下)是該研究的編碼分析示意圖。研究者構(gòu)建了編碼模型來預(yù)測(cè)來自 LDM 不同組成部分的 fMRI 信號(hào),包括 z、c 和 z_c。
有關(guān) Stable Diffusion 這里就不做過多介紹,相信很多人都比較了解。
結(jié)果
我們來看一下該研究的視覺重建結(jié)果。
解碼?
下圖 3 展示了一個(gè)主體(subj01)的視覺重建結(jié)果。研究者為每個(gè)測(cè)試圖像生成了五個(gè)圖像,并選擇了具有最高 PSM 的圖像。一方面,只用 z 重建的圖像在視覺上與原始圖像一致,但未能抓住其語義內(nèi)容。另一方面,只用 c 重建的圖像生成的圖像具有很高的語義保真度,但在視覺上卻不一致。最后,使用 z_c 重建的圖像可以生成具有高語義保真度的高分辨率圖像。
圖 4 展示了所有測(cè)試者對(duì)同一圖像的重建圖像(所有圖像都是用 z_c 生成的)??傮w來說,各測(cè)試者的重建質(zhì)量是穩(wěn)定和準(zhǔn)確的。
圖 5 是定量評(píng)估的結(jié)果:
編碼模型?
圖 6 顯示了編碼模型對(duì)與 LDM 相關(guān)的三種潛像的預(yù)測(cè)精度:z,原始圖像的潛像;c,圖像文本注釋的潛像;以及 z_c,經(jīng)過與 c 交叉注意力反向擴(kuò)散過程后的 z 的加噪潛像表征。
圖 7 顯示,當(dāng)加入少量的噪聲時(shí),z 對(duì)整個(gè)皮層的體素活動(dòng)的預(yù)測(cè)比 z_c 更好。有趣的是,當(dāng)增加噪聲水平時(shí),z_c 對(duì)高位視覺皮層內(nèi)體素活動(dòng)的預(yù)測(cè)優(yōu)于 z,表明圖像的語義內(nèi)容逐漸被強(qiáng)調(diào)。
在迭代去噪過程中,添加噪聲的潛在表征如何變化?圖 8 顯示,在去噪過程的早期階段,z 信號(hào)主導(dǎo)了 fMRI 信號(hào)的預(yù)測(cè)。在去噪過程的中間階段,z_c 對(duì)高位視覺皮層內(nèi)活動(dòng)的預(yù)測(cè)比 z 好得多,表明大部分語義內(nèi)容在這個(gè)階段出現(xiàn)了。結(jié)果顯示了 LDM 如何從噪聲中提煉和生成圖像。
最后,研究者探討了 U-Net 的每一層都在處理什么信息。圖 9 顯示了去噪過程的不同步驟(早期、中期、晚期)以及 U-Net 不同層的編碼模型的結(jié)果。在去噪過程的早期階段,U-Net 的瓶頸層(橙色)在整個(gè)皮層中產(chǎn)生了最高的預(yù)測(cè)性能。然而,隨著去噪的進(jìn)行,U-Net 的早期層(藍(lán)色)預(yù)測(cè)早期視覺皮層內(nèi)的活動(dòng),而瓶頸層則轉(zhuǎn)向?qū)Ω叩囊曈X皮層的卓越預(yù)測(cè)能力。
更多研究細(xì)節(jié),可查看原論文。