自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LeCun上月球?南開(kāi)、字節(jié)開(kāi)源StoryDiffusion讓多圖漫畫(huà)和長(zhǎng)視頻更連貫

人工智能 新聞
有了 StoryDiffusion,更加一致性的圖像和視頻生成得到了保障。

兩天前,圖靈獎(jiǎng)得主 Yann LeCun 轉(zhuǎn)載了「自己登上月球去探索」的長(zhǎng)篇漫畫(huà),引起了網(wǎng)友的熱議。

圖片

其實(shí),產(chǎn)出這些漫畫(huà)的研究出自南開(kāi)大學(xué)、字節(jié)跳動(dòng)等機(jī)構(gòu)。在《StoryDiffusion:Consistent Self-Attention for long-range image and video generation》這篇論文中,該研究團(tuán)隊(duì)提出了一種名為 StoryDiffusion 的新方法,用于生成一致的圖像和視頻以講述復(fù)雜故事。

圖片

  • 論文地址:https://arxiv.org/pdf/2405.01434v1
  • 項(xiàng)目主頁(yè):https://storydiffusion.github.io/

相關(guān)項(xiàng)目已經(jīng)在 GitHub 上獲得了 1k 的 Star 量。

GitHub 地址:https://github.com/HVision-NKU/StoryDiffusion

根據(jù)項(xiàng)目演示,StoryDiffusion 可以生成各種風(fēng)格的漫畫(huà),在講述連貫故事的同時(shí),保持了角色風(fēng)格和服裝的一致性。

StoryDiffusion 可以同時(shí)保持多個(gè)角色的身份,并在一系列圖像中生成一致的角色。

此外,StoryDiffusion 還能夠以生成的一致圖像或用戶輸入的圖像為條件,生成高質(zhì)量的視頻。

圖片

圖片

我們知道,對(duì)于基于擴(kuò)散的生成模型來(lái)說(shuō),如何在一系列生成的圖像中保持內(nèi)容一致性,尤其是那些包含復(fù)雜主題和細(xì)節(jié)的圖像,是一個(gè)重大挑戰(zhàn)。

因此,該研究團(tuán)隊(duì)提出了一種新的自注意力計(jì)算方法,稱為一致性自注意力(Consistent Self-Attention),通過(guò)在生成圖像時(shí)建立批內(nèi)圖像之間的聯(lián)系,以保持人物的一致性,無(wú)需訓(xùn)練即可生成主題一致的圖像。

為了將這種方法擴(kuò)展到長(zhǎng)視頻生成,該研究團(tuán)隊(duì)引入了語(yǔ)義運(yùn)動(dòng)預(yù)測(cè)器 (Semantic Motion Predictor),將圖像編碼到語(yǔ)義空間,預(yù)測(cè)語(yǔ)義空間中的運(yùn)動(dòng),以生成視頻。這比僅基于潛在空間的運(yùn)動(dòng)預(yù)測(cè)更加穩(wěn)定。

然后進(jìn)行框架整合,將一致性自注意力和語(yǔ)義運(yùn)動(dòng)預(yù)測(cè)器結(jié)合,可以生成一致的視頻,講述復(fù)雜的故事。相比現(xiàn)有方法,StoryDiffusion 可以生成更流暢、連貫的視頻。

圖 1: 通過(guò)該團(tuán)隊(duì) StroyDiffusion 生成的圖像和視頻

方法概覽

該研究團(tuán)隊(duì)的方法可以分為兩個(gè)階段,如圖 2 和圖 3 所示。

在第一階段,StoryDiffusion 使用一致性自注意力(Consistent Self-Attention)以無(wú)訓(xùn)練的方式生成主題一致的圖像。這些一致的圖像可以直接用于講故事,也可以作為第二階段的輸入。在第二階段,StoryDiffusion 基于這些一致的圖像創(chuàng)建一致的過(guò)渡視頻。

圖 2:StoryDiffusion 生成主題一致圖像的流程概述

圖片圖3:生成轉(zhuǎn)場(chǎng)視頻以獲得主題一致圖像的方法。

無(wú)訓(xùn)練的一致圖像生成

研究團(tuán)隊(duì)介紹了「如何以無(wú)訓(xùn)練的方式生成主題一致的圖像」的方法。解決上述問(wèn)題的關(guān)鍵在于如何保持一批圖像中角色的一致性。這意味著在生成過(guò)程中,他們需要建立一批圖像之間的聯(lián)系。

在重新審視了擴(kuò)散模型中不同注意力機(jī)制的作用之后,他們受到啟發(fā),探索利用自注意力來(lái)保持一批圖像內(nèi)圖像的一致性,并提出了一致性自注意力(Consistent Self-Attention)。

研究團(tuán)隊(duì)將一致性自注意力插入到現(xiàn)有圖像生成模型的 U-Net 架構(gòu)中原有自注意力的位置,并重用原有的自注意力權(quán)重,以保持無(wú)需訓(xùn)練和即插即用的特性。

鑒于配對(duì) tokens,研究團(tuán)隊(duì)的方法在一批圖像上執(zhí)行自注意力,促進(jìn)不同圖像特征之間的交互。這種類型的交互促使模型在生成過(guò)程中對(duì)角色、面部和服裝的收斂。盡管一致性自注意力方法簡(jiǎn)單且無(wú)需訓(xùn)練,但它可以有效地生成主題一致的圖像。

為了更清楚地說(shuō)明,研究團(tuán)隊(duì)在算法 1 中展示了偽代碼。

圖片

用于視頻生成的語(yǔ)義運(yùn)動(dòng)預(yù)測(cè)器

研究團(tuán)隊(duì)提出了語(yǔ)義運(yùn)動(dòng)預(yù)測(cè)器(Semantic Motion Predictor),它將圖像編碼到圖像語(yǔ)義空間中以捕獲空間信息,從而實(shí)現(xiàn)從一個(gè)給定的起始幀和結(jié)束幀中進(jìn)行更準(zhǔn)確的運(yùn)動(dòng)預(yù)測(cè)。

更具體地說(shuō),在該團(tuán)隊(duì)所提出的語(yǔ)義運(yùn)動(dòng)預(yù)測(cè)器中,他們首先使用一個(gè)函數(shù) E 來(lái)建立從 RGB 圖像到圖像語(yǔ)義空間向量的映射,對(duì)空間信息進(jìn)行編碼。

該團(tuán)隊(duì)并沒(méi)有直接使用線性層作為函數(shù) E,與之代替的是利用一個(gè)預(yù)訓(xùn)練的 CLIP 圖像編碼器作為函數(shù) E,以利用其零樣本(zero-shot)能力來(lái)提升性能。

使用函數(shù) E,給定的起始幀 F_s 和結(jié)束幀 F_e 被壓縮成圖像語(yǔ)義空間向量 K_s 和 K_e。

實(shí)驗(yàn)結(jié)果

在生成主題一致圖像方面,由于該團(tuán)隊(duì)的方法是無(wú)需訓(xùn)練且可即插即用的,所以他們?cè)?Stable Diffusion XL 和 Stable Diffusion 1.5 兩個(gè)版本上都實(shí)現(xiàn)了這一方法。為了與對(duì)比模型保持一致,他們?cè)?Stable-XL 模型上使用相同的預(yù)訓(xùn)練權(quán)重進(jìn)行比較。

針對(duì)生成一致性視頻,研究者基于 Stable Diffusion 1.5 特化模型實(shí)現(xiàn)了他們的研究方法,并整合了一個(gè)預(yù)訓(xùn)練的時(shí)間模塊以支持視頻生成。所有的對(duì)比模型都采用了 7.5 classifier-free 指導(dǎo)得分和 50-step DDIM 采樣。

一致性圖像生成比較

該團(tuán)隊(duì)通過(guò)與兩種最新的 ID 保存方法 ——IP-Adapter 和 Photo Maker—— 進(jìn)行比較,評(píng)估了他們生成主題一致圖像的方法。

為了測(cè)試性能,他們使用 GPT-4 生成了二十個(gè)角色指令和一百個(gè)活動(dòng)指令,以描述特定的活動(dòng)。

定性結(jié)果如圖 4 所示:「StoryDiffusion 能夠生成高度一致的圖像。而其他方法,如 IP-Adapter 和 PhotoMaker,可能會(huì)產(chǎn)生服飾不一致或文本可控性降低的圖像?!?/span>

圖4: 與目前方法在一致性圖像生成上的對(duì)比結(jié)果圖

研究者們?cè)诒?1 中展示了定量比較的結(jié)果。該結(jié)果顯示:「該團(tuán)隊(duì)的 StoryDiffusion 在兩個(gè)定量指標(biāo)上都取得了最佳性能,這表明該方法在保持角色特性的同時(shí),還能夠很好地符合提示描述,并顯示出其穩(wěn)健性?!?/span>

圖片表 1: 一致性圖像生成的定量對(duì)比結(jié)果

轉(zhuǎn)場(chǎng)視頻生成的對(duì)比

在轉(zhuǎn)場(chǎng)視頻生成方面,研究團(tuán)隊(duì)與兩種最先進(jìn)的方法 ——SparseCtrl 和 SEINE—— 進(jìn)行了比較,以評(píng)估性能。

他們進(jìn)行了轉(zhuǎn)場(chǎng)視頻生成的定性對(duì)比,并將結(jié)果展示在圖 5 中。結(jié)果顯示:「該團(tuán)隊(duì)的 StoryDiffusion 顯著優(yōu)于 SEINE 和 SparseCtrl,并且生成的轉(zhuǎn)場(chǎng)視頻既平滑又符合物理原理?!?/span>

圖 5: 目前使用各種最先進(jìn)方法的轉(zhuǎn)場(chǎng)視頻生成對(duì)比

他們還將該方法與 SEINE 和 SparseCtrl 進(jìn)行了比較,并使用了包括 LPIPSfirst、LPIPS-frames、CLIPSIM-first 和 CLIPSIM-frames 在內(nèi)的四個(gè)定量指標(biāo),如表 2 所示。

圖片表 2: 與目前最先進(jìn)轉(zhuǎn)場(chǎng)視頻生成模型的定量對(duì)比

更多技術(shù)和實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2021-10-28 11:04:01

深信服

2025-03-07 09:02:00

生成AI視頻

2015-08-05 15:53:35

power星環(huán)

2022-12-02 13:49:41

2020-03-06 15:25:23

網(wǎng)絡(luò)神經(jīng)人工智能數(shù)據(jù)

2021-05-14 09:10:20

腦機(jī)接口機(jī)器人工智能

2023-03-08 09:43:42

2019-01-18 13:13:40

Facebook 開(kāi)發(fā)開(kāi)源

2017-04-06 10:40:49

機(jī)器學(xué)習(xí)開(kāi)源Python庫(kù)

2022-04-01 08:42:37

開(kāi)源排序庫(kù)拖拽

2012-05-17 11:55:40

iPhone

2010-03-10 09:20:12

開(kāi)源數(shù)據(jù)中心項(xiàng)目

2022-06-21 08:50:13

開(kāi)源MegPeak處理器

2021-12-22 10:18:00

建木九州云DevOps

2025-04-11 09:00:00

模型生成AI

2018-10-16 09:04:31

網(wǎng)絡(luò)視頻監(jiān)控服務(wù)器

2023-12-12 12:43:04

AI模型

2021-03-01 15:51:56

AVG視頻技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)