自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI版「女媧」來了!文字生成圖像、視頻,八類任務一個模型搞定

新聞 人工智能
近來,視覺合成任務備受關注。幾天前英偉達的 GauGAN 剛剛上新了 2.0 版本,現(xiàn)在一個新視覺合成模型 Nüwa(女媧)也火了。

  

近來,視覺合成任務備受關注。幾天前英偉達的 GauGAN 剛剛上新了 2.0 版本,現(xiàn)在一個新視覺合成模型 Nüwa(女媧)也火了。

相比于 GauGAN,「女媧」的生成模式更加多樣,不僅有文本涂鴉生成圖像,還能從文本生成視頻。

隨著 VQ-VAE 這種離散化 VAE 方案的出現(xiàn),高效和大規(guī)模的預訓練被逐漸應用于視覺合成任務,例如 DALL-E(圖像)、GODIVA(視頻)。這些模型雖然取得了巨大的成功,但仍然存在一些局限性——它們分別處理圖像和視頻,專注于生成其中一種,這限制了模型從圖像和視頻數(shù)據(jù)中受益。相比之下,「女媧」是一個統(tǒng)一的多模態(tài)預訓練模型,在 8 種包含圖像和視頻處理的下游視覺任務上具有出色的合成效果。

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

論文地址:https://arxiv.org/pdf/2111.12417.pdf

GitHub 地址:https://github.com/microsoft/NUWA

模型概覽

該研究提出了一個通用的 3D transformer——編碼器 - 解碼器框架(如下圖所示),同時涵蓋了語言、圖像和視頻,可用于多種視覺合成任務。該框架由以文本或視覺草圖作為輸入的自適應編碼器和由 8 個視覺合成任務共享的解碼器組成。

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

「女媧」整體架構圖。

該框架還包含一種 3D Nearby Attention (3DNA) 機制,以考慮空間和時間上的局部特征。3DNA 不僅降低了計算復雜度,還提高了生成結(jié)果的視覺質(zhì)量。與幾個強大的基線相比,「女媧」在文本到圖像生成、文本到視頻生成、視頻預測等方面都得到了 SOTA 結(jié)果。此外,「女媧」還顯示出驚人的零樣本學習能力。

「女媧」的 8 種跨模態(tài)合成模式分別是:

文本轉(zhuǎn)圖像:

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

涂鴉轉(zhuǎn)圖像:

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

圖像補全:

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

根據(jù)文本編輯圖像:

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

文本轉(zhuǎn)視頻:

視頻預測:

涂鴉轉(zhuǎn)視頻:

根據(jù)文本編輯視頻:

實驗結(jié)果

還研究通過多項實驗評估了合成結(jié)果。

首先研究者將「女媧」在三個數(shù)據(jù)集上進行預訓練:用于文本 - 圖像 (T2I) 生成的 Conceptual Captions,包括 2.9M 文本 - 圖像對;用于視頻預測 (V2V) 的 Moments in Time,包括 727K 視頻;用于文本 - 視頻 (T2V) 生成的 VATEX 數(shù)據(jù)集,包括 241K 文本 - 視頻對。

與 SOTA 方法比較

文本 - 圖像 (T2I) 微調(diào):該研究比較了「女媧」在 MSCOCO 數(shù)據(jù)集上的性能,如表 1 和圖 3 所示:在表 1 中,「女媧」明顯優(yōu)于 CogView,其中 FID-0 為 12.9,CLIPSIM 為 0.3429 。盡管 XMC-GAN 的 FID-0 為 9.3,優(yōu)于「女媧」,但「女媧」能生成更逼真的圖像,如圖 3 所示。特別是在最后一個例子中,「女媧」生成的男孩臉更清晰,并且男孩旁邊的氣球也很逼真。

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定
AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

文本 - 視頻 (T2V) 微調(diào):該研究在 Kinetics 數(shù)據(jù)集上評估了「女媧」,結(jié)果如表 2 和圖 4 所示。在表 2 中,「女媧」在所有指標上實現(xiàn)了最好的性能。

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

在圖 4 中,該研究還展示了「女媧」強大的零樣本生成能力,可以生成沒見過的圖像,例如:在游泳池里打高爾夫球,在海里奔跑:

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

視頻預測 (V2V) 微調(diào):該研究在 BAIR Robot Pushing 數(shù)據(jù)集上對「女媧」和其他模型進行了比較,結(jié)果如表 3 所示:為了進行公平比較,所有模型都使用 64×64 分辨率。雖然只給出了一幀作為條件(Cond.),但「女媧」仍然將 SOTA FVD 得分從 94±2 降到 86.9 。

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

草圖 - 圖像 (S2I)微調(diào):該研究在 MSCOCO stuff 上進行實驗,如圖 5 所示。與 Taming-Transformers 和 SPADE 相比,「女媧」生成了種類繁多的逼真汽車, 甚至巴士車窗的反射也清晰可見。

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

圖像補全 (I2I) 零樣本評估:給定塔樓的上部,與 Taming Transformers 模型進行比較,「女媧」可以生成對塔樓下半部分更豐富的想象,包括生成周圍建筑物、湖泊、花草、樹木、山脈等。

文本 - 指導圖像處理 (TI2I) 零樣本評估:「女媧」顯示了其強大的處理能力,可以生成高質(zhì)量的文本一致性結(jié)果,而不會改變圖像的其他部分。

消融實驗

圖 5 顯示了文本 - 視頻 (T2V) 生成任務中多任務預訓練的有效性。該研究在具有挑戰(zhàn)性的數(shù)據(jù)集 MSR-VTT(具有自然描述和真實視頻) 上進行了實驗?!概畫z」FID-vid 為 47.68,CLIPSIM 為 0.2439。

圖 9 顯示了文本指導視頻處理(TV2V)。第一行顯示了原始視頻幀,潛水員在潛水;第二行為潛水員正在向水面游;第三行顯示可以讓潛水員游到海底,如果我們想生成讓潛水員飛向天空的圖片?「女媧」可以實現(xiàn),從圖中可以看出,潛水員像火箭一樣飛向天空。

AI版「女媧」來了!文字生成圖像、視頻,8類任務一個模型搞定

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-11-29 09:45:32

模型人工智能深度學習

2022-01-24 15:51:58

AI模型數(shù)據(jù)

2018-09-01 15:56:40

八類網(wǎng)線雙絞線網(wǎng)線

2010-10-18 13:33:24

2024-02-19 00:21:45

開源圖片

2025-03-17 09:20:00

視覺生成模型

2023-01-05 13:11:20

模型

2011-04-12 14:58:23

加密解密類

2022-10-10 15:09:12

AI

2024-01-24 09:24:19

自動駕駛算法

2020-02-19 15:03:48

監(jiān)控項目系統(tǒng)圖弱電

2009-03-18 09:47:10

2009-12-29 15:58:25

IP電話

2010-08-11 14:22:07

HR面試

2010-09-17 15:35:28

互聯(lián)網(wǎng)協(xié)議

2024-09-23 15:40:00

2024-12-04 11:07:09

2018-08-15 15:23:48

視頻

2023-01-02 11:57:01

AI工具

2019-11-26 16:35:07

個人隱私App
點贊
收藏

51CTO技術棧公眾號