自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="6x8e8"></pre>

<sup id="6x8e8"><rt id="6x8e8"></rt></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

AI版「女媧」來了！文字生成圖像、視頻，八類任務一個模型搞定

作者：機器之心報道 2021-11-26 18:52:36

新聞人工智能

近來，視覺合成任務備受關注。幾天前英偉達的 GauGAN 剛剛上新了 2.0 版本，現(xiàn)在一個新視覺合成模型 Nüwa（女媧）也火了。

近來，視覺合成任務備受關注。幾天前英偉達的 GauGAN 剛剛上新了 2.0 版本，現(xiàn)在一個新視覺合成模型 Nüwa（女媧）也火了。

相比于 GauGAN，「女媧」的生成模式更加多樣，不僅有文本涂鴉生成圖像，還能從文本生成視頻。

隨著 VQ-VAE 這種離散化 VAE 方案的出現(xiàn)，高效和大規(guī)模的預訓練被逐漸應用于視覺合成任務，例如 DALL-E（圖像）、GODIVA（視頻）。這些模型雖然取得了巨大的成功，但仍然存在一些局限性——它們分別處理圖像和視頻，專注于生成其中一種，這限制了模型從圖像和視頻數(shù)據(jù)中受益。相比之下，「女媧」是一個統(tǒng)一的多模態(tài)預訓練模型，在 8 種包含圖像和視頻處理的下游視覺任務上具有出色的合成效果。

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

論文地址：https://arxiv.org/pdf/2111.12417.pdf

GitHub 地址：https://github.com/microsoft/NUWA

模型概覽

該研究提出了一個通用的 3D transformer——編碼器 - 解碼器框架（如下圖所示），同時涵蓋了語言、圖像和視頻，可用于多種視覺合成任務。該框架由以文本或視覺草圖作為輸入的自適應編碼器和由 8 個視覺合成任務共享的解碼器組成。

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

「女媧」整體架構圖。

該框架還包含一種 3D Nearby Attention (3DNA) 機制，以考慮空間和時間上的局部特征。3DNA 不僅降低了計算復雜度，還提高了生成結(jié)果的視覺質(zhì)量。與幾個強大的基線相比，「女媧」在文本到圖像生成、文本到視頻生成、視頻預測等方面都得到了 SOTA 結(jié)果。此外，「女媧」還顯示出驚人的零樣本學習能力。

「女媧」的 8 種跨模態(tài)合成模式分別是：

文本轉(zhuǎn)圖像：

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

涂鴉轉(zhuǎn)圖像：

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

圖像補全：

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

根據(jù)文本編輯圖像：

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

文本轉(zhuǎn)視頻：

視頻預測：

涂鴉轉(zhuǎn)視頻：

根據(jù)文本編輯視頻：

實驗結(jié)果

還研究通過多項實驗評估了合成結(jié)果。

首先研究者將「女媧」在三個數(shù)據(jù)集上進行預訓練：用于文本 - 圖像 (T2I) 生成的 Conceptual Captions，包括 2.9M 文本 - 圖像對；用于視頻預測 (V2V) 的 Moments in Time，包括 727K 視頻；用于文本 - 視頻 (T2V) 生成的 VATEX 數(shù)據(jù)集，包括 241K 文本 - 視頻對。

與 SOTA 方法比較

文本 - 圖像 (T2I) 微調(diào)：該研究比較了「女媧」在 MSCOCO 數(shù)據(jù)集上的性能，如表 1 和圖 3 所示：在表 1 中，「女媧」明顯優(yōu)于 CogView，其中 FID-0 為 12.9，CLIPSIM 為 0.3429 。盡管 XMC-GAN 的 FID-0 為 9.3，優(yōu)于「女媧」，但「女媧」能生成更逼真的圖像，如圖 3 所示。特別是在最后一個例子中，「女媧」生成的男孩臉更清晰，并且男孩旁邊的氣球也很逼真。

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

文本 - 視頻 (T2V) 微調(diào)：該研究在 Kinetics 數(shù)據(jù)集上評估了「女媧」，結(jié)果如表 2 和圖 4 所示。在表 2 中，「女媧」在所有指標上實現(xiàn)了最好的性能。

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

在圖 4 中，該研究還展示了「女媧」強大的零樣本生成能力，可以生成沒見過的圖像，例如：在游泳池里打高爾夫球，在海里奔跑：

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

視頻預測 (V2V) 微調(diào)：該研究在 BAIR Robot Pushing 數(shù)據(jù)集上對「女媧」和其他模型進行了比較，結(jié)果如表 3 所示：為了進行公平比較，所有模型都使用 64×64 分辨率。雖然只給出了一幀作為條件（Cond.），但「女媧」仍然將 SOTA FVD 得分從 94±2 降到 86.9 。

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

草圖 - 圖像 (S2I)微調(diào)：該研究在 MSCOCO stuff 上進行實驗，如圖 5 所示。與 Taming-Transformers 和 SPADE 相比，「女媧」生成了種類繁多的逼真汽車，甚至巴士車窗的反射也清晰可見。

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

圖像補全 (I2I) 零樣本評估：給定塔樓的上部，與 Taming Transformers 模型進行比較，「女媧」可以生成對塔樓下半部分更豐富的想象，包括生成周圍建筑物、湖泊、花草、樹木、山脈等。

文本 - 指導圖像處理 (TI2I) 零樣本評估：「女媧」顯示了其強大的處理能力，可以生成高質(zhì)量的文本一致性結(jié)果，而不會改變圖像的其他部分。

消融實驗

圖 5 顯示了文本 - 視頻 (T2V) 生成任務中多任務預訓練的有效性。該研究在具有挑戰(zhàn)性的數(shù)據(jù)集 MSR-VTT（具有自然描述和真實視頻）上進行了實驗?！概畫z」FID-vid 為 47.68，CLIPSIM 為 0.2439。

圖 9 顯示了文本指導視頻處理(TV2V)。第一行顯示了原始視頻幀，潛水員在潛水；第二行為潛水員正在向水面游；第三行顯示可以讓潛水員游到海底，如果我們想生成讓潛水員飛向天空的圖片？「女媧」可以實現(xiàn)，從圖中可以看出，潛水員像火箭一樣飛向天空。

AI版「女媧」來了！文字生成圖像、視頻，8類任務一個模型搞定

責任編輯：張燕妮來源：機器之心Pro

AI 數(shù)據(jù)人工智能

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="0icjl"></style>

<blockquote id="0icjl"><i id="0icjl"><video id="0icjl"></video></i></blockquote><style id="0icjl"></style>