自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

有效提高視頻編輯一致性,美圖&國(guó)科大提出基于文生圖模型新方法EI2

人工智能 新聞
美圖影像研究院(MT Lab)與中國(guó)科學(xué)院大學(xué)突破性地提出了基于文生圖模型的視頻生成新方法 EI2,用于提高視頻編輯過(guò)程中的語(yǔ)義和內(nèi)容兩方面的一致性。該論文從理論角度分析和論證視頻編輯過(guò)程中出現(xiàn)的不一致的問(wèn)題,主要由引入的時(shí)序信息學(xué)習(xí)模塊使特征空間出現(xiàn)協(xié)變量偏移造成,并針對(duì)性地設(shè)計(jì)了新的網(wǎng)絡(luò)模塊進(jìn)行解決以生成高質(zhì)量的編輯結(jié)果。目前,該論文已被機(jī)器學(xué)習(xí)頂會(huì)之一 NeurIPS 2023 接收。

背景

作為當(dāng)前炙手可熱的前沿技術(shù)之一,生成式 AI 被廣泛應(yīng)用于各類視覺(jué)合成任務(wù),尤其是在圖像生成和編輯領(lǐng)域獲得了令人贊嘆的生成效果。對(duì)比靜態(tài)圖像,視頻擁有更豐富的動(dòng)態(tài)變化和語(yǔ)義信息,而現(xiàn)有的視覺(jué)生成任務(wù)主要基于變分自編碼器(VAE)和生成對(duì)抗網(wǎng)絡(luò)(GAN),但通常會(huì)受限于特定場(chǎng)景和數(shù)據(jù),很難提供普適的解決方案。因此,近年來(lái)基于擴(kuò)散模型(Diffusion Models)在分布式學(xué)習(xí)上表現(xiàn)出的卓越能力,擴(kuò)散模型也開(kāi)始被拓展到視頻領(lǐng)域,并在視頻生成與編輯領(lǐng)域展現(xiàn)出了巨大的潛力。

在研究初期,基于擴(kuò)散模型的視頻生成和編輯任務(wù)利用文本 - 視頻數(shù)據(jù)集直接訓(xùn)練文生視頻模型以達(dá)到目標(biāo)。然而,由于缺少高質(zhì)量的視頻數(shù)據(jù),這類工作泛化能力通常較差,此外,它們也需要耗費(fèi)大量的計(jì)算資源。為避免上述問(wèn)題,近期工作更傾向于將基于大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的文生圖模型拓展到視頻領(lǐng)域。此類任務(wù)通過(guò)引入可學(xué)習(xí)的時(shí)序模塊使文生圖模型具備視頻生成和編輯能力,從而減少對(duì)視頻數(shù)據(jù)的需求以及計(jì)算量,并提供了簡(jiǎn)單易用的方案。因此,這類任務(wù)在近期引起了廣泛的關(guān)注。然而,以上基于文生圖模型的視頻生成方案也面臨著兩個(gè)關(guān)鍵問(wèn)題:一是時(shí)序不一致問(wèn)題,即生成視頻幀間內(nèi)容的不一致,例如閃爍和主體變化等;二是語(yǔ)義不一致問(wèn)題,即生成視頻未能按照給定文本進(jìn)行修改。解決上述兩個(gè)核心問(wèn)題將極大地推動(dòng)基于文本的視頻編輯與生成技術(shù)在實(shí)際場(chǎng)景中的應(yīng)用和落地。

美圖影像研究院(MT Lab)與中國(guó)科學(xué)院大學(xué)在 NeurIPS 2023 上共同提出一種基于文生圖模型的視頻編輯方法 EI2, 從理論上分析和論證了現(xiàn)有方案出現(xiàn)不一致的原因,并提出了有效的解決方案。

圖片

論文鏈接:https://arxiv.org/abs/2208.02646

EI2:基于文生圖模型的視頻一致性編輯解決方案

EI2 首先對(duì)語(yǔ)義不一致問(wèn)題進(jìn)行了分析,發(fā)現(xiàn)該問(wèn)題不是由微調(diào)策略或過(guò)擬合現(xiàn)象出現(xiàn)所導(dǎo)致的,而是由新引入的時(shí)序模塊造成的。這些模塊雖然能提升文生圖模型的時(shí)序連續(xù)性,但會(huì)減弱甚至消除其原有的生成和編輯能力。

EI2 方案將這一現(xiàn)象的出現(xiàn)歸因于生成特征空間出現(xiàn)協(xié)變量偏移:由于時(shí)序模塊只在目標(biāo)視頻上進(jìn)行訓(xùn)練,其輸出特征的分布與源模型的分布存在差異。此外,現(xiàn)有空間注意力機(jī)制為減小計(jì)算量,通常會(huì)忽略特定元素進(jìn)行局部計(jì)算,從而導(dǎo)致次優(yōu)解的出現(xiàn)。因此,高效地融合全局上的空間和時(shí)序注意力信息也是取得時(shí)序一致性編輯的關(guān)鍵。

圖片

圖 1 本文提出的 EI2 方案與已有方案在視頻編輯任務(wù)上的結(jié)果對(duì)比

基于上述分析,EI2 設(shè)計(jì)了更為合理的時(shí)序模塊并將其與文生圖模型相結(jié)合,用于增強(qiáng)生成能力,以更好地解決視頻編輯任務(wù)。具體而言,EI2 采用一次微調(diào)框架(One-shot Tuning),從理論和實(shí)踐兩方面對(duì)現(xiàn)有方法進(jìn)行了改進(jìn)。

首先,EI2 設(shè)計(jì)了偏移控制時(shí)序注意力模塊,用于解決視頻編輯過(guò)程中出現(xiàn)的語(yǔ)義不一致問(wèn)題。EI2 從理論上證明了在特定假設(shè)下,協(xié)變量偏移與微調(diào)無(wú)關(guān),是由時(shí)序注意力機(jī)制新引入的參數(shù)造成,這為解決語(yǔ)義不一致問(wèn)題提供了有價(jià)值的指導(dǎo)。

通過(guò)上述論證,EI2 定位層歸一化(Layer Norm)模塊是協(xié)變量偏移出現(xiàn)的重要原因。為了解決這一問(wèn)題,EI2 提出了簡(jiǎn)單有效的實(shí)例中心化模塊以控制分布偏移。此外,EI2 也對(duì)原時(shí)序注意力模塊中的權(quán)值進(jìn)行歸一化,從而限制方差的偏移。其次,EI2 設(shè)計(jì)了粗細(xì)力度幀間注意力模塊來(lái)緩解視頻編輯過(guò)程中出現(xiàn)的時(shí)序不一致問(wèn)題。EI2 創(chuàng)新性地提出了一種粗細(xì)力度交互機(jī)制,用于更為有效地建立時(shí)空注意力機(jī)制,從而使得低成本的視頻全局信息交互成為可能。與現(xiàn)有丟棄空間信息的方案相比,EI2 在空間維度上進(jìn)行采樣,這不僅保持了時(shí)空數(shù)據(jù)的整體結(jié)構(gòu),也減少了需要考慮的數(shù)據(jù)規(guī)模。

具體而言,粗細(xì)力度幀間注意力模塊對(duì)于當(dāng)前幀保留細(xì)粒度信息,而對(duì)于其他幀則進(jìn)行下采樣以獲得粗粒度信息來(lái)做交互。這種方式使得 EI2 在有效學(xué)習(xí)時(shí)序信息的同時(shí),保證了與現(xiàn)有時(shí)空交互方案接近的計(jì)算量?;谝陨显O(shè)計(jì),實(shí)驗(yàn)結(jié)果表明 EI2 可以有效地解決視頻編輯過(guò)程中出現(xiàn)的語(yǔ)義不一致問(wèn)題并保證時(shí)序上的一致性,取得了超越現(xiàn)有方案的視頻編輯效果。

圖片

圖 2 EI2 的訓(xùn)練和推理流程

實(shí)驗(yàn)結(jié)果

圖片

表 1 與基線方法的量化對(duì)比

圖片

圖 3 與基線方法的可視化對(duì)比

圖片

圖 4 協(xié)變量偏移控制的消融實(shí)驗(yàn)

圖片

圖 5 時(shí)空注意力機(jī)制的消融實(shí)驗(yàn)

總結(jié)

該論文創(chuàng)新性地提出了基于文生圖模型的視頻編輯新方案 EI2,有效地解決了現(xiàn)有方案遇到的語(yǔ)義和時(shí)序不一致問(wèn)題。其中,EI2 從理論上證明了語(yǔ)義不一致問(wèn)題由引入的時(shí)序模塊產(chǎn)生的協(xié)變量偏移造成,并設(shè)計(jì)了偏移控制時(shí)序注意力進(jìn)行改進(jìn)。另外,EI2 提出了粗細(xì)力度幀間注意力模塊,在提升視頻編輯效果的同時(shí)也保證了較低的計(jì)算復(fù)雜度。與現(xiàn)有方案相比,EI2 在量化和可視化的分析中都表現(xiàn)出了明顯的優(yōu)勢(shì)。

研究團(tuán)隊(duì)

本論文由美圖影像研究院(MT Lab)和中國(guó)科學(xué)院大學(xué)的研究者們共同提出。

美圖影像研究院成立于 2010 年,致力于計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、計(jì)算機(jī)圖形學(xué)等人工智能(AI)相關(guān)領(lǐng)域的研發(fā)。曾先后參與 CVPR、ICCV、ECCV 等計(jì)算機(jī)視覺(jué)國(guó)際頂級(jí)會(huì)議,并斬獲 ISIC Challenge 2018 皮膚癌病灶分割賽道冠軍,ECCV 2018 圖像增強(qiáng)技術(shù)比賽冠軍,CVPR-NTIRE2019 圖像增強(qiáng)比賽冠軍,ICCV2019 服飾關(guān)鍵點(diǎn)估計(jì)比賽冠軍等十余項(xiàng)冠亞軍,在 AAAI、CVPR、ICCV、ECCV、NIPS 等國(guó)際頂級(jí)會(huì)議及期刊上累計(jì)發(fā)表 48 篇學(xué)術(shù)論文。

在美圖影像研究院(MT Lab)的支持下,美圖公司擁有豐富的 AIGC 場(chǎng)景落地經(jīng)驗(yàn)。2010 年開(kāi)始人工智能領(lǐng)域的相關(guān)探索,2013 年開(kāi)始布局深度學(xué)習(xí),2016 年推出 AIGC 雛形產(chǎn)品 “手繪自拍”,2022 年 AIGC 產(chǎn)品全面進(jìn)入爆發(fā)期,2023年6月發(fā)布自研AI視覺(jué)大模型MiracleVision(奇想智能),2023年12月MiracleVision迭代至4.0 版本,主打AI設(shè)計(jì)與AI視頻。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2017-07-25 14:38:56

數(shù)據(jù)庫(kù)一致性非鎖定讀一致性鎖定讀

2020-10-14 10:16:12

CIOIT技術(shù)

2021-07-26 06:33:42

CRDT數(shù)據(jù)CAP

2024-09-29 10:40:00

數(shù)據(jù)模型

2022-12-14 08:23:30

2025-04-01 09:32:00

模型訓(xùn)練AI

2021-02-05 08:00:48

哈希算法?機(jī)器

2021-02-02 12:40:50

哈希算法數(shù)據(jù)

2024-04-23 08:22:58

Meta緩存系統(tǒng)

2021-11-12 08:38:26

一致性哈希算法數(shù)據(jù)結(jié)構(gòu)

2021-07-28 08:39:25

分布式架構(gòu)系統(tǒng)

2019-10-24 10:42:00

CPU內(nèi)存存儲(chǔ)器

2023-08-25 13:21:56

論文模型

2021-11-26 18:37:39

技術(shù)人工智能計(jì)算機(jī)

2025-03-05 09:10:00

session開(kāi)發(fā)Web

2020-05-12 10:43:22

Redis緩存數(shù)據(jù)庫(kù)

2020-11-24 09:03:41

一致性MySQLMVCC

2022-03-22 09:54:22

Hash算法

2022-10-19 12:22:53

并發(fā)扣款一致性

2021-06-30 21:13:49

CPUCache數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)