自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="uc1kp"><code id="uc1kp"><label id="uc1kp"></label></code></bdo>

<abbr id="uc1kp"><strong id="uc1kp"></strong></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

文生視頻下一站，Meta已經(jīng)開始視頻生視頻了

作者：機(jī)器之心 2024-01-02 13:18:00

人工智能新聞

來自得州大學(xué)奧斯汀分校、Meta GenAI 的研究者提出了一種新的 V2V 合成框架 ——FlowVid，聯(lián)合利用了源視頻中的空間條件和時(shí)間光流線索（clue）。

文本指導(dǎo)的視頻到視頻（V2V）合成在各個(gè)領(lǐng)域具有廣泛的應(yīng)用，例如短視頻創(chuàng)作以及更廣泛的電影行業(yè)。擴(kuò)散模型已經(jīng)改變了圖像到圖像（I2I）的合成方式，但在視頻到視頻（V2V）合成方面面臨維持視頻幀間時(shí)間一致性的挑戰(zhàn)。在視頻上應(yīng)用 I2I 模型通常會(huì)在幀之間產(chǎn)生像素閃爍。

為了解決這個(gè)問題，來自得州大學(xué)奧斯汀分校、Meta GenAI 的研究者提出了一種新的 V2V 合成框架 ——FlowVid，聯(lián)合利用了源視頻中的空間條件和時(shí)間光流線索（clue）。給定輸入視頻和文本 prompt，F(xiàn)lowVid 就可以合成時(shí)間一致的視頻。

論文地址：https://huggingface.co/papers/2312.17681
項(xiàng)目地址：https://jeff-liangf.github.io/projects/flowvid/

總的來說，F(xiàn)lowVid 展示了卓越的靈活性，可與現(xiàn)有的 I2I 模型無縫協(xié)作，完成各種修改，包括風(fēng)格化、對(duì)象交換和局部編輯。在合成效率上，生成 30 FPS、512×512 分辨率的 4 秒視頻僅需 1.5 分鐘，分別比 CoDeF、Rerender 和 TokenFlow 快 3.1 倍、7.2 倍和 10.5 倍，并且保證了合成視頻的高質(zhì)量。

先來看下合成效果，例如，將視頻中的人物轉(zhuǎn)換成「希臘雕塑」的形態(tài)：

將吃竹子的大熊貓轉(zhuǎn)換成「國畫」的形式，再把大熊貓換成考拉：

跳跳繩的場(chǎng)景可以絲滑切換，人物也可以換成蝙蝠俠：

方法簡(jiǎn)介

一些研究采用流來導(dǎo)出像素對(duì)應(yīng)關(guān)系，從而產(chǎn)生兩幀之間的像素級(jí)映射，這種對(duì)應(yīng)關(guān)系隨后用于獲取遮擋掩碼或構(gòu)建規(guī)范圖像。然而，如果流估計(jì)不準(zhǔn)確，這種硬約束可能就會(huì)出現(xiàn)問題。

FlowVid 首先使用常見的 I2I 模型編輯第一幀，然后傳播這些編輯到連續(xù)幀，使得模型能夠完成視頻合成的任務(wù)。

具體來說，F(xiàn)lowVid 執(zhí)行從第一幀到后續(xù)幀的流變形（flow warp）。這些變形的幀將遵循原始幀的結(jié)構(gòu)，但包含一些遮擋區(qū)域（標(biāo)記為灰色），如圖 2 (b) 所示。

如果使用流作為硬約束，例如修復(fù)遮擋區(qū)域，則不準(zhǔn)確的估計(jì)將持續(xù)存在。因此，該研究嘗試引入額外的空間條件，例如圖 2 (c) 中的深度圖，以及時(shí)間流條件。聯(lián)合時(shí)空條件將糾正不完美的光流，從而得到圖 2 (d) 中一致的結(jié)果。

研究者基于 inflated 空間控制 I2I 模型構(gòu)建了一個(gè)視頻擴(kuò)散模型。他們利用空間條件（如深度圖）和時(shí)間條件（流變形視頻）對(duì)模型進(jìn)行訓(xùn)練，以預(yù)測(cè)輸入視頻。

在生成過程中，研究者采用編輯 - 傳播程序：(1) 用流行的 I2I 模型編輯第一幀。(2) 使用本文模型在整個(gè)視頻中傳播編輯內(nèi)容。解耦設(shè)計(jì)允許他們采用自回歸機(jī)制：當(dāng)前批次的最后一幀可以是下一批次的第一幀，從而使其能夠生成冗長(zhǎng)的視頻。

實(shí)驗(yàn)及結(jié)果

細(xì)節(jié)設(shè)置

研究者使用 Shutterstock 的 100k 個(gè)視頻來訓(xùn)練模型。對(duì)于每個(gè)訓(xùn)練視頻，研究者按順序采樣 16 個(gè)間隔為 {2,4,8} 的幀，這些幀代表持續(xù)時(shí)間為 {1,2,4} 秒的視頻（視頻的 FPS 為 30）。所有圖像的分辨率都通過中心裁剪設(shè)置為 512×512。模型的訓(xùn)練是在每個(gè) GPU 上以 1 的批量大小進(jìn)行的，總共使用 8 個(gè) GPU，總批量大小為 8。實(shí)驗(yàn)使用了 AdamW 優(yōu)化器，學(xué)習(xí)率為 1e-5，迭代次數(shù)為 100k。

在生成過程中，研究者首先使用訓(xùn)練好的模型生成關(guān)鍵幀，然后使用現(xiàn)成的幀插值模型（如 RIFE ）生成非關(guān)鍵幀。默認(rèn)情況下，以 4 的間隔生成 16 個(gè)關(guān)鍵幀，相當(dāng)于 8 FPS 下的 2 秒片段。然后，研究者使用 RIFE 將結(jié)果插值到 32 FPS。他們采用比例為 7.5 的無分類器引導(dǎo)，并使用 20 個(gè)推理采樣步驟。此外，研究者還使用了零信噪比（Zero SNR）噪聲調(diào)度器。他們還根據(jù) FateZero ，融合了在對(duì)輸入視頻中的相應(yīng)關(guān)鍵幀進(jìn)行 DDIM 反轉(zhuǎn)時(shí)獲得的自注意力特征。

研究者從公開的 DAVIS 數(shù)據(jù)集中選取了 25 個(gè)以物體為中心的視頻，涵蓋人類、動(dòng)物等。針對(duì)這些視頻，研究者人工設(shè)計(jì)了 115 個(gè) prompt，范圍包括風(fēng)格化到物體替換。此外，他們還收集了 50 個(gè) Shutterstock 視頻，并為這些視頻設(shè)計(jì)了 200 個(gè) prompt。研究者對(duì)以上視頻進(jìn)行了定性和定量的比較。

定性結(jié)果

在圖 5 中，研究者定性地將本文方法與幾種代表性的方法進(jìn)行了比較。當(dāng)輸入視頻中的運(yùn)動(dòng)量較大時(shí)，CoDeF 產(chǎn)生的輸出結(jié)果會(huì)出現(xiàn)明顯的模糊，在男子的手和老虎的臉部等區(qū)域可以觀察到。Rerender 通常無法捕捉到較大的運(yùn)動(dòng)，如左側(cè)示例中的槳葉運(yùn)動(dòng)。TokenFlow 偶爾會(huì)難以按照提示進(jìn)行操作，例如在左側(cè)示例中將男子變?yōu)楹１I。相比之下，本文的方法在編輯能力和視頻質(zhì)量方面更具優(yōu)勢(shì)。

定量結(jié)果

研究者進(jìn)行了一項(xiàng)人類評(píng)估，以將本文的方法與 CoDeF 、Rerender 和 TokenFlow 進(jìn)行比較。研究者向參與者展示了四段視頻，并要求他們?cè)诳紤]時(shí)間一致性和文本對(duì)齊的情況下，找出哪段視頻的質(zhì)量最好。詳細(xì)結(jié)果見表。本文方法取得了 45.7% 的偏好，優(yōu)于其他三種方法。表 1 中還展示了各方法的管道運(yùn)行時(shí)間，對(duì)比了它們的運(yùn)行效率。本文方法（1.5 分鐘）快于 CoDeF（4.6 分鐘）、Rerender（10.8 分鐘）和 TokenFlow（15.8 分鐘），分別快 3.1 倍、7.2 倍和 10.5 倍。

消融實(shí)驗(yàn)

研究者將圖 6（a）中的四種條件進(jìn)行組合研究，分別是 (I) 空間控制：例如深度圖；(II) 流變形視頻：從第一幀使用光流變形的幀；(III) 流遮擋遮罩指示哪些部分被遮擋（標(biāo)記為白色）；(IV) 第一幀。

圖 6（b）中評(píng)估了這些條件的組合，通過與包含所有四種條件的完整模型的勝率來評(píng)估它們的有效性。由于缺乏時(shí)間信息，純空間條件的勝率僅為 9%。加入流變形視頻后，勝率大幅提高至 38%，突出了時(shí)間引導(dǎo)的重要性。研究者使用灰色像素表示被遮擋的區(qū)域，這可能會(huì)與圖像中的原始灰色相混淆。為了避免可能出現(xiàn)的混淆，他們進(jìn)一步加入了二進(jìn)制流遮擋掩碼，更好地幫助模型識(shí)別哪部分被遮擋。勝率進(jìn)一步提高到 42%。最后，研究者增加了第一幀條件，以提供更好的紋理引導(dǎo)，這在遮擋掩碼較大而原始像素剩余較少時(shí)尤為有用。

研究者在 FlowVid 中研究了兩種類型的空間條件：canny 邊緣和深度圖。在圖 7（a）所示的輸入幀中，從熊貓的眼睛和嘴巴可以看出，canny 邊緣比深度圖保留了更多細(xì)節(jié)?？臻g控制的強(qiáng)度反過來會(huì)影響視頻編輯。在評(píng)估過程中，研究者發(fā)現(xiàn)，當(dāng)希望盡可能保持輸入視頻的結(jié)構(gòu)（如風(fēng)格化）時(shí)，canny 邊緣效果更好。如果場(chǎng)景變化較大，如物體交換，需要更大的編輯靈活性時(shí)，深度圖的效果會(huì)更好。

如圖 8 所示，雖然 ?-prediction 通常用于擴(kuò)散模型的參數(shù)化，但研究者發(fā)現(xiàn)它可能會(huì)出現(xiàn)不自然的跨幀全局色彩偏移。盡管這兩種方法都使用了相同的流變形視頻，但 ?-prediction 帶來了不自然的灰暗色彩。這種現(xiàn)象在圖像到視頻中也有發(fā)現(xiàn)。

局限

雖然 FlowVid 取得了顯著的性能，但也存在一些局限性。首先，F(xiàn)lowVid 嚴(yán)重依賴于第一幀的生成，而第一幀在結(jié)構(gòu)上應(yīng)與輸入幀保持一致。如圖 9（a）所示，編輯后的第一幀將大象的后腿識(shí)別為前鼻子。錯(cuò)誤的鼻子會(huì)傳播到下一幀，導(dǎo)致最終預(yù)測(cè)結(jié)果不理想。其次，是當(dāng)攝像機(jī)或物體移動(dòng)得太快，以至于出現(xiàn)大面積遮擋時(shí)。在這種情況下，F(xiàn)lowVid 會(huì)猜測(cè)缺失的區(qū)域，甚至產(chǎn)生幻覺。如圖 9 (b) 所示，當(dāng)芭蕾舞演員轉(zhuǎn)動(dòng)身體和頭部時(shí)，整個(gè)身體部分都被遮擋住了。FlowVid 成功地處理了衣服，但卻將后腦勺變成了前臉，如果在視頻中顯示，這將十分驚悚。

更多詳細(xì)內(nèi)容，請(qǐng)參閱原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

數(shù)據(jù)視頻

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="4azof"></nobr>