自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一拖一拽,小貓活了!Netflix等新作爆火,噪聲扭曲算法讓運動控制更簡單

人工智能 新聞
本文提出了一種全新的噪聲扭曲算法,利用光流推導出的結構化噪聲來替代傳統(tǒng)隨機噪聲,成功實現(xiàn)了對視頻運動的強大控制能力。

在視頻擴散生成領域,如何精準操控視頻中的運動細節(jié)而又不犧牲畫面質量,一直是研究者共同追逐的目標。

來自Neflix、Stony Brook大學等機構的研究人員創(chuàng)新性地提出通過結構化的潛在噪聲采樣控制運動。

實現(xiàn)方法很簡單,只要對訓練視頻做預處理,生成結構化噪聲。這一過程不涉及擴散模型的設計,無需改變其架構和訓練流程。

圖片

研究提出了一種全新的噪聲扭曲算法,速度超快,能實時運行。它用光流場推導的扭曲噪聲,取代隨機的時序高斯噪聲,同時保持了空間高斯性。

由于算法高效,能用扭曲噪聲以極小的成本微調視頻擴散基礎模型。

這為用戶提供了全面的運動控制方案,可用于局部物體運動控制、全局攝像機運動控制以及運動遷移等場景。

此外,算法兼顧了扭曲噪聲的時序一致性和空間高斯性,既能保證每幀畫面的像素質量,又能有效控制運動。

圖片

論文鏈接:https://arxiv.org/pdf/2501.08331

本研究的貢獻如下:

  • 創(chuàng)新的視頻擴散模型解決方案:提出一種簡單新穎的方法,將運動控制轉化為可用于噪聲變形的流場,在潛在空間采樣時能直接使用。它不僅能與任意視頻擴散基礎模型搭配,還可和其他控制方式協(xié)同使用。
  • 高效的噪聲變形算法:研發(fā)出高效的噪聲變形算法,它既能保持空間高斯性,又能追蹤跨幀的時間運動流。這讓微調運動可控的視頻擴散模型時,花費的成本最小,操作也更方便。

實驗和用戶研究充分驗證了該方法在各類運動控制應用中的優(yōu)勢。

這些應用涵蓋局部物體運動控制、運動傳遞到新場景、基于參考的全局相機運動控制等。

在像素質量、可控性、時間連貫性以及用戶主觀偏好等方面,表現(xiàn)十分優(yōu)異。

圖片

Go-with-the-Flow

當前的視頻擴散模型存在局限性,研究者提出了一種創(chuàng)新且簡單的方法,旨在把運動控制當作結構化組件,融入到視頻擴散模型潛在空間的無序狀態(tài)中。

具體實現(xiàn)方式是關聯(lián)潛在噪聲的時間分布。

先從二維高斯噪聲片入手,把它和根據(jù)訓練視頻樣本提取的光流場算出來的扭曲噪聲片,按照時間順序連接起來。下圖清晰展示了該方法的流程。

圖片

本文提出創(chuàng)新的噪聲扭曲算法,運行速度極快,能夠實時運行。

傳統(tǒng)方法需從初始幀起,對每一幀都進行一系列復雜的扭曲操作,而本文的算法則通過在連續(xù)幀之間迭代扭曲噪聲來實現(xiàn)目標。

具體來說,研究者在像素層面精準地追蹤噪聲和光流密度,依據(jù)前向、后向光流,計算畫面的擴展與收縮變化,以此來確定噪聲的扭曲方式。

同時,結合HIWYN提出的條件白噪聲采樣方法,保證算法在運行過程中始終維持高斯性。

圖片

在視頻擴散推理階段,本文提出的方法優(yōu)勢明顯,能依據(jù)不同運動類型,自動調整噪聲變形,為多種運動控制應用提供一站式解決方案。

  • 局部物體運動控制:當用戶想要控制局部物體運動時,只需給出拖動信號,就能在物體輪廓范圍內靈活改變噪聲元素,讓局部物體按照需求運動。
  • 全局相機運動控制:針對全局相機運動的控制,復用參考視頻里的光流數(shù)據(jù),對輸入噪聲進行扭曲處理,這樣就能在不同文本描述或初始幀條件下,重新生成視頻。
  • 任意運動傳遞:進行任意運動傳遞時,運動表達方式不再局限于常見光流,還包括3D渲染引擎生成的光流、深度變形等形式。

圖片

Go-with-the-Flow主要由兩部分組成:噪聲扭曲算法和視頻擴散微調。

噪聲扭曲算法運行時,和擴散模型的訓練流程互不干擾。研究團隊利用這個算法生成噪聲模式,再用這些模式去訓練擴散模型。

本研究中的運動控制完全基于噪聲初始化,在視頻擴散模型中沒有添加任何額外參數(shù),這樣既能簡化模型結構,又能提高運行效率。

HIWYN提出將噪聲扭曲應用于圖像擴散模型的設想。受此啟發(fā),研究團隊發(fā)現(xiàn)了扭曲噪聲的新用法,就是把它作為視頻生成模型的運動控制條件。

研究團隊使用由大量視頻和扭曲噪聲對構成的數(shù)據(jù)集,對視頻擴散模型進行微調。經(jīng)過這樣的處理,在推理階段就能很好地控制視頻里的運動了。

噪聲扭曲算法

為了便于進行大規(guī)模噪聲扭曲操作,研究團隊研發(fā)出一種快速噪聲扭曲算法。

這個算法是逐幀處理噪聲的,只需要存儲前一幀噪聲(尺寸是H×W×C)和每個像素的光流密度值矩陣(尺寸為H×W),這里的密度值能體現(xiàn)特定區(qū)域中噪聲的壓縮程度。

HIWYN算法在運行時,需要進行耗時的多邊形光柵化和每個像素的上采樣操作。

新算法直接根據(jù)光流追蹤幀與幀之間畫面的擴展和收縮情況,全程只用到像素級別的操作,這些操作還很容易實現(xiàn)并行處理,大大提高了效率。

新算法和HIWYN算法一樣,都能保證噪聲的高斯性。

下一幀噪聲扭曲

噪聲扭曲算法通過迭代方式來計算噪聲,某一幀的噪聲計算僅取決于前一幀的狀態(tài)。

假設每幀視頻的尺寸是H×W,用圖片代表一個高為H、寬為W的二維矩陣。

已知前一幀的噪聲q和流密度圖片,同時知道正向流f和反向流f′:圖片,基于這些條件,算法就能算出下一幀的噪聲q′和流密度圖片,q′(或p′)與前一幀的q(或p)通過流在時間上建立起關聯(lián)。

本文的算法結合了擴展和收縮兩種動態(tài)機制。

當視頻里某個區(qū)域放大,或者有物體朝著相機移動時,就會觸發(fā)擴展機制。在這種情況下,當前幀的一個噪聲像素,會在下一幀中對應一個或多個噪聲像素,這就是擴展。

在收縮時,研究者借鑒了拉格朗日流體動力學的思路,把噪聲像素想象成沿著前向光流f移動的粒子。

這些粒子移動后,畫面中往往會留下空白區(qū)域。對于前向光流f沒有覆蓋到的區(qū)域,就利用反向光流f'拉回一個噪聲像素,再用擴展過程中算好的噪聲去填充這些空白。

此外,為了長時間維持噪聲分布的正確性,研究團隊借助密度值,來記錄特定區(qū)域內噪聲像素的聚集數(shù)量。

在收縮情形下,當這些噪聲像素與附近其他粒子混合時,密度較高的粒子會有更大的權重。

圖片

為了同時處理好擴展和收縮這兩種情況,研究者構建了一個二分圖G。圖里的邊表明了噪聲和密度從前一幀傳遞到下一幀的方式。

在綜合考慮圖中各邊的作用,生成下一幀噪聲q'時,依據(jù)光流密度對噪聲進行縮放,以此確保原始幀的分布特性能夠得以保留。

同時計算擴展和收縮的情況,避免它們相互干擾,就能確保最終輸出的結果符合完美的高斯分布。

實驗結果

為了驗證方案的有效性,研究團隊開展了大量實驗及用戶調研。結果表明,在保持運動一致性和針對同一情境渲染不同的運動效果方面,該方案表現(xiàn)十分出色。

從實驗數(shù)據(jù)和用戶反饋可知,本方案在像素畫面質量、運動控制精準度、與文本描述的契合度、視頻時間連貫性以及用戶喜好程度等方面,都具有顯著優(yōu)勢。

用Moran's I指標衡量空間相關性,K-S檢驗評估正態(tài)性。選擇多種基準進行對比,包括固定獨立采樣噪聲、插值方法及其他噪聲扭曲算法。

可以看到,本文提出的方法在Moran's I指標和K-S檢驗中表現(xiàn)良好,表明無空間自相關性且符合正態(tài)分布;而雙線性、雙三次和最近鄰插值方法未能保持高斯性,存在空間自相關性且偏離正態(tài)分布。

本文的方法在保持空間高斯性上成效顯著,且在噪聲生成效率和實際應用方面有很強的可行性。

圖片

實驗結果表明,本文的方法效率極高,比并行的InfRes運行更快,相比HIWYN,速度提升了26倍,這得益于算法的線性時間復雜度。

算法的效率比實時速度快了一個數(shù)量級,這說明在視頻擴散模型微調時動態(tài)應用噪聲扭曲是可行的。

為驗證噪聲扭曲算法有效性,將經(jīng)不同方法扭曲的噪聲輸入到用于超分辨率和人像重光照的預訓練圖像擴散模型中,通過評估輸出視頻的質量和時間一致性。

圖片

結果顯示,本文的算法在時間一致性上比基線方法更出色,處理前景、背景和邊緣時穩(wěn)定性更好。

在DifFRelight視頻重光照任務中評估噪聲扭曲方法。推理時,研究者從特定區(qū)域裁剪出畫面,并按照指定光照條件進行處理。本文的方法在圖像和時間指標上表現(xiàn)更好,能有效改進圖像擴散模型。

圖片

圖片

接下來聚焦視頻擴散中的局部對象運動控制。為評估模型控制能力,將其與SG-I2V、MotionClone和DragAnything三種基線方法對比。

現(xiàn)有方法在處理復雜局部運動時存在局限,SG-I2V會誤判運動導致場景平移,DragAnything缺乏一致性易失真,MotionClone難以捕捉細微動態(tài)。

本文的模型在處理復雜運動時表現(xiàn)優(yōu)異,能保持對象保真度和三維一致性。大量研究和評估證實了本文的方法在運動一致性、視覺保真度和整體真實感方面優(yōu)勢顯著。

本文的方法同樣支持運動遷移和相機運動控制。

圖片

在DAVIS數(shù)據(jù)集的對象運動遷移中,運動保真度和視頻質量更好,生成視頻與真實視頻還原度高。

在相機運動控制上,在DL3DV和WonderJourney數(shù)據(jù)集以及深度扭曲實驗中表現(xiàn)出色。

在視頻首幀編輯能力上,能無縫融入新增對象并保留原始運動,明顯優(yōu)于基線方法。

本研究提出了一種新穎的、速度快于實時的噪聲扭曲算法,它能將運動控制自然地融入視頻擴散噪聲采樣過程。

研究者用這種噪聲扭曲技術對視頻數(shù)據(jù)進行預處理,以開展視頻擴散微調,從而提供了一種通用且用戶友好的范式,可應用于各類運動可控的視頻生成場景。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-18 09:00:59

2023-09-06 12:57:11

AI訓練

2020-11-24 13:05:35

Go語言泛型

2020-09-27 16:40:29

程序員技術開發(fā)

2020-03-02 14:18:33

程序員技能開發(fā)者

2025-01-13 08:20:00

AI模型訓練

2015-01-14 13:07:03

2009-08-19 19:16:21

CS1000統(tǒng)一通信北電

2022-10-31 07:09:15

拷貝代碼項目

2017-03-26 16:12:21

華為智能聯(lián)網(wǎng)

2023-03-20 11:29:49

2024-05-11 07:00:00

AIIC-LightP照片換背景

2012-06-20 13:36:42

Surface平板

2023-11-17 15:50:27

AI訓練

2022-09-30 15:35:43

AI視頻

2018-11-27 10:25:05

2019-04-04 14:05:20

consolejs前端

2019-07-10 10:20:36

前端用戶體驗javascript
點贊
收藏

51CTO技術棧公眾號