視頻版PS!0樣本視頻編輯模型,普通人秒變鋼鐵俠
巴黎礦業(yè)大學(xué)、以色列理工學(xué)院的研究人員聯(lián)合推出了一款創(chuàng)新視頻模型——Slicedit。
Slicedit主要通過結(jié)合文生圖像的擴(kuò)散模型以及對(duì)視頻時(shí)空切片的預(yù)處理,在不影響背景的情況下對(duì)視頻主體進(jìn)行修改。例如,將一名沖浪的男人變成鋼鐵俠,將一名轉(zhuǎn)球的男孩變成NBA巨星庫(kù)里,將貓的樣子變成豹等。
雖然更改的視頻質(zhì)量并不是很理想,會(huì)出現(xiàn)模糊、扭曲的情況。但這種方式對(duì)于不會(huì)使用AE專業(yè)視頻編輯軟件的業(yè)余人員來說幫助巨大,可以快速完成視頻內(nèi)容修改,相當(dāng)于視頻版的PS。用來做鬼畜、抖音、快手類的搞笑視頻非常方便。
論文地址:https://arxiv.org/abs/2405.12211
把一名沖浪男人輕松變成鋼鐵俠,背景沒有發(fā)生任何改變。
文生圖領(lǐng)域涌現(xiàn)出了DALL·E 3 、Midjourney、Stable Difusion等一大批優(yōu)秀的產(chǎn)品,但是將其應(yīng)用在視頻編輯卻很難,經(jīng)常出現(xiàn)時(shí)間不連貫、動(dòng)作不一致、背景變動(dòng)大等問題。而Slicedit通過空間時(shí)間切片、擴(kuò)展注意力、DDPM反演等克服了這些難題。
空間時(shí)間切片
?
在視頻處理領(lǐng)域,空間時(shí)間切片是從視頻的三維空間中提取的二維平面。這些切片可以是固定時(shí)間點(diǎn)上的視頻幀(即空間切片),或者是在特定方向上跨越時(shí)間的連續(xù)幀的組合。
在Slicedit模型中,通過空間時(shí)間切片使得模型能夠處理視頻中的動(dòng)態(tài)元素,如運(yùn)動(dòng)和變形,還能夠在編輯過程中保持背景和其他非目標(biāo)區(qū)域的穩(wěn)定和完整性。
例如,在將視頻中的人物替換為機(jī)器人,空間時(shí)間切片模塊能夠確保在替換過程中,背景和其他非人物區(qū)域保持不變,從而生成自然且連貫的視頻輸出。
此外,在空間時(shí)間切片的幫助下,Slicedit還能在零樣本條件下無需針對(duì)特定視頻內(nèi)容進(jìn)行微調(diào),就能進(jìn)行視頻編輯。模型的靈活、擴(kuò)展性以及生成效率也得到了增強(qiáng)。
擴(kuò)展注意力
?
在傳統(tǒng)的注意力機(jī)制中,ChatGPT等模型通過自注意力來處理數(shù)據(jù),使模型在處理圖像或文本時(shí),識(shí)別出不同部分之間的關(guān)聯(lián)。
但這種機(jī)制在處理視頻時(shí)存在局限性,因?yàn)椴荒芎芎玫靥幚頃r(shí)間序列數(shù)據(jù)。為了解決這個(gè)難題,研究人員提出了擴(kuò)展注意力。
將普通轉(zhuǎn)球男人變成NBA巨星庫(kù)里
擴(kuò)展注意力的核心思想是將注意力機(jī)制擴(kuò)展到多個(gè)時(shí)間步。這意味著模型在處理當(dāng)前幀時(shí),不僅考慮當(dāng)前幀的信息,還會(huì)考慮與之相鄰的幀。通過這種方式,模型能夠捕捉到視頻幀之間的動(dòng)態(tài)變化,從而生成更加連貫的視頻內(nèi)容。
Slicedit模型中的擴(kuò)展注意力是,通過修改U-Net網(wǎng)絡(luò)中的自注意力模塊來實(shí)現(xiàn)的,在每個(gè)Transformer塊中引入了擴(kuò)展注意力機(jī)制。
這種機(jī)制允許模型在處理視頻幀時(shí),同時(shí)考慮多個(gè)幀的信息。為了實(shí)現(xiàn)這一點(diǎn),模型使用了一組關(guān)鍵幀(Key-Frames),這些關(guān)鍵幀被用來與當(dāng)前幀進(jìn)行比較和關(guān)聯(lián)。
首先模型為每個(gè)幀生成Query、Key和Value。然后,模型計(jì)算當(dāng)前幀與關(guān)鍵幀之間的注意力分?jǐn)?shù)并通過softmax函數(shù)進(jìn)行歸一化。
最后,模型根據(jù)這些注意力分?jǐn)?shù)對(duì)關(guān)鍵幀的特征進(jìn)行加權(quán)求和,以生成當(dāng)前視頻幀的輸出。
DDPM反演
?
常規(guī)的文生圖、文生視頻都是一種去噪過程,通常會(huì)從一個(gè)隨機(jī)噪聲向量開始,該向量遵循高斯分布。再通過迭代的方式逐步引入噪聲,直至生成高質(zhì)量的圖像或視頻。
Slicedit則反推了這個(gè)過程,從目標(biāo)數(shù)據(jù)例如,從一個(gè)視頻幀開始,目標(biāo)是找到一組噪聲向量,這些向量在經(jīng)過DDPM的生成過程后能夠重建原始數(shù)據(jù)。這一過程就是反演,即從數(shù)據(jù)中提取出噪聲,而不是從噪聲中生成數(shù)據(jù)。
Slicedit模型需要將輸入的視頻幀轉(zhuǎn)換為噪聲空間。這涉及到對(duì)視頻幀進(jìn)行逆向處理,以提取出在DDPM的生成過程中用于重建這些幀的噪聲向量。
在提取出噪聲空間后,接下來需要進(jìn)行條件去噪,將條件信息例如,文本提示納入到評(píng)估范圍,以指導(dǎo)去噪過程,確保生成的視頻內(nèi)容符合用戶的二次編輯標(biāo)準(zhǔn)。
研究人員表示,將會(huì)很快開源Slicedit模型,幫助更多的開發(fā)人員構(gòu)建自己的視頻編輯器。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
