自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="n1hz6"><font id="n1hz6"></font></ruby>

<legend id="n1hz6"><abbr id="n1hz6"></abbr></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

RTX3090可跑，360AI團(tuán)隊(duì)開(kāi)源最新視頻模型FancyVideo，紅衣大叔都說(shuō)好

作者：機(jī)器之心 2024-08-26 15:58:35

人工智能新聞

近日，開(kāi)源社區(qū)又迎來(lái)一款強(qiáng)力的「視頻生成」工作，可以在消費(fèi)級(jí)顯卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意寬高比、不同風(fēng)格、不同運(yùn)動(dòng)幅度的視頻，其衍生模型還能夠完成視頻擴(kuò)展、視頻回溯的功能……

論文作者之一 Ao Ma，碩士畢業(yè)于中科院計(jì)算所，曾在 MSRA 視覺(jué)計(jì)算組和阿里通義實(shí)驗(yàn)室進(jìn)行學(xué)術(shù)研究和算法落地工作。目前是奇虎 360-AIGC 團(tuán)隊(duì)-視頻生成方向負(fù)責(zé)人，長(zhǎng)期致力于視覺(jué)生成方向研究和落地，以及開(kāi)源社區(qū)建設(shè)。

近日，開(kāi)源社區(qū)又迎來(lái)一款強(qiáng)力的「視頻生成」工作，可以在消費(fèi)級(jí)顯卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意寬高比、不同風(fēng)格、不同運(yùn)動(dòng)幅度的視頻，其衍生模型還能夠完成視頻擴(kuò)展、視頻回溯的功能…… 這便是 360AI 團(tuán)隊(duì)和中山大學(xué)聯(lián)合研發(fā)的 FancyVideo，一種基于 UNet 架構(gòu)的視頻生成模型。

作者基于已經(jīng)開(kāi)源的 61 幀模型，實(shí)測(cè)效果如下。

首先適配不同分辨率、寬高比：

其次支持不同風(fēng)格：

最后生成不同運(yùn)動(dòng)性：

論文地址：https://arxiv.org/abs/2408.08189
項(xiàng)目主頁(yè)：https://fancyvideo.github.io/
代碼倉(cāng)庫(kù)：https://github.com/360CVGroup/FancyVideo
論文標(biāo)題：FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

跨幀文本引導(dǎo)模塊

作者在進(jìn)行視頻生成研究過(guò)程中，發(fā)現(xiàn)現(xiàn)有的文本到視頻（T2V）工作通常會(huì)采用空間交叉注意力（Spatial Cross Attention），將文本等價(jià)地引導(dǎo)至不同幀的生成過(guò)程中，缺乏對(duì)不同幀靈活性的文本引導(dǎo)（如下圖左）。這會(huì)導(dǎo)致模型理解提示詞所傳達(dá)的時(shí)間邏輯和生成具有連續(xù)運(yùn)動(dòng)視頻的能力受到限制。

FancyVideo 正是從這一角度切入，特殊設(shè)計(jì)了跨幀文本引導(dǎo)模塊（Cross-frame Textual Guidance Module, CTGM, 如下圖右）改進(jìn)了現(xiàn)有文本控制機(jī)制。

具體來(lái)說(shuō)，CTGM 包含 3 個(gè)子模塊：

時(shí)序信息注入器（Temporal Information Injector, TII）-- 將來(lái)自潛在特征的幀特定信息注入文本條件中，從而獲得跨幀文本條件；
時(shí)序特征提取器（Temporal Affinity Refiner, TAR）-- 沿時(shí)間維度細(xì)化跨幀文本條件與潛在特征之間的相關(guān)矩陣；
時(shí)序特征增強(qiáng)器（Temporal Feature Booster, TFB）-- 增強(qiáng)了潛在特征的時(shí)間一致性。

FancyVideo 訓(xùn)練流程

FancyVideo 整體訓(xùn)練 Pipeline 如下所示。其中在模型結(jié)構(gòu)方面，F(xiàn)ancyVideo 選擇在 2D T2I 模型基礎(chǔ)上插入時(shí)序?qū)雍突?CTGM 的運(yùn)動(dòng)性模塊的方式構(gòu)造 T2V 模型。在生成視頻時(shí)，先進(jìn)行 T2I 操作生成首幀，再進(jìn)行 I2V。這既保存了 T2I 模型的能力，使視頻整體畫(huà)質(zhì)變高，又大大減少了訓(xùn)練代價(jià)。

此外，為實(shí)現(xiàn)運(yùn)動(dòng)控制的能力，F(xiàn)ancyVideo 在訓(xùn)練階段將基于 RAFT 提取視頻運(yùn)動(dòng)信息和 time embedding 一起注入到網(wǎng)絡(luò)中。

實(shí)驗(yàn)結(jié)果

作者通過(guò)定量和定性?xún)蓚€(gè)方面對(duì)模型效果進(jìn)行評(píng)估。他們首先在 EvalCrafter Benchmark 上比較了 FancyVideo 和其他 T2V 模型，可以看到 FancyVideo 在視頻生成質(zhì)量、文本一致性、運(yùn)動(dòng)性和時(shí)序一致性方面均處于領(lǐng)先位置。

論文還在 UCF-101 和 MSR-VTT Benchmark 上進(jìn)行了 Zero-shot 的評(píng)測(cè)，在衡量生成視頻豐富性的 IS 指標(biāo)和文本一致性的 CLIPSIM 指標(biāo)均取得了 SOTA 結(jié)果。

此外，論文還基于 FancyVideo 模型的 T2V 和 I2V 能力分別和前人方法進(jìn)行了人工評(píng)測(cè)，結(jié)果顯示在視頻生成質(zhì)量、文本一致性、運(yùn)動(dòng)性和時(shí)序一致性角度 FancyVideo 均處于領(lǐng)先。

最后，論文中采用消融實(shí)驗(yàn)探究了 CTGM 的不同子模塊對(duì)于視頻生成結(jié)果的影響，以驗(yàn)證各個(gè)子模塊的合理性和有效性。

應(yīng)用場(chǎng)景

基于這種訓(xùn)練 pipline 和策略，F(xiàn)ancyVideo 可以同時(shí)完成 T2V 和 I2V 功能，還可以在生成關(guān)鍵關(guān)鍵幀的基礎(chǔ)上進(jìn)行插幀操作：

視頻擴(kuò)展、視頻回溯操作：

FancyVideo 上線開(kāi)源社區(qū)不到一周，已經(jīng)有手快的同學(xué)自發(fā)搭建了 FancyVideo 的 ComfyUI 插件，讓大家可以在自己的機(jī)器上玩的開(kāi)心。

此外，據(jù)作者了解，后續(xù) FancyVideo 團(tuán)隊(duì)除了會(huì)放出更長(zhǎng)、效果更好的模型到開(kāi)源社區(qū)，還計(jì)劃上線網(wǎng)頁(yè)版本供大家【免費(fèi)】使用。在 AIGC 時(shí)代，人人都是「能詩(shī)會(huì)畫(huà)」的藝術(shù)家。

結(jié)論

相比于 SORA 類(lèi)視頻生成「產(chǎn)品」的發(fā)展，開(kāi)源社區(qū)中視頻生成模型的更新和迭代顯得略微緩慢，F(xiàn)ancyVideo 的發(fā)布也給了普通用戶(hù)更多選擇。相信在社區(qū)小伙伴共同的努力下，視頻生成這一目前看上去費(fèi)時(shí)費(fèi)力的任務(wù)，能夠成為更多普通小伙伴日常生活、工作中的工具。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<wbr id="uhjay"><menu id="uhjay"></menu></wbr>

<ul id="uhjay"><blockquote id="uhjay"><tbody id="uhjay"></tbody></blockquote></ul>

<sub id="uhjay"><rt id="uhjay"></rt></sub>

^{<blockquote id="uhjay"></blockquote>}

<sub id="uhjay"></sub>