自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="8e18y"><nav id="8e18y"></nav></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒

發(fā)布于 2025-2-27 12:26

瀏覽

0收藏

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2502.15894 項(xiàng)目鏈接：https://riflex-video.github.io/

亮點(diǎn)直擊

通過(guò)分析現(xiàn)有方法的失敗模式并揭示位置嵌入中各個(gè)頻率成分的作用，提供了對(duì)視頻長(zhǎng)度外推的全面理解。
提出了RIFLEx，一種簡(jiǎn)單而有效的解決方案，通過(guò)適當(dāng)降低內(nèi)在頻率來(lái)減少重復(fù)，且無(wú)需任何額外修改。
RIFLEx提供了一種真正的“免費(fèi)午餐”——在最先進(jìn)的視頻擴(kuò)散Transformer上以完全無(wú)需訓(xùn)練的方式實(shí)現(xiàn)高質(zhì)量的2倍外推。此外，通過(guò)少量微調(diào)且無(wú)需長(zhǎng)視頻，它進(jìn)一步提升了質(zhì)量并實(shí)現(xiàn)了3倍外推。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

生成長(zhǎng)視頻的挑戰(zhàn)：現(xiàn)有的視頻生成模型在生成長(zhǎng)視頻時(shí)面臨時(shí)間一致性差的問(wèn)題，容易出現(xiàn)時(shí)間重復(fù)或運(yùn)動(dòng)減速的現(xiàn)象。
長(zhǎng)度外推技術(shù)的不足：現(xiàn)有的長(zhǎng)度外推方法在應(yīng)用于視頻生成時(shí)表現(xiàn)不佳，導(dǎo)致時(shí)間重復(fù)和運(yùn)動(dòng)減速。

提出的方案

RIFLEx方法：提出了一種名為RIFLEx（Reducing Intrinsic Frequency for Length Extrapolation）的方法，通過(guò)降低內(nèi)在頻率來(lái)抑制時(shí)間重復(fù)，同時(shí)保持運(yùn)動(dòng)一致性。
訓(xùn)練自由和微調(diào)：RIFLEx在2倍外推時(shí)無(wú)需任何訓(xùn)練即可實(shí)現(xiàn)高質(zhì)量視頻生成，而在3倍外推時(shí)僅需少量微調(diào)。

應(yīng)用的技術(shù)

頻率成分分析：通過(guò)隔離和調(diào)整位置嵌入中的頻率成分，發(fā)現(xiàn)高頻成分導(dǎo)致時(shí)間重復(fù)，低頻成分導(dǎo)致運(yùn)動(dòng)減速。
內(nèi)在頻率調(diào)整：識(shí)別并降低內(nèi)在頻率，確保外推后頻率保持在一個(gè)周期內(nèi)，從而抑制重復(fù)并保持運(yùn)動(dòng)一致性。
擴(kuò)散Transformer：應(yīng)用了擴(kuò)散Transformer（diffusion transformers）技術(shù)，結(jié)合了擴(kuò)散模型的可擴(kuò)展性和Transformer的表達(dá)能力。

達(dá)到的效果

高質(zhì)量視頻生成：RIFLEx在2倍外推時(shí)實(shí)現(xiàn)了高質(zhì)量、自然的視頻生成，且無(wú)需額外訓(xùn)練。
3倍外推：通過(guò)少量微調(diào)，RIFLEx進(jìn)一步提升了樣本質(zhì)量，并實(shí)現(xiàn)了3倍外推。
廣泛驗(yàn)證：在多個(gè)先進(jìn)的視頻擴(kuò)散Transformer（如CogVideoX-5B和HunyuanVideo）上進(jìn)行了廣泛實(shí)驗(yàn)，驗(yàn)證了RIFLEx的有效性。
空間外推：RIFLEx還可以同時(shí)應(yīng)用于空間域，擴(kuò)展視頻時(shí)長(zhǎng)和空間分辨率。

方法

本文目標(biāo)是全面理解并解決視頻長(zhǎng)度外推問(wèn)題。首先強(qiáng)調(diào)了現(xiàn)有方法的失敗模式，分析了位置嵌入中不同頻率成分的作用，并識(shí)別了一個(gè)內(nèi)在頻率?；诖?，推導(dǎo)出了內(nèi)在頻率。作為副產(chǎn)品，本文方法不僅為現(xiàn)有方法在視頻外推中的失敗提供了理論解釋，還為圖像空間外推提供了見(jiàn)解。

現(xiàn)有方法的失敗模式

盡管“外推”一詞在不同領(lǐng)域被廣泛使用，但它在視頻生成中的作用與文本和圖像有根本不同。在視頻生成中，目標(biāo)是創(chuàng)建新的、時(shí)間上連貫的內(nèi)容，并使其隨時(shí)間平滑演變。相比之下，文本外推主要是擴(kuò)展上下文窗口，而圖像外推通常涉及添加高分辨率細(xì)節(jié)，而不是生成有意義的新內(nèi)容。

因此，為文本和圖像開(kāi)發(fā)的外推策略在視頻長(zhǎng)度外推中失敗，并表現(xiàn)出有趣的失敗模式，如圖2所示。為了更好地理解這些模式，還在圖像空間外推中進(jìn)行了對(duì)比實(shí)驗(yàn)，揭示了與視頻的相似之處。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

PE（直接擴(kuò)展位置編碼超出訓(xùn)練范圍）會(huì)導(dǎo)致時(shí)間重復(fù)，使視頻循環(huán)播放而不是自然推進(jìn)（圖2a）。在圖像生成中，類似現(xiàn)象表現(xiàn)為空間重復(fù)，而不是生成新內(nèi)容。
PI（Chen et al., 2023b）將位置編碼壓縮在訓(xùn)練范圍內(nèi)，導(dǎo)致運(yùn)動(dòng)變慢，通過(guò)拉伸幀時(shí)間來(lái)實(shí)現(xiàn)（圖2b）。雖然這種方法保持了結(jié)構(gòu)一致性，但缺乏時(shí)間上的新穎性。在圖像生成中，這會(huì)導(dǎo)致細(xì)節(jié)模糊而不是新內(nèi)容（圖2e）。
如圖2c所示，NTK也會(huì)引起時(shí)間重復(fù)，無(wú)法生成有意義的運(yùn)動(dòng)進(jìn)展。在圖像生成中，它會(huì)導(dǎo)致空間重復(fù)（圖2f）。雖然其他方法（Peng et al., 2023; Lu et al., 2024b; Zhuo et al., 2024）在實(shí)現(xiàn)上與NTK不同，但它們都不可避免地遭受這兩種失敗模式中的一種或兩種：要么是運(yùn)動(dòng)減速，要么是內(nèi)容重復(fù)。

除了揭示這些局限性外，本文的發(fā)現(xiàn)還提供了對(duì)位置嵌入如何從根本上塑造時(shí)間運(yùn)動(dòng)的直觀理解，這為在下一節(jié)中的頻率成分分析提供了動(dòng)機(jī)。

RoPE中的頻率成分分析

首先分析了RoPE（Su et al., 2021）中各個(gè)頻率成分的作用。為了簡(jiǎn)化，專注于時(shí)間軸并省略下標(biāo)。我們通過(guò)將其他頻率成分置零來(lái)隔離特定頻率成分，并在目標(biāo)模型的訓(xùn)練長(zhǎng)度上進(jìn)行微調(diào)，以適應(yīng)修改后的RoPE。通過(guò)這一分析，得出了兩個(gè)關(guān)鍵見(jiàn)解。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

給定訓(xùn)練L長(zhǎng)度，時(shí)間重復(fù)的次數(shù)可以量化為：

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

令人驚訝的是，盡管N在不同視頻中存在輕微變化，但同一模型生成的不同視頻中，這種內(nèi)在頻率保持一致。例如，CogVideoX-5B的k為2，而HunyuanVideo的k為4。

在極少數(shù)情況下，如果模型在不同視頻中表現(xiàn)出不一致的內(nèi)在頻率，建議將所有此類頻率視為內(nèi)在頻率。我們的初步實(shí)驗(yàn)進(jìn)一步驗(yàn)證了這一假設(shè)，表明將所有低頻成分納入我們的方法中仍能保持強(qiáng)大的性能，詳見(jiàn)附錄E的討論。

降低內(nèi)在頻率：一種最小化解決方案

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

我們進(jìn)一步研究了RIFLEx是否需要微調(diào)。令人驚訝的是，對(duì)于2倍外推，RIFLEx可以在無(wú)需訓(xùn)練的情況下生成高質(zhì)量視頻，如圖4所示。僅使用20,000個(gè)原始長(zhǎng)度視頻和1/50,000的預(yù)訓(xùn)練計(jì)算量進(jìn)行微調(diào)，可以進(jìn)一步增強(qiáng)動(dòng)態(tài)質(zhì)量和視覺(jué)質(zhì)量。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

對(duì)于3倍外推，內(nèi)在頻率的變化過(guò)大，導(dǎo)致無(wú)需訓(xùn)練的RIFLEx失效。然而，微調(diào)過(guò)程仍然成功，如圖4所示。

現(xiàn)有方法的理論解釋

我們的發(fā)現(xiàn)為第3.1節(jié)中觀察到的失敗模式提供了理論解釋。在PE和NTK中觀察到的重復(fù)現(xiàn)象源于它們的內(nèi)在頻率成分違反了公式(8)中的非重復(fù)條件。因此，生成的視頻內(nèi)容循環(huán)播放而不是自然推進(jìn)。

PI和YaRN通過(guò)對(duì)高頻成分進(jìn)行插值導(dǎo)致運(yùn)動(dòng)變慢，而這些成分對(duì)快速運(yùn)動(dòng)至關(guān)重要。在這些方法中，這些成分被除，因此無(wú)法生成快速運(yùn)動(dòng)。TASR結(jié)合了上述兩種方法，導(dǎo)致時(shí)間重復(fù)和運(yùn)動(dòng)減速的混合。更多細(xì)節(jié)和實(shí)驗(yàn)請(qǐng)參見(jiàn)附錄C。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

我們描述了數(shù)據(jù)集和評(píng)估設(shè)置，具體實(shí)現(xiàn)細(xì)節(jié)見(jiàn)表3（見(jiàn)附錄D）。

數(shù)據(jù)集：我們使用一個(gè)包含20,000個(gè)視頻的私有數(shù)據(jù)集進(jìn)行微調(diào)。對(duì)于CogVideoX-5B，我們采用VBench的提示詞，以確保與之前的工作（Yang et al., 2024）一致。由于HunyuanVideo的高計(jì)算成本，我們使用100個(gè)跨多個(gè)類別的多樣化提示詞對(duì)其進(jìn)行評(píng)估。

評(píng)估指標(biāo)：根據(jù)之前的工作（Huang et al., 2024; Yang et al., 2024），我們使用圖像質(zhì)量（Imaging Quality）、動(dòng)態(tài)程度（Dynamic Degree）和主體一致性（Subject Consistency）來(lái)評(píng)估視頻生成，分別衡量視覺(jué)質(zhì)量、運(yùn)動(dòng)幅度和時(shí)間一致性。此外，我們引入了無(wú)重復(fù)分?jǐn)?shù)（NoRepeat Score），分?jǐn)?shù)越高表示重復(fù)越少（詳見(jiàn)附錄D）。我們還進(jìn)行了包含10名參與者的用戶研究，評(píng)估視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量和整體偏好。運(yùn)動(dòng)質(zhì)量反映了重復(fù)和慢動(dòng)作的情況。用戶在所有外推方法中對(duì)偏好進(jìn)行排名，允許并列。我們還對(duì)正常樣本和RIFLEx的結(jié)果進(jìn)行了成對(duì)比較。更多細(xì)節(jié)見(jiàn)附錄D。

性能比較

結(jié)果：定量結(jié)果總結(jié)在表1中。我們的方法在整體性能上表現(xiàn)優(yōu)異，生成了新的時(shí)間內(nèi)容，同時(shí)不損害視頻質(zhì)量的其他方面。例如，在CogVideoX-5B中，PI和YaRN因慢動(dòng)作問(wèn)題導(dǎo)致動(dòng)態(tài)程度較低，而PE和NTK因重復(fù)問(wèn)題導(dǎo)致無(wú)重復(fù)分?jǐn)?shù)較低。通過(guò)有效解決這兩個(gè)挑戰(zhàn)，我們的方法顯著提升了運(yùn)動(dòng)質(zhì)量，并在用戶研究中在所有方法中排名最高。

值得注意的是，NTK在HunyuanVideo的2倍外推中表現(xiàn)良好，但我們的分析將其歸因于意外的內(nèi)在頻率降低，恰好滿足了公式(8)中的非重復(fù)條件，而非其設(shè)計(jì)機(jī)制。這一點(diǎn)在NTK在CogVideo-X和HunyuanVideo的2.3倍外推中失敗時(shí)尤為明顯，反映在表1中的低無(wú)重復(fù)分?jǐn)?shù)上。

定性結(jié)果如圖5所示（HunyuanVideo），CogVideoX-5B的額外對(duì)比見(jiàn)附錄F。圖5與定量結(jié)果一致，展示了我們的方法在有效緩解慢動(dòng)作和重復(fù)問(wèn)題方面的能力，從而提高了整體視頻質(zhì)量。此外，僅需1/50,000預(yù)訓(xùn)練計(jì)算量的最小微調(diào)程序進(jìn)一步提升了動(dòng)態(tài)程度、圖像質(zhì)量和無(wú)重復(fù)分?jǐn)?shù)。最后，借助強(qiáng)大的HunyuanVideo基礎(chǔ)模型，我們的方法實(shí)現(xiàn)了接近訓(xùn)練長(zhǎng)度的性能——56.0%和61.6%的用戶更傾向于訓(xùn)練長(zhǎng)度而非我們的方法。

下圖5. 基于HunyuanVideo的長(zhǎng)度外推可視化結(jié)果。通過(guò)有效解決慢動(dòng)作和重復(fù)問(wèn)題，實(shí)現(xiàn)了更好的視頻質(zhì)量。值得注意的是，雖然HunyuanVideo中的NTK在2倍外推時(shí)偶然避免了重復(fù)，但在更長(zhǎng)的外推（如2.3倍）時(shí)仍然遇到了顯著的重復(fù)問(wèn)題。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

最大外推范圍：實(shí)驗(yàn)表明，RIFLEx支持最多3倍外推，超過(guò)此范圍后質(zhì)量顯著下降（例如4倍外推，見(jiàn)下圖9）。這可能是因?yàn)檫^(guò)度的頻率降低削弱了RoPE的有效性，導(dǎo)致在訓(xùn)練長(zhǎng)度內(nèi)的編碼變化極小。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

擴(kuò)展到其他外推類型：進(jìn)一步探索了RIFLEx在空間外推和聯(lián)合時(shí)空外推中的應(yīng)用。如圖1b和圖1c所示，調(diào)整對(duì)應(yīng)維度的內(nèi)在頻率可以實(shí)現(xiàn)分辨率外推和聯(lián)合時(shí)空擴(kuò)展。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

從129幀到261幀的2倍時(shí)間外推的更多結(jié)果

結(jié)論

通過(guò)分析RoPE中頻率成分的作用，提供了對(duì)視頻長(zhǎng)度外推的全面理解?；谶@些見(jiàn)解，提出了RIFLEx，這是一種簡(jiǎn)單而有效的解決方案，通過(guò)降低內(nèi)在頻率來(lái)防止重復(fù)。RIFLEx在無(wú)需訓(xùn)練的情況下，在SOTA視頻擴(kuò)散Transformer上實(shí)現(xiàn)了高質(zhì)量的2倍外推，并通過(guò)少量微調(diào)實(shí)現(xiàn)了3倍外推，且無(wú)需長(zhǎng)視頻。

盡管在現(xiàn)有預(yù)訓(xùn)練模型上證明了RIFLEx的有效性，但尚未探索其從頭訓(xùn)練的性能，這留待未來(lái)工作。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/ABQzvmRM74pzP1bmm3J1wA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI Sora最強(qiáng)競(jìng)爭(zhēng)對(duì)手來(lái)了，Google DeepMind、TikTok等打造視頻生成工具Haiper.ai，免費(fèi)！

AIGC最前線 ? 3030瀏覽 ? 0回復(fù)
【乘風(fēng)進(jìn)階學(xué)習(xí)季】夏日初長(zhǎng)，乘風(fēng)而上，碼出未來(lái)！

AI.x社區(qū)官方賬號(hào) ? 52.9w瀏覽 ? 36回復(fù)
阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長(zhǎng)視頻生成

Syrupup ? 3702瀏覽 ? 0回復(fù)
AI恐怖體操視頻腿腳亂飛、大變活人，LeCun：視頻生成模型根本不懂物理

Crystalcxt ? 2143瀏覽 ? 0回復(fù)
生成式 AI 注定會(huì)顛覆搜索

51CTO技術(shù)棧 ? 2412瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成速度提升100倍！新加坡國(guó)立提出Video-Infinity：分布式長(zhǎng)視頻生成

angel ? 2755瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長(zhǎng)視頻生成框架

angel ? 7988瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成再突破！高質(zhì)量連貫達(dá)600幀 | ConFiner：專家鏈加持的免訓(xùn)練長(zhǎng)視頻生成器

angel ? 2242瀏覽 ? 0回復(fù)
阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開(kāi)源！

angel ? 2303瀏覽 ? 0回復(fù)
字節(jié)&上交&北大開(kāi)源StoryTeller：生成一致性高的長(zhǎng)視頻描述

angel ? 2083瀏覽 ? 0回復(fù)
顛覆性語(yǔ)音合成：Fish Agent v0.1 3B 引領(lǐng)多語(yǔ)言語(yǔ)音合成新高度

Halo咯咯 ? 2299瀏覽 ? 0回復(fù)
從頻率到細(xì)節(jié)：ConsisID實(shí)現(xiàn)無(wú)縫身份一致的文本到視頻生成

angel ? 2530瀏覽 ? 0回復(fù)
15M數(shù)據(jù)實(shí)現(xiàn)顛覆性統(tǒng)一多模態(tài)大模型！華為諾亞提出ILLUME

angel ? 2656瀏覽 ? 0回復(fù)
OpenAI 發(fā)布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 1788瀏覽 ? 0回復(fù)
文本生成無(wú)限長(zhǎng)視頻，無(wú)需任何訓(xùn)練

Aceryt ? 1792瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成新突破！FAR模型+FlexRoPE讓16倍時(shí)長(zhǎng)創(chuàng)作更高效

AIPaperDaily ? 959瀏覽 ? 0回復(fù)
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 455瀏覽 ? 0回復(fù)
顛覆影視圈！全球首個(gè)開(kāi)源「無(wú)限時(shí)長(zhǎng)」電影生成模型炸場(chǎng)：昆侖萬(wàn)維把視頻生成卷到新時(shí)代

angel ? 603瀏覽 ? 0回復(fù)
AI視頻生成新突破！字節(jié)提出一致性視頻生成方法Phantom：通過(guò)跨模態(tài)對(duì)齊生成主題一致的視頻，超多應(yīng)用場(chǎng)景

AIGCStudio ? 129瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇：直擊痛點(diǎn)，新一代身份保持視頻生成解決方案！阿里等提出FantasyID:多視角與3D融合！

下一篇： ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)

社區(qū)精華內(nèi)容

目錄

<bdo id="qps5z"></bdo>

<blockquote id="qps5z"></blockquote>