自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="yq8gg"><input id="yq8gg"></input></sub>

<pre id="yq8gg"><dfn id="yq8gg"></dfn></pre>

<legend id="yq8gg"><track id="yq8gg"></track></legend>

<style id="yq8gg"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一行代碼、無需訓(xùn)練突破視頻生成時(shí)長「魔咒」，清華朱軍團(tuán)隊(duì)開源全新解決方案RIFLEx

作者：機(jī)器之心 2025-03-12 09:05:02

人工智能新聞

Vidu 團(tuán)隊(duì)帶來了一個(gè)簡潔優(yōu)雅的解決方案 ——RIFLEx。新方案僅需一行代碼、無需額外訓(xùn)練即可突破視頻生成模型現(xiàn)有長度限制，打破「短視頻魔咒」。

自 OpenAI 發(fā)布 Sora 以來，視頻生成領(lǐng)域迎來爆發(fā)式增長，AI 賦能內(nèi)容創(chuàng)作的時(shí)代已然來臨。

去年 4 月，生數(shù)科技聯(lián)合清華大學(xué)基于團(tuán)隊(duì)提出的首個(gè)擴(kuò)散 Transformer 融合架構(gòu) U-ViT，發(fā)布了首個(gè)國產(chǎn)全自研視頻大模型 Vidu，打破國外技術(shù)壟斷，支持一鍵生成 16 秒高清視頻，展現(xiàn)出中國科技企業(yè)的創(chuàng)新實(shí)力。Vidu 自去年 7 月上線以來，已服務(wù)數(shù)千萬用戶，極大促進(jìn)了視頻內(nèi)容的智能創(chuàng)作。近期，騰訊混元、阿里通義萬相等開源視頻生成模型相繼亮相，可生成 5-6 秒視頻，進(jìn)一步降低了視頻創(chuàng)作門檻。

盡管如此，海內(nèi)外社區(qū)仍有不少用戶抱怨現(xiàn)有開源模型受限于生成 5-6 秒的短視頻，時(shí)長不夠用。

今天，Vidu 團(tuán)隊(duì)帶來了一個(gè)簡潔優(yōu)雅的解決方案 ——RIFLEx。新方案僅需一行代碼、無需額外訓(xùn)練即可突破視頻生成模型現(xiàn)有長度限制，打破「短視頻魔咒」。目前該項(xiàng)目已經(jīng)開源，體現(xiàn)了團(tuán)隊(duì)對開源社區(qū)的積極回饋和貢獻(xiàn)。

項(xiàng)目地址：https://riflex-video.github.io/
代碼地址: https://github.com/thu-ml/RIFLEx

RIFLEx適用于基于RoPE的各類Video Diffusion Trasnsformer，例如CogvideoX、混元（鏈接到之前推送）以及最新發(fā)布的通義萬相（鏈接到之前的推送）。

下列為開源模型無需任何訓(xùn)練直接時(shí)長外推兩倍至10s效果：

大幅度運(yùn)動：

prompt: 一只棕白相間的動畫豪豬好奇地審視著緞帶裝飾的綠色盒子，靈動的眼神與細(xì)膩的3D動畫風(fēng)格營造出溫馨而精致的視覺體驗(yàn)。

多人物復(fù)雜場景：

prompt: 荒涼空地上的簡易營地散布著無人機(jī)與物資，軍人與平民共處，一名男子絕望抱頭，女子憂慮注視，沉重氛圍暗示剛經(jīng)歷重大事件，鏡頭穩(wěn)定細(xì)膩，突出緊張與不安感。

自然動態(tài)流暢：

sora的經(jīng)典長毛猛犸象prompt

在短視頻微調(diào)幾千步可進(jìn)一步提升性能。

多轉(zhuǎn)場時(shí)序一致性保持：

prompt: 蓬亂頭發(fā)、穿棕色夾克系紅色領(lǐng)巾的男子在馬車內(nèi)嚴(yán)肅端詳硬幣，與女子交談，廣角與中近景結(jié)合展現(xiàn)歷史劇風(fēng)格與戲劇氛圍。

3D動畫風(fēng)格：

prompt: 動畫中的兔子和老鼠，身穿探險(xiǎn)裝備正處于險(xiǎn)境之中。它們急速墜入一個(gè)黑暗而未知的空間，緊接著便漂浮并游動在寧靜的水下世界里。緊張而堅(jiān)定的表情通過中景與特寫展現(xiàn)，高質(zhì)量3D動畫風(fēng)格增強(qiáng)電影感與沉浸感。

真實(shí)人物特寫：

prompt: 留著胡須、穿格子襯衫的男子坐著彈奏原聲吉他，沉浸于激情演唱。他所在的室內(nèi)環(huán)境簡潔，背景是一面純灰色墻壁，左側(cè)放置著一個(gè)吉他音箱和麥克風(fēng)架，右側(cè)擺放著一疊書籍。

除此之外，RIFLEx 不僅支持視頻的時(shí)間維度外推（如基于已有幀生成未來幀或延長視頻時(shí)序長度），還可擴(kuò)展至空間維度外推（如通過局部畫面超分辨率重建、修復(fù)缺失區(qū)域或擴(kuò)展視頻邊界內(nèi)容），以及可同時(shí)進(jìn)行的時(shí)空外推（如生成未來高分辨率視頻序列或動態(tài)擴(kuò)展視頻的時(shí)空內(nèi)容，兼顧時(shí)間連續(xù)性與空間一致性）。

圖像寬度外推兩倍：

左圖為訓(xùn)練尺寸，右圖為外推結(jié)果

圖像高度外推兩倍：

左圖為訓(xùn)練尺寸，右圖為外推結(jié)果

圖像高寬同時(shí)外推兩倍：

左圖為訓(xùn)練尺寸，右圖為外推結(jié)果

視頻時(shí)空同時(shí)外推兩倍：

訓(xùn)練尺寸：480*720*49

外推結(jié)果：960*1440*97

該研究成果一經(jīng)發(fā)布，獲得了廣泛關(guān)注。

知名博主 Ak 第一時(shí)間轉(zhuǎn)發(fā)，海外科技公司和博主稱贊其為「視頻擴(kuò)散模型領(lǐng)域的突破性創(chuàng)新」。

Diffusers 核心貢獻(xiàn)者 sayakpaul 和 a-r-r-o-w 也收藏了代碼并留言點(diǎn)贊：

目前 RIFLEx 已被社區(qū)用戶集成到各類知名視頻生成倉庫：

揭秘 RIFLEx：化繁為簡，直擊本質(zhì)

長度外推問題在大型語言模型中早有研究，但這些方法在視頻生成中卻屢屢碰壁，導(dǎo)致時(shí)序內(nèi)容重復(fù)或慢動作效果。

直接外推導(dǎo)致視頻內(nèi)容重復(fù)，紅色框表示開始和視頻開頭重復(fù)

同時(shí)結(jié)合外推和內(nèi)插的Yarn導(dǎo)致慢動作效果

為破解這一難題，Vidu 團(tuán)隊(duì)深入挖掘 RoPE 的頻率成分，揭示了其每個(gè)頻率成分在視頻生成的作用：

1. 時(shí)間依賴距離：不同頻率成分只能捕捉特定周期長度的幀間依賴關(guān)系。當(dāng)幀數(shù)超過周期長度時(shí)，周期的性質(zhì)導(dǎo)致位置編碼重復(fù)，從而使視頻內(nèi)容也會出現(xiàn)重復(fù)。

2. 運(yùn)動速度：不同頻率成分捕捉不同的運(yùn)動速度，由該頻率的位置編碼變化率決定。高頻成分捕捉快速運(yùn)動，低頻成分捕捉慢速運(yùn)動。

當(dāng)所有頻率成分結(jié)合時(shí)，存在一個(gè) 「內(nèi)在頻率」，即周期距離首次觀測重復(fù)幀最近的成分，它決定了視頻外推時(shí)的重復(fù)模式。

基于此，團(tuán)隊(duì)提出 RIFLEx：通過降低內(nèi)在頻率，確保外推后的視頻長度在一個(gè)周期內(nèi)，從而避免內(nèi)容重復(fù)。該方法僅需在經(jīng)典 RoPE 編碼中加入一行代碼即可實(shí)現(xiàn)。

這一方案為視頻生成領(lǐng)域提供了新的思路，有望推動長視頻生成技術(shù)的進(jìn)一步發(fā)展。

團(tuán)隊(duì)介紹

論文第一作者趙敏為清華大學(xué)TSAIL 團(tuán)隊(duì)博后研究員，研究方向?yàn)榛跀U(kuò)散模型的視覺內(nèi)容生成。趙敏是生數(shù)科技視頻生成大模型Vidu的核心開發(fā)者之一，此前以第一作者發(fā)表在NeurIPS、ICLR、ECCV等頂級會議和期刊發(fā)表論文數(shù)篇，并入選2024年清華大學(xué)“水木學(xué)者”。個(gè)人主頁：https://gracezhao1997.github.io/。

清華大學(xué) TSAIL 團(tuán)隊(duì)長期致力于擴(kuò)散模型的研究，代表性工作包括Analytic-DPM（ICLR 2022 杰出論文獎）、U-ViT、DPM-solver、ProlificDreamer等，并研制了首個(gè)對標(biāo)Sora的高動態(tài)、長時(shí)長的視頻生成大模型Vidu。論文其他作者均為TSAIL 課題組學(xué)生，其中何冠德和朱泓舟也參與了Vidu的開發(fā)，陳亦逍為清華大學(xué)計(jì)算機(jī)系大三本科生，李崇軒已經(jīng)畢業(yè)，現(xiàn)任中國人民大學(xué)高瓴人工智能學(xué)院副教授。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型代碼訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<var id="lmket"><button id="lmket"><center id="lmket"></center></button></var><blockquote id="lmket"></blockquote>

<cite id="lmket"><track id="lmket"></track></cite>