自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視頻生成的測(cè)試時(shí)Scaling時(shí)刻!清華開(kāi)源Video-T1,無(wú)需重新訓(xùn)練讓性能飆升

人工智能 新聞
來(lái)自清華大學(xué)、騰訊的研究團(tuán)隊(duì)首次對(duì)視頻生成的 Test-Time Scaling 進(jìn)行探索,表明了視頻生成也能夠進(jìn)行 Test-Time Scaling 以提升性能,并提出高效的 Tree-of-Frames 方法拓展這一 Scaling 范式。

視頻作為包含大量時(shí)空信息和語(yǔ)義的媒介,對(duì)于 AI 理解、模擬現(xiàn)實(shí)世界至關(guān)重要。視頻生成作為生成式 AI 的一個(gè)重要方向,其性能目前主要通過(guò)增大基礎(chǔ)模型的參數(shù)量和預(yù)訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)提升,更大的模型是更好表現(xiàn)的基礎(chǔ),但同時(shí)也意味著更苛刻的計(jì)算資源需求

受到 Test-Time Scaling 在 LLM 中的應(yīng)用啟發(fā),來(lái)自清華大學(xué)、騰訊的研究團(tuán)隊(duì)首次對(duì)視頻生成的 Test-Time Scaling 進(jìn)行探索,表明了視頻生成也能夠進(jìn)行 Test-Time Scaling 以提升性能,并提出高效的 Tree-of-Frames 方法拓展這一 Scaling 范式。

目前,這項(xiàng)工作的代碼已經(jīng)開(kāi)源,感興趣的小伙伴可以開(kāi) Issue 提問(wèn),也歡迎共同探索視頻和多模態(tài)生成。

圖片

  • 論文標(biāo)題:Video-T1: Test-Time Scaling for Video Generation
  • 論文地址:https://arxiv.org/pdf/2503.18942
  • Github 倉(cāng)庫(kù): https://github.com/liuff19/Video-T1 
  • 項(xiàng)目主頁(yè): https://liuff19.github.io/Video-T1/

視頻生成的 Test-Time Scaling 范式

繼 DeepSeek-R1 爆紅后,在視覺(jué) / 多模態(tài)等不同領(lǐng)域都涌現(xiàn)了大量 Test-Time Scaling (TTS) 研究,Video-T1 則是首次將 Test-Time Scaling 引入視頻生成領(lǐng)域,突破了傳統(tǒng)方式 Scaling up 視頻模型需要大量資源重新訓(xùn)練或顯著擴(kuò)大模型規(guī)模的局限性。

研究團(tuán)隊(duì)通過(guò)增加推理階段計(jì)算來(lái)顯著提升視頻生成質(zhì)量,在 VBench 上實(shí)現(xiàn)了最高 5.86% 的總分提升,同時(shí)發(fā)現(xiàn)模型能力隨著推理階段選取的樣本數(shù)目增加而增長(zhǎng),體現(xiàn)出持續(xù) Scale Up 的特性

圖片

視頻生成Test-Time Scaling的實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)創(chuàng)新性地將視頻生成中的 Test-Time Scaling 問(wèn)題建模為從高斯噪聲空間到目標(biāo)視頻分布的軌跡搜索問(wèn)題,為優(yōu)化視頻生成引入了新的理論框架。同時(shí)構(gòu)造了隨機(jī)線性搜索作為 Test-Time Scaling 的基礎(chǔ)實(shí)現(xiàn)方式,即隨機(jī)地取樣多個(gè)視頻生成樣本,利用 VLM 進(jìn)行評(píng)分選出最優(yōu)的視頻樣本作為輸出。

圖片隨機(jī)線性搜索的算法

Tree-of-Frames 方法提升推理效率

然而,隨機(jī)線性搜索的復(fù)雜度較高,需要較多的推理時(shí)計(jì)算,研究團(tuán)隊(duì)發(fā)現(xiàn),許多視頻在生成的過(guò)程中就會(huì)出現(xiàn)內(nèi)容與提示詞不對(duì)應(yīng)或者不符合現(xiàn)實(shí)規(guī)律等諸多問(wèn)題,為了進(jìn)一步提高搜索速度和視頻質(zhì)量,研究團(tuán)隊(duì)提出了「幀樹」(Tree-of-Frames, ToF),通過(guò)自適應(yīng)擴(kuò)展和修剪視頻分支,在計(jì)算成本與生成質(zhì)量間實(shí)現(xiàn)動(dòng)態(tài)平衡。

類似于在推理模型中使用 score model,研究團(tuán)隊(duì)提出使用測(cè)試時(shí)驗(yàn)證器(test-time verifiers)評(píng)估中間結(jié)果質(zhì)量,并結(jié)合啟發(fā)式算法高效導(dǎo)航搜索空間,在視頻生成的適當(dāng)位置進(jìn)行評(píng)估,選取符合要求的生成軌跡,顯著提升生成效率和質(zhì)量。

圖片

研究團(tuán)隊(duì)提出的 Tree-of-Frames 算法

相比于直接進(jìn)行隨機(jī)線性搜索,Tree-of-Frames 方法能夠在取得相同效果的情況下顯著提高搜索效率,降低視頻模型的推理計(jì)算需求。

研究團(tuán)隊(duì)通過(guò)比較不同 Test-Time Scaling 方法和不同樣本數(shù)量對(duì)應(yīng)的 Number of Function Evaluations (NFE) 及對(duì)應(yīng)的表現(xiàn),發(fā)現(xiàn)使用 Tree-of-Frames 方法能夠在相同 NFE 的情況下更為顯著地提高視頻表現(xiàn)。

圖片不同模型下 Tree-of-Frames 與隨機(jī)線性搜索效果對(duì)比

研究團(tuán)隊(duì)選取了三種視頻生成模型實(shí)現(xiàn) Tree-of-Frames 方法,并計(jì)算其視頻模型的推理計(jì)算需求,在 VBench 總分相同的情況下進(jìn)行比較,發(fā)現(xiàn) Tree-of-Frames 顯著降低了視頻模型推理計(jì)算量。

圖片Tree-of-Frames 方法相比于隨機(jī)線性搜索顯著提高了推理效率

此外,研究團(tuán)隊(duì)注意到首幀對(duì)于視頻整體是否對(duì)齊影響較大,視頻的前中后部分存在一定程度不同的提示詞對(duì)齊需求,因此利用單幀的圖片生成思維鏈 (Image Generation Chain-of-Thought) 和層次化提示詞 (Hierarchical Prompting) 等方法,對(duì)幀的生成和提示詞對(duì)齊進(jìn)行增強(qiáng),構(gòu)建了 Tree-of-Frames 總體流程。

圖片研究團(tuán)隊(duì)提出的 Tree-of-Frames 方法流程圖

在上圖所示的流程中,第一階段執(zhí)行 Text-to-Image (First Frame) 生成,進(jìn)行圖像級(jí)別的對(duì)齊,讓首幀能夠包含正確且足夠的關(guān)于物體、場(chǎng)景的語(yǔ)義信息;第二階段在測(cè)試時(shí) Verifier 中應(yīng)用層次化提示詞 (Hierarchical Prompting),關(guān)注運(yùn)動(dòng)穩(wěn)定性與物理合理性等方面,從而提供反饋,指導(dǎo)啟發(fā)式搜索過(guò)程;最后一階段評(píng)估視頻的整體質(zhì)量,并選擇與文本提示詞最高對(duì)齊度的視頻。

不同模型的 Test-Time Scaling 實(shí)驗(yàn)

研究團(tuán)隊(duì)進(jìn)行了大量 Test-Time Scaling 實(shí)驗(yàn),使用不同的視頻生成模型、VLM 模型進(jìn)行測(cè)試,得到這些模型相比于基線在 VBench 上各方面指標(biāo)的提升。

圖片不同維度上 Test-Time Scaling 方法相比于基線的提升

實(shí)驗(yàn)結(jié)果表明,無(wú)論是基于 Diffusion 的模型還是 Autoregressive 范式的模型,都能夠通過(guò) Test-Time Scaling 方法實(shí)現(xiàn)生成視頻性能的全面提升,而無(wú)需重新訓(xùn)練一個(gè)視頻生成模型。

研究團(tuán)隊(duì)還注意到,使用不同的 VLM 作為 Verifier 對(duì)視頻生成質(zhì)量在多種維度的提升效果有所不同。

因此,為了更充分地發(fā)揮 Test-Time Scaling 的潛力并為后續(xù)增強(qiáng) VLM 能力的探索提供思路,研究團(tuán)隊(duì)將不同的 Verifier 進(jìn)行綜合,用于 Test-Time Scaling 過(guò)程,發(fā)現(xiàn)在相同的 NFE (Number of Function Evaluations) 下 Multiple Verifier 相比于單個(gè) Verifier 效果更好。不同 VLM 和視頻生成模型對(duì)應(yīng)的結(jié)果如下:

圖片Multiple Verifier 與單個(gè) Verifier Scaling Up 效果對(duì)比

可視化結(jié)果

研究團(tuán)隊(duì)提供了 Tree-of-Frames 層次化提示詞和過(guò)程中驗(yàn)證的可視化結(jié)果:

圖片層次化提示詞和分層驗(yàn)證過(guò)程的可視化結(jié)果

研究團(tuán)隊(duì)還提供了視頻生成基礎(chǔ)模型和 TTS 結(jié)果的對(duì)比,更多的可視化請(qǐng)參閱原論文和項(xiàng)目主頁(yè)。

圖片部分可視化結(jié)果,從上到下為未 Test-Time Scaling 和進(jìn)行 Test-Time Scaling 的視頻對(duì)比

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-12-26 00:51:38

2024-10-28 07:30:00

2025-03-12 09:05:02

2020-11-18 10:29:07

模型人工智能開(kāi)源

2023-04-03 10:04:44

開(kāi)源模型

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2023-09-25 09:58:25

AI框架

2024-12-26 07:20:00

2024-11-13 12:48:30

2025-01-02 09:14:51

視頻生成AI模型

2024-03-18 09:53:40

GPD神經(jīng)網(wǎng)絡(luò)模型

2024-02-19 08:31:10

SoraAIOpenAI

2025-03-13 12:39:22

2024-11-01 09:45:08

2025-03-27 09:47:23

訓(xùn)練模型AI

2023-02-13 13:58:15

模型開(kāi)源

2024-11-25 08:20:00

2024-03-25 00:30:00

AI框架

2024-04-03 14:11:49

模型訓(xùn)練

2025-03-27 09:24:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)