自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ctfgr"></sub>

<cite id="ctfgr"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

使用測(cè)試時(shí)間訓(xùn)練（TTT）生成一分鐘視頻

作者：布加迪 2025-04-18 08:47:22

英偉達(dá)、斯坦福大學(xué)、加州大學(xué)伯克利分校及其他機(jī)構(gòu)的這項(xiàng)新研究應(yīng)運(yùn)而生，它引入了一種名為測(cè)試時(shí)間訓(xùn)練（TTT）的技術(shù)，以突破目前的限制。

譯者 | 布加迪

審校 | 重樓

從文本生成視頻已取得了長(zhǎng)足的進(jìn)展，但在制作更長(zhǎng)的多場(chǎng)景故事時(shí)仍然會(huì)遇到瓶頸。雖然Sora、Veo和Movie Gen之類(lèi)的擴(kuò)散模型已提高了視覺(jué)質(zhì)量的門(mén)檻，但它們通常僅限于 20秒以?xún)?nèi)的片段。真正的挑戰(zhàn)是什么？上下文。從一段文本生成一段一分鐘的故事驅(qū)動(dòng)型視頻需要模型處理數(shù)十萬(wàn)個(gè)token，同時(shí)保持?jǐn)⑹潞鸵曈X(jué)的連貫性。英偉達(dá)、斯坦福大學(xué)、加州大學(xué)伯克利分校及其他機(jī)構(gòu)的這項(xiàng)新研究應(yīng)運(yùn)而生，它引入了一種名為測(cè)試時(shí)間訓(xùn)練（TTT）的技術(shù)，以突破目前的限制。

長(zhǎng)視頻遇到的問(wèn)題是什么？

Transformer（尤其是用于視頻生成的Transformer）依賴(lài)自注意力機(jī)制。由于急劇增長(zhǎng)的計(jì)算成本，這些機(jī)制面對(duì)序列長(zhǎng)度很難有良好的擴(kuò)展性。試圖生成包含動(dòng)態(tài)場(chǎng)景和一致角色的整整一分鐘高分辨率視頻，意味著需要處理30多萬(wàn)個(gè)token的信息。這使得模型效率低下，并且長(zhǎng)時(shí)間運(yùn)行后通常不連貫。

一些團(tuán)隊(duì)嘗試通過(guò)使用Mamba或DeltaNet之類(lèi)的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）來(lái)規(guī)避這個(gè)問(wèn)題，這類(lèi)網(wǎng)絡(luò)提供了線(xiàn)性時(shí)間上下文處理能力。然而，這些模型將上下文壓縮到固定大小的隱藏狀態(tài)中，從而限制了模型的表達(dá)能力。這就好比試圖將整部電影塞進(jìn)一張明信片里，有些細(xì)部根本就塞不進(jìn)去。

TTT（測(cè)試時(shí)間訓(xùn)練）如何解決這個(gè)問(wèn)題？

這篇論文基于這一理念：將RNN的隱藏狀態(tài)轉(zhuǎn)化為易于訓(xùn)練的神經(jīng)網(wǎng)絡(luò)本身，從而提高其表達(dá)能力。具體來(lái)說(shuō)，論文作者提議使用TTT層，這本質(zhì)上是小型的兩層MLP，它們可以在處理輸入序列時(shí)動(dòng)態(tài)調(diào)整或適應(yīng)。這些層在推理過(guò)程中使用自監(jiān)督損失加以更新，這可以幫助它們動(dòng)態(tài)地從視頻不斷變化的上下文中學(xué)習(xí)。

想象一下能夠?qū)崟r(shí)調(diào)整的模型：隨著視頻的逐幀展開(kāi)，其內(nèi)部記憶會(huì)進(jìn)行調(diào)整，以便更好地理解角色、動(dòng)作和故事情節(jié)。這就是TTT所能實(shí)現(xiàn)的。

使用測(cè)試時(shí)間訓(xùn)練生成一分鐘視頻的示例

將TTT 層添加到預(yù)訓(xùn)練的Transformer

將TTT層添加到預(yù)訓(xùn)練的 Transformer 中使其可以生成具有高度時(shí)間一致性和運(yùn)動(dòng)平滑度的一分鐘視頻。

提示：“杰瑞抓起一塊奶酪，跑向老鼠洞，湯姆緊追不舍。他及時(shí)溜了進(jìn)去，湯姆撞到了墻上。杰瑞躲在安全舒適的地方，在一張小桌子旁享用著戰(zhàn)利品，開(kāi)心地啃著，畫(huà)面逐漸變暗?！?/p>

基準(zhǔn)比較

按人類(lèi)評(píng)估Elo分?jǐn)?shù)來(lái)衡量，TTT-MLP在時(shí)間一致性、運(yùn)動(dòng)平滑度和整體美觀(guān)度方面優(yōu)于所有其他基準(zhǔn)。

提示：“湯姆正開(kāi)心地在餐桌旁啃蘋(píng)果派。杰瑞看起來(lái)很想吃一個(gè)。杰瑞走到屋前門(mén)外，按響了門(mén)鈴。湯姆過(guò)來(lái)開(kāi)門(mén)時(shí)，杰瑞繞到廚房后面。杰瑞偷走了湯姆的蘋(píng)果派。杰瑞拿著蘋(píng)果派跑到老鼠洞里，而湯姆在后面緊緊追趕。眼看湯姆就要抓住杰瑞，杰瑞成功鉆入了老鼠洞，湯姆一頭撞到了墻上?！?/p>

局限性

生成的一分鐘視頻展現(xiàn)出概念驗(yàn)證具有的明顯潛力，但仍然含有明顯的偽影。

工作原理淺析

該系統(tǒng)基于預(yù)訓(xùn)練的Diffusion Transformer模型CogVideo-X 5B，該模型之前只能生成3 秒長(zhǎng)的片段。研究人員將TTT層插入到模型中，并訓(xùn)練了它們（以及局部注意力模塊），以處理更長(zhǎng)的序列。

為了控制成本，自注意力機(jī)制被限制在3秒長(zhǎng)的短片段上，而TTT層負(fù)責(zé)理解涉及這些片段的整體敘事。該架構(gòu)還包含門(mén)控機(jī)制，以確保TTT層在訓(xùn)練初期不會(huì)降低性能。

他們通過(guò)雙向處理序列并將視頻分割成帶注釋的場(chǎng)景來(lái)進(jìn)一步改進(jìn)訓(xùn)練。比如說(shuō)，他們使用故事板格式詳細(xì)描述每個(gè)3秒的片段，包括背景、角色位置、攝像機(jī)角度和動(dòng)作。

數(shù)據(jù)集：不一樣的《貓和老鼠》

為了在一致且易于理解的視覺(jué)領(lǐng)域進(jìn)行研究，團(tuán)隊(duì)從7 個(gè)多小時(shí)的經(jīng)典《貓和老鼠》動(dòng)畫(huà)片中精選出一個(gè)數(shù)據(jù)集。這些動(dòng)畫(huà)片被分解成多個(gè)場(chǎng)景，并精細(xì)地標(biāo)注成 3 秒長(zhǎng)的片段。通過(guò)專(zhuān)注于動(dòng)畫(huà)片數(shù)據(jù)，研究人員避免了照片寫(xiě)實(shí)的復(fù)雜性，并專(zhuān)注于敘事連貫性和運(yùn)動(dòng)動(dòng)態(tài)。

標(biāo)注人員為每個(gè)片段撰寫(xiě)了描述性段落，確保模型擁有豐富的結(jié)構(gòu)化輸入可供學(xué)習(xí)。這還便于多階段訓(xùn)練——先使用 3 秒的片段，然后逐步增加到最長(zhǎng) 63 秒的序列。

性能：它真的有效嗎？

是的，效果出色。與Mamba 2、Gated DeltaNet 和滑動(dòng)窗口注意力等領(lǐng)先的基準(zhǔn)模型相比，TTT-MLP模型在100個(gè)視頻的人工評(píng)估中平均比它們高出34個(gè)Elo點(diǎn)。

評(píng)估考慮以下因素：

?文本對(duì)齊：視頻與提示的銜接程度

?運(yùn)動(dòng)自然度：角色運(yùn)動(dòng)的真實(shí)度

?美學(xué)：光照、色彩和視覺(jué)吸引力

?時(shí)間一致性：跨場(chǎng)景的視覺(jué)連貫性

TTT-MLP在運(yùn)動(dòng)和場(chǎng)景一致性方面尤為出色，能夠保持動(dòng)態(tài)動(dòng)作的邏輯連續(xù)性，其他模型難以做到這一點(diǎn)。

偽影與局限性

盡管結(jié)果令人鼓舞，但仍然存在偽影。光照變化可能不一致，或者運(yùn)動(dòng)看起來(lái)漂浮不定（比如奶酪不自然地懸?。＿@些問(wèn)題可能與基礎(chǔ)模型CogVideo-X的局限性有關(guān)。另一個(gè)瓶頸是效率。雖然TTT-MLP的速度比完全自注意力模型快得多（快2.5 倍），但仍然比更精簡(jiǎn)的RNN方法（比如Gated DeltaNet）慢。話(huà)雖如此，TTT只需要進(jìn)行微調(diào)，不用從頭開(kāi)始訓(xùn)練，這使得它在許多用例中更加實(shí)用。

這種方法的獨(dú)特優(yōu)勢(shì)

?表達(dá)性記憶：TTT將RNN的隱藏狀態(tài)轉(zhuǎn)化為易于訓(xùn)練的網(wǎng)絡(luò)，使其遠(yuǎn)比固定大小的矩陣更具表達(dá)力。

?適應(yīng)性：TTT 層在推理過(guò)程中可以學(xué)習(xí)和調(diào)整，使其能夠?qū)崟r(shí)響應(yīng)展開(kāi)的視頻。

?可擴(kuò)展性：在資源充足的情況下，該方法可以擴(kuò)展，以支持更長(zhǎng)、更復(fù)雜的視頻故事。

?實(shí)用的微調(diào)：研究人員僅對(duì)TTT層和門(mén)控進(jìn)行微調(diào)，從而保持訓(xùn)練的輕量級(jí)和高效性。

未來(lái)方向

團(tuán)隊(duì)指出了幾個(gè)擴(kuò)展機(jī)會(huì)：

?優(yōu)化TTT 內(nèi)核以加快推理速度

?嘗試使用更大或不同的骨干模型

?探索更復(fù)雜的故事情節(jié)和專(zhuān)題領(lǐng)域

?使用基于Transformer的隱藏狀態(tài)而不是MLP，以提升表現(xiàn)力

TTT視頻生成 vs MoCha vs Goku vs OmniHuman1 vs DreamActor-M1

下表解釋了該模型與其他熱門(mén)視頻生成模型之間的差異：

模型	核心重點(diǎn)	輸入類(lèi)型	關(guān)鍵特性	與TTT有何不同
TTT（測(cè)試時(shí)間訓(xùn)練）	長(zhǎng)格式視頻生成，附有動(dòng)態(tài)適應(yīng)	文本故事板	-推理過(guò)程中可調(diào)整 -可處理超過(guò)60秒的視頻 -連貫的多場(chǎng)景故事	為長(zhǎng)視頻設(shè)計(jì)，生成過(guò)程中可更新內(nèi)部狀態(tài)，以確保敘事一致性
MoCha	說(shuō)話(huà)角色生成	文本+語(yǔ)音	-沒(méi)有關(guān)鍵點(diǎn)或參照?qǐng)D像 -語(yǔ)音驅(qū)動(dòng)型通體動(dòng)畫(huà)	專(zhuān)注于角色對(duì)話(huà)和表達(dá)，而不是全場(chǎng)景敘事視頻
Goku	高質(zhì)量視頻和圖像生成	文本和語(yǔ)音	-經(jīng)過(guò)校正的流Transformer -支持多模態(tài)輸入	針對(duì)質(zhì)量和訓(xùn)練速度經(jīng)過(guò)優(yōu)化；并不為長(zhǎng)格式敘事設(shè)計(jì)
OmniHuman1	逼真的人類(lèi)動(dòng)畫(huà)	圖像+音頻+文本	-多重條件信號(hào) -高分辨率化身	創(chuàng)建栩栩如生的人類(lèi)；并不為長(zhǎng)序列或動(dòng)態(tài)場(chǎng)景轉(zhuǎn)場(chǎng)建模
DreamActor- M1	圖像到動(dòng)畫(huà) （臉/身體）	圖像+驅(qū)動(dòng)視頻	-整體式運(yùn)動(dòng)模仿 -高幀一致性	將靜態(tài)圖像變動(dòng)畫(huà)；不使用文本或處理逐一場(chǎng)景的故事生成

結(jié)語(yǔ)

測(cè)試時(shí)間訓(xùn)練為解決長(zhǎng)上下文視頻生成問(wèn)題提供了一個(gè)引人入勝的新視角。通過(guò)讓模型在推理過(guò)程中學(xué)習(xí)和適應(yīng)，它彌補(bǔ)了敘事方面的關(guān)鍵空白：在這個(gè)領(lǐng)域，連貫性、情感和節(jié)奏完全與視覺(jué)保真度同樣重要。

無(wú)論你是生成式AI研究人員、創(chuàng)意技術(shù)專(zhuān)家，還是對(duì)AI生成的媒體的未來(lái)充滿(mǎn)好奇的產(chǎn)品領(lǐng)導(dǎo)者，這篇文章都指向了從文本生成動(dòng)態(tài)連貫視頻的未來(lái)。

原文標(biāo)題：Generating One-Minute Videos with Test-Time Training，作者：Nitika Sharma

責(zé)任編輯：姜華來(lái)源： 51CTO內(nèi)容精選

測(cè)試時(shí)間訓(xùn)練 TTT 生成式AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="jb1q3"><p id="jb1q3"></p></sub>