自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="jyhp0"></abbr>

<cite id="jyhp0"></cite>^{<blockquote id="jyhp0"></blockquote>}

<sub id="jyhp0"><p id="jyhp0"></p></sub><style id="jyhp0"></style>

<style id="jyhp0"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

英偉達(dá)華人AI版《貓和老鼠》爆火全網(wǎng)，60秒經(jīng)典淚目！僅靠Transformer新增一層

作者：新智元 2025-04-10 09:26:56

85歲《貓和老鼠》煥發(fā)新生！英偉達(dá)、斯坦福等機(jī)構(gòu)聯(lián)手用TTT打造了一分鐘視頻生成器，讓湯姆和杰瑞的追逐戰(zhàn)延續(xù)到全新篇章，技術(shù)與經(jīng)典的完美碰撞，你準(zhǔn)備好迎接這場(chǎng)視覺(jué)盛宴了嗎？

「貓和老鼠」，這部創(chuàng)作于1940年的動(dòng)畫(huà)，現(xiàn)在已經(jīng)85歲了。

如今，只需一個(gè)提示，不用任何剪輯，AI便可「無(wú)限續(xù)杯」童年經(jīng)典，繼續(xù)延續(xù)它的魅力。

你沒(méi)有看過(guò)的《貓和老鼠》情節(jié)畫(huà)面，由AI制作

來(lái)自英偉達(dá)、斯坦福、UCSD、UC伯克利以及UT Austin研究團(tuán)隊(duì)，通過(guò)Test-Time Training構(gòu)建了一個(gè)「一分鐘視頻」生成器。

只需在預(yù)訓(xùn)練Transformer中嵌入TTT層，僅5B參數(shù)模型可理解復(fù)雜提示，生成長(zhǎng)達(dá)1分鐘視頻。

圖片

論文地址：https://test-time-training.github.io/video-dit/

基于《貓和老鼠》的動(dòng)畫(huà)進(jìn)行測(cè)試后，相較于Mamba2等基線，TTT生成視頻Elo要領(lǐng)先34分。

借用老黃那句話，未來(lái)每一個(gè)像素都將是生成的。

圖片

首批1分鐘無(wú)剪輯AI版「貓和老鼠」

用下面的故事概要，生成「全新的一集」貓和老鼠。

杰瑞高興地在整潔的廚房里吃奶酪，直到湯姆頑皮地把奶酪拿走，逗他。生氣的杰瑞收拾好行李離開(kāi)了家，拖著一個(gè)小行李箱。后來(lái)，湯姆注意到杰瑞不在了，感到難過(guò)，并沿著杰瑞的小腳印一路追蹤到舊金山。杰瑞無(wú)精打采地坐在一條小巷里，湯姆找到了他，溫柔地用奶酪作為道歉。杰瑞原諒了湯姆，接受了奶酪，兩人一起回家，友誼得到了恢復(fù)。

在一個(gè)陽(yáng)光明媚的紐約早晨，湯姆，一只攜帶公文包的藍(lán)灰色貓，來(lái)到了他在世界貿(mào)易中心的辦公室。當(dāng)他安頓下來(lái)時(shí)，他的電腦突然關(guān)機(jī)了——杰瑞，一只淘氣的棕色老鼠，咬斷了電纜。一場(chǎng)追逐開(kāi)始了，最終湯姆撞到了墻上，而杰瑞逃進(jìn)了自己的鼠洞。湯姆決心滿滿地沖進(jìn)了一個(gè)辦公室的門(mén)，不小心打斷了由憤怒的斗牛犬斯派克主持的會(huì)議，斯派克生氣地把他趕走了。在舒適的鼠洞里，杰瑞對(duì)這場(chǎng)混亂大笑起來(lái)。

湯姆正在廚房的桌子旁高興地吃著蘋(píng)果派。杰瑞眼巴巴地看著，希望自己也能吃一些。杰瑞走到房子的前門(mén)外面按了門(mén)鈴。當(dāng)湯姆來(lái)開(kāi)門(mén)時(shí)，杰瑞繞到房子后面跑進(jìn)了廚房。杰瑞偷走了湯姆的蘋(píng)果派。杰瑞拿著派跑向他的鼠洞，而湯姆在后面追趕他。就在湯姆快要抓到杰瑞的時(shí)候，杰瑞成功鉆進(jìn)了鼠洞，湯姆撞到了墻上。

在一次水下冒險(xiǎn)中，杰瑞找到了一張藏寶圖，并在躲避湯姆的追逐中穿過(guò)珊瑚礁和海帶森林尋找寶藏。杰瑞最終在一處沉船內(nèi)發(fā)現(xiàn)了寶藏，欣喜若狂地慶祝，而湯姆的追逐卻讓他遇到了一條饑餓的鯊魚(yú)，陷入了麻煩。

湯姆和杰瑞參觀了一個(gè)熱鬧的嘉年華，湯姆急切地嘗試了一個(gè)投球游戲，但反復(fù)失手，這讓杰瑞嘲笑他。感到沮喪的湯姆變得非常堅(jiān)定，但盡管他盡了最大努力，還是沒(méi)能擊倒罐子。杰瑞自信地走上前去，輕松成功，擊倒了罐子并贏得了一座閃亮的金質(zhì)獎(jiǎng)杯。杰瑞高興地慶祝他的勝利，而湯姆則驚訝、嫉妒且生氣，當(dāng)他們一起離開(kāi)嘉年華時(shí)——杰瑞自豪地拿著他的獎(jiǎng)品，而湯姆則悶悶不樂(lè)地跟在后面。

TTT層：視頻生成的新希望

TTT層的核心思想，是對(duì)RNN層隱藏狀態(tài)更新方式進(jìn)行了創(chuàng)新。

TTT層的隱藏狀態(tài)不再是簡(jiǎn)單的矩陣，而是神經(jīng)網(wǎng)絡(luò)，具體來(lái)說(shuō)是兩層MLP。

它比線性注意力變體里的線性隱藏狀態(tài)多了2倍的隱藏單元，表達(dá)能力大大增強(qiáng)。

圖片

TTT層通過(guò)自監(jiān)督學(xué)習(xí)壓縮歷史上下文，把這些信息變成隱藏狀態(tài)的權(quán)重。

在這個(gè)過(guò)程中，有個(gè)很重要的更新規(guī)則，就是對(duì)自監(jiān)督損失進(jìn)行梯度下降：

其中是學(xué)習(xí)率。

輸出標(biāo)記z_t是模型根據(jù)更新后的權(quán)重對(duì)x_t的預(yù)測(cè)，也就是

圖片

為了讓學(xué)習(xí)過(guò)程更具挑戰(zhàn)性，研究人員會(huì)先把x_t處理成損壞的輸入然后優(yōu)化損失函數(shù)

這和去噪自編碼器有點(diǎn)類似，都需要挖掘x_t各個(gè)維度之間的相關(guān)性，才能從部分信息中重建它。

在實(shí)際操作過(guò)程中，TTT層還有一些關(guān)鍵設(shè)計(jì)。學(xué)習(xí)自監(jiān)督任務(wù)時(shí)，不再是手動(dòng)設(shè)計(jì)任務(wù)，而是采用端到端的學(xué)習(xí)方式。

TTT層和其他RNN層、自注意力層的接口是一樣的，可以很方便地替換到各種網(wǎng)絡(luò)架構(gòu)里。

基于TTT層的視頻生成方法

接下來(lái)看看研究人員是如何用TTT層生成視頻的。

他們用預(yù)訓(xùn)練的CogVideo-X 5B作為基礎(chǔ)模型，在這個(gè)模型里加上TTT層，再進(jìn)行微調(diào)。

架構(gòu)調(diào)整

在架構(gòu)設(shè)計(jì)上，有幾個(gè)很巧妙的地方，首先是門(mén)控機(jī)制。

TTT層是隨機(jī)初始化的，如果直接加到預(yù)訓(xùn)練網(wǎng)絡(luò)里，會(huì)讓模型的預(yù)測(cè)性能大幅下降。

研究人員用一個(gè)可學(xué)習(xí)向量來(lái)控制TTT層的輸出，公式為

初始值設(shè)置為0.1，這樣在微調(diào)初期，TTT層既能發(fā)揮作用，又不會(huì)過(guò)度影響原來(lái)的模型。

其次是雙向機(jī)制。

由于擴(kuò)散模型是非因果的，為了讓TTT層更好地工作，研究人員通過(guò)

讓TTT層可以逆序掃描輸入序列，輸出結(jié)果依然是按時(shí)間順序排列的。

他們還對(duì)整個(gè)架構(gòu)的序列建模塊進(jìn)行了修改，加上了TTT層和門(mén)控

讓模型更好地處理長(zhǎng)視頻。

圖片

整體流程優(yōu)化

研究人員把視頻分成多個(gè)場(chǎng)景，每個(gè)場(chǎng)景又包含一個(gè)或多個(gè)3秒的片段。

這么做是因?yàn)樵瓉?lái)的CogVideo-X的最大生成長(zhǎng)度是3秒，而且《貓和老鼠》里大多數(shù)場(chǎng)景都至少有3秒，用3秒片段構(gòu)建數(shù)據(jù)集也更方便。

文本提示有三種格式：格式1是用5-8句話簡(jiǎn)單概括劇情；格式2是用大約20句話詳細(xì)描述，每句話對(duì)應(yīng)一個(gè)3秒片段；格式3是分鏡腳本，每個(gè)3秒片段都用3-5句話描述，包含了各種細(xì)節(jié)。

在實(shí)際處理的時(shí)候，輸入到文本分詞器的都是格式3，格式之間的轉(zhuǎn)換由Claude 3.7 Sonnet完成。

從文本到序列的轉(zhuǎn)換過(guò)程也很有意思。

CogVideo-X會(huì)把文本標(biāo)記和帶噪聲的視頻標(biāo)記連接起來(lái)，形成輸入序列。生成長(zhǎng)視頻的時(shí)候，就對(duì)每個(gè)3秒片段分別處理，然后把這些片段連接起來(lái)。

在處理過(guò)程中，自注意力層只在每個(gè)3秒片段內(nèi)局部處理，而TTT層則對(duì)整個(gè)輸入序列進(jìn)行全局處理。

既控制了計(jì)算成本，又能充分發(fā)揮TTT層處理長(zhǎng)上下文的優(yōu)勢(shì)。

數(shù)據(jù)集構(gòu)建

研究人員基于1940年到1948年的81集《貓和老鼠》建了數(shù)據(jù)集。

他們先對(duì)原始視頻進(jìn)行超分辨率處理，提升畫(huà)質(zhì)，將分辨率統(tǒng)一為720×480。

然后讓注釋者把劇集分解成場(chǎng)景，提取3秒片段，并為每個(gè)片段編寫(xiě)詳細(xì)的腳本。

為了訓(xùn)練不同時(shí)長(zhǎng)的視頻，他們還把3秒片段連接起來(lái)，形成9秒、18秒、30秒和63秒的視頻。

并行化與效率提升

為了提高訓(xùn)練效率，研究人員對(duì)非因果序列進(jìn)行了并行化處理。

他們每次更新b個(gè)標(biāo)記的W（這里b=64），公式是

然后用W_ib生成小批量i中所有時(shí)間步的輸出標(biāo)記。

這樣不僅實(shí)現(xiàn)了并行計(jì)算，還通過(guò)平均梯度減少了方差，讓訓(xùn)練過(guò)程更加穩(wěn)定。

由于TTT-MLP的隱藏狀態(tài)太大，無(wú)法在單個(gè)SM的SMEM中存儲(chǔ)，研究人員使用了片上張量并行技術(shù)。

把W^（1）和W^（2）在多個(gè)SM之間分片存儲(chǔ)，就好像把一個(gè)大任務(wù)拆分成小份，讓多個(gè)助手一起幫忙。

圖片

研究人員用NVIDIA Hopper GPU架構(gòu)的DSMEM特性實(shí)現(xiàn)SM之間的全規(guī)約操作，還采用了多階段流水線、異步預(yù)取等技術(shù)，減少數(shù)據(jù)傳輸時(shí)間，進(jìn)一步提高效率。

一分鐘視頻效果評(píng)估

以如下故事概要作為視頻生成詞。

湯姆正高高興興地在廚房桌旁吃著蘋(píng)果派。杰瑞則滿懷渴望，羨慕地看著，希望自己也能嘗一口。杰瑞走到屋前，按響了門(mén)鈴。當(dāng)湯姆去開(kāi)門(mén)時(shí)，杰瑞繞到了后門(mén)進(jìn)入廚房。杰瑞偷走了湯姆的蘋(píng)果派，拿著蘋(píng)果派快步跑向他的鼠洞，而湯姆緊追不舍。就在湯姆即將抓住杰瑞的時(shí)候，杰瑞順利鉆進(jìn)了鼠洞，湯姆則撞到了墻上。

視頻幀對(duì)比了TTT-MLP與Gated DeltaNet以及滑動(dòng)窗口注意力——這些都是人工評(píng)估中表現(xiàn)領(lǐng)先的基線方法。

TTT-MLP通過(guò)在場(chǎng)景轉(zhuǎn)換過(guò)程中保留細(xì)節(jié)展現(xiàn)了更好的場(chǎng)景一致性，并且通過(guò)準(zhǔn)確描繪復(fù)雜動(dòng)作實(shí)現(xiàn)了更自然的運(yùn)動(dòng)效果。

圖片

作為對(duì)比：

TTT-MLP：在場(chǎng)景變化和不同角度之間保持時(shí)間一致性，生成流暢、高質(zhì)量的動(dòng)作。
滑動(dòng)窗口注意力：改變了廚房環(huán)境，改變了房屋顏色，并復(fù)制了杰里偷派的情節(jié)。
門(mén)控 DeltaNet：在不同角度的Tom中缺乏時(shí)間一致性，但在后續(xù)幀中保持了廚房環(huán)境。
Mamba2：扭曲了湯姆的外觀，當(dāng)他咆哮并追逐杰瑞時(shí)，但整個(gè)視頻中保持了相似的廚房環(huán)境。

圖片

一分鐘視頻的人工評(píng)估結(jié)果顯示，TTT-MLP平均比表現(xiàn)第二好的方法高出34 Elo分（1033 VS 999）。

在提升最多的評(píng)估維度上，場(chǎng)景一致性提高了38分，動(dòng)作平滑性提高了39分。

作為對(duì)比，在Chatbot Arena中，GPT-4比GPT-3.5 Turbo高出46 Elo分，而GPT-4o比GPT-4Turbo 高出29 Elo分。

圖片

對(duì)于63秒的視頻，全注意力（處理超30萬(wàn)個(gè)token）的推理時(shí)間比局部注意力長(zhǎng)11倍，而訓(xùn)練時(shí)間長(zhǎng)12倍。

TTT-MLP分別需要2.5倍和3.8倍——雖然比全注意力高效得多，但仍不及，例如Gated DeltaNet，其在推理和訓(xùn)練上均只比局部注意力長(zhǎng)1.8倍。

評(píng)估維度與評(píng)估方法

從MovieGen提出的六個(gè)評(píng)估維度中，選取了其中四個(gè)與研究領(lǐng)域相關(guān)的，用于TTT效果的評(píng)估。

文本一致性（Text following）：與所提供提示的對(duì)齊度，指生成內(nèi)容與輸入提示或要求的匹配程度。
動(dòng)作自然度（Motion naturalness）: 自然的肢體動(dòng)作、面部表情，以及對(duì)物理定律的遵守?？雌饋?lái)不自然或怪異的動(dòng)作將被扣分。
美學(xué)質(zhì)量（Aesthetics）：有趣且引人入勝的內(nèi)容、燈光、色彩以及鏡頭效果。
時(shí)間一致性（Temporal consistency）: 場(chǎng)景內(nèi)部以及跨場(chǎng)景的一致性。

評(píng)估基于盲測(cè)比較（blind comparisons）中的兩兩比較偏好（pairwise preferences）。

因?yàn)橹苯訉?duì)長(zhǎng)視頻進(jìn)行評(píng)分或一次性對(duì)許多視頻進(jìn)行排序是很有挑戰(zhàn)性的。

具體來(lái)說(shuō)，評(píng)估者會(huì)隨機(jī)獲得前述四個(gè)評(píng)估維度中的一個(gè)，以及一對(duì)共享相同故事情節(jié)的視頻，然后被要求指出在該評(píng)估維度 上哪個(gè)視頻更好。

為了收集用于評(píng)估的視頻池，研究人員首先使用Claude 3.7 Sonnet采樣了100個(gè)故事情節(jié)，然后每種方法為每個(gè)故事情節(jié)生成一個(gè)視頻。

生成視頻的方法對(duì)評(píng)估者始終是未知的。

使用Chatbot Arena中的Elo評(píng)分系統(tǒng)（Elo system） 來(lái)匯總兩兩比較的偏好。

TTT-MLP方法比第二好的方法平均高出34 Elo分（可回顧上述表格）。

圖片

當(dāng)然，TTT-MLP生成視頻中也會(huì)有「瑕疵」。

時(shí)間一致性（Temporal consistency）: 物體有時(shí)會(huì)在3秒片段的邊界處變形，這可能是因?yàn)閿U(kuò)散模型在不同片段間從不同的模式（modes）中采樣。
動(dòng)作自然度（Motion naturalness）: 物體有時(shí)會(huì)不自然地漂浮，因?yàn)橹亓πЧ茨鼙徽_建模。
美學(xué)質(zhì)量（Aesthetics）: 除非在提示中明確要求，否則光線變化與動(dòng)作并不總能保持一致。復(fù)雜的攝像機(jī)運(yùn)鏡（例如視差效果 parallax）有時(shí)會(huì)被不準(zhǔn)確地描繪。

圖片

圖片

圖片

華人共同一作

圖片

本文有4名共同一作，其中一位為華人Jiarui Xu，UCSD的五年級(jí)博士生。

在香港科技大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。現(xiàn)在是FAIR實(shí)驗(yàn)室的研究實(shí)習(xí)生。

之前曾在Google Research、NVIDIA Research、Microsoft Research和OpenMMLab實(shí)習(xí)。

圖片

參考資料：

https://x.com/karansdalal/status/1909312851795411093

https://test-time-training.github.io/video-dit/

責(zé)任編輯：武曉燕來(lái)源：新智元

AI版貓和老鼠英偉達(dá)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="npo5n"><p id="npo5n"></p></sub>