英偉達(dá)華人AI版《貓和老鼠》爆火全網(wǎng),60秒經(jīng)典淚目!僅靠Transformer新增一層
「貓和老鼠」,這部創(chuàng)作于1940年的動(dòng)畫(huà),現(xiàn)在已經(jīng)85歲了。
如今,只需一個(gè)提示,不用任何剪輯,AI便可「無(wú)限續(xù)杯」童年經(jīng)典,繼續(xù)延續(xù)它的魅力。
你沒(méi)有看過(guò)的《貓和老鼠》情節(jié)畫(huà)面,由AI制作
來(lái)自英偉達(dá)、斯坦福、UCSD、UC伯克利以及UT Austin研究團(tuán)隊(duì),通過(guò)Test-Time Training構(gòu)建了一個(gè)「一分鐘視頻」生成器。
只需在預(yù)訓(xùn)練Transformer中嵌入TTT層 ,僅5B參數(shù)模型可理解復(fù)雜提示,生成長(zhǎng)達(dá)1分鐘視頻。
圖片
論文地址:https://test-time-training.github.io/video-dit/
基于《貓和老鼠》的動(dòng)畫(huà)進(jìn)行測(cè)試后,相較于Mamba2等基線,TTT生成視頻Elo要領(lǐng)先34分。
借用老黃那句話,未來(lái)每一個(gè)像素都將是生成的。
圖片
首批1分鐘無(wú)剪輯AI版「貓和老鼠」
用下面的故事概要,生成「全新的一集」貓和老鼠。
杰瑞高興地在整潔的廚房里吃奶酪,直到湯姆頑皮地把奶酪拿走,逗他。生氣的杰瑞收拾好行李離開(kāi)了家,拖著一個(gè)小行李箱。后來(lái),湯姆注意到杰瑞不在了,感到難過(guò),并沿著杰瑞的小腳印一路追蹤到舊金山。杰瑞無(wú)精打采地坐在一條小巷里,湯姆找到了他,溫柔地用奶酪作為道歉。杰瑞原諒了湯姆,接受了奶酪,兩人一起回家,友誼得到了恢復(fù)。
在一個(gè)陽(yáng)光明媚的紐約早晨,湯姆,一只攜帶公文包的藍(lán)灰色貓,來(lái)到了他在世界貿(mào)易中心的辦公室。當(dāng)他安頓下來(lái)時(shí),他的電腦突然關(guān)機(jī)了——杰瑞,一只淘氣的棕色老鼠,咬斷了電纜。一場(chǎng)追逐開(kāi)始了,最終湯姆撞到了墻上,而杰瑞逃進(jìn)了自己的鼠洞。湯姆決心滿滿地沖進(jìn)了一個(gè)辦公室的門(mén),不小心打斷了由憤怒的斗牛犬斯派克主持的會(huì)議,斯派克生氣地把他趕走了。在舒適的鼠洞里,杰瑞對(duì)這場(chǎng)混亂大笑起來(lái)。
湯姆正在廚房的桌子旁高興地吃著蘋(píng)果派。杰瑞眼巴巴地看著,希望自己也能吃一些。杰瑞走到房子的前門(mén)外面按了門(mén)鈴。當(dāng)湯姆來(lái)開(kāi)門(mén)時(shí),杰瑞繞到房子后面跑進(jìn)了廚房。杰瑞偷走了湯姆的蘋(píng)果派。杰瑞拿著派跑向他的鼠洞,而湯姆在后面追趕他。就在湯姆快要抓到杰瑞的時(shí)候,杰瑞成功鉆進(jìn)了鼠洞,湯姆撞到了墻上。
在一次水下冒險(xiǎn)中,杰瑞找到了一張藏寶圖,并在躲避湯姆的追逐中穿過(guò)珊瑚礁和海帶森林尋找寶藏。杰瑞最終在一處沉船內(nèi)發(fā)現(xiàn)了寶藏,欣喜若狂地慶祝,而湯姆的追逐卻讓他遇到了一條饑餓的鯊魚(yú),陷入了麻煩。
湯姆和杰瑞參觀了一個(gè)熱鬧的嘉年華,湯姆急切地嘗試了一個(gè)投球游戲,但反復(fù)失手,這讓杰瑞嘲笑他。感到沮喪的湯姆變得非常堅(jiān)定,但盡管他盡了最大努力,還是沒(méi)能擊倒罐子。杰瑞自信地走上前去,輕松成功,擊倒了罐子并贏得了一座閃亮的金質(zhì)獎(jiǎng)杯。杰瑞高興地慶祝他的勝利,而湯姆則驚訝、嫉妒且生氣,當(dāng)他們一起離開(kāi)嘉年華時(shí)——杰瑞自豪地拿著他的獎(jiǎng)品,而湯姆則悶悶不樂(lè)地跟在后面。
TTT層:視頻生成的新希望
TTT層的核心思想,是對(duì)RNN層隱藏狀態(tài)更新方式進(jìn)行了創(chuàng)新。
TTT層的隱藏狀態(tài)不再是簡(jiǎn)單的矩陣,而是神經(jīng)網(wǎng)絡(luò),具體來(lái)說(shuō)是兩層MLP。
它比線性注意力變體里的線性隱藏狀態(tài)多了2倍的隱藏單元,表達(dá)能力大大增強(qiáng)。
圖片
TTT層通過(guò)自監(jiān)督學(xué)習(xí)壓縮歷史上下文,把這些信息變成隱藏狀態(tài)的權(quán)重。
在這個(gè)過(guò)程中,有個(gè)很重要的更新規(guī)則,就是對(duì)自監(jiān)督損失進(jìn)行梯度下降:
其中是學(xué)習(xí)率。
輸出標(biāo)記z_t是模型根據(jù)更新后的權(quán)重對(duì)x_t的預(yù)測(cè),也就是
圖片
為了讓學(xué)習(xí)過(guò)程更具挑戰(zhàn)性,研究人員會(huì)先把x_t處理成損壞的輸入然后優(yōu)化損失函數(shù)
這和去噪自編碼器有點(diǎn)類似,都需要挖掘x_t各個(gè)維度之間的相關(guān)性,才能從部分信息中重建它。
在實(shí)際操作過(guò)程中,TTT層還有一些關(guān)鍵設(shè)計(jì)。學(xué)習(xí)自監(jiān)督任務(wù)時(shí),不再是手動(dòng)設(shè)計(jì)任務(wù),而是采用端到端的學(xué)習(xí)方式。
TTT層和其他RNN層、自注意力層的接口是一樣的,可以很方便地替換到各種網(wǎng)絡(luò)架構(gòu)里。
基于TTT層的視頻生成方法
接下來(lái)看看研究人員是如何用TTT層生成視頻的。
他們用預(yù)訓(xùn)練的CogVideo-X 5B作為基礎(chǔ)模型,在這個(gè)模型里加上TTT層,再進(jìn)行微調(diào)。
架構(gòu)調(diào)整
在架構(gòu)設(shè)計(jì)上,有幾個(gè)很巧妙的地方,首先是門(mén)控機(jī)制。
TTT層是隨機(jī)初始化的,如果直接加到預(yù)訓(xùn)練網(wǎng)絡(luò)里,會(huì)讓模型的預(yù)測(cè)性能大幅下降。
研究人員用一個(gè)可學(xué)習(xí)向量來(lái)控制TTT層的輸出,公式為
初始值設(shè)置為0.1,這樣在微調(diào)初期,TTT層既能發(fā)揮作用,又不會(huì)過(guò)度影響原來(lái)的模型。
其次是雙向機(jī)制。
由于擴(kuò)散模型是非因果的,為了讓TTT層更好地工作,研究人員通過(guò)
讓TTT層可以逆序掃描輸入序列,輸出結(jié)果依然是按時(shí)間順序排列的。
他們還對(duì)整個(gè)架構(gòu)的序列建模塊進(jìn)行了修改,加上了TTT層和門(mén)控
讓模型更好地處理長(zhǎng)視頻。
圖片
整體流程優(yōu)化
研究人員把視頻分成多個(gè)場(chǎng)景,每個(gè)場(chǎng)景又包含一個(gè)或多個(gè)3秒的片段。
這么做是因?yàn)樵瓉?lái)的CogVideo-X的最大生成長(zhǎng)度是3秒,而且《貓和老鼠》里大多數(shù)場(chǎng)景都至少有3秒,用3秒片段構(gòu)建數(shù)據(jù)集也更方便。
文本提示有三種格式:格式1是用5-8句話簡(jiǎn)單概括劇情;格式2是用大約20句話詳細(xì)描述,每句話對(duì)應(yīng)一個(gè)3秒片段;格式3是分鏡腳本,每個(gè)3秒片段都用3-5句話描述,包含了各種細(xì)節(jié)。
在實(shí)際處理的時(shí)候,輸入到文本分詞器的都是格式3,格式之間的轉(zhuǎn)換由Claude 3.7 Sonnet完成。
從文本到序列的轉(zhuǎn)換過(guò)程也很有意思。
CogVideo-X會(huì)把文本標(biāo)記和帶噪聲的視頻標(biāo)記連接起來(lái),形成輸入序列。生成長(zhǎng)視頻的時(shí)候,就對(duì)每個(gè)3秒片段分別處理,然后把這些片段連接起來(lái)。
在處理過(guò)程中,自注意力層只在每個(gè)3秒片段內(nèi)局部處理,而TTT層則對(duì)整個(gè)輸入序列進(jìn)行全局處理。
既控制了計(jì)算成本,又能充分發(fā)揮TTT層處理長(zhǎng)上下文的優(yōu)勢(shì)。
數(shù)據(jù)集構(gòu)建
研究人員基于1940年到1948年的81集《貓和老鼠》建了數(shù)據(jù)集。
他們先對(duì)原始視頻進(jìn)行超分辨率處理,提升畫(huà)質(zhì),將分辨率統(tǒng)一為720×480。
然后讓注釋者把劇集分解成場(chǎng)景,提取3秒片段,并為每個(gè)片段編寫(xiě)詳細(xì)的腳本。
為了訓(xùn)練不同時(shí)長(zhǎng)的視頻,他們還把3秒片段連接起來(lái),形成9秒、18秒、30秒和63秒的視頻。
并行化與效率提升
為了提高訓(xùn)練效率,研究人員對(duì)非因果序列進(jìn)行了并行化處理。
他們每次更新b個(gè)標(biāo)記的W(這里b=64),公式是
然后用W_ib生成小批量i中所有時(shí)間步的輸出標(biāo)記。
這樣不僅實(shí)現(xiàn)了并行計(jì)算,還通過(guò)平均梯度減少了方差,讓訓(xùn)練過(guò)程更加穩(wěn)定。
由于TTT-MLP的隱藏狀態(tài)太大,無(wú)法在單個(gè)SM的SMEM中存儲(chǔ),研究人員使用了片上張量并行技術(shù)。
把W^(1)和W^(2)在多個(gè)SM之間分片存儲(chǔ),就好像把一個(gè)大任務(wù)拆分成小份,讓多個(gè)助手一起幫忙。
圖片
研究人員用NVIDIA Hopper GPU架構(gòu)的DSMEM特性實(shí)現(xiàn)SM之間的全規(guī)約操作,還采用了多階段流水線、異步預(yù)取等技術(shù),減少數(shù)據(jù)傳輸時(shí)間,進(jìn)一步提高效率。
一分鐘視頻效果評(píng)估
以如下故事概要作為視頻生成詞。
湯姆正高高興興地在廚房桌旁吃著蘋(píng)果派。杰瑞則滿懷渴望,羨慕地看著,希望自己也能嘗一口。杰瑞走到屋前,按響了門(mén)鈴。當(dāng)湯姆去開(kāi)門(mén)時(shí),杰瑞繞到了后門(mén)進(jìn)入廚房。杰瑞偷走了湯姆的蘋(píng)果派,拿著蘋(píng)果派快步跑向他的鼠洞,而湯姆緊追不舍。就在湯姆即將抓住杰瑞的時(shí)候,杰瑞順利鉆進(jìn)了鼠洞,湯姆則撞到了墻上。
視頻幀對(duì)比了TTT-MLP與Gated DeltaNet以及滑動(dòng)窗口注意力——這些都是人工評(píng)估中表現(xiàn)領(lǐng)先的基線方法。
TTT-MLP通過(guò)在場(chǎng)景轉(zhuǎn)換過(guò)程中保留細(xì)節(jié)展現(xiàn)了更好的場(chǎng)景一致性,并且通過(guò)準(zhǔn)確描繪復(fù)雜動(dòng)作實(shí)現(xiàn)了更自然的運(yùn)動(dòng)效果。
圖片
作為對(duì)比:
- TTT-MLP:在場(chǎng)景變化和不同角度之間保持時(shí)間一致性,生成流暢、高質(zhì)量的動(dòng)作。
- 滑動(dòng)窗口注意力:改變了廚房環(huán)境,改變了房屋顏色,并復(fù)制了杰里偷派的情節(jié)。
- 門(mén)控 DeltaNet:在不同角度的Tom中缺乏時(shí)間一致性,但在后續(xù)幀中保持了廚房環(huán)境。
- Mamba2:扭曲了湯姆的外觀,當(dāng)他咆哮并追逐杰瑞時(shí),但整個(gè)視頻中保持了相似的廚房環(huán)境。
圖片
一分鐘視頻的人工評(píng)估結(jié)果顯示,TTT-MLP平均比表現(xiàn)第二好的方法高出34 Elo分(1033 VS 999)。
在提升最多的評(píng)估維度上,場(chǎng)景一致性提高了38分,動(dòng)作平滑性提高了39分。
作為對(duì)比,在Chatbot Arena中,GPT-4比GPT-3.5 Turbo高出46 Elo分,而GPT-4o比GPT-4Turbo 高出29 Elo分。
圖片
對(duì)于63秒的視頻,全注意力(處理超30萬(wàn)個(gè)token)的推理時(shí)間比局部注意力長(zhǎng)11倍,而訓(xùn)練時(shí)間長(zhǎng)12倍。
TTT-MLP分別需要2.5倍和3.8倍——雖然比全注意力高效得多,但仍不及,例如Gated DeltaNet,其在推理和訓(xùn)練上均只比局部注意力長(zhǎng)1.8倍。
評(píng)估維度與評(píng)估方法
從MovieGen提出的六個(gè)評(píng)估維度中,選取了其中四個(gè)與研究領(lǐng)域相關(guān)的,用于TTT效果的評(píng)估。
- 文本一致性(Text following):與所提供提示的對(duì)齊度 ,指生成內(nèi)容與輸入提示或要求的匹配程度。
- 動(dòng)作自然度(Motion naturalness): 自然的肢體動(dòng)作、面部表情,以及對(duì)物理定律的遵守??雌饋?lái)不自然或怪異的動(dòng)作將被扣分。
- 美學(xué)質(zhì)量(Aesthetics):有趣且引人入勝的內(nèi)容、燈光、色彩以及鏡頭效果。
- 時(shí)間一致性(Temporal consistency): 場(chǎng)景內(nèi)部以及跨場(chǎng)景的一致性。
評(píng)估基于盲測(cè)比較(blind comparisons)中的兩兩比較偏好(pairwise preferences)。
因?yàn)橹苯訉?duì)長(zhǎng)視頻進(jìn)行評(píng)分或一次性對(duì)許多視頻進(jìn)行排序是很有挑戰(zhàn)性的。
具體來(lái)說(shuō),評(píng)估者會(huì)隨機(jī)獲得前述四個(gè)評(píng)估維度中的一個(gè),以及一對(duì)共享相同故事情節(jié)的視頻,然后被要求指出在該評(píng)估維度 上哪個(gè)視頻更好。
為了收集用于評(píng)估的視頻池,研究人員首先使用Claude 3.7 Sonnet采樣了100個(gè)故事情節(jié),然后每種方法為每個(gè)故事情節(jié)生成一個(gè)視頻。
生成視頻的方法對(duì)評(píng)估者始終是未知的。
使用Chatbot Arena中的Elo評(píng)分系統(tǒng)(Elo system) 來(lái)匯總兩兩比較的偏好。
TTT-MLP方法比第二好的方法平均高出34 Elo分(可回顧上述表格)。
圖片
當(dāng)然,TTT-MLP生成視頻中也會(huì)有「瑕疵」。
- 時(shí)間一致性 (Temporal consistency): 物體有時(shí)會(huì)在3秒片段的邊界處變形,這可能是因?yàn)閿U(kuò)散模型 在不同片段間從不同的模式 (modes) 中采樣。
- 動(dòng)作自然度 (Motion naturalness): 物體有時(shí)會(huì)不自然地漂浮,因?yàn)橹亓πЧ茨鼙徽_建模。
- 美學(xué)質(zhì)量 (Aesthetics): 除非在提示中明確要求,否則光線變化與動(dòng)作并不總能保持一致。復(fù)雜的攝像機(jī)運(yùn)鏡(例如視差效果 parallax)有時(shí)會(huì)被不準(zhǔn)確地描繪。
圖片
圖片
圖片
華人共同一作
圖片
本文有4名共同一作,其中一位為華人Jiarui Xu,UCSD的五年級(jí)博士生。
在香港科技大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。現(xiàn)在是FAIR實(shí)驗(yàn)室的研究實(shí)習(xí)生。
之前曾在Google Research、NVIDIA Research、Microsoft Research和OpenMMLab實(shí)習(xí)。
圖片
參考資料: