自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達(dá)華人AI版《貓和老鼠》爆火全網(wǎng),60秒經(jīng)典淚目!僅靠Transformer新增一層

人工智能
85歲《貓和老鼠》煥發(fā)新生!英偉達(dá)、斯坦福等機(jī)構(gòu)聯(lián)手用TTT打造了一分鐘視頻生成器,讓湯姆和杰瑞的追逐戰(zhàn)延續(xù)到全新篇章,技術(shù)與經(jīng)典的完美碰撞,你準(zhǔn)備好迎接這場(chǎng)視覺(jué)盛宴了嗎?

「貓和老鼠」,這部創(chuàng)作于1940年的動(dòng)畫(huà),現(xiàn)在已經(jīng)85歲了。

如今,只需一個(gè)提示,不用任何剪輯,AI便可「無(wú)限續(xù)杯」童年經(jīng)典,繼續(xù)延續(xù)它的魅力。

你沒(méi)有看過(guò)的《貓和老鼠》情節(jié)畫(huà)面,由AI制作你沒(méi)有看過(guò)的《貓和老鼠》情節(jié)畫(huà)面,由AI制作

來(lái)自英偉達(dá)、斯坦福、UCSD、UC伯克利以及UT Austin研究團(tuán)隊(duì),通過(guò)Test-Time Training構(gòu)建了一個(gè)「一分鐘視頻」生成器。

只需在預(yù)訓(xùn)練Transformer中嵌入TTT層 ,僅5B參數(shù)模型可理解復(fù)雜提示,生成長(zhǎng)達(dá)1分鐘視頻。

圖片圖片

論文地址:https://test-time-training.github.io/video-dit/

基于《貓和老鼠》的動(dòng)畫(huà)進(jìn)行測(cè)試后,相較于Mamba2等基線,TTT生成視頻Elo要領(lǐng)先34分。

借用老黃那句話,未來(lái)每一個(gè)像素都將是生成的。

圖片圖片

首批1分鐘無(wú)剪輯AI版「貓和老鼠」

用下面的故事概要,生成「全新的一集」貓和老鼠。

杰瑞高興地在整潔的廚房里吃奶酪,直到湯姆頑皮地把奶酪拿走,逗他。生氣的杰瑞收拾好行李離開(kāi)了家,拖著一個(gè)小行李箱。后來(lái),湯姆注意到杰瑞不在了,感到難過(guò),并沿著杰瑞的小腳印一路追蹤到舊金山。杰瑞無(wú)精打采地坐在一條小巷里,湯姆找到了他,溫柔地用奶酪作為道歉。杰瑞原諒了湯姆,接受了奶酪,兩人一起回家,友誼得到了恢復(fù)。


在一個(gè)陽(yáng)光明媚的紐約早晨,湯姆,一只攜帶公文包的藍(lán)灰色貓,來(lái)到了他在世界貿(mào)易中心的辦公室。當(dāng)他安頓下來(lái)時(shí),他的電腦突然關(guān)機(jī)了——杰瑞,一只淘氣的棕色老鼠,咬斷了電纜。一場(chǎng)追逐開(kāi)始了,最終湯姆撞到了墻上,而杰瑞逃進(jìn)了自己的鼠洞。湯姆決心滿滿地沖進(jìn)了一個(gè)辦公室的門(mén),不小心打斷了由憤怒的斗牛犬斯派克主持的會(huì)議,斯派克生氣地把他趕走了。在舒適的鼠洞里,杰瑞對(duì)這場(chǎng)混亂大笑起來(lái)。


湯姆正在廚房的桌子旁高興地吃著蘋(píng)果派。杰瑞眼巴巴地看著,希望自己也能吃一些。杰瑞走到房子的前門(mén)外面按了門(mén)鈴。當(dāng)湯姆來(lái)開(kāi)門(mén)時(shí),杰瑞繞到房子后面跑進(jìn)了廚房。杰瑞偷走了湯姆的蘋(píng)果派。杰瑞拿著派跑向他的鼠洞,而湯姆在后面追趕他。就在湯姆快要抓到杰瑞的時(shí)候,杰瑞成功鉆進(jìn)了鼠洞,湯姆撞到了墻上。


在一次水下冒險(xiǎn)中,杰瑞找到了一張藏寶圖,并在躲避湯姆的追逐中穿過(guò)珊瑚礁和海帶森林尋找寶藏。杰瑞最終在一處沉船內(nèi)發(fā)現(xiàn)了寶藏,欣喜若狂地慶祝,而湯姆的追逐卻讓他遇到了一條饑餓的鯊魚(yú),陷入了麻煩。


湯姆和杰瑞參觀了一個(gè)熱鬧的嘉年華,湯姆急切地嘗試了一個(gè)投球游戲,但反復(fù)失手,這讓杰瑞嘲笑他。感到沮喪的湯姆變得非常堅(jiān)定,但盡管他盡了最大努力,還是沒(méi)能擊倒罐子。杰瑞自信地走上前去,輕松成功,擊倒了罐子并贏得了一座閃亮的金質(zhì)獎(jiǎng)杯。杰瑞高興地慶祝他的勝利,而湯姆則驚訝、嫉妒且生氣,當(dāng)他們一起離開(kāi)嘉年華時(shí)——杰瑞自豪地拿著他的獎(jiǎng)品,而湯姆則悶悶不樂(lè)地跟在后面。

TTT層:視頻生成的新希望

TTT層的核心思想,是對(duì)RNN層隱藏狀態(tài)更新方式進(jìn)行了創(chuàng)新。

TTT層的隱藏狀態(tài)不再是簡(jiǎn)單的矩陣,而是神經(jīng)網(wǎng)絡(luò),具體來(lái)說(shuō)是兩層MLP。

它比線性注意力變體里的線性隱藏狀態(tài)多了2倍的隱藏單元,表達(dá)能力大大增強(qiáng)。

圖片圖片

TTT層通過(guò)自監(jiān)督學(xué)習(xí)壓縮歷史上下文,把這些信息變成隱藏狀態(tài)的權(quán)重。

在這個(gè)過(guò)程中,有個(gè)很重要的更新規(guī)則,就是對(duì)自監(jiān)督損失圖片進(jìn)行梯度下降:

圖片

其中圖片是學(xué)習(xí)率。

輸出標(biāo)記z_t是模型根據(jù)更新后的權(quán)重對(duì)x_t的預(yù)測(cè),也就是圖片

圖片圖片

為了讓學(xué)習(xí)過(guò)程更具挑戰(zhàn)性,研究人員會(huì)先把x_t處理成損壞的輸入圖片然后優(yōu)化損失函數(shù)

圖片

這和去噪自編碼器有點(diǎn)類似,都需要挖掘x_t各個(gè)維度之間的相關(guān)性,才能從部分信息中重建它。

在實(shí)際操作過(guò)程中,TTT層還有一些關(guān)鍵設(shè)計(jì)。學(xué)習(xí)自監(jiān)督任務(wù)時(shí),不再是手動(dòng)設(shè)計(jì)任務(wù),而是采用端到端的學(xué)習(xí)方式。

TTT層和其他RNN層、自注意力層的接口是一樣的,可以很方便地替換到各種網(wǎng)絡(luò)架構(gòu)里。

基于TTT層的視頻生成方法

接下來(lái)看看研究人員是如何用TTT層生成視頻的。

他們用預(yù)訓(xùn)練的CogVideo-X 5B作為基礎(chǔ)模型,在這個(gè)模型里加上TTT層,再進(jìn)行微調(diào)。

架構(gòu)調(diào)整

在架構(gòu)設(shè)計(jì)上,有幾個(gè)很巧妙的地方,首先是門(mén)控機(jī)制。

TTT層是隨機(jī)初始化的,如果直接加到預(yù)訓(xùn)練網(wǎng)絡(luò)里,會(huì)讓模型的預(yù)測(cè)性能大幅下降。

研究人員用一個(gè)可學(xué)習(xí)向量圖片來(lái)控制TTT層的輸出,公式為

圖片

圖片初始值設(shè)置為0.1,這樣在微調(diào)初期,TTT層既能發(fā)揮作用,又不會(huì)過(guò)度影響原來(lái)的模型。

其次是雙向機(jī)制。

由于擴(kuò)散模型是非因果的,為了讓TTT層更好地工作,研究人員通過(guò)

圖片

讓TTT層可以逆序掃描輸入序列,輸出結(jié)果依然是按時(shí)間順序排列的。

他們還對(duì)整個(gè)架構(gòu)的序列建模塊進(jìn)行了修改,加上了TTT層和門(mén)控

圖片

讓模型更好地處理長(zhǎng)視頻。

圖片圖片

整體流程優(yōu)化

研究人員把視頻分成多個(gè)場(chǎng)景,每個(gè)場(chǎng)景又包含一個(gè)或多個(gè)3秒的片段。

這么做是因?yàn)樵瓉?lái)的CogVideo-X的最大生成長(zhǎng)度是3秒,而且《貓和老鼠》里大多數(shù)場(chǎng)景都至少有3秒,用3秒片段構(gòu)建數(shù)據(jù)集也更方便。

文本提示有三種格式:格式1是用5-8句話簡(jiǎn)單概括劇情;格式2是用大約20句話詳細(xì)描述,每句話對(duì)應(yīng)一個(gè)3秒片段;格式3是分鏡腳本,每個(gè)3秒片段都用3-5句話描述,包含了各種細(xì)節(jié)。

在實(shí)際處理的時(shí)候,輸入到文本分詞器的都是格式3,格式之間的轉(zhuǎn)換由Claude 3.7 Sonnet完成。

從文本到序列的轉(zhuǎn)換過(guò)程也很有意思。

CogVideo-X會(huì)把文本標(biāo)記和帶噪聲的視頻標(biāo)記連接起來(lái),形成輸入序列。生成長(zhǎng)視頻的時(shí)候,就對(duì)每個(gè)3秒片段分別處理,然后把這些片段連接起來(lái)。

在處理過(guò)程中,自注意力層只在每個(gè)3秒片段內(nèi)局部處理,而TTT層則對(duì)整個(gè)輸入序列進(jìn)行全局處理。

既控制了計(jì)算成本,又能充分發(fā)揮TTT層處理長(zhǎng)上下文的優(yōu)勢(shì)。

數(shù)據(jù)集構(gòu)建

研究人員基于1940年到1948年的81集《貓和老鼠》建了數(shù)據(jù)集。


他們先對(duì)原始視頻進(jìn)行超分辨率處理,提升畫(huà)質(zhì),將分辨率統(tǒng)一為720×480。


然后讓注釋者把劇集分解成場(chǎng)景,提取3秒片段,并為每個(gè)片段編寫(xiě)詳細(xì)的腳本。


為了訓(xùn)練不同時(shí)長(zhǎng)的視頻,他們還把3秒片段連接起來(lái),形成9秒、18秒、30秒和63秒的視頻。

并行化與效率提升

為了提高訓(xùn)練效率,研究人員對(duì)非因果序列進(jìn)行了并行化處理。

他們每次更新b個(gè)標(biāo)記的W(這里b=64),公式是

圖片

然后用W_ib生成小批量i中所有時(shí)間步的輸出標(biāo)記。

這樣不僅實(shí)現(xiàn)了并行計(jì)算,還通過(guò)平均梯度減少了方差,讓訓(xùn)練過(guò)程更加穩(wěn)定。

由于TTT-MLP的隱藏狀態(tài)太大,無(wú)法在單個(gè)SM的SMEM中存儲(chǔ),研究人員使用了片上張量并行技術(shù)。

把W^(1)和W^(2)在多個(gè)SM之間分片存儲(chǔ),就好像把一個(gè)大任務(wù)拆分成小份,讓多個(gè)助手一起幫忙。

圖片圖片

研究人員用NVIDIA Hopper GPU架構(gòu)的DSMEM特性實(shí)現(xiàn)SM之間的全規(guī)約操作,還采用了多階段流水線、異步預(yù)取等技術(shù),減少數(shù)據(jù)傳輸時(shí)間,進(jìn)一步提高效率。

一分鐘視頻效果評(píng)估

以如下故事概要作為視頻生成詞。

湯姆正高高興興地在廚房桌旁吃著蘋(píng)果派。杰瑞則滿懷渴望,羨慕地看著,希望自己也能嘗一口。杰瑞走到屋前,按響了門(mén)鈴。當(dāng)湯姆去開(kāi)門(mén)時(shí),杰瑞繞到了后門(mén)進(jìn)入廚房。杰瑞偷走了湯姆的蘋(píng)果派,拿著蘋(píng)果派快步跑向他的鼠洞,而湯姆緊追不舍。就在湯姆即將抓住杰瑞的時(shí)候,杰瑞順利鉆進(jìn)了鼠洞,湯姆則撞到了墻上。

視頻幀對(duì)比了TTT-MLP與Gated DeltaNet以及滑動(dòng)窗口注意力——這些都是人工評(píng)估中表現(xiàn)領(lǐng)先的基線方法。

TTT-MLP通過(guò)在場(chǎng)景轉(zhuǎn)換過(guò)程中保留細(xì)節(jié)展現(xiàn)了更好的場(chǎng)景一致性,并且通過(guò)準(zhǔn)確描繪復(fù)雜動(dòng)作實(shí)現(xiàn)了更自然的運(yùn)動(dòng)效果。

圖片圖片

作為對(duì)比:

  • TTT-MLP:在場(chǎng)景變化和不同角度之間保持時(shí)間一致性,生成流暢、高質(zhì)量的動(dòng)作。
  • 滑動(dòng)窗口注意力:改變了廚房環(huán)境,改變了房屋顏色,并復(fù)制了杰里偷派的情節(jié)。
  • 門(mén)控 DeltaNet:在不同角度的Tom中缺乏時(shí)間一致性,但在后續(xù)幀中保持了廚房環(huán)境。
  • Mamba2:扭曲了湯姆的外觀,當(dāng)他咆哮并追逐杰瑞時(shí),但整個(gè)視頻中保持了相似的廚房環(huán)境。

圖片圖片

一分鐘視頻的人工評(píng)估結(jié)果顯示,TTT-MLP平均比表現(xiàn)第二好的方法高出34 Elo分(1033 VS 999)。

在提升最多的評(píng)估維度上,場(chǎng)景一致性提高了38分,動(dòng)作平滑性提高了39分。

作為對(duì)比,在Chatbot Arena中,GPT-4比GPT-3.5 Turbo高出46 Elo分,而GPT-4o比GPT-4Turbo 高出29 Elo分。

圖片圖片

對(duì)于63秒的視頻,全注意力(處理超30萬(wàn)個(gè)token)的推理時(shí)間比局部注意力長(zhǎng)11倍,而訓(xùn)練時(shí)間長(zhǎng)12倍。

TTT-MLP分別需要2.5倍和3.8倍——雖然比全注意力高效得多,但仍不及,例如Gated DeltaNet,其在推理和訓(xùn)練上均只比局部注意力長(zhǎng)1.8倍。

評(píng)估維度與評(píng)估方法

從MovieGen提出的六個(gè)評(píng)估維度中,選取了其中四個(gè)與研究領(lǐng)域相關(guān)的,用于TTT效果的評(píng)估。

  • 文本一致性(Text following):與所提供提示的對(duì)齊度 ,指生成內(nèi)容與輸入提示或要求的匹配程度。
  • 動(dòng)作自然度(Motion naturalness): 自然的肢體動(dòng)作、面部表情,以及對(duì)物理定律的遵守??雌饋?lái)不自然或怪異的動(dòng)作將被扣分。
  • 美學(xué)質(zhì)量(Aesthetics):有趣且引人入勝的內(nèi)容、燈光、色彩以及鏡頭效果。
  • 時(shí)間一致性(Temporal consistency): 場(chǎng)景內(nèi)部以及跨場(chǎng)景的一致性。

評(píng)估基于盲測(cè)比較(blind comparisons)中的兩兩比較偏好(pairwise preferences)。

因?yàn)橹苯訉?duì)長(zhǎng)視頻進(jìn)行評(píng)分或一次性對(duì)許多視頻進(jìn)行排序是很有挑戰(zhàn)性的。

具體來(lái)說(shuō),評(píng)估者會(huì)隨機(jī)獲得前述四個(gè)評(píng)估維度中的一個(gè),以及一對(duì)共享相同故事情節(jié)的視頻,然后被要求指出在該評(píng)估維度 上哪個(gè)視頻更好。

為了收集用于評(píng)估的視頻池,研究人員首先使用Claude 3.7 Sonnet采樣了100個(gè)故事情節(jié),然后每種方法為每個(gè)故事情節(jié)生成一個(gè)視頻。

生成視頻的方法對(duì)評(píng)估者始終是未知的。

使用Chatbot Arena中的Elo評(píng)分系統(tǒng)(Elo system) 來(lái)匯總兩兩比較的偏好。

TTT-MLP方法比第二好的方法平均高出34 Elo分(可回顧上述表格)

圖片圖片

當(dāng)然,TTT-MLP生成視頻中也會(huì)有「瑕疵」。

  • 時(shí)間一致性 (Temporal consistency): 物體有時(shí)會(huì)在3秒片段的邊界處變形,這可能是因?yàn)閿U(kuò)散模型 在不同片段間從不同的模式 (modes) 中采樣。
  • 動(dòng)作自然度 (Motion naturalness): 物體有時(shí)會(huì)不自然地漂浮,因?yàn)橹亓πЧ茨鼙徽_建模。
  • 美學(xué)質(zhì)量 (Aesthetics): 除非在提示中明確要求,否則光線變化與動(dòng)作并不總能保持一致。復(fù)雜的攝像機(jī)運(yùn)鏡(例如視差效果 parallax)有時(shí)會(huì)被不準(zhǔn)確地描繪。

圖片圖片

圖片圖片

圖片圖片

華人共同一作

圖片圖片

本文有4名共同一作,其中一位為華人Jiarui Xu,UCSD的五年級(jí)博士生。

在香港科技大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。現(xiàn)在是FAIR實(shí)驗(yàn)室的研究實(shí)習(xí)生。

之前曾在Google Research、NVIDIA Research、Microsoft Research和OpenMMLab實(shí)習(xí)。

圖片圖片

參考資料:

https://x.com/karansdalal/status/1909312851795411093

https://test-time-training.github.io/video-dit/

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2025-04-09 12:56:11

AI視頻生成

2023-12-04 09:16:00

AI視覺(jué)

2023-10-16 13:27:00

AI數(shù)據(jù)

2025-04-27 09:54:48

2023-03-08 10:07:20

2024-03-04 00:40:00

英偉達(dá)AI引擎

2023-05-26 09:49:21

英偉達(dá)AI

2025-02-28 08:24:26

2024-03-27 12:46:36

AI模型

2024-10-21 10:20:00

訓(xùn)練模型

2024-04-15 07:30:00

2020-07-30 14:05:53

谷歌華為芯片

2025-02-27 09:34:32

2023-03-14 09:19:02

微軟OpenAIChatGPT

2024-08-29 14:48:42

2023-11-14 09:25:00

AI訓(xùn)練

2023-05-26 17:15:45

2023-06-03 13:28:35

ChatGPTAItoken

2024-03-22 13:36:51

英偉達(dá)微服務(wù)

2020-09-07 06:38:54

HA高可用協(xié)議
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)