視頻上下文學習!大模型學會“照貓畫虎”生成,結合模擬器還能精準控制真實環(huán)境交互,來自MSRA
視頻生成也能參考“上下文”?!
MSRA提出視頻上下文學習(Video In-Context Learning, Vid-ICL),讓大模型學會“照貓畫虎”式模仿生成。
Vid-ICL通過一段示例視頻來指導模型在新場景下的生成,使得生成結果可以在新場景下“模仿”示例視頻中完成的任務。
比如,示例視頻鏡頭視角向下移動(左),生成視頻同樣視角向下移動(右):
示例視頻物體向上移動(左),生成視頻同樣向上移動(右):
物體抓取也能模仿:
△左:示例視頻,機械臂抓取物體;右:生成視頻
打開抽屜也可以按示例進行:
△左:示例視頻,打開中間的抽屜;右:生成視頻
在相同的電風扇場景下,用不同示例視頻指導模型生成效果belike:
△左:示例視頻,鏡頭左移;右:生成視頻
△左:示例視頻,鏡頭右移;右:生成視頻
要知道,在一個理想的世界模型中,模型與外界環(huán)境的交互應當是多樣的。而大部分現(xiàn)有工作都聚焦在用文本作為主要的交互方式,這使得對生成結果細節(jié)和多樣性的控制變得困難。
而視頻是高度具象且通用的,能夠傳遞廣泛的信息如完成各種任務的示例,包括移動或抓取對象等。
研究團隊提出的Vid-ICL方法提供了語言和圖像之外的一個新的接口,使模型與現(xiàn)實世界的交互變得更為多樣。
除了上面展示的生成視頻之外,Vid-ICL也可以與模擬器結合,用生成視頻和當前狀態(tài)來預測與環(huán)境正確交互的相應動作,從而實現(xiàn)與真實環(huán)境的交互。
下圖中展示了Vid-ICL與真實環(huán)境交互,從t=0時的狀態(tài)開始,與RoboDesk模擬器交互完成“Push_red”任務。Vid-ICL對環(huán)境交互提供了更精確的控制:
好家伙,電影《鐵甲鋼拳》照進現(xiàn)實了。
Vid-ICL究竟是如何做到的?
Vid-ICL框架解讀
Vid-ICL以視頻為基本單元進行運作。
具體而言,給定一個查詢視頻片段和k個示例視頻片段,Vid-ICL的目標是生成一個視頻片段,該視頻片段應首先保持與查詢視頻片段在感知上的連貫性,同時在語義(如鏡頭移動、動作)上與示例視頻一致。
- 自回歸模型訓練
Vid-ICL采用Transformer作為模型結構。
Transformer作為文本大模型的基座架構,在語言的上下文推理、生成任務上展現(xiàn)了強大的能力。視覺信息的生成式Transformer訓練包括兩個階段:
第一,訓練視覺編碼器,如 VQ-VAE,將每個圖像轉換為離散Token;
第二,每個訓練樣本被構建為Token序列,Transformer解碼器的目標是恢復該Token序列。
具體實現(xiàn)上,Vid-ICL采用Llama架構,利用RMSNorm歸一化和旋轉位置嵌入(RoPE),以自回歸方式訓練 Transformer解碼器。在訓練階段,每個序列是從一個原始視頻中采樣的,沒有拼接來自不同視頻的視頻片段。
- 零樣本能力
研究團隊在本文中提到一個關鍵的觀察:
模型可以從沒有顯式上下文形式的視頻數(shù)據,即連續(xù)視頻片段中自發(fā)地學習出上下文推理能力,即對于Video In-context Learning的“零樣本能力”。
這可以歸因于兩個關鍵因素。首先,每個視頻幀之間沒有插入特殊的分隔符,這允許模型在訓練期間,將連續(xù)的視頻序列隱式地視為示例視頻+查詢視頻的格式。這意味著模型已經學會了處理類似示例-查詢結構的序列。
其次,Transformer的自回歸特性使其能夠將單一場景的視頻序列預測能力拓展到示例和query來自不同視頻的場景,將文本上下文學習的范式無縫地泛化到視頻上下文學習上。
- 融合其他模態(tài)
雖然Vid-ICL主要關注視頻作為示例,但是可以擴展到其他模態(tài)如文本上。
為此,只需通過預訓練的語言模型將原始文本描述轉換為潛在表示,然后在訓練Transformer以及進行上下文推理時將該潛在表示作為前綴,通過投影層對齊到Transformer的隱空間內。
實驗表明,Vid-ICL可以同時接收文本和視頻作為示例,并且加入文本可以進一步增強生成結果的質量。
- 數(shù)據與模型大小
可以看到,Vid-ICL可以學習到示例視頻中包含的語義信息,并遷移到新的場景上進行生成,這要求訓練數(shù)據中主要包含的是因果關系清晰、交互性強的視頻。
因此,研究人員選擇了兩個數(shù)據集作為主要訓練數(shù)據源: Ego4d和Kinetics-600。
此外,為了增加視頻內容的多樣性,一小部分Webvid中的數(shù)據也加入到訓練集中。
團隊還驗證了受限于互聯(lián)網視頻中包含的語義信息較為模糊和發(fā)散,簡單地通過添加更多的互聯(lián)網視頻來增加數(shù)據規(guī)模并不能幫助提高模型的上下文性能。
模型大小上,團隊訓練了300M,700M和1.1B三種大小的模型,并且發(fā)現(xiàn)模型生成視頻的質量和上下文性能都遵循了Scaling Law。
實驗結果
Vid-ICL主要通過對一條相同的查詢視頻提供不同語義的示例視頻,來評估視頻上下文學習的有效性和精確性。
例如,對一個將物體向左移的查詢視頻,通過給向左移、隨機移動、向相反方向移動的示例視頻來生成不同的視頻,對該生成結果的評測來判斷模型是否真的生成了示例相關的視頻。
定性結果方面,下圖中給出了不同示例視頻下的生成視頻(更多樣例可參照論文原文)。
可以觀察到:
1)對于單個視頻生成的質量,Vid-ICL保持了生成視頻與查詢視頻的連貫性,且都有不錯的生成質量;
2)對于生成視頻和示例視頻的語義一致性,可以觀察到生成的視頻都跟隨了示例視頻的過程,這表明Vid-ICL有自發(fā)獲取示例視頻語義信息并生成相應視頻的能力。
如下圖中,對同一個查詢視頻片段,Vid-ICL根據示例視頻中鏡頭的移動,選擇對生成視頻進行相應的移動。
定量結果方面,研究團隊提出了兩個方面的自動評測指標:
1)視頻質量上,采用傳統(tǒng)視覺任務上基于像素匹配或分布的指標,如PSNR,F(xiàn)ID等;
2)語義一致性上,采用基于分類準確率的兩個指標:視頻分類準確率和探針分類準確率。
在不同的指標上,Vid-ICL均表現(xiàn)出了超出基準模型的效果??梢钥闯?,在同類示例視頻的引導下,Vid-ICL均生成了更加真實、語義一致的視頻。
更多細節(jié)請參考原論文。
項目主頁:https://aka.ms/vid-icl
論文鏈接:https://arxiv.org/abs/2407.07356