自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy 精華

發(fā)布于 2024-12-30 10:24
瀏覽
1收藏

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

文章鏈接:https://arxiv.org/abs/2406.03520
項目鏈接:https://github.com/Hritikbansal/videophy

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

總結(jié)速覽

解決的問題
隨著互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)預訓練的進展,文本生成視頻(T2V)模型能夠生成高質(zhì)量的視頻,涵蓋各種視覺概念、合成逼真的動作以及渲染復雜的物體。然而,目前的T2V模型在生成的視頻中缺乏物理常識,尤其是在模擬真實世界活動時,無法準確遵循物理法則。盡管已有一些評估視頻質(zhì)量的方法(如VBench),但這些方法并未特別關注生成視頻的物理合法性。

提出的方案
VIDEOPHY,一個用于評估生成視頻是否遵循物理常識的基準。VIDEOPHY基于人類的直觀物理理解(如水倒入杯中,水位會上升)來判斷生成的視頻是否符合物理法則。該數(shù)據(jù)集包含了688個經(jīng)過人工驗證的高質(zhì)量提示,涵蓋了不同物質(zhì)狀態(tài)之間的互動(如固體-固體、固體-液體、液體-液體)。通過這些提示,從12個不同的T2V模型中生成視頻,并對其進行人類評估,評估標準包括語義符合性(視頻是否遵循文本提示)和物理常識(視頻是否遵循物理法則)。

應用的技術

  • 大語言模型:用于生成描述不同物質(zhì)狀態(tài)之間互動的候選提示。
  • 物理仿真:用于標注生成的提示在物理仿真中呈現(xiàn)的復雜性。
  • VIDEOCON-PHYSICS:一種用于評估生成視頻的自動化工具,能夠通過用戶查詢來評估視頻的語義符合性和物理常識。

達到的效果

  • 基準測試:VIDEOPHY基準測試揭示,當前的T2V生成模型(如CogVideoX-5B)在遵循文本和物理法則方面表現(xiàn)較差,最佳模型僅在39.6%的實例中生成符合要求的視頻。
  • 模型表現(xiàn)分析:通過詳細的定性分析,發(fā)現(xiàn)現(xiàn)有模型在生成需要固體-固體交互(如球彈跳或錘擊釘子)的視頻時尤其困難。模型往往難以準確識別物體并理解其材質(zhì)屬性,這是生成物理合理動態(tài)的關鍵。
  • 自動化評估工具:VIDEOCON-PHYSICS能有效評估生成視頻的語義符合性和物理常識,且在未見過的提示上表現(xiàn)優(yōu)異,較現(xiàn)有評估工具提高了9個點的語義符合性和15個點的物理常識評估。

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

VIDEOPHY 數(shù)據(jù)集

數(shù)據(jù)集VIDEOPHY旨在為視頻生成模型中的物理常識提供一個可靠的評估基準。該數(shù)據(jù)集根據(jù)以下指南進行策劃:

  • 涵蓋廣泛的日常活動和物體(例如,滾動物體、向杯中倒液體);
  • 不同物質(zhì)類型之間的物理交互(例如,固體-固體或固體-液體交互);
  • 在圖形仿真下渲染物體和動作的感知復雜性。

例如,番茄醬遵循非牛頓流體動力學,比水(遵循牛頓流體動力學)更難用傳統(tǒng)流體仿真器建模和仿真。在收集指南下,制定了一份文本提示列表,將用于為文本到視頻生成模型提供條件。遵循下面三階段流程來創(chuàng)建數(shù)據(jù)集。

LLM 生成的提示(階段 1)
在這里,查詢一個大型語言模型,在案例中是 GPT-4,生成一千個候選提示,描述現(xiàn)實世界的動態(tài)。由于大多數(shù)現(xiàn)實世界的動態(tài)涉及固體或流體,將這些動態(tài)大致分類為三類:固體-固體交互、固體-液體交互和液體-液體交互。具體而言,考慮流體動力學中無粘性流體和粘性流體的情況,代表性例子分別為水和蜂蜜。


另一方面,發(fā)現(xiàn)固體表現(xiàn)出更多樣化的本構模型,包括但不限于剛體、彈性材料、沙子、金屬和雪。總的來說,GPT-4 生成 500 個關于固體-固體和固體-液體交互的候選提示,以及 200 個關于液體-液體交互的候選提示。

人工驗證(階段 2)
由于大語言模型生成的提示可能不符合我們的輸入查詢,進行人工驗證步驟,以過濾掉不合格的生成。作者進行人工驗證,確保提示的質(zhì)量和相關性,遵循以下標準:

(1)提示必須清晰且易于理解;
(2)提示應避免過度復雜性,例如物體過于多樣或動態(tài)過于復雜;
(3)提示必須準確反映預期的交互類別(例如,固體-液體或液體-液體動態(tài)中提到的流體)。


最終,有 688 個經(jīng)過驗證的提示,其中289個是關于固體-固體交互,291個是關于固體-液體交互,108個是關于液體-液體交互。提示涵蓋了廣泛的物質(zhì)類型和物理交互,這些在現(xiàn)實生活和圖形學領域中都很常見。物質(zhì)類型包括簡單的剛體、可變形體、薄殼、金屬、斷裂、奶油、沙子等。接觸處理也很豐富,因為它基于上述所有材料的交互。數(shù)據(jù)質(zhì)量對于評估基礎模型至關重要。例如,Winoground(400個示例)、Visit-Bench(500個示例)、LLaVA-Bench(90個示例)和Vibe-Eval(269個示例)因其高質(zhì)量而廣泛用于評估視覺-語言模型,盡管其規(guī)模有限。鑒于人工驗證需要大量專家時間且在預算內(nèi)不可擴展,優(yōu)先考慮數(shù)據(jù)質(zhì)量,以評估 T2V 模型。

困難度注釋(階段 3)
為了深入了解視頻生成的質(zhì)量,進一步為數(shù)據(jù)集中的每個實例注釋了感知的困難度。請兩位經(jīng)驗豐富的圖形學研究人員(物理仿真領域的高級博士生)獨立地根據(jù)他們對使用最先進物理引擎模擬提示中物體和動作的復雜性的感知,將每個提示分類為簡單(0)或困難(1)。


隨后,對于不到 5% 的實例,研究人員討論并達成一致判斷。仿真的困難度主要受到模型復雜性的影響,而模型復雜性根據(jù)材料的類型而有所不同。例如,可變形體比剛體更具建模挑戰(zhàn),因為它們在外力作用下會改變形狀,從而導致更復雜的偏微分方程(PDE)。相比之下,剛體保持其形狀,從而生成更簡單的模型。另一個關鍵因素是求解這些方程的數(shù)值難度,尤其是當 PDE 中涉及高階項時,材料的速度會增加求解難度。因此,移動較慢的材料通常比移動較快的材料更容易進行仿真。我們注意到,困難度的評估是基于每個類別(例如,固體-固體、固體-液體、液體-液體),并不能跨類別進行比較。下表 1 中展示了生成提示的示例。

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

數(shù)據(jù)分析
細粒度的元數(shù)據(jù)有助于全面理解基準數(shù)據(jù)集。下表 2 中呈現(xiàn)了 VIDEOPHY 數(shù)據(jù)集的主要統(tǒng)計信息。值得注意的是,使用多種生成模型為數(shù)據(jù)集中的提示生成了 11330 個視頻。此外,平均提示長度為 8.5 個詞,表明大多數(shù)提示都是直接的,并且不會通過復雜的措辭使分析變得過于具有挑戰(zhàn)性。數(shù)據(jù)集包括 138 個在提示中定義的獨特動作。下圖 3 可視化了 VIDEOPHY 提示中使用的根動詞和直接名詞,突出顯示了動作和實體的多樣性。因此,本文的數(shù)據(jù)集涵蓋了廣泛的視覺概念和動作。

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

評估

評估指標

盡管人類可以在多個視覺維度上評估視頻,但主要關注模型對提供的文本的遵循程度和物理常識的融合。這些是條件生成模型必須最大化的關鍵目標。多個視頻特征,如物體運動、視頻質(zhì)量、文本遵循、物理常識、主體與物體的時間一致性等,通常是相互交織的。人類做決策時,很難分解這些因素的影響。然而,逐一聚焦每個方面可以提供模型在特定維度上的全面表現(xiàn)。

在本研究中,重點關注物理常識和語義遵循。此外,獲取人類判斷的方式有多種,例如密集反饋和稀疏反饋。密集反饋雖然提供了關于模型錯誤的詳細信息,但它很難獲取且可能存在校準不準的問題??紤]到二元判斷的簡單性及其在文本到圖像生成模型中的廣泛應用],本文采用二元反饋(0/1)來評估生成的視頻。本文實驗將展示,二元反饋能夠有效地突出模型在不同物體交互和任務復雜度層級中的質(zhì)量差異。

語義遵循(SA)
該指標評估文本提示是否在生成的視頻幀中語義對齊,測量視頻與文本的對齊程度。具體來說,它評估視頻中的動作、事件、實體及其關系是否被正確表現(xiàn)(例如,提示“水倒入玻璃杯”對應的生成視頻中,水流入玻璃杯)。在本研究中,我們對生成的視頻進行語義遵循注釋,表示為 SA = {0, 1}。其中,SA = 1 表示文本提示在生成的視頻中有語義基礎。

物理常識(PC)
該指標評估所描述的動作和物體狀態(tài)是否遵循現(xiàn)實世界中的物理定律。例如,水流入玻璃杯中時,水位應該上升,遵循質(zhì)量守恒定律。在本研究中,我們對生成的視頻進行物理常識注釋,表示為 PC = {0, 1}。其中,PC = 1 表示生成的運動和交互與人類通過經(jīng)驗獲得的直觀物理相一致。由于物理常識完全基于視頻,因此它獨立于生成視頻的語義遵循能力。研究中計算了生成的視頻中,語義遵循較高(SA = 1)、物理常識較高(PC = 1)以及這兩個指標聯(lián)合表現(xiàn)較高(SA = 1, PC = 1)的比例。

人類評估

本文進行了人類評估,以評估生成視頻在語義遵循和物理常識方面的表現(xiàn),使用的是我們的數(shù)據(jù)集。注釋由一組合格的亞馬遜機械土耳其工人(AMT)完成,這些工人通過共享的 Slack 渠道提供了詳細的任務說明(及相關澄清)。

隨后,從中選擇了 14 名學習過高中物理的工人,在通過資格測試后進行注釋。在此任務中,注釋員將看到一個提示和相應的生成視頻,但沒有關于生成模型的信息。要求他們?yōu)槊總€實例提供語義遵循評分(0 或 1)和物理常識評分(0 或 1)。注釋員被指示將語義遵循和物理常識視為獨立的指標,并在開始主任務之前由作者展示了一些已解決的示例。

在某些情況下,發(fā)現(xiàn)生成模型創(chuàng)建了靜態(tài)場景而非具有較高運動的視頻幀。在這種情況下,要求注釋員判斷靜態(tài)場景在現(xiàn)實世界中的物理合理性(例如,一塊折疊的磚塊靜止不動并不符合物理常識)。如果靜態(tài)場景存在噪點(例如,雜亂的顆粒狀或斑點狀圖案),我們指示他們將其視為較差的物理常識。

人類注釋員沒有被要求列出違反物理法則的具體內(nèi)容,因為這會使注釋過程變得更加耗時和昂貴。此外,當前的注釋可以由具有現(xiàn)實世界經(jīng)驗的注釋員完成(例如,工人知道水是從水龍頭流下來的,木材在水面漂浮時形狀不會改變),而不需要高級的物理教育。

自動評估

盡管人類評估對于基準測試來說更加準確,但在大規(guī)模獲取時既費時又昂貴。此外,希望資源有限的模型開發(fā)者能夠使用我們的基準。因此,設計了 VIDEOCON-PHYSICS,一個可靠的自動評分器,用于評估數(shù)據(jù)集。使用 VIDEOCON,一個擁有 7B 參數(shù)的開放式視頻-文本語言模型,經(jīng)過在真實視頻上的訓練,能夠進行穩(wěn)健的語義遵循評估[3]。通過多模態(tài)模板來提示 VIDEOCON 生成一個文本響應(是/否)。

由于 VIDEOCON 沒有針對生成視頻分布進行訓練,也沒有能力判斷物理常識,因此我們不期望它在我們的設置中能以零樣本方式表現(xiàn)良好。為此,提出了 VIDEOCON-PHYSICS,一個開源生成視頻-文本模型,能夠評估生成視頻的語義遵循和物理常識。通過結(jié)合在人類注釋中獲得的語義遵循和物理常識任務的標注,對 VIDEOCON 進行了微調(diào)。通過計算人類注釋和模型判斷之間的 ROC-AUC,來評估自動評分器的有效性,特別是在從測試提示生成的視頻中。

設置

視頻生成模型
在 VIDEOPHY 數(shù)據(jù)集上評估了十二種不同的封閉式和開放式文本到視頻(T2V)生成模型。模型列表包括 ZeroScopeLaVIE、VideoCrafter2、OpenSora、CogVideoX-2B 和 5B 、StableVideoDiffusion (SVD)-T2I2V、Gen-2 (Runway)、Lumiere-T2VLumiere-T2I2V (Google)、Dream Machine (Luma AI) 和 Pika

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

數(shù)據(jù)集設置
如前所述,本文訓練了 VIDEOCON-PHYSICS,以便對生成的視頻進行更便宜且可擴展的測試。為此,將 VIDEOPHY 數(shù)據(jù)集中的提示分為訓練集和測試集兩部分。利用測試集中 344 個提示生成的視頻上的人類注釋進行基準測試,而用于訓練自動評估模型的則是訓練集中 344 個提示生成的視頻上的人類注釋。確保訓練集和測試集中的物質(zhì)狀態(tài)(固-固、固-流體、流體-流體)和復雜性(簡單、困難)分布相似。

基準測試
在此步驟中,為每個測試提示使用我們的測試平臺生成一個視頻,隨后讓三名人類注釋員判斷生成視頻的語義遵循和物理常識。在實驗中,報告來自人類注釋員的多數(shù)投票結(jié)果。在語義遵循和物理常識判斷上,注釋員之間的協(xié)議分別為 75% 和 70%。這表明,人類注釋員認為物理常識的判斷任務比語義遵循更具主觀性。在測試提示和 T2V 模型上,共收集了 24,500 條人類注釋。

VIDEOCON-PHYSICS 的訓練集
在此步驟中,為九個 T2V 模型從訓練提示中每個選擇兩個視頻進行采樣。選擇兩個視頻是為了獲得更多的數(shù)據(jù)實例用于訓練自動評估模型。隨后,要求一名人類注釋員判斷生成視頻的語義遵循和物理常識。共收集了 12,000 條人類注釋,其中一半用于語義遵循,另一半用于物理常識。通過微調(diào) VIDEOCON,使其最大化在多模態(tài)模板條件下的 Yes/No 對數(shù)似然,來進行語義遵循和物理常識任務。沒有為每個視頻收集三條注釋,因為這在經(jīng)濟上非常昂貴??偟膩碚f,在基準測試和訓練中共花費了 3500 美元用于收集人類注釋。

結(jié)果

本節(jié)展示了 T2V 生成模型的實驗結(jié)果,并驗證了 VIDEOCON-PHYSICS 作為自動評估工具在 VIDEOPHY 數(shù)據(jù)集上的有效性。

在 VIDEOPHY 數(shù)據(jù)集上的表現(xiàn)

使用人類評估在 VIDEOPHY 數(shù)據(jù)集上對 T2V 生成模型的表現(xiàn)進行了比較,結(jié)果如下表 3 所示。發(fā)現(xiàn) CogVideoX-5B 在 39.6% 的情況下生成的 視頻既符合文本描述,又遵循物理法則(SA = 1, PC = 1)。CogVideoX 的成功可以歸因于其高質(zhì)量的數(shù)據(jù)篩選,包括詳細的文本描述和過濾掉運動少或質(zhì)量差的視頻。此外,我們發(fā)現(xiàn)其余的視頻模型的得分都低于 20%。這表明現(xiàn)有的視頻模型嚴重缺乏生成符合直覺物理的視頻的能力,也證明了 VIDEOPHY 是一個具有挑戰(zhàn)性的數(shù)據(jù)集。

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

更具體地說,CogVideoX-5B 在生成符合物理常識的視頻方面表現(xiàn)突出,達到 53%的得分,而 CogVideoX-2B 則以 34.1%的得分位列第二。此外,這也表明,擴展網(wǎng)絡容量能夠提高其捕捉互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù)中的物理約束的能力。我們還發(fā)現(xiàn),OpenSora 在 VIDEOPHY 數(shù)據(jù)集上的表現(xiàn)最差,這表明社區(qū)在改進 Sora 的開源實現(xiàn)方面具有很大的潛力。在封閉式模型中,Pika 生成的視頻在語義遵循和物理常識的判斷上分別達到了 19.7% 的正面評分。有趣的是,我們觀察到 Dream Machine 在語義遵循上取得了較高的得分(61.9%),但在物理常識上得分較低(21.8%),這突出了優(yōu)化語義遵循并不一定能帶來良好的物理常識。

物質(zhì)狀態(tài)的變化
本文研究了 T2V 模型在表現(xiàn)上與物質(zhì)狀態(tài)(例如固態(tài)-固態(tài))的交互變化,結(jié)果見下表 5。有趣的是,發(fā)現(xiàn)所有現(xiàn)有的 T2V 模型在描述固體材料之間的交互時表現(xiàn)最差(例如,瓶子從桌子上掉落),表現(xiàn)最好的模型 CogVideoX-5B 僅在 24.4%的情況下實現(xiàn)了準確的語義遵循和物理常識。此外,我們觀察到 Pika 在描述流體與流體之間交互的標題(例如,雨水濺到池塘上)中表現(xiàn)最好。這表明 T2V 模型的表現(xiàn)受場景中所涉及物質(zhì)狀態(tài)的巨大影響,強調(diào)了模型開發(fā)者可以專注于提升固體-固體交互的語義遵循和物理常識。

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

復雜度的變化
如下表 6所示,研究者們分析了視頻模型在根據(jù)物理模擬渲染物體或合成交互時復雜度變化的表現(xiàn)。隨著標題復雜度的增加,所有視頻模型在語義遵循和物理常識上的表現(xiàn)都有所下降。這表明,物理上更難模擬的標題,在通過條件控制視頻生成模型時也更難實現(xiàn)。因此強調(diào),未來的 T2V 模型開發(fā)應該聚焦于減少 VIDEOPHY 數(shù)據(jù)集中簡單與困難標題之間的差距。

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

相關性分析
為了理解各種性能指標之間的關系,考察了語義遵循(SA)和物理常識(PC)與視頻質(zhì)量和運動之間的相關性。實證結(jié)果表明,視頻質(zhì)量與 PC 和 SA 之間存在正相關,而運動與 PC 和 SA 之間存在負相關。這表明,視頻模型在描繪更多運動時,往往會在 SA 和 PC 上犯更多錯誤。封閉式模型(如 Dream Machine/Pika)對視頻質(zhì)量的貢獻較高,而開放式模型(如 ZeroScope/OpenSora)則對較低質(zhì)量的視頻貢獻較多。雖然較高的視頻質(zhì)量與更好的物理常識呈“相關”關系,但注意到,模型在我們基準測試中的絕對表現(xiàn)仍然非常差。

定性分析

CogVideoX-5B 與其他模型的對比
分析了一些定性示例,以了解 CogVideoX-5B 這一表現(xiàn)最佳的模型與我們測試組中其他模型之間的差距。SVD-T2I2V 在涉及動態(tài)流體場景時表現(xiàn)不佳。Lumiere-T2I2V 和 Dream Machine (Luma) 在視覺質(zhì)量上優(yōu)于 Lumiere-T2V,但它們?nèi)狈傂詭缀误w的深刻理解(例如,在下圖 4(b) 中)。此外, Gen-2 有時會生成靜止的物體漂浮在空中,伴隨緩慢的相機運動,而不是產(chǎn)生有意義的物理動態(tài)(例如,在圖 4(c) 中)。相比之下,CogVideoX-5B 在識別不同物體方面表現(xiàn)得相當不錯,其生成結(jié)果中的變形很少會導致多個物體混合在一起。進一步來看,它傾向于使用更簡單的背景,避免使用復雜的圖案,因為復雜的圖案中較容易發(fā)現(xiàn)缺陷。

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

盡管如此,甚至是表現(xiàn)最佳的模型 CogVideoX-5B 也可能難以理解基礎物體的材質(zhì)屬性,導致不自然或不一致的變形,如下圖 5 所示。這種現(xiàn)象也出現(xiàn)在其他視頻生成模型的結(jié)果中。我們的分析突出了缺乏細粒度的物理常識,這也是未來研究應當關注的一個問題。

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

失敗模式分析
展示了一些定性示例,以理解生成視頻中常見的物理常識失敗模式。來自各種 T2V 生成模型的定性示例可見下圖。常見的失敗模式包括:

(a) 質(zhì)量守恒違例:物體的體積或紋理隨時間變化不一致。

(b) 牛頓第一定律違例:物體在平衡狀態(tài)下改變速度,而沒有外部力的作用。

(c) 牛頓第二定律違例:物體違反動量守恒。

(d) 固體本構定律違例:固體以與其材質(zhì)屬性相悖的方式變形,例如剛性物體隨時間變形。

(e) 流體本構定律違例:流體表現(xiàn)出不自然的流動動作。

(f) 非物理性穿透:物體不自然地相互穿透。

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

VIDEOCON-PHYSICS:VIDEOPHY 數(shù)據(jù)集的自動評估器

為了實現(xiàn)生成視頻在語義一致性和物理常識方面的可擴展和可靠評估,為數(shù)據(jù)集補充了 VIDEOCON-PHYSICS,一種自動評分器。

VIDEOCON-PHYSICS 對未見過的提示具有泛化能力。
下表 4 中比較了不同自動評估器與人工預測的 ROC-AUC 結(jié)果,評估的是測試提示生成的視頻。這里的生成視頻來自于用于訓練 VIDEOCON-PHYSICS 模型的模型。我們發(fā)現(xiàn),VIDEOCON-PHYSICS 在語義一致性和物理常識判斷上分別比零-shot 的 VIDEOCON 提高了 17 分和 19 分。這表明,通過結(jié)合生成視頻分布和人工標注進行微調(diào),能夠有效提升模型在未見過提示上的評估能力。

是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy-AI.x社區(qū)

VIDEOCON-PHYSICS 在語義一致性方面的判斷一致性高于物理常識。這表明,判斷物理常識比判斷語義一致性更具挑戰(zhàn)性。令人感興趣的是,GPT-4-Vision 在數(shù)據(jù)集上,對于語義一致性和物理常識的評判幾乎是隨機的。這意味著,對于 GPT-4-Vision 來說,在零-shot 設置下,從多圖像推理能力獲得準確評估是非常困難的。


為了應對這一挑戰(zhàn),測試了 Gemini-Pro-Vision-1.5,發(fā)現(xiàn)它在語義一致性評估上取得了不錯的分數(shù)(73 分),但在物理常識評估上接近隨機(54 分)。這表明,現(xiàn)有的多模態(tài)基礎模型缺乏判斷物理常識的能力。

VIDEOCON-PHYSICS 對未見過的生成模型具有泛化能力
為了評估 VIDEOCON-PHYSICS 在未見過的視頻分布上的性能,訓練了一個經(jīng)過簡化版本的 VIDEOCON-PHYSICS,該版本基于一組受限的視頻數(shù)據(jù)。具體來說,我們將 VIDEOCON-PHYSICS 訓練在從 VideoCrafter2、ZeroScope、LaVIE、OpenSora、SVD-T2I2V 和 Gen-2 獲取的人工標注數(shù)據(jù)上,并使用測試集中的其他 T2V 模型生成的視頻進行評估。


VIDEOCON-PHYSICS 在語義一致性和物理常識判斷上分別比 VIDEOCON 提高了 15 分。這表明,隨著新的 T2V 生成模型的發(fā)布,VIDEOCON-PHYSICS 可以有效評估其語義一致性和物理常識。

自動排行榜可靠地跟蹤人工排行榜
通過對開放模型和封閉模型的語義一致性和物理常識分數(shù)進行平均,創(chuàng)建了一個自動排行榜。隨后,我們將這些排名與人工排行榜對齊,基于聯(lián)合性能指標(SA = 1,PC = 1)。

在自動排行榜中的模型相對排名(CogVideoX-5B > VideoCrafter2 > LaVIE > CogVideoX-2B > SVD-T2I2V > ZeroScope > OpenSora)與人工排行榜中的模型相對排名(CogVideoX-5B > VideoCrafter2 > CogVideoX-2B > LaVIE > SVD-T2I2V > ZeroScope > OpenSora)高度一致。在封閉模型中也觀察到了類似的趨勢。然而, Pika 在自動排行榜中的分數(shù)相對較低,這是一個可以通過獲取更多數(shù)據(jù)來改善的局限性??傮w而言,大多數(shù)模型在兩個排行榜中的排名相似,證明了其在未來模型開發(fā)中的可靠性。

微調(diào)視頻模型
雖然 VIDEOPHY 數(shù)據(jù)集用于模型評估和構建自動評估器,但還評估了該數(shù)據(jù)集是否可以用于微調(diào)視頻模型。在微調(diào)后,觀察到語義一致性顯著下降,而物理常識保持不變。這可能是由于訓練樣本的限制、優(yōu)化挑戰(zhàn)以及視頻微調(diào)領域尚處于初期階段。未來的研究將專注于基于這些發(fā)現(xiàn)增強生成模型中的物理常識。

結(jié)論

VIDEOPHY,這是首個用于評估生成視頻中物理常識的數(shù)據(jù)集。通過對多種視頻模型(包括開源和閉源模型)的全面評估,發(fā)現(xiàn)這些模型在物理常識和語義一致性方面存在顯著不足。本文的數(shù)據(jù)集揭示了現(xiàn)有方法遠未成為通用的世界模擬器。此外,本文還提出了VIDEOCON-PHYSICS,一個自動化評估模型,能夠在我們的數(shù)據(jù)集上進行高效且可擴展的評估。本文的工作將為視頻生成建模中的物理常識研究奠定基礎。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/8BiUCFzsVTsEFFyM8wszRQ??

已于2024-12-30 11:20:17修改
收藏 1
回復
舉報
回復
相關推薦