自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

物理直覺不再是人類專屬?LeCun等新研究揭示AI可如何涌現(xiàn)出此能力

人工智能 新聞
近日,Yann LeCun 團隊又發(fā)布了一項新研究。他們發(fā)現(xiàn),只需在自然視頻上進行自監(jiān)督預訓練,對物理規(guī)則的直覺理解就會涌現(xiàn)出來。

在當今的 AI 領(lǐng)域,圖靈獎得主 Yann LeCun 算是一個另類。即便眼見著自回歸 LLM 的能力越來越強大,能解決的任務(wù)也越來越多,他也依然堅持自己的看法:自回歸 LLM 沒有光明的未來。

在近期的一次演講中,他將自己的觀點總結(jié)成了「四個放棄」:放棄生成式模型、放棄概率模型、放棄對比方法、放棄強化學習。他給出的研究方向建議則是聯(lián)合嵌入架構(gòu)、基于能量的模型、正則化方法與模型預測式控制。他還表示:「如果你感興趣的是人類水平的 AI,那就不要研究 LLM。」

總之,他認為有望實現(xiàn) AGI 或「人類水平的人工智能」的方向是世界模型(World Model),其領(lǐng)導的團隊也一直在推進這方面的研究工作,比如基于 DINO 的世界模型(DINO-WM)以及一項在世界模型中導航的研究。

近日,Yann LeCun 團隊又發(fā)布了一項新研究。他們發(fā)現(xiàn),只需在自然視頻上進行自監(jiān)督預訓練,對物理規(guī)則的直覺理解就會涌現(xiàn)出來。似乎就像驢一樣,通過觀察世界,就能直覺地找到最輕松省力的負重登山方法。

  • 論文標題:Intuitive physics understanding emerges from self-supervised pretraining on natural videos
  • 論文地址:https://arxiv.org/pdf/2502.11831v1
  • 項目地址:https://github.com/facebookresearch/jepa-intuitive-physics

該論文發(fā)布后,收獲了不少好評:

直覺物理理解

要理解這篇論文,我們首先需要明確一下什么才算是「直覺物理理解」。這篇論文寫到,對物理規(guī)則的直覺理解是人類認知的基礎(chǔ):我們會預期事物的行為方式是可預測的,比如不會憑空出現(xiàn)或消失、穿透障礙物或突然改變顏色或形狀。

這種對物理世界的基本認知不僅在人類嬰兒中有所記錄, 在靈長類動物、海洋哺乳動物、鴉科鳥類和雛雞中也有所發(fā)現(xiàn)。這被視為核心知識(或核心系統(tǒng))假說的證據(jù),根據(jù)該假說:人類擁有一套與生俱來或早期進化發(fā)展的古老計算系統(tǒng),專門用于表示和推理世界的基本屬性:物體、空間、數(shù)字、幾何、agent 等。

在追求構(gòu)建具有高級人類智能水平的機器的過程中,盡管 AI 系統(tǒng)在語言、編程或數(shù)學等高級認知任務(wù)上經(jīng)常超越人類表現(xiàn),但在常識性物理理解方面卻顯得力不從心,這體現(xiàn)了莫拉維克悖論,即對生物有機體來說微不足道的任務(wù)對人工系統(tǒng)來說可能異常困難,反之亦然。  

旨在改善物理直覺理解的 AI 模型的先前研究可以分為兩類:結(jié)構(gòu)化模型和基于像素的生成模型。

  • 結(jié)構(gòu)化模型利用手工編碼的物體及其在歐幾里得三維空間中關(guān)系的抽象表示,產(chǎn)生一個能夠捕捉人類物理直覺的強大的心理「游戲引擎」。這類模型可以被視為核心知識假說的一種可能的計算實現(xiàn)。
  • 基于像素的生成模型采取了完全相反的觀點,否認需要任何硬編碼的抽象。相反,它們提出了一種通用學習機制,即基于過去的感知輸入(如圖像)重建未來的感知輸入。 

V-JEPA:基于自然視頻涌現(xiàn)物理直覺

在新論文中,LeCun 等人探索了第三類模型 —— 聯(lián)合嵌入預測架構(gòu)(JEPA),它在這兩種對立觀點之間找到了中間立場,整合了兩者的特征。

與結(jié)構(gòu)化模型一樣,JEPA 認為對未來世界狀態(tài)的預測應該在模型的學習抽象、內(nèi)部表示中進行,而不是在低級的、基于像素的預測或生成方面進行。然而,與結(jié)構(gòu)化模型不同,JEPA 讓算法自行學習其表示,而不是手工編碼。這種在表示空間中進行預測的機制與認知神經(jīng)科學的預測編碼假說相一致。

新論文研究了該架構(gòu)的視頻版本,即 V-JEPA,它通過在表示空間中重建視頻的被掩蔽部分來學習表示視頻幀。

該研究依賴于預期違反(violation-of-expectation)框架來探測物理直覺理解,而無需任何特定任務(wù)的訓練或適應。通過提示模型想象視頻的未來(表示)并將其預測與實際觀察到的視頻的未來進行比較,可以獲得一個定量的意外度量(measure of surprise),該度量可用于檢測違反直觀物理概念的情況。 

研究發(fā)現(xiàn) V-JEPA 能夠準確且一致地區(qū)分遵循物理定律的視頻和違反物理定律的視頻。

具體來說,當被要求對視頻對的物理合理性進行分類時(其中一個視頻是合理的,另一個不是),在自然視頻上訓練的 V-JEPA 模型在 IntPhys 基準測試上達到了 98% 的零樣本準確率,在 InfLevel 基準測試上達到了 62% 的零樣本準確率。令人驚訝的是,研究發(fā)現(xiàn)多模態(tài)大語言模型和在像素空間中進行預測的可比較視頻預測方法都是隨機執(zhí)行的。

為了更好地理解哪些設(shè)計選擇導致了 V-JEPA 中物理直覺理解的涌現(xiàn),LeCun 等人消融了訓練數(shù)據(jù)、預訓練預測目標(從什么預測什么)和模型大小的影響。雖然觀察到改變這些組件中的每一個都會影響性能,但所有 V-JEPA 模型都達到了顯著高于隨機水平的性能,包括一個小型的 1.15 億參數(shù)模型,或者僅在一周獨特視頻上訓練的模型,這表明在學習表示空間中進行視頻預測是獲得物理直覺理解的一個穩(wěn)健目標。 

測量直覺物理理解

測量直覺物理理解中的預期違反 

預期違反范式源自發(fā)展心理學。研究對象(通常是嬰兒)會看到兩個相似的視覺場景,其中一個包含物理上不可能的情況。然后,研究者通過各種生理指標(如相對注視時間)獲取對每個場景的「感到意外」反應,用以確定研究對象是否感受到了概念違反。

這一范式已經(jīng)擴展到評估 AI 系統(tǒng)的物理理解能力。類似于嬰兒實驗,向模型展示成對的場景,除了違反特定直覺物理概念的某個方面或事件外,兩個場景的所有方面(物體屬性、物體數(shù)量、遮擋物等)都保持相同。例如,一個球可能會滾到遮擋物后面,但在配對的視頻中再也不會出現(xiàn),從而測試物體持久性的概念。模型對不可能場景表現(xiàn)出更高的意外反應,反映了其對被違反概念的正確理解。 

用于直覺物理理解的視頻預測

V-JEPA 架構(gòu)的主要開發(fā)目的是提高模型直接從輸入適應高層級下游任務(wù)的能力,如活動識別和動作分類,而無需硬編碼一系列中間表示,如物體輪廓或姿態(tài)估計。

在這項研究中,研究團隊測試了一個假設(shè):該架構(gòu)之所以在高層級任務(wù)上取得成功,是因為它學習到了一種隱式捕捉世界中物體結(jié)構(gòu)和動態(tài)的表示,而無需直接表示它們。

如圖 1.B 所示,V-JEPA 由一個編碼器(神經(jīng)網(wǎng)絡(luò))和一個預測器(也是神經(jīng)網(wǎng)絡(luò))構(gòu)成。編碼器從視頻中提取表示,預測器預測視頻中人為掩蔽部分的表示,如隨機掩蔽的時空塊、隨機像素或未來幀。編碼器和預測器的聯(lián)合訓練使編碼器能夠?qū)W習抽象表示,這些表示編碼可預測的信息并丟棄低層級(通常語義性較低)特征。 

在自監(jiān)督訓練之后,可以使用編碼器和預測器網(wǎng)絡(luò)來探測模型對世界的理解,而無需任何額外的適應。具體來說,在遍歷視頻流時,模型對觀察到的像素進行編碼,隨后預測視頻后續(xù)幀的表示,如圖 1.C 所示。通過記錄每個時間步的預測誤差(預測的視頻表示與實際編碼的視頻表示之間的距離),可以獲得模型在整個視頻中意外程度的時間對齊定量度量。通過改變模型可以用來預測未來的過去視頻幀數(shù)(上下文),可以控制記憶因素;通過改變視頻的幀率,可以控制動作的精細程度。

表征預測學習檢測直覺物理違反現(xiàn)象 

研究團隊在三個數(shù)據(jù)集上評估了直覺物理理解能力:IntPhys 的開發(fā)集、GRASP  和 InfLevel-lab。這些數(shù)據(jù)集的組合使研究團隊能夠探測各類方法對物體持久性、連續(xù)性、形狀和顏色恒常性、重力、支撐、固體性、慣性和碰撞的理解。

研究團隊將 V-JEPA 與其他視頻模型進行了比較,以研究視頻預測目標以及執(zhí)行預測的表征空間對直覺物理理解的重要性。研究團隊考慮了兩類其他模型:直接在像素空間進行預測的視頻預測模型和多模態(tài)大語言模型(MLLM)。 

對于考慮的每種方法,研究團隊評估了原始工作中提出的旗艦模型。研究團隊進一步將所有模型與未訓練的神經(jīng)網(wǎng)絡(luò)進行比較,測試直覺物理理解的可學習性。

圖 1.A 總結(jié)了各方法在成對分類(即在一對視頻中檢測不可能的視頻)中跨數(shù)據(jù)集的性能。

研究團隊發(fā)現(xiàn),V-JEPA 是唯一一個在所有數(shù)據(jù)集上都顯著優(yōu)于未訓練網(wǎng)絡(luò)的方法,在 IntPhys、GRASP 和 InfLevel-lab 上分別達到了 98%(95% CI [95%,99%])、66%(95% CI [64%,68%])、62%(95% CI [60%,63%])的平均準確率。這些結(jié)果表明,在學習到的表征空間中進行預測足以發(fā)展出對直覺物理的理解。這是在沒有任何預定義抽象,且在預訓練或方法開發(fā)過程中不知道基準的情況下實現(xiàn)的。 

通過比較,該團隊發(fā)現(xiàn),VideoMAEv2、Qwen2-VL-7B 和 Gemini 1.5 pro 的性能僅略高于隨機初始化模型。像素預測和多模態(tài) LLM 的低性能證實了先前的一些發(fā)現(xiàn)。

該團隊表示:「這些比較進一步凸顯了 V-JEPA 相對于現(xiàn)有 VideoMAEv2、Gemini 1.5 pro 和 Qwen2-VL-72B 模型的優(yōu)勢。然而,這些結(jié)果并不意味著 LLM 或像素預測模型無法實現(xiàn)直觀的物理理解,而只是意味著即使對于前沿模型來說,這個看似簡單的任務(wù)仍然很困難。」

V-JEPA 各屬性分析

接下來,為了更準確地理解 V-JEPA 的直觀物理理解,該團隊仔細研究了其在先前使用的數(shù)據(jù)集上的各屬性性能。在這里,V-JEPA 編碼器和預測器基于 Vision Transformer-Large 架構(gòu),并在 HowTo100M 數(shù)據(jù)集上進行了訓練。結(jié)果見下圖 2。

可以看到,在 IntPhys 上,V-JEPA 在多個直觀物理屬性上的表現(xiàn)都明顯優(yōu)于未經(jīng)訓練的網(wǎng)絡(luò),其中包括物體持久性、連續(xù)性、形狀恒常性。

在 GRASP 上,V-JEPA 也在物體持久性、連續(xù)性、支撐結(jié)構(gòu)、重力、慣性方面有顯著更高的準確度。不過 V-JEPA 在流體和碰撞等方面優(yōu)勢不顯著。

總結(jié)起來,V-JEPA 在與場景內(nèi)容相關(guān)的屬性方面表現(xiàn)出色,但在需要了解情境事件或精確物體交互的類別方面卻頗為困難。該團隊猜想,這些限制主要來自模型的幀速率限制。盡管如此,V-JEPA 展現(xiàn)出了直覺物理理解能力,同時可從原始感知信號中學習所需的抽象,而無需依賴于強大的先驗信息。不同于之前的研究,這表明,要讓深度學習系統(tǒng)理解直覺物理概念,核心知識并不是必需的

更進一步,該團隊使用來自 IntPhys 的私有測試集將 V-JEPA 與人類表現(xiàn)進行了比較。這次實驗使用了旗艦 V-JEPA 架構(gòu),即使用 ViT-Huge 并在 VideoMix2M 上進行預訓練。結(jié)果發(fā)現(xiàn) V-JEPA 在所有直觀物理屬性上都實現(xiàn)了相同或更高的性能,如圖 2.B 所示。

該團隊發(fā)現(xiàn),如果在視頻中使用最大意外值而不是平均意外值,可以在單個視頻上獲得更好的性能。

一般來說,當打破物理直覺的事件發(fā)生在遮擋物后面時,V-JEPA 和人類的性能都較低。此外,在遮擋設(shè)置下,人類和 V-JEPA 之間的性能具有很好的相關(guān)性。

最后,該團隊也研究了掩碼類型、訓練數(shù)據(jù)的類型和數(shù)量、模型大小對 V-JEPA IntPhys 分數(shù)的影響,結(jié)果如下。

詳細的具體分析和討論請閱讀原論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-06-30 08:49:02

人工智能AI深度學習

2025-03-03 09:22:00

2015-03-30 15:28:42

創(chuàng)業(yè)創(chuàng)業(yè)融資七牛

2024-03-26 06:40:06

大語言模型人工智能AI

2009-12-16 09:44:57

Linux桌面Linux

2023-11-24 17:01:30

模型推理

2024-04-15 11:48:09

2022-11-25 09:42:53

AI技術(shù)

2025-04-16 09:46:46

2023-09-21 10:38:00

繪畫AI

2012-03-14 15:06:11

用友云計算

2011-11-21 13:11:46

Wi-Fi下一代熱點

2020-11-11 14:56:00

Docker容器工具

2009-06-12 08:39:07

BSM運維管理北塔

2024-06-11 00:04:00

GPT-4PNASLLM

2024-03-05 11:18:14

模型訓練

2025-02-12 11:36:27

2015-10-28 11:17:27

螞蟻金服互聯(lián)網(wǎng)阿里云

2011-03-17 13:59:14

和信創(chuàng)天終端管理虛擬終端管理系統(tǒng)

2011-09-20 09:38:55

點贊
收藏

51CTO技術(shù)棧公眾號