自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LeCun世界模型再近一步!Meta研究證明:AI可無先驗(yàn)理解直覺物理

人工智能 新聞
AI如何理解物理世界?視頻聯(lián)合嵌入預(yù)測(cè)架構(gòu)V-JEPA帶來新突破,無需硬編碼核心知識(shí),在自監(jiān)督預(yù)訓(xùn)練中展現(xiàn)出對(duì)直觀物理的理解,超越了基于像素的預(yù)測(cè)模型和多模態(tài)LLM。

對(duì)物理的直觀理解是人類認(rèn)知的基礎(chǔ):期望物體的行為,具有可預(yù)測(cè)性,也就是說,物體不會(huì)突然出現(xiàn)或消失,穿過障礙物,或隨意改變形狀或顏色。

這種對(duì)物理的直觀理解,還在更多物種中得到證實(shí),包括猴子、鯨魚、烏鴉等。

相關(guān)研究人員猜測(cè):人類天生或嬰幼兒時(shí)期就具備一套進(jìn)化形成的、古老的系統(tǒng),專門用于表示和推理世界的基本屬性,比如物體、空間、數(shù)字、幾何形狀等。

Meta新研究證明,沒有任何先驗(yàn)知識(shí),自監(jiān)督視頻模型V-JEPA,也能夠理解直觀物理學(xué)!

換句話說,通過觀察,V-JEPA覺醒了物理直覺,和人類一樣不需要硬編碼,天生如此!

V-JEPA不是去生成像素級(jí)的精準(zhǔn)預(yù)測(cè),而是在抽象的表示空間里進(jìn)行預(yù)測(cè)。

這種方式更接近LeCun所認(rèn)為的人類大腦處理信息的模式。

他甚至回歸X平臺(tái),轉(zhuǎn)發(fā)論文通訊作者的post,宣布:「新方法學(xué)會(huì)了直觀物理」。

這次的主要發(fā)現(xiàn)如下:

  1. V-JEPA能夠準(zhǔn)確且一致地分辨出,符合物理定律的視頻和違反物理定律的視頻,遠(yuǎn)超多模態(tài)LLM和像素空間中的視頻預(yù)測(cè)方法。
  2. 雖然在實(shí)驗(yàn)中觀察到改變模型的任一組件,都會(huì)影響性能,但所有V-JEPA模型都取得了明顯高于隨機(jī)水平的表現(xiàn)。

論文鏈接:https://arxiv.org/abs/2502.11831

V-JEPA被網(wǎng)友Abhivedra Singh評(píng)價(jià)為:AI的關(guān)鍵飛躍!

AI直觀物理: 第三條路

在語言、編碼或數(shù)學(xué)等高級(jí)認(rèn)知任務(wù)上,現(xiàn)在高級(jí)的AI系統(tǒng)通常超越人類的表現(xiàn)。但矛盾的是,它們難以理解直觀物理,沒有物理直覺。

這就是莫拉維克悖論(Moravec's paradox),即對(duì)生物體來說微不足道的任務(wù),對(duì)人工系統(tǒng)來說可能非常困難,反之亦然。

之前,有兩類研究致力于提高AI模型對(duì)直觀物理的理解:結(jié)構(gòu)化模型和基于像素的生成模型:

1. 結(jié)構(gòu)化模型:利用手工編碼的物體及在3D空間中關(guān)系的抽象表示,從而產(chǎn)生強(qiáng)大的心理「游戲引擎」,能夠捕捉人類的物理直覺。這是核心知識(shí)假設(shè)的一種可能的計(jì)算實(shí)現(xiàn)。


2. 基于像素的生成模型則持截然相反的觀點(diǎn),否認(rèn)需要任何硬編碼的抽象表示。相反,它們提出了通用的學(xué)習(xí)機(jī)制,即基于過去的感官輸入(例如圖像)來重建未來的感官輸入。

新研究則探討了位于這兩種對(duì)立觀點(diǎn)之間、第三類模型:聯(lián)合嵌入預(yù)測(cè)架構(gòu)(Joint Embedding Predictive Architectures,JEPAs)。

新研究專注于視頻領(lǐng)域,特別是視頻聯(lián)合嵌入預(yù)測(cè)架構(gòu)V-JEPA。V-JEPA在下列文章中首次提出。

論文鏈接:https://arxiv.org/abs/2404.08471

基于心理學(xué)的預(yù)期違背理論,這次直接探測(cè)直觀物理理解,而不需要任何特定任務(wù)的訓(xùn)練或調(diào)整。

研究人員通過促使模型去想象未來的視頻表示,并將其預(yù)測(cè)與實(shí)際觀察到的未來視頻進(jìn)行比較,獲得了定量的驚訝度,用來檢測(cè)違背的直觀物理概念。

測(cè)量直觀物理理解

預(yù)期違背

預(yù)期違背起源于發(fā)展心理學(xué)。

受試者(通常是嬰兒)會(huì)看到兩個(gè)相似的視覺場(chǎng)景,其中一個(gè)包含物理上的不可能事件。

然后通過各種生理測(cè)量方法,獲得他們對(duì)每個(gè)場(chǎng)景的「驚訝」反應(yīng),并用于確定受試者是否發(fā)生了概念違背。

這種范式已被擴(kuò)展到評(píng)估AI系統(tǒng)的物理理解能力。

與嬰兒實(shí)驗(yàn)類似,向模型展示成對(duì)的場(chǎng)景,其中除了違反特定直觀物理概念的單個(gè)方面或事件,其他所有方面(物體的屬性、物體的數(shù)量、遮擋物等)在兩個(gè)場(chǎng)景中都保持相同。

模型對(duì)不可能場(chǎng)景表現(xiàn)出更高的驚訝反應(yīng),反映了對(duì)被違背的概念的正確理解。

理解直觀物理的視頻預(yù)測(cè)

V-JEPA架構(gòu)的主要開發(fā)目的,是提高模型適應(yīng)高級(jí)下游任務(wù)的能力,直接從輸入中獲取,而不需要一連串的中間表征。

研究團(tuán)隊(duì)驗(yàn)證了一個(gè)假設(shè),即這種架構(gòu)之所以能成功完成高級(jí)任務(wù),是因?yàn)樗鼘W(xué)會(huì)了一種表征方式,這種方式能隱含地捕捉到世界中物體的結(jié)構(gòu)和動(dòng)態(tài),而無需直接表征它們。

如下圖所示,V-JEPA是通過兩個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的:

  1. 編碼器:從視頻中提取表示;
  2. 預(yù)測(cè)器:預(yù)測(cè)視頻中人為遮蔽部分的表示,比如隨機(jī)遮蔽的時(shí)空塊、隨機(jī)像素或未來幀。

訓(xùn)練從視頻和損壞版開始,首先提取表征。

然后,從損壞視頻的表征,來預(yù)測(cè)原始視頻的表征。通過編碼器和預(yù)測(cè)器的聯(lián)合訓(xùn)練,編碼器能夠?qū)W習(xí)到編碼可預(yù)測(cè)信息的抽象表示,并舍棄低層次(通常較少語義)的特征。

經(jīng)過訓(xùn)練之后,在學(xué)習(xí)到的表征空間中,V-JEPA可以「修復(fù)」自然視頻。

在自監(jiān)督訓(xùn)練之后,可以直接使用編碼器和預(yù)測(cè)器網(wǎng)絡(luò),無需任何額外的適應(yīng),來探測(cè)模型對(duì)世界理解的程度。

具體來說,通過遍歷視頻流,模型會(huì)對(duì)觀測(cè)到的像素進(jìn)行編碼,并隨后預(yù)測(cè)視頻中后續(xù)幀的表示,如圖1.C所示:

從訓(xùn)練好的V-JEPA 中,基于M個(gè)過去的幀,預(yù)測(cè)N個(gè)未來幀的表征


然后比較預(yù)測(cè)與觀察到的事件表征,來計(jì)算驚訝度指標(biāo)。


最后,使用驚訝度指標(biāo),決定兩個(gè)視頻中的哪一個(gè)違反了物理學(xué)定律。

通過記錄每個(gè)時(shí)間步的預(yù)測(cè)誤差——即預(yù)測(cè)的視頻表示與實(shí)際編碼的視頻表示之間的距離——獲得了一個(gè)在時(shí)間上對(duì)齊的、量化模型在視頻中驚奇程度的度量。

圖1:在表征空間中進(jìn)行視頻預(yù)測(cè)(V-JEPA)實(shí)現(xiàn)對(duì)直觀物理的理解。

改變模型用來預(yù)測(cè)未來的過去視頻幀(上下文)的數(shù)量,可以控制記憶;通變視頻的幀率,可以控制運(yùn)動(dòng)的精細(xì)度。

AI發(fā)現(xiàn)「物理穿幫」鏡頭

研究團(tuán)隊(duì)評(píng)估了三個(gè)數(shù)據(jù)集上的直觀物理理解:IntPhys的dev數(shù)據(jù)集、GRASP和 InfLevel-lab。

這些基準(zhǔn)測(cè)試的組合提供了視覺質(zhì)量(合成/照片級(jí)真實(shí)感)、場(chǎng)景多樣性以及直觀物理屬性的多樣性。具體而言,這些數(shù)據(jù)集的組合能夠探究對(duì)以下概念的理解:物體永恒性、連續(xù)性、形狀和顏色恒常性、重力、支持力、堅(jiān)固性、慣性以及碰撞。

將V-JEPA與其他視頻模型進(jìn)行比較,目的是研究視頻預(yù)測(cè)目標(biāo)及表征空間對(duì)直觀物理理解的重要性。

此次考慮了兩類其他模型:視頻預(yù)測(cè)模型和多模態(tài)大型語言模型 (MLLM)。

  1. 視頻預(yù)測(cè)模型:直接在像素空間中進(jìn)行預(yù)測(cè),預(yù)訓(xùn)練方法與V-JEPA在預(yù)測(cè)目標(biāo)上相似,但通常學(xué)習(xí)到的表征空間的語義性較差 ,因此通常只有在針對(duì)特定任務(wù)微調(diào)后才具有實(shí)際應(yīng)用。
  2. 多模態(tài)大語言模型:主要用于預(yù)測(cè)文本,并且在訓(xùn)練過程中僅在事后與視頻數(shù)據(jù)結(jié)合,因此缺乏視頻預(yù)測(cè)的目標(biāo)。

作為前者的代表性方法,作者評(píng)估VideoMAEv2。

盡管該模型使用了不同的預(yù)測(cè)目標(biāo)和預(yù)訓(xùn)練數(shù)據(jù),但其預(yù)測(cè)空間的設(shè)置使得與V-JEPA進(jìn)行比較成為可能。鑒于其預(yù)測(cè)性質(zhì),VideoMAEv2可像V-JEPA一樣,通過預(yù)測(cè)未來并通過預(yù)測(cè)誤差衡量驚訝程度來進(jìn)行評(píng)估。

作為后者的典型的示例方法,作者研究了Qwen2-VL-7B和Gemini 1.5 Pro。

就參數(shù)數(shù)量和訓(xùn)練數(shù)據(jù)量而言,這些模型都比V-JEPA大得多,并且它們主要從文本數(shù)據(jù)中學(xué)習(xí)。多模態(tài)大型語言模型,將視頻和可能的文本提示作為輸入,并學(xué)習(xí)生成相應(yīng)的文本輸出。

由于MLLM只有文本輸出,因此無法使用基于定量驚訝度量去評(píng)估這些模型。

所以給模型一對(duì)視頻,詢問哪個(gè)視頻在物理上是不可能的, 如下所示。

對(duì)于每個(gè)方法,作者評(píng)估了原始研究中提出的旗艦?zāi)P汀?/span>

進(jìn)一步將全部模型與未訓(xùn)練的神經(jīng)網(wǎng)絡(luò)進(jìn)行比較,以測(cè)試直覺物理理解的可學(xué)習(xí)性。對(duì)于每個(gè)屬性和模型,選擇的上下文大小要最大化性能,以便讓模型能夠適應(yīng)不同的評(píng)估設(shè)置。

在3個(gè)直觀物理數(shù)據(jù)集IntPhys、GRASP和InfLevel上,使用違反預(yù)期范式,評(píng)估視頻模型。V-JEPA對(duì)不合理的視頻明顯更加「驚訝」,是唯一一個(gè)在所有數(shù)據(jù)集上表現(xiàn)出顯著優(yōu)于未訓(xùn)練網(wǎng)絡(luò)的性能的方法,在IntPhys、GRASP和InfLevel-lab數(shù)據(jù)集上分別達(dá)到了98%、66%和62%的平均準(zhǔn)確率。

下圖總結(jié)了各方法在不同數(shù)據(jù)集上的對(duì)比分類性能(即,在一對(duì)視頻中檢測(cè)哪個(gè)是不可能的)。

更詳細(xì)的結(jié)果,參考下圖。

這些結(jié)果表明,在學(xué)習(xí)到的表示空間中,只做預(yù)測(cè)就足以發(fā)展出對(duì)直覺物理的理解。這個(gè)過程沒有依賴任何預(yù)定義的抽象概念,也沒有在預(yù)訓(xùn)練或方法開發(fā)過程中使用基準(zhǔn)知識(shí)。

而像素預(yù)測(cè)和多模態(tài)LLMs的低性能驗(yàn)證了之前的發(fā)現(xiàn)。

這些比較進(jìn)一步突顯了V-JEPA相對(duì)于現(xiàn)有的VideoMAEv2、Gemini 1.5 pro和Qwen2-VL-72B模型的優(yōu)勢(shì)。

然而,這些結(jié)果并不意味著LLMs或像素預(yù)測(cè)模型無法實(shí)現(xiàn)直覺物理理解,而只是表明這一看似簡(jiǎn)單的任務(wù),對(duì)于前沿模型來說仍然困難。

V-JEPA深度剖析

為了解V-JEPA對(duì)不同直觀物理屬性的理解能力,研究者對(duì)其在各個(gè)數(shù)據(jù)集上的逐屬性性能進(jìn)行了深入分析。

使用基于視覺Transformer-Large(ViT-L)架構(gòu)的V-JEPA模型,在HowTo100M數(shù)據(jù)集上進(jìn)行訓(xùn)練。

在IntPhys數(shù)據(jù)集上,V-JEPA在物體持久性、連續(xù)性和形狀恒定性等屬性上的表現(xiàn)遠(yuǎn)超未訓(xùn)練的網(wǎng)絡(luò)。

以物體持久性為例,V-JEPA的準(zhǔn)確率達(dá)到了M=85.7,SD=7.6,而未訓(xùn)練網(wǎng)絡(luò)的準(zhǔn)確率僅為M=51.4,SD=1.0(t (4.0)=-8.9,p=4.19×10??),效應(yīng)量g=9.0(95%置信區(qū)間 [6.3,11.7])差異非常顯著。

在GRASP數(shù)據(jù)集上,V-JEPA在物體持久性、連續(xù)性、支撐性、重力和慣性等屬性上的準(zhǔn)確率同樣顯著高于未訓(xùn)練網(wǎng)絡(luò)。然而,在顏色恒常性、堅(jiān)固性或碰撞等屬性方面,并未觀察到顯著的提升。

在InfLevel數(shù)據(jù)集上,V-JEPA在物體持久性上的準(zhǔn)確率有顯著提高,但在重力或堅(jiān)固性方面則沒有明顯的優(yōu)勢(shì)。

綜合來看,V-JEPA在與場(chǎng)景內(nèi)容相關(guān)的屬性上表現(xiàn)出色,但在涉及需要理解上下文事件的類別或涉及精確物體交互建模,還存在一定的困難。

研究者推測(cè),這些局限性主要來源于模型的幀率限制。

盡管如此,V-JEPA能從原始感知信號(hào)中學(xué)習(xí)必要的抽象概念,而無需依賴強(qiáng)先驗(yàn)信息,展現(xiàn)出對(duì)直觀物理學(xué)的理解能力。這表明深度學(xué)習(xí)系統(tǒng)理解直觀物理概念并不一定需要核心知識(shí)。

研究人員還將V-JEPA與人類表現(xiàn)進(jìn)行了對(duì)比,V-JEPA在所有直觀物理屬性上均達(dá)到或超過人類的表現(xiàn)。

在單個(gè)視頻分類任務(wù)中,使用視頻中的最大驚訝度而非平均值,能夠使V-JEPA的性能得到進(jìn)一步提升。

對(duì)于物理違反事件發(fā)生在遮擋物后面的視頻,V-JEPA和人類的表現(xiàn)都會(huì)下降。在遮擋場(chǎng)景下,兩者的表現(xiàn)具有較高的相關(guān)性。

直觀物理學(xué)理解的關(guān)鍵

為了深入挖掘V-JEPA中直觀物理理解出現(xiàn)的內(nèi)在機(jī)制,研究者進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),考察訓(xùn)練數(shù)據(jù)、模型大小和預(yù)訓(xùn)練預(yù)測(cè)任務(wù)這三個(gè)關(guān)鍵因素對(duì)直觀物理理解的影響。

預(yù)訓(xùn)練任務(wù)的重要性

V-JEPA在訓(xùn)練時(shí)采用的是塊掩蔽任務(wù),即對(duì)視頻的整個(gè)持續(xù)時(shí)間內(nèi)的一個(gè)大空間塊進(jìn)行掩蔽,而在推理時(shí)則運(yùn)用因果預(yù)測(cè)。

為了探究預(yù)訓(xùn)練任務(wù)對(duì)直觀物理理解的具體影響,引入了兩種不同的替代方案:因果塊掩蔽和隨機(jī)掩蔽。

實(shí)驗(yàn)結(jié)果顯示,預(yù)測(cè)任務(wù)對(duì)直觀物理理解的影響相對(duì)較小。盡管隨機(jī)掩蔽在視頻分類任務(wù)上會(huì)導(dǎo)致明顯的性能下降,但在IntPhys數(shù)據(jù)集上,其平均下降幅度僅約5分。

有趣的是,因果塊掩蔽雖然在測(cè)試時(shí)與模型的預(yù)測(cè)設(shè)置更為接近,但實(shí)際表現(xiàn)卻不如非因果塊掩蔽。

隨機(jī)掩蔽能夠取得一定的有效性能,這表明在抽象表征空間中進(jìn)行預(yù)測(cè)才是關(guān)鍵所在,而不一定非要依賴特定的預(yù)訓(xùn)練目標(biāo)。

預(yù)訓(xùn)練數(shù)據(jù)的關(guān)鍵作用

V-JEPA之前是在Kinetics 710、Something-Something-v2和HowTo100M三個(gè)數(shù)據(jù)集的混合(VideoMix2M)上進(jìn)行訓(xùn)練的。

為了研究預(yù)訓(xùn)練數(shù)據(jù)對(duì)直觀物理性能的影響,分別使用這三個(gè)組件數(shù)據(jù)集重新訓(xùn)練V-JEPA-L模型,并對(duì)HowTo100M進(jìn)行子采樣,以探究數(shù)據(jù)集大小對(duì)模型性能的影響。

研究發(fā)現(xiàn),數(shù)據(jù)源對(duì)模型性能有著顯著的影響。

僅使用基于運(yùn)動(dòng)理解的視頻(SSv2)進(jìn)行訓(xùn)練時(shí),模型的性能接近隨機(jī)水平;側(cè)重于動(dòng)作的數(shù)據(jù)(K710)能使模型獲得高于隨機(jī)水平的直觀物理理解能力;而教程視頻(HowTo)在單個(gè)組件數(shù)據(jù)集中展現(xiàn)出了最佳的性能。

通過對(duì)HowTo100M進(jìn)行子采樣,進(jìn)一步發(fā)現(xiàn),即使使用僅占該數(shù)據(jù)集0.1%、僅代表128小時(shí)獨(dú)特視頻的小規(guī)模數(shù)據(jù)集,模型依然能有效地區(qū)分對(duì)直觀物理概念的違反情況,且在所有考慮的屬性上保持超過70%的成對(duì)準(zhǔn)確率。

編碼器大小的影響

在深度學(xué)習(xí)領(lǐng)域,通常認(rèn)為更大的模型具有更好的性能。

為了驗(yàn)證這一觀點(diǎn)在V-JEPA模型中的適用性,團(tuán)隊(duì)研究了V-JEPA在使用不同大小編碼器時(shí)的表現(xiàn)。

實(shí)驗(yàn)結(jié)果表明,一般情況下,更大的模型確實(shí)表現(xiàn)更優(yōu)。然而,一個(gè)參數(shù)僅有115M的小模型,仍然能夠達(dá)到超過85%的準(zhǔn)確率。

這充分展示了V-JEPA模型對(duì)直觀物理理解的穩(wěn)健性,即使是較小的模型也能實(shí)現(xiàn)對(duì)直觀物理的有效理解。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-02-19 08:58:00

模型AI

2024-04-18 12:16:37

MetaAIOpenEQA

2024-03-05 11:18:14

模型訓(xùn)練

2025-02-20 12:37:57

2022-11-21 09:09:08

Linux物理內(nèi)存管理

2025-03-11 09:15:00

2024-07-19 11:50:28

2024-11-08 14:10:00

模型視頻生成

2023-01-02 13:33:25

2017-09-13 09:05:29

iOS11iOS蘋果

2016-05-28 18:40:28

普華操作系統(tǒng)

2023-06-15 14:01:00

模型筆記

2016-01-15 10:39:15

Java企業(yè)級(jí)應(yīng)用

2024-01-22 21:26:47

VRMeta

2022-08-29 15:19:09

CSS煙花動(dòng)畫

2009-07-06 19:29:37

云計(jì)算私有云服務(wù)器虛擬化

2024-02-19 14:07:00

數(shù)據(jù)模型

2024-12-09 07:15:00

世界模型AILLM

2019-11-20 10:54:46

無密碼身份驗(yàn)證網(wǎng)絡(luò)安全

2023-02-28 07:03:09

AIMeta大型語言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)