AI恐怖體操視頻腿腳亂飛、大變活人,LeCun:視頻生成模型根本不懂物理
一段AI生成的體操視頻,引發(fā)近百萬網(wǎng)友圍觀,LeCun等一眾大佬還因?yàn)樗称饋砹恕?/p>
體操表演,emmmm怎么不算呢?
通過視頻右上角的水印,此段視頻正是由那個一度被認(rèn)為是“下一代”文生視頻的Dream Machine(來自Luma AI)生成的。
大伙兒看后紛紛坐不住,圍繞此討論的,是AI視頻領(lǐng)域的一個熟悉的話題:AI是否理解物理規(guī)律。
LeCun直接開麥:
視頻生成模型不理解基本物理知識。更不用說人體了。
華盛頓大學(xué)計(jì)算機(jī)科學(xué)教授Pedro Domingos看后也“搖了搖頭”:
AGI可能并不會像一些人預(yù)期的那樣即將到來。
畸變?nèi)甘畴x譜
自Sora問世以來,“AI是否理解物理規(guī)律”這個話題就被越來越多人關(guān)注。
下面這段Sora生成的“寄居蟹用燈泡當(dāng)外殼的夜間場面”是個經(jīng)典的例子,海浪與沙灘的互動非常細(xì)膩,寄居蟹腿上的纖毛也活靈活現(xiàn)。
對比真實(shí)拍攝的類似場景照片,也就燈泡沒有電源不應(yīng)該亮這一個明顯破綻了。
最近Luma AI的Dream Machine也一樣,生成的第一視角探廢棄房子真實(shí)感拉滿:
由此,不少人認(rèn)為Sora、LUMA等的視頻生成模型已經(jīng)理解了簡單的物理規(guī)律。
然鵝,這次被放出的視頻著實(shí)有點(diǎn)太離譜。
不僅腿腳亂飛,頻頻上演大變活人:
就這高難度的空中懸浮翻跟頭,也是牛頓都要被氣活了的節(jié)奏:
以至于網(wǎng)友看后還表示,說恐怖大可不必,說搞笑還差不多。
如此抽象,LeCun直接評論視頻生成模型不會懂物理。
他還進(jìn)一步解釋,Sora或者其它視頻生成模型都有類似的問題,視頻生成技術(shù)無疑也肯定會隨時(shí)間推移而進(jìn)步。
但:
真正理解物理的學(xué)習(xí)系統(tǒng)并不會具有生成性。就像鳥類、哺乳動物等比任何視頻生成系統(tǒng)更了解物理。然而,它們都不能生成詳細(xì)的視頻。
類似還有另一種思考:
即使AI視頻生成模型之后會進(jìn)化的很好,生成的視頻質(zhì)量“完美”,那么就意味著它理解物理了?
LeCun等的觀點(diǎn),立馬引起網(wǎng)友的質(zhì)疑:
鳥和哺乳動物也會生成詳細(xì)的視頻,只不過是在大腦中生成無法將其具像化。
然鵝,這種反駁并未說服LeCun。
此外,還有不少人持反對意見。
例如,谷歌DeepMind/Brain團(tuán)隊(duì)研究員Lucas Beyer就指出:
這就像是展示一個由幾年前的Dall·E mini生成的圖像,然后稱當(dāng)前的圖像生成方式注定失敗一樣。
畢竟,之前生圖模型生成的圖像be like:
至于模型會生成如此離譜的視頻?
有網(wǎng)友認(rèn)為是缺乏體操表演數(shù)據(jù),還有網(wǎng)友認(rèn)為是身體部位的模糊處理,使得模型無法理解人體結(jié)構(gòu),繼而不能保證肢體動作的連貫性。
視頻生成在計(jì)算上更為復(fù)雜,并且具有高度的上下文相關(guān)性,對詳細(xì)標(biāo)注的訓(xùn)練數(shù)據(jù)有更大的需求,這些需求現(xiàn)在還未得到充分滿足。
前段時(shí)間SD 3翻車,同樣對人體生成效果不好,網(wǎng)友也討論過這一問題,過于嚴(yán)格的數(shù)據(jù)審核,可能誤刪了一些無害的成人圖像,影響了模型對人體結(jié)構(gòu)的理解。
One More Thing
除了Luma AI的Dream Machine生成體操視頻大翻車,Runway的Gen-3也……
同款三頭六臂:
同款空中懸浮絕活:
本文轉(zhuǎn)自 量子位 ,作者:量子位
