自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

南大俞揚(yáng)深度解讀:什么是「世界模型」?

人工智能 新聞
當(dāng)AI領(lǐng)域中講到世界/world、環(huán)境/environment這個(gè)詞的時(shí)候,通常是為了與智能體/agent加以區(qū)分。

隨著媒體狂炒Sora,OpenAI的介紹材料中稱Sora是「world simulator」,世界模型這個(gè)詞又進(jìn)入視野,但很少有文章來(lái)介紹世界模型。

這里回顧一下什么是世界模型,以及討論Sora是不是world simulator。

什么是world models/世界模型

當(dāng)AI領(lǐng)域中講到世界/world、環(huán)境/environment這個(gè)詞的時(shí)候,通常是為了與智能體/agent加以區(qū)分。

研究智能體最多的領(lǐng)域,一個(gè)是強(qiáng)化學(xué)習(xí),一個(gè)是機(jī)器人領(lǐng)域。

因此可以看到,world models、world modeling最早也最常出現(xiàn)在機(jī)器人領(lǐng)域的論文中。

而今天world models這個(gè)詞影響最大的,可能是Jurgen 2018年放到arxiv的這篇以「world models」命名的文章,該文章最終以 「Recurrent World Models Facilitate Policy Evolution」的title發(fā)表在NeurIPS‘18。

該論文中并沒(méi)有定義什么是World models,而是類比了認(rèn)知科學(xué)中人腦的mental model,引用了1971年的文獻(xiàn)。

mental model是人腦對(duì)周邊世界的鏡像

Wikipedia中介紹的mental model,很明確的指出其可能參與認(rèn)知、推理、決策過(guò)程。并且說(shuō)到mental model主要包含mental representations和mental simulation兩部分。

an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到這里還是說(shuō)得云霧繚繞,那么論文中的結(jié)構(gòu)圖一目了然的說(shuō)明了什么是一個(gè)world model。

圖中縱向V->z是觀測(cè)的低維表征,用VAE實(shí)現(xiàn),水平的M->h->M->h是序列的預(yù)測(cè)下一個(gè)時(shí)刻的表征,用RNN實(shí)現(xiàn),這兩部分加起來(lái)就是World Model。

也就是說(shuō),World model的主要包含狀態(tài)表征和轉(zhuǎn)移模型,這也正好對(duì)應(yīng)mental representations和mental simulation。

看到上面這張圖可能會(huì)想,這不是所有的序列預(yù)測(cè)都是world model了?

其實(shí)熟悉強(qiáng)化學(xué)習(xí)的同學(xué)能一眼看出來(lái),這張圖的結(jié)構(gòu)是錯(cuò)誤(不完整)的,而真正的結(jié)構(gòu)是下面這張圖,RNN的輸入不僅是z,還有動(dòng)作action,這就不是通常的序列預(yù)測(cè)了(加一個(gè)動(dòng)作會(huì)很不一樣嗎?是的,加入動(dòng)作可以讓數(shù)據(jù)分布自由變化,帶來(lái)巨大的挑戰(zhàn))。

Jurgen的這篇論文屬于強(qiáng)化學(xué)習(xí)領(lǐng)域。

那么,強(qiáng)化學(xué)習(xí)里不是有很多model-based RL嗎,其中的model跟world model有什么區(qū)別?答案是沒(méi)有區(qū)別,就是同一個(gè)東西。Jurgen先說(shuō)了一段

基本意思就是,不管有多少model-based RL工作,我是RNN先驅(qū),RNN來(lái)做model是我發(fā)明的,我就是要搞。

在Jurgen文章的早期版本中,還說(shuō)到很多model-based RL,雖然學(xué)了model,但并沒(méi)有完全在model中訓(xùn)練RL。

沒(méi)有完全在model中訓(xùn)練RL,實(shí)際上并不是model-based RL的model有什么區(qū)別,而是model-based RL這個(gè)方向長(zhǎng)久以來(lái)的無(wú)奈:model不夠準(zhǔn)確,完全在model里訓(xùn)練的RL效果很差。這一問(wèn)題直到近幾年才得到解決。

聰明的Sutton在很久以前就意識(shí)到model不夠準(zhǔn)確的問(wèn)題。在1990年提出Dyna框架的論文Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(發(fā)表在第一次從workshop變成conference的ICML上),管這個(gè)model叫action model,強(qiáng)調(diào)預(yù)測(cè)action執(zhí)行的結(jié)果。

RL一邊從真實(shí)數(shù)據(jù)中學(xué)習(xí)(第3行),一邊從model中學(xué)習(xí)(第5行),以防m(xù)odel不準(zhǔn)確造成策略學(xué)不好。

圖片

可以看到,world model對(duì)于決策十分重要。如果能獲得準(zhǔn)確的world model,那就可以通過(guò)在world model中就反復(fù)試錯(cuò),找到現(xiàn)實(shí)最優(yōu)決策。

這就是world model的核心作用:反事實(shí)推理/Counterfactual reasoning , 也就是說(shuō),即便對(duì)于數(shù)據(jù)中沒(méi)有見(jiàn)過(guò)的決策,在world model中都能推理出決策的結(jié)果。

了解因果推理的同學(xué)會(huì)很熟悉反事實(shí)推理這個(gè)詞,在圖靈獎(jiǎng)得主Judea Pearl的科普讀物The book of why中繪制了一副因果階梯,最下層是「關(guān)聯(lián)」,也就是今天大部分預(yù)測(cè)模型主要在做的事;中間層是「干預(yù)」,強(qiáng)化學(xué)習(xí)中的探索就是典型的干預(yù);最上層是反事實(shí),通過(guò)想象回答what if問(wèn)題。Judea為反事實(shí)推理繪制的示意圖,是科學(xué)家在大腦中想象,這與Jurgen在論文中用的示意圖異曲同工。

圖片

左:Jurgen論文中的世界模型示意圖。右:Judea書(shū)中的因果階梯。

到這里我們可以總結(jié),AI研究人員對(duì)world model的追求,是試圖超越數(shù)據(jù),進(jìn)行反事實(shí)推理,回答what if問(wèn)題能力的追求。這是一種人類天然具備,而當(dāng)前的AI還做得很差的能力。一旦產(chǎn)生突破,AI決策能力會(huì)大幅提升,實(shí)現(xiàn)全自動(dòng)駕駛等場(chǎng)景應(yīng)用。

Sora是不是world simulator

simulator這個(gè)詞更多出現(xiàn)在工程領(lǐng)域,起作用與world model一樣,嘗試那些難以在現(xiàn)實(shí)世界實(shí)施的高成本高風(fēng)險(xiǎn)試錯(cuò)。OpenAI似乎希望重新組成一個(gè)詞組,但意思不變。

Sora生成的視頻,僅能通過(guò)模糊的提示詞引導(dǎo),而難以進(jìn)行準(zhǔn)確的操控。因此它更多的是視頻工具,而難以作為反事實(shí)推理的工具去準(zhǔn)確的回答what if問(wèn)題。

甚至難以評(píng)價(jià)Sora的生成能力有多強(qiáng),因?yàn)橥耆磺宄emo的視頻與訓(xùn)練數(shù)據(jù)的差異有多大。

更讓人失望的是,這些demo呈現(xiàn)出Sora并沒(méi)有準(zhǔn)確的學(xué)到物理規(guī)律。已經(jīng)看到有人指出了Sora生成視頻中不符合物理規(guī)律之處 [ OpenAI 發(fā)布文生視頻模型 Sora,AI 能理解運(yùn)動(dòng)中的物理世界,這是世界模型嗎?意味著什么? ]

我猜測(cè)OpenAI放出這些demo,應(yīng)該基于非常充足的訓(xùn)練數(shù)據(jù),甚至包括CG生成的數(shù)據(jù)。然而即便如此那些用幾個(gè)變量的方程就能描述的物理規(guī)律還是沒(méi)有掌握。

OpenAI認(rèn)為Sora證明了一條通往simulators of the physical world的路線,但看起來(lái)簡(jiǎn)單的堆砌數(shù)據(jù)并不是通向更高級(jí)智能技術(shù)的道路。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-11-13 14:25:00

模型架構(gòu)

2024-07-08 09:49:54

2024-02-05 14:12:37

大模型RAG架構(gòu)

2023-06-07 08:22:59

LLM微調(diào)技術(shù)

2017-12-07 16:27:30

Zookeeper架構(gòu)設(shè)計(jì)

2024-05-06 07:58:23

MoE模型系統(tǒng)

2023-10-06 20:30:33

大模型LLMtoken

2012-10-26 10:55:46

華為思科

2023-10-30 09:42:29

自動(dòng)駕駛模型

2024-10-16 09:50:32

2024-03-04 08:15:00

2023-09-20 09:56:18

深度學(xué)習(xí)人工智能

2023-10-07 08:28:06

語(yǔ)言模型代碼技術(shù)

2022-04-27 17:49:52

數(shù)字化

2011-09-02 13:32:20

CG水晶石

2014-05-09 15:01:37

2021-04-04 23:54:16

區(qū)塊鏈手機(jī)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)