自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

關(guān)于世界模型的一點(diǎn)迷思,以及與自動(dòng)駕駛結(jié)合的幾點(diǎn)思考

人工智能 新聞
為了處理日常生活中大量的信息,我們的大腦會(huì)學(xué)習(xí)這些時(shí)空信息。我們能夠觀察一個(gè)場(chǎng)景并且記住其中的一些抽象信息。也有證據(jù)表明, 我們?cè)谌魏翁囟〞r(shí)刻的感知都受到我們的大腦基于內(nèi)部模型對(duì)未來的預(yù)測(cè)的控制。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

什么是world models?

什么是world models, 可以參考Yann LeCun的PPT解釋。

即輸入歷史1到t時(shí)刻的狀態(tài)信息, 結(jié)合當(dāng)前的動(dòng)作, 能夠預(yù)測(cè)接下來的狀態(tài)。

通俗地理解, 筆者認(rèn)為可以把world model理解為世界動(dòng)態(tài)的演化。

world models的研究工作介紹

World models

論文鏈接: https://arxiv.org/abs/1803.10122

這個(gè)paper 和 Recurrent World Models Facilitate Policy Evolution 是同一個(gè)工作。

這個(gè)工作非常重要, 是后面很多工作的思想源泉。

工作導(dǎo)讀

本文構(gòu)建了一個(gè)生成式的world model,它可以用無監(jiān)督的方式學(xué)習(xí)周圍時(shí)空的表示, 并可以基于這個(gè)時(shí)空表示, 用一個(gè)簡(jiǎn)單的Policy模塊來解決具體的任務(wù)。

啟發(fā)

人類是根據(jù)有限的感官來感受并理解這個(gè)世界, 我們所做的決策和行為其實(shí)都是基于我們自已內(nèi)部的模型。
為了處理日常生活中大量的信息,我們的大腦會(huì)學(xué)習(xí)這些時(shí)空信息。我們能夠觀察一個(gè)場(chǎng)景并且記住其中的一些抽象信息。也有證據(jù)表明, 我們?cè)谌魏翁囟〞r(shí)刻的感知都受到我們的大腦基于內(nèi)部模型對(duì)未來的預(yù)測(cè)的控制。
比如下面這個(gè)圖,看的時(shí)候會(huì)發(fā)現(xiàn)它們好像在動(dòng). 但是其實(shí)都是靜止的。

圖片

方法

通過上面簡(jiǎn)單的例子會(huì)發(fā)現(xiàn)大腦其實(shí)預(yù)測(cè)了未來的感官數(shù)據(jù), 即想象了未來可能發(fā)生的場(chǎng)景.  基于這個(gè)啟示, 作者設(shè)計(jì)了一套框架, 框架圖如下:

圖片

該框架圖有三個(gè)主要的模塊組成, 即 Vision Model(V), Memory RNN(M)和 Controller(C)。

首先是Vision Model(V), 這個(gè)模塊的主要作用是學(xué)習(xí)觀測(cè)的表示,這里用的方法是VAE, 即變分自編碼器.它的主要作用是將輸入的觀測(cè), 比如圖片,轉(zhuǎn)成feature。

VAE的網(wǎng)絡(luò)結(jié)構(gòu)圖如下:

圖片

簡(jiǎn)單的解釋就是, 輸入觀測(cè)圖片, 先經(jīng)過encoder提特征, 然后再經(jīng)過decoder恢復(fù)圖像, 整個(gè)過程不需要標(biāo)注, 是自監(jiān)督的。用VAE的原因個(gè)人理解是因?yàn)檎麄€(gè)設(shè)計(jì)是生成式的。

其次是Memory RNN(M) ,它的網(wǎng)絡(luò)結(jié)構(gòu)如下:

圖片

這個(gè)模塊的主要作用是學(xué)習(xí)狀態(tài)的演化,可以認(rèn)為這部分就是world models。

最后是 Controller (C) , 很顯然,這部分的作用就是預(yù)測(cè)接下來的action,這里設(shè)計(jì)的非常簡(jiǎn)單, 目的就是為了把重心移到前面的模塊中, 前面的模塊可以基于數(shù)據(jù)來學(xué)習(xí).公式如下:

即用歷史的狀態(tài)積累  和 當(dāng)前的 觀測(cè) , 預(yù)測(cè)接下來的動(dòng)作。

整個(gè)推理流程如下:

即首先是觀測(cè)經(jīng)過V提feature, 然后經(jīng)過M得到, 最后觀測(cè)和歷史信息一塊兒送給C得到動(dòng)作, 基于動(dòng)作會(huì)和環(huán)境交互產(chǎn)生新的觀測(cè)...., 這樣可以不斷地進(jìn)行下去。

PlaNet: Learning Latent Dynamics for Planning from Pixels

論文連接:  https://arxiv.org/abs/1811.04551

Blog: https://planetrl.github.io/

工作導(dǎo)讀

本文提出了深度規(guī)劃網(wǎng)絡(luò)(PlaNet),這是一個(gè)基于模型的agent,它從圖像pixels中學(xué)習(xí)環(huán)境的動(dòng)態(tài)變化,之后在緊湊的潛在空間中做規(guī)劃并預(yù)測(cè)動(dòng)作。為了學(xué)習(xí)環(huán)境的動(dòng)態(tài)變化,提出了一個(gè)具有隨機(jī)和確定性組件的轉(zhuǎn)換模型。此外,能做到多步預(yù)測(cè)。

筆者認(rèn)為這個(gè)工作的最大貢獻(xiàn)是提出了RSSM(Recurrent state space model), 所以接下來主要介紹RSSM。

RSSM

這個(gè)圖是本文提出的RSSM與另外兩種方法的比較,如圖所示, 方框代表的是確定式變量, 圓代表的是隨機(jī)式變量. 圖a就是一個(gè)確定式的模型, 即通過RNN中的 隱式狀態(tài) 不斷地傳遞信息, 通過 可以預(yù)測(cè)action 和reward, 即只要  給定, 預(yù)測(cè)的 action和reward一定是確定的; 而圖b是隨機(jī)式的, 可以看到狀態(tài) 是隨機(jī)式的, 比如服從某個(gè)分布, 那這樣采樣得到的不同, 生成的 action和reward也會(huì)隨之而變化, 所以是隨機(jī)式的; 圖c可以看到, 預(yù)測(cè)action和reward的輸入有兩部分組成, 一部分是確定式的, 另一部分是隨機(jī)式的。

三種方式的優(yōu)缺點(diǎn)對(duì)比如下:

a. 確定式能夠防止模型隨便預(yù)測(cè)多種未來, 可以想象, 如果模型不夠準(zhǔn)確, 預(yù)測(cè)的未來就不準(zhǔn), 這對(duì)于后面的規(guī)劃來說容易出現(xiàn)錯(cuò)誤的結(jié)果。

b. 隨機(jī)式的問題是, 隨機(jī)的累積多步之后,可能和最初的輸入沒有關(guān)系了, 即很難記住信息。

c. 確定式和隨機(jī)式相結(jié)合, 既有確定部分防止模型隨意發(fā)揮, 又有隨機(jī)部分提升容錯(cuò)性。

Dreamer-V1: Dream to Control : Learning behaviors by latent imagination

論文連接: https://arxiv.org/abs/1912.01603

導(dǎo)讀

從題目中可以看出來, Dreamer-V1是基于latent imagination 來學(xué)習(xí)behaviors, 即dream to control. 有點(diǎn)像周星弛的電影武狀元蘇乞兒里的睡夢(mèng)羅漢拳. 方法上是基于想象的圖片進(jìn)行學(xué)習(xí).

方法

下圖為DreamerV1的三個(gè)組成部分:

a. 根據(jù)歷史的觀測(cè)和動(dòng)作學(xué)習(xí)環(huán)境的dynamics, 主要是學(xué)習(xí)將觀測(cè)和動(dòng)作提取到compact latent states space中。

b. 通過反向傳播, DreamerV1可以在想象中進(jìn)行訓(xùn)練。

c. 基于歷史的狀態(tài)和當(dāng)前的觀測(cè)來預(yù)測(cè)接下來的狀態(tài)及動(dòng)作。

接下來主要介紹如何通過latent 想象學(xué)習(xí)behaviors。

Learning behaviors by latent imagination

算法流程如下:

圖片

注意看, 從開始, 首先對(duì)于每個(gè) , 根據(jù)如下公式得到接下來的 :

因此就有了 , 之后再預(yù)測(cè)對(duì)應(yīng)的rewards, 在按照下面的方程:

圖片

得到 value function的估計(jì)。

DreamerV2: Mastering Atari with Discrete World Models

論文鏈接:  https://arxiv.org/abs/2010.02193

導(dǎo)讀

DreamerV1強(qiáng)調(diào)的是在latent imagination中學(xué)習(xí),  DreamerV2強(qiáng)調(diào)的是在預(yù)測(cè)中進(jìn)行學(xué)習(xí);筆者認(rèn)為二者在學(xué)習(xí)方式上并無區(qū)別. 區(qū)別的是 DreamerV2相比DreamerV1用了前面提到的RSSM. 論文題目中提到的 Atari是一個(gè)游戲的名字, 而解決這個(gè)游戲的方法是離散的世界模型. 這里的離散是因?yàn)橛^測(cè)的輸入剛好可以以離散的形式來表達(dá). DreamerV2是第一個(gè)基于模型的方法在Atari這個(gè)游戲上超過非模型的方法。

方法

網(wǎng)絡(luò)結(jié)構(gòu)如下:

整體結(jié)構(gòu)上和DreamerV1區(qū)別不太大, 都有重建圖像的任務(wù). 只不過這里有一項(xiàng)關(guān)于先驗(yàn)與后驗(yàn)的KL-loss, 即這兩個(gè)分布的KL-loss。

在 Transition 模型這里與DreamerV1也不同, 在V1里面是這樣。

, 即基于歷史的狀態(tài)和動(dòng)作來預(yù)測(cè)接下來的狀態(tài), 而在V2里面變成了  , 即基于RNN的確定式的隱式狀態(tài)來預(yù)測(cè)接下來的觀測(cè)分布. 這里的不同還是主要源于引入了RSSM。

在Actor Critic learning階段的結(jié)構(gòu)如下:

這個(gè)過程非常清晰, 即在沒有后續(xù)觀測(cè)的時(shí)候, 直接從先驗(yàn)的里面進(jìn)行采樣, 所以在訓(xùn)練的時(shí)候,先驗(yàn)要逼近后驗(yàn)。

SEM2:Enhance Sample Efficiency and Robustness of End-to-end Urban Autonomous Driving via Semantic Masked World Model

paper鏈接: https://arxiv.org/abs/2210.04017

導(dǎo)讀

從題目中可以看出來, 主要是通過 Semantic Masked World model來提升端自端自動(dòng)駕駛的采樣效率和魯棒性. 這里Semantic mask指的是接了一個(gè)語義分割的head輸出semantic mask, 另外在輸入端也多了lidar。

出發(fā)點(diǎn)

作者認(rèn)為之前的工作中提出的世界模型嵌入的潛在狀態(tài)包含大量與任務(wù)無關(guān)的信息, 導(dǎo)致采樣效率低并且魯棒性差. 并且之前的方法中,訓(xùn)練數(shù)據(jù)這塊兒分布是不均衡的, 因此之前的方法學(xué)習(xí)到的駕駛policy很難應(yīng)對(duì)corner case。

方法概述

針對(duì)上面提出的信息冗余, 這里提出了Semantic masked世界模型, 即SEM2. 也就是在decoder部分加入了語義mask 的預(yù)測(cè), 讓模型學(xué)習(xí)到更加緊湊,與駕駛?cè)蝿?wù)更相關(guān)的feature; 網(wǎng)絡(luò)結(jié)構(gòu)如下:

圖片

各部分參數(shù)如下:

圖片

結(jié)構(gòu)上大體與DreamerV2很相似, 輸入端多了lidar, decoder部分多了一支 Filter用來預(yù)測(cè)bev的Semantic Mask. 右下角是Semantic Mask的內(nèi)容信息, 主要包括, 地圖map信息, Routing信息, 障礙物信息和自車的信息。

Multi-Source Sampler

上面作者有提到之前訓(xùn)練集里面數(shù)據(jù)不均衡, 比如大直路太多. 這里就用了一種sample的方式, 簡(jiǎn)單地說就是在訓(xùn)練的每個(gè)batch中, 均衡的加入各種場(chǎng)景的樣本, 這樣就可以達(dá)到訓(xùn)練樣本平均衡分布的效果。

如上圖所示, 正常的數(shù)據(jù), 沖出道路的數(shù)據(jù),及碰撞的數(shù)據(jù)在每個(gè)batch中混在一起訓(xùn)練. 這樣模型就能見到各種case的數(shù)據(jù), 這有利于泛化解決corner case。

Wayve-MILE: Model-Based Imitation Learning for Urban Driving

代碼:  https://github.com/wayveai/mile.

論文: https://arxiv.org/abs/2210.07729

博客: https://wayve.ai/thinking/learning-a-world-model-and-a-driving-policy/

導(dǎo)讀

MILE是Wayve這家公司的研究工作, 有代碼,有詳細(xì)的blog解釋, 可謂是好的研究工作。

SEM2的網(wǎng)絡(luò)結(jié)構(gòu)中還需要預(yù)測(cè)reward, 在MILE中就沒有預(yù)測(cè)reward了, 題目中說是模仿學(xué)習(xí), 是因?yàn)檫@里在相同的環(huán)境下, 有教練的action作為target, 模型直接學(xué)習(xí)教練的action,所以叫模仿學(xué)習(xí). MILE這個(gè)工作很有啟發(fā)性, 其中先驗(yàn)分布, 后驗(yàn)分布以及采樣的思想, 雖然在前面的幾個(gè)工作中也有用到, 但是感覺這些概念在MILE框架下,得到了更好的解釋。

網(wǎng)絡(luò)結(jié)構(gòu)

相關(guān)參數(shù)如下:

圖片

  1. 只看最左側(cè)部分,可以認(rèn)為是VAE的結(jié)果, 下半部分是encoder, 上面部分重建圖像是decoder.
  2. 中間RNN部分, 用的也是RSSM, 這部分可以認(rèn)為是world model部分,能夠做到生成未來.
  3. 生成未來的關(guān)鍵是要學(xué)習(xí)到未來的世界的分布, 圖上  就是這個(gè)作用, 訓(xùn)練的時(shí)候讓先驗(yàn)逼近后驗(yàn), 推理想象模式下沒有觀測(cè),就從先驗(yàn)分布中采樣.
  4. 訓(xùn)練的時(shí)候, 針對(duì)先驗(yàn)后驗(yàn)?zāi)抢?,采用了dropout機(jī)制, 即訓(xùn)練的時(shí)候會(huì)以一定的概率從先驗(yàn)分布中采樣.
  5. 網(wǎng)絡(luò)結(jié)構(gòu)上雖然畫了重建圖像部分, 但是實(shí)驗(yàn)的時(shí)候并沒有用到重建圖像的loss.

下面是一個(gè)長(zhǎng)時(shí)間預(yù)測(cè)的效果圖:

圖片

world models的將來發(fā)展

筆者認(rèn)為上面介紹的一些world model的相關(guān)工作, 和強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)等有很大關(guān)系,  可以看到世界模型是預(yù)測(cè)未來的基礎(chǔ), 筆者認(rèn)為關(guān)于世界模型有幾大思考的方向:

  1. world model的架構(gòu)設(shè)計(jì), 上面的方法基本上基于RNN, RSSM的框架, 但這種設(shè)計(jì)是不是最好, 是否有利于訓(xùn)練,推理,都有待進(jìn)一步的探索
  2. world model到底該學(xué)習(xí)什么, 或者對(duì)于具體的任務(wù), 比如自動(dòng)駕駛中world model應(yīng)該學(xué)習(xí)到什么? 2d信息, 3d信息,  軌跡信息,地圖信息,占據(jù)信息 。。。。。。, 針對(duì)這些信息如何設(shè)計(jì)方案?
  3. world model如何與LLM結(jié)合, 或者如何利用現(xiàn)有LLM的一些方法、結(jié)構(gòu)和能力。
  4. 如何做到自監(jiān)督, 上面的方法中, 比如MILE和SEM2需要semantic mask的標(biāo)注信息. 但標(biāo)注但標(biāo)注數(shù)據(jù)總是有限且昂貴。

原文鏈接:https://mp.weixin.qq.com/s/VYdMVBpxRd1ETfGf6djK8w

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-04-28 14:54:09

機(jī)器人代碼

2024-12-25 09:50:00

2011-12-23 09:16:19

2024-02-05 10:56:34

2024-05-29 09:14:11

2022-01-18 10:51:09

自動(dòng)駕駛數(shù)據(jù)人工智能

2021-05-18 15:37:39

自動(dòng)駕駛麥肯錫汽車

2021-12-10 10:41:08

自動(dòng)駕駛數(shù)據(jù)汽車

2011-07-18 16:33:20

sqlite

2013-06-26 10:13:32

C語言結(jié)構(gòu)體結(jié)構(gòu)體偏移

2022-04-06 07:14:29

區(qū)塊鏈網(wǎng)絡(luò)生態(tài)系統(tǒng)

2023-09-22 11:56:57

模型駕駛

2023-09-26 13:33:27

AI自動(dòng)駕駛

2021-10-26 15:31:28

自動(dòng)駕駛技術(shù)安全

2024-10-16 09:50:32

2023-12-08 10:10:56

模型論文調(diào)研

2024-04-15 11:40:37

自動(dòng)駕駛端到端

2025-01-10 09:05:00

2023-10-30 09:42:29

自動(dòng)駕駛模型

2011-07-04 09:33:04

惠普轉(zhuǎn)型李艾科
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)