自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于模型的自動駕駛汽車端到端深度強化學(xué)習(xí)策略

人工智能 新聞
MILE是在城市駕駛數(shù)據(jù)的離線語料庫上進行訓(xùn)練的,無需與環(huán)境進行任何在線交互??蚣艿木窒扌灾皇亲赃m應(yīng)的手動獎勵功能,而不是根據(jù)專家駕駛員數(shù)據(jù)推斷。

真實駕駛場景中,通過觀察和互動,使智能駕駛汽車能夠積累知識并應(yīng)對不可預(yù)測的情況。我們將智駕汽車的這種對世界運作方式稱為“常規(guī)認(rèn)知”,它使智能汽車能夠找到自己的方向。對周邊環(huán)境目標(biāo)的觀察也使自車能夠?qū)W習(xí)并遵守規(guī)則。機器學(xué)習(xí)中的一個類似概念是一種稱為模仿學(xué)習(xí)的方法,它允許模型學(xué)習(xí)模仿人類在給定任務(wù)中的行為。

Wayve作為最先發(fā)布最先進的端到端模型的公司,用基于CARLA的模擬數(shù)據(jù)學(xué)習(xí)世界模型和車輛駕駛策略,從而使汽車無需高清地圖即可實現(xiàn)自動駕駛。其中,基于模型的模仿學(xué)習(xí) (MILE) 作為一種新的機器學(xué)習(xí)模型,更具體地說是一種強化學(xué)習(xí)架構(gòu),可以在離線訓(xùn)練期間學(xué)習(xí)世界模型和駕駛策略。MILE 可以采用“泛化推理算法”對智駕汽車未來行駛環(huán)境進行合理且可視化的想象和預(yù)測,并利用這種能力來規(guī)劃其未來的行動。

01 前言

由于實際過程中感知到的信息流通常是不完整且嘈雜的,因此AI大模型的應(yīng)用大腦通過“想象學(xué)習(xí)”可以來填補這些缺失的信息。這也就解釋了為什么AI大模型下的智駕汽車能夠在被陽光致盲等情況下仍可以繼續(xù)駕駛。即使短時間內(nèi)無法進行視覺觀察,仍然可以可靠地預(yù)測其下一個狀態(tài)和行動,以表現(xiàn)出安全的駕駛行為。

類似地,基于模型的駕駛行為學(xué)習(xí)MILE 可以執(zhí)行完全根據(jù)想象預(yù)測的準(zhǔn)確駕駛計劃,而無需依靠實時的對環(huán)境進行視覺觀察。實際上MILE通過使用模型中的想象規(guī)劃,可以執(zhí)行復(fù)雜的駕駛操作,例如駛過環(huán)島、標(biāo)記停車標(biāo)志或轉(zhuǎn)向為了避開摩托車手。

從數(shù)量上來說,通過在完全循環(huán)的設(shè)置中運行來衡量預(yù)測計劃的準(zhǔn)確性。在模型可以看到圖像觀察結(jié)果的觀察模式和模型必須想象下一個狀態(tài)和動作的想象模式之間切換,類似于由于陽光眩光而暫時失明的駕駛員。

通過自動駕駛的動態(tài)代理和靜態(tài)環(huán)境在 3D 幾何中進行推理,MILE 使用每個圖像特征的深度概率分布以及深度箱、相機內(nèi)在和外在的預(yù)定義網(wǎng)格,可以將汽車捕獲的圖像轉(zhuǎn)換到3D空間。這些 3D 特征體素可以通過使用預(yù)定義網(wǎng)格操作轉(zhuǎn)換為鳥瞰圖,最后一步是映射到一維向量從而壓縮有關(guān)世界模型的信息,這也是定義編碼器過程的一部分。

觀察的下一部分將演化出一個與 StyleGAN 架構(gòu)中發(fā)生的情況非常相似的解碼器。它是一種應(yīng)用于編碼器輸出、鳥瞰圖和圖像潛在向量不同分辨率的上采樣方法。此外,解碼器還輸出車輛控制。對于時間建模而言,MILE 使用循環(huán)神經(jīng)網(wǎng)絡(luò)對潛在狀態(tài)動態(tài)進行建模,根據(jù)前一個潛在狀態(tài)預(yù)測下一個潛在狀態(tài)。

環(huán)境和其中作用的動態(tài)代理的精確模型為改進運動規(guī)劃提供了巨大的潛力。MILE模型可以根據(jù)過去的上下文想象未來的潛在狀態(tài),并使用它們來利用學(xué)習(xí)到的駕駛策略來規(guī)劃和預(yù)測行動。未來狀態(tài)也可以通過解碼器可視化和解釋。

在本文中,將介紹基于模型的模仿學(xué)習(xí) MILE。該模型可用于學(xué)習(xí)自動駕駛車輛的協(xié)同控制并對世界環(huán)境進行動態(tài)建模。

02 基于端到端模型學(xué)習(xí)概述

端到端的學(xué)習(xí)過程可以僅根據(jù)高維視覺觀察預(yù)測駕駛命令來提高性能。有條件的模仿學(xué)習(xí)是學(xué)習(xí)端到端駕駛策略的一種有效方法,這種方法可以部署在模擬和現(xiàn)實城市駕駛場景中。盡管如此,從高維視覺觀察和專家軌跡中學(xué)習(xí)端到端策略仍然是相對非常困難的。已有一些算法試圖通過超越純粹的模仿學(xué)習(xí)來克服這些困難。比如提出迭代數(shù)據(jù)集聚合,其方法是在部署期間可能經(jīng)歷的軌跡收集相應(yīng)的數(shù)據(jù)。其次,還可以使用 BeV 語義分割來監(jiān)督模型,讓學(xué)習(xí)者接觸專家數(shù)據(jù)的綜合擾動,以產(chǎn)生更穩(wěn)健的駕駛策略。從所有車輛中學(xué)習(xí)(LAV)中不僅可以學(xué)習(xí)自車行為,還可以學(xué)習(xí)場景中其他所有車輛的行為,從而提高了樣本效率。此外,通過構(gòu)建一個在強化學(xué)習(xí)教練來監(jiān)督和訓(xùn)練相應(yīng)的智能體。

1、城市場景學(xué)習(xí)

駕駛本質(zhì)上需要對環(huán)境有幾何理解,MILE 首先將圖像特征提升到 3D 空間并將其匯集到鳥瞰圖 (BeV) 表示中,從而利用 3D 幾何作為重要的歸納偏差。世界的演化是通過潛在動力學(xué)模型來建模的,該模型從觀察和專家行為中推斷出緊湊的潛在狀態(tài)。學(xué)習(xí)到的潛在狀態(tài)是輸出車輛控制的駕駛策略的輸入,并且還可以解碼為 BeV 分段以進行可視化并作為監(jiān)督信號。

相應(yīng)提升至3D空間的操作可以詳細(xì)描述如下:

使用逆內(nèi)函數(shù) K?1和預(yù)測深度,像素圖像空間中的特征在相機坐標(biāo)中被改進為 3D針孔相機模型;以自車的慣性中心點,設(shè)置剛體運動M將3D相機坐標(biāo)轉(zhuǎn)換為3D車輛坐標(biāo);

剝離不匹配點。在訓(xùn)練時,先驗信息被訓(xùn)練為通過 KL 匹配后驗信息分歧,但是它們不一定針對穩(wěn)健的長期未來預(yù)測進行優(yōu)化。通過迭代應(yīng)用轉(zhuǎn)換模型并整合中間狀態(tài),優(yōu)化狀態(tài)以實現(xiàn)穩(wěn)健的多步預(yù)測。監(jiān)督隨機展開的先驗時間范圍(即預(yù)測 t + k 處的狀態(tài),其中 k ≥ 1)。更準(zhǔn)確地說,在訓(xùn)練期間,以概率 pdrop 從先驗而不是后驗中采樣隨機狀態(tài)st,稱這種現(xiàn)象為觀察丟失。如果將 X 表示為表示先驗 k 次的隨機變量展開后,X 遵循成功概率 (1 ? pdrop) 的幾何分布。后驗分布被建模為兩個高斯分布的混合,其中一個來自先驗分布。在訓(xùn)練過程中,一些后驗變量被隨機丟棄,迫使其他后驗變量最大化從輸入圖像中提取信息。觀察 dropout 可以被視為 z-dropout 的全局變體,因為它一起刪除所有后驗變量。

實際上代理及其行為都不影響環(huán)境的這種假設(shè)在城市駕駛中很少成立,因此 MILE 使自車能夠模擬其他駕駛主體并規(guī)劃其如何響應(yīng)自車行動。MILE模型可以根據(jù)長期的潛在狀態(tài)和行動來預(yù)測合理且多樣化的未來狀態(tài)。甚至可以在想象中預(yù)測整個駕駛計劃,以成功執(zhí)行復(fù)雜的駕駛操作,例如通過環(huán)島,或轉(zhuǎn)向避開摩托車手。

MILE使用循環(huán)神經(jīng)網(wǎng)絡(luò)對時間進行建模,這樣可以維護一個總結(jié)所有過去觀察結(jié)果的單一狀態(tài),然后在有新觀察結(jié)果可用時有效地更新狀態(tài)。這種設(shè)計決策對于延遲方面的部署具有重要的好處,而對驅(qū)動性能的影響可以忽略不計。

在推理過程中,因為使用循環(huán)神經(jīng)網(wǎng)絡(luò)對時間進行建模,這樣可以維護一個總結(jié)所有過去觀察結(jié)果的單一狀態(tài),然后在新觀察結(jié)果可用時有效地更新狀態(tài)。這種設(shè)計決策對于延遲方面的部署具有重要的好處,而對驅(qū)動性能的影響可以忽略不計。

2、3D 場景表示

成功的自動駕駛規(guī)劃需要能夠理解和推理 3D 場景,而這對于單目相機來說可能具有挑戰(zhàn)性。一種常見的解決方案是將多個攝像機的信息壓縮為場景的單個鳥瞰圖。這可以在 3D 中通過學(xué)習(xí)特征的深度分布提升每個圖像的先驗識別能力,然后將所有視錐體分散到公共光柵化 BeV 網(wǎng)格中來實現(xiàn)。另一種方法是依靠transformers(時空融合)來學(xué)習(xí)從圖像到鳥瞰圖的直接映射,而不需要顯式地建模深度。

3、世界模型

基于模型的方法主要在強化學(xué)習(xí)環(huán)境中進行探索,這種方法實際是在完全離線狀態(tài)下強化學(xué)習(xí),并假設(shè)在與環(huán)境進行在線交互中可以獲得獎勵。基于模型的模仿學(xué)習(xí)已成為機器人操作和 OpenAI Gym 中強化學(xué)習(xí)的替代方案。盡管這些方法不需要獲得獎勵,但它們?nèi)匀恍枰c環(huán)境進行在線交互才能獲得良好的性能。

在視頻預(yù)測中,首先利用從圖像觀察中學(xué)習(xí)到的世界模型潛在動態(tài),額外對獎勵函數(shù)進行建模,并優(yōu)化他們在世界模型中的策略。當(dāng)然,本文這里的算法是不假設(shè)訪問獎勵函數(shù),而是直接從離線數(shù)據(jù)集中吸收學(xué)習(xí)策略。

此外,以前的方法是對簡單的視覺輸入進行操作。相比之下,MILE 能夠從高分辨率輸入觀察中學(xué)習(xí)到復(fù)雜城市駕駛場景的潛在動態(tài),這可以很好的確保小細(xì)節(jié)的感知性能(例如可靠地感知交通信號燈)。

4、軌跡預(yù)測

軌跡預(yù)測的目標(biāo)是使用過去的物理狀態(tài)(例如位置、速度)和場景上下文(例如離線高清地圖)來估計動態(tài)代理的未來軌跡。世界模型構(gòu)建了環(huán)境的潛在表示,解釋了根據(jù)自車行為而獲得感官輸入(例如相機圖像)的觀察結(jié)果。軌跡預(yù)測方法僅對動態(tài)場景進行建模,而世界模型則對靜態(tài)和動態(tài)場景進行聯(lián)合推理。在世界模型的學(xué)習(xí)模型中可以潛在表示移動代理未來軌跡的隱式編碼,并且如果我們可以訪問未來的軌跡標(biāo)簽,則可以顯式進行解碼。

這些編碼可以預(yù)測移動目標(biāo)的未來軌跡,但沒有控制自車的主體。實際上,整個軌跡規(guī)劃關(guān)注的是預(yù)測問題,而不是簡單的從演示中學(xué)習(xí)專家行為。從專家的演示中推斷出自車代理的未來軌跡,并以某些特定目標(biāo)為條件來執(zhí)行新任務(wù),這樣也可以共同模擬移動主體和自車的未來軌跡。這里主要通過聯(lián)合模擬其他動態(tài)代理的運動、自車代理的行為以及靜態(tài)場景來進行軌跡預(yù)測。假設(shè)訪問不到地面真實物理狀態(tài)(位置、速度)或場景上下文的離線高清地圖。也就是這樣的先驗真值系統(tǒng)并不存在,這里僅使用攝像頭檢測的方法,可以對城市駕駛環(huán)境中的靜態(tài)場景、動態(tài)場景和自我行為進行建模。

03 基于模型學(xué)習(xí)的方法論

MILE方法利用3D幾何作為歸納偏差,并直接從專家演示的高分辨率視頻中學(xué)習(xí)高度緊湊的潛在空間。MILE 能夠想象合理的未來并相應(yīng)地計劃行動,使模型能夠在想象中控制車輛。這意味著模型可以在無需訪問世界最新觀測結(jié)果的情況下成功控制車輛。

1、概率生成模型

設(shè) o1:T 為 T 視頻幀序列,具有相關(guān)的專家動作 a1:T 和地面實況 BeV 語義分割標(biāo)簽 y1:T。通過引入控制時間動態(tài)的潛在變量 s1:T 來模擬這些動作的演化。

完整的概率模型由如下方程給出。

假設(shè)初始分布參數(shù)化為 s1 ~N (0, I),通過引入一個變量 h1 ~δ(0) 作為確定性歷史。該轉(zhuǎn)換包括取決于過去歷史 ht 和過去狀態(tài) st 的確定性更新 ht+1 = fθ(ht, st);隨機更新 st+1 ~N(μθ(ht+1, at), σθ(ht+1, at)I),其中,我們將 st 參數(shù)化為具有對角協(xié)方差的正態(tài)分布。通過使用神經(jīng)網(wǎng)絡(luò)對這些轉(zhuǎn)換進行建模:fθ是門控循環(huán)單元,(μθ,σθ) 是多層感知器。δ為 Dirac delta 函數(shù),gθ為圖像解碼器,lθ為 BeV 解碼器,πθ為策略。

2、MILE模型預(yù)測架構(gòu)

整體的MILE的模型預(yù)測架構(gòu)如下圖所示。其中包括了觀測網(wǎng)絡(luò)和推理網(wǎng)絡(luò)兩部分。下面將針對性的對該整體架構(gòu)進行詳細(xì)分析。

整個推理框架目標(biāo)是推斷生成觀測值 o1:T 的潛在動態(tài) (h1:T, s1:T ),專家操作a1:T和鳥瞰視圖標(biāo)簽 y1:T,潛在動態(tài)包含確定性歷史ht和隨機狀態(tài)st。

相應(yīng)的推理模型是通過設(shè)定參數(shù)為φ,估計隨機狀態(tài)的后驗分布 q(st|o≤t, aφ(ht, at?1, xt),σφ(ht, at?1, xt)I) 且 xt = eφ(ot)。eφ是觀察編碼器,它可以將圖像二維特征提升到3D空間,從而將它們匯集到鳥瞰圖中,并壓縮為1D 向量。 

生成模型估計主要是在參數(shù)為θ條件下,估計t-1時刻隨機狀態(tài)的先驗分布:p(st|ht?1, st?1)~N (μθ(ht, a?t?1),σθ(ht, a?t?1) )I)。其中,ht = fθ(ht?1,st?1)為確定性轉(zhuǎn)換,a?t?1 =πθ(ht?1, st?1) 為預(yù)測動作。同時,該模型還估計如下三個模型參數(shù):

  • 觀測值 p(ot|ht, st)~N(gθ(ht,st),I)的分布;
  • 鳥瞰圖分割 p(yt|ht, st) ~Categorical(lθ(ht, st));
  • 執(zhí)行動作 p(at|ht, st) ~Laplace(πθ(ht,st),1);

最后,是設(shè)定推斷時間步長,即通過該模型觀察T = 2個時間步的輸入來推測未來多步的潛在狀態(tài)和動作。

04 推理網(wǎng)絡(luò)框架

MILE實際上是一種基于模型的城市駕駛模仿學(xué)習(xí)方法,該方法僅從線下專家演示中共同學(xué)習(xí)駕駛策略和世界模型。利用幾何歸納偏差,對高維視覺輸入進行操作,MILE 可以預(yù)測多樣化且合理的未來狀態(tài)和行動,從而使模型能夠按照完全根據(jù)想象預(yù)測的計劃進行驅(qū)動。

一個懸而未決的問題是如何從專家數(shù)據(jù)中推斷駕駛獎勵函數(shù),因為這將有助于在世界模型中進行明確的規(guī)劃。另一個途徑是自監(jiān)督,以放松對鳥瞰圖分割標(biāo)簽的依賴。自監(jiān)督可以充分釋放世界模型在現(xiàn)實世界駕駛和其他機器人任務(wù)中的潛力。

如下圖所示,對 MILE 進行了完整的描述。其中,該圖中表示狀態(tài)之間條件依賴性的圖形模型。確定性狀態(tài)和隨機狀態(tài)分別用正方形和圓形表示,觀察到的狀態(tài)呈灰色。生成模型和推理模型的圖形模型中顯示了模型每個組件的參數(shù)數(shù)量及訓(xùn)練期間使用的所有超參數(shù)。

推理網(wǎng)絡(luò)是以φ為參數(shù),由兩個元素組成:即觀測編碼器eφ,將輸入圖像、路線圖和車輛控制傳感器數(shù)據(jù)嵌入到低維向量中;后驗網(wǎng)絡(luò)(μφ,σφ),估計高斯后驗概率分布。通過對q(st|o≤t,a<t)進行建模,計算近似真實的后驗概率p(st|o≤t, a<t)。

在訓(xùn)練收斂時,先驗分布應(yīng)該能夠?qū)<覕?shù)據(jù)集中的所有動作狀態(tài)轉(zhuǎn)換進行建模。圖像和 BeV 解碼器具有類似于 StyleGAN的架構(gòu)。預(yù)測從學(xué)習(xí)的常數(shù)張量開始,并逐漸上采樣到最終分辨率。在每個決議中,潛在狀態(tài)通過自適應(yīng)實例歸一化注入到網(wǎng)絡(luò)中。且允許潛在狀態(tài)以不同的分辨率調(diào)制預(yù)測。

為了以傳統(tǒng)的動力學(xué)模型為基礎(chǔ)進行有效地泛化學(xué)習(xí),需要設(shè)計相應(yīng)的觀察編碼器。

整個模型狀態(tài)應(yīng)該是緊湊的和低維的。因此,需要將高分辨率輸入圖像嵌入到低維向量中。與圖像分類任務(wù)類似,簡單地將圖像編碼為一維向量可能會導(dǎo)致性能不佳。相反,在模型中顯式編碼3D幾何則可以歸納偏差。

該方法可以基于如下三個步驟實現(xiàn)降維編碼。

1、將圖像特征提升至3D

由于自動駕駛是一個幾何問題,需要在3D中對靜態(tài)場景和動態(tài)代理進行推理。因此需要首先將圖像特征提升到3D。更準(zhǔn)確地說,使用圖像編碼器對圖像輸入 ot ∈ R3×H×W 進行編碼,以提取特征 ut ∈ RCe×He×We。然后,沿著深度箱dt∈RD×He×We 的預(yù)定義網(wǎng)格預(yù)測每個圖像特征的深度概率分布。使用深度概率分布、相機內(nèi)在參數(shù) K 和外在參數(shù) M生成相機坐標(biāo)系到世界坐標(biāo)系的投影矩陣,從而可以將圖像特征提升到3D空間:Lift(ut, dt, K?1 ,M)) ∈ RCe×D×He×De×3。

2、BeV空間中的特征集合

使用具有空間范圍Hb×Wb和空間分辨率bres的預(yù)定義網(wǎng)格將3D特征體素匯總到 BeV 空間,可以得到特征標(biāo)識bt∈ RCe×Hb×Wb。

在傳統(tǒng)的計算機視覺任務(wù)中(例如語義分割、深度預(yù)測),瓶頸特征通常是空間張量,大約有105-106個特征。對于必須將先驗分布(在執(zhí)行動作的情況下認(rèn)為會發(fā)生的情況)與后驗分布(通過觀察圖像輸入實際發(fā)生的情況)相匹配的世界模型來說,如此高的維度是令人望而卻步的。因此,使用卷積主干網(wǎng)backbone,可以將 BeV 特征 bt 壓縮為單個向量xt∈RC。同時,我們發(fā)現(xiàn)在BeV空間中壓縮比直接在圖像空間中壓縮顯得更加關(guān)鍵。

3、路線圖和速度環(huán)境目標(biāo)預(yù)測建模

以路線圖的形式為智能體提供目標(biāo)預(yù)測基準(zhǔn)網(wǎng)絡(luò),生成的是一個輕量化的灰度圖像,可以指示智駕汽車在交叉路口處往何方導(dǎo)航同行。同時,使用卷積模塊對路線圖進行編碼,可以產(chǎn)生1D特征rt;當(dāng)前速度用全連接層編碼為mt;由此可以得出在每個時間步t,觀察嵌入xt可以表示為圖像特征、路線圖特征和速度特征的串聯(lián):xt=[xt,rt,mt]∈RC,其中C= 512。

4、生成網(wǎng)絡(luò)θ

這里的整個網(wǎng)絡(luò)數(shù)據(jù)處理過程是由生成網(wǎng)絡(luò)參數(shù)θ對潛在動態(tài) (h1:T、s1:T)以及 (o1:T , y1:T, a1:T ) 的生成過程進行建模。其中涉及門控循環(huán)單元fθ、先驗網(wǎng)絡(luò)(μθ,σθ)、圖像解碼器gθ、BeV 解碼器lθ和策略πθ。

先驗網(wǎng)絡(luò)估計高斯分布的參數(shù)為 p(st|ht?1, st?1) ~N (μθ(ht, a?t?1),σθ(ht, a?t?1)I) ,其中 ht = fθ(ht?1, st?1) ,a^t?1=πθ(ht?1, st?1)。由于先驗無法訪問t-1時刻地面真實動作at?1,因此,后驗分布估計則使用了學(xué)習(xí)策略 a^t?1=πθ(ht?1, st?1) 進行估計。

5、估計散度損失

實際上,無論先驗還是后驗分布估計都存在一定的散度損失,這類損失的由來可以解釋如下。

給定過去的狀態(tài) (ht?1, st?1),目標(biāo)是預(yù)測下一個狀態(tài)st 的分布。當(dāng)我們對主動代理進行建模時,這種轉(zhuǎn)換被分解為(i)動作預(yù)測和(ii)下一個狀態(tài)預(yù)測。該轉(zhuǎn)移估計將與 at?1 (可以訪問地面真實動作)和 ot (圖像觀察)的后驗分布進行比較。先驗分布試圖匹配后驗分布的分歧匹配框架可以確保模型預(yù)測解釋觀察到的數(shù)據(jù)行為和未來狀態(tài)。后驗與先驗的差異衡量了在觀察后驗時從先驗中丟失了多少信息,這種信息丟失也就是我們這里所說的散度損失。

6、未來的狀態(tài)和行動預(yù)測

如前所述,本文介紹的模型可以通過使用學(xué)習(xí)到的先驗策略來推斷T+i時刻動作 a^T +i=πθ(hT+i, sT+i),從而推斷出未來的潛在狀態(tài),預(yù)測下一個確定性狀態(tài) hT +i+1=fθ(hT +i,sT+i) 。同時,從先驗分布 sT+i+1~N (μθ(hT+i+1, a^T+i),σθ(hT+i+1, a^T+i)I),對于i≥0進行過程迭代,得出的結(jié)果可應(yīng)用于潛在空間中生成的較長未來序列,并且該預(yù)測的未來序列可以通過解碼器可視化。

在駕駛過程中的任何給定時間,存在多種可能的有效行為。例如,駕駛員可以稍微調(diào)整速度、決定改變車道或決定跟在車輛后面的安全距離是多少。確定性駕駛策略無法模擬這些微妙之處。在可能有多種選擇的模糊情況下,它通常會學(xué)習(xí)平均行為,這在某些情況下是有效的(例如,平均安全距離和平均巡航速度是合理的選擇),但在其他情況下是不安全的(例如,在變道時:比較老練的方式是可以提早或晚變道,而一般的行為是在車道標(biāo)記上行駛)。

整個未來狀態(tài)的狀態(tài)和行動閉環(huán)驅(qū)動中的完全循環(huán)推理涉及如下兩步:

(i)重置狀態(tài):對于每個新的觀察,重新初始化潛在狀態(tài)并重新計算新狀態(tài) [hT,sT],其中T與訓(xùn)練序列長度匹配。

(ii)完全循環(huán):潛在狀態(tài)估計是在評估開始時進行初始化的,并且用新的觀察結(jié)果遞歸更新。       

模型必須學(xué)習(xí)一種表示形式,該表示形式可以概括為比訓(xùn)練期間使用的 T 多幾個數(shù)量級的信息集成步驟。實踐證明,MILE可以在想象模式下以高達(dá) 30% 的驅(qū)動力保持相同的驅(qū)動性能。該模型可以想象足夠準(zhǔn)確的閉環(huán)駕駛計劃。此外,世界模型的潛在狀態(tài)可以在觀察模式和想象模式之間無縫切換。當(dāng)無法進行觀察時,可以通過想象來預(yù)測潛在狀態(tài)的演變,并在可以進行觀察時通過圖像觀察進行更新。

05 總結(jié)

MILE是在城市駕駛數(shù)據(jù)的離線語料庫上進行訓(xùn)練的,無需與環(huán)境進行任何在線交互??蚣艿木窒扌灾皇亲赃m應(yīng)的手動獎勵功能,而不是根據(jù)專家駕駛員數(shù)據(jù)推斷。第二個重要的潛在問題是很大程度上依賴鳥瞰圖像分割來預(yù)測未來狀態(tài)。第三個潛在的改進是不同場景的模型泛化。模型可以預(yù)測多樣化且合理的狀態(tài)和動作,這些狀態(tài)和動作可以解釋性地解碼為鳥瞰圖語義分割。此外,MILE可以根據(jù)完全在想象中預(yù)測的計劃執(zhí)行復(fù)雜的駕駛操作。因此,整體上MILE模型預(yù)測可以對靜態(tài)場景、動態(tài)場景進行建模,以及城市駕駛環(huán)境中的智駕車輛行為。

責(zé)任編輯:張燕妮 來源: 焉知汽車
相關(guān)推薦

2023-01-04 10:02:53

強化學(xué)習(xí)自動駕駛

2023-12-08 09:50:44

自動駕駛機器學(xué)習(xí)數(shù)據(jù)

2017-07-30 15:16:31

深度強化學(xué)習(xí)遷移交叉路口

2023-10-30 09:47:00

自動駕駛技術(shù)

2021-09-26 13:50:52

AI 數(shù)據(jù)強化學(xué)習(xí)

2024-04-15 11:40:37

自動駕駛端到端

2020-11-06 10:36:39

自動駕駛

2023-12-18 10:15:30

自動駕駛自然語言

2023-08-24 09:52:44

自動駕駛設(shè)計

2024-03-13 09:39:45

端到端自動駕駛

2024-02-21 09:14:32

端到端自動駕駛

2025-04-07 03:00:00

自動駕駛

2023-01-04 09:59:48

自動駕駛技術(shù)

2024-01-04 09:35:41

自動駕駛端到端

2025-02-10 10:35:00

自動駕駛端到端模型

2024-04-10 14:10:33

自動駕駛強化學(xué)習(xí)

2020-10-23 15:51:36

深度學(xué)習(xí)自動駕駛人工智能

2024-03-15 10:20:14

自動駕駛模型

2019-09-19 14:10:12

人工智能物聯(lián)網(wǎng)自動駕駛

2024-04-17 09:50:28

自動駕駛端到端
點贊
收藏

51CTO技術(shù)棧公眾號