自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

端到端大一統(tǒng)前夕?GenAD:LLM和軌跡規(guī)劃全搞定

人工智能 新聞
自動駕駛agents作為高級人工智能的一個有前景的應用,感知周圍環(huán)境,構(gòu)建內(nèi)部世界模型表示,做出決策,并作出響應行動。

今天汽車人和大家分享一篇自動駕駛領(lǐng)域中第一個大規(guī)模視頻預測模型。為了消除高成本數(shù)據(jù)收集的限制,并增強模型的泛化能力,從網(wǎng)絡獲取了大量數(shù)據(jù),并將其與多樣化和高質(zhì)量的文本描述配對。由此產(chǎn)生的數(shù)據(jù)集累積了超過2000小時的駕駛視頻,涵蓋了世界各地具有多樣化天氣條件和交通場景的區(qū)域。本文提出了GenAD,它繼承了最近潛在擴散模型的優(yōu)點,通過新穎的時間推理模塊處理駕駛場景中的挑戰(zhàn)性動態(tài)情況。它可以以zero-shot的方式泛化到各種未見的駕駛數(shù)據(jù)集,超越了一般或駕駛特定的視頻預測模型。此外,GenAD可以被調(diào)整為一個動作條件的預測模型或一個運動規(guī)劃器,具有在真實世界駕駛應用中的巨大潛力。

圖片

寫在前面&筆者的個人理解

自動駕駛agents作為高級人工智能的一個有前景的應用,感知周圍環(huán)境,構(gòu)建內(nèi)部世界模型表示,做出決策,并作出響應行動。然而,盡管學術(shù)界和工業(yè)界已經(jīng)進行了數(shù)十年的努力,但它們的部署仍然受到限制,僅限于某些區(qū)域或場景,并且不能無縫地應用于整個世界。其中一個關(guān)鍵原因是學習模型在結(jié)構(gòu)化自動駕駛系統(tǒng)中的有限泛化能力。通常,感知模型面臨著在地理位置、傳感器配置、天氣條件、開放目標等多樣化環(huán)境中泛化的挑戰(zhàn);而預測和規(guī)劃模型則面臨著無法泛化到具有不確定未來的情景和不同駕駛意圖的挑戰(zhàn)。受人類學習感知和認知世界的啟發(fā),本文主張將駕駛視頻作為通用接口,用于泛化到不同的環(huán)境和動態(tài)未來。

基于這一觀點,預測駕駛視頻模型被認為是完全捕捉駕駛場景世界知識的理想選擇(如上面圖1所示)。通過預測未來,視頻預測器基本上學習了自動駕駛的兩個關(guān)鍵方面:世界如何運行,以及如何在復雜環(huán)境中安全操控。

近年來,社區(qū)已經(jīng)開始采用視頻作為表示觀察行為和動作的接口,用于各種機器人任務。對于諸如經(jīng)典視頻預測和機器人技術(shù)的領(lǐng)域,視頻背景主要是靜態(tài)的,機器人的移動速度較慢,視頻的分辨率較低。相比之下,對于駕駛場景,它需要應對室外環(huán)境高度動態(tài)化、agents具有更大運動范圍以及傳感器分辨率覆蓋大范圍視野的挑戰(zhàn)。這些差異導致了自動駕駛應用面臨著重大挑戰(zhàn)。

幸運的是,在駕駛領(lǐng)域已經(jīng)有一些初步嘗試開發(fā)視頻預測模型。盡管在預測質(zhì)量方面取得了令人鼓舞的進展,但這些嘗試并沒有像經(jīng)典機器人任務(例如控制)中那樣實現(xiàn)理想的泛化能力,而是局限于限定的情景,例如交通密度低的高速公路,以及小規(guī)模的數(shù)據(jù)集,或者受限的條件,難以生成多樣化的環(huán)境。如何發(fā)掘視頻預測模型在駕駛領(lǐng)域的潛力仍然鮮有探索。

受以上討論的啟發(fā),我們的目標是構(gòu)建一個用于自動駕駛的視頻預測模型,能夠泛化到新的條件和環(huán)境。為了實現(xiàn)這一目標,需要回答以下問題:

(1)如何以可行和可擴展的方式獲取數(shù)據(jù)?

(2)我們?nèi)绾螛?gòu)建一個預測模型來捕捉動態(tài)場景的復雜演變?

(3)如何將(基礎)模型應用于下游任務?

規(guī)?;瘮?shù)據(jù)。 為了獲得強大的泛化能力,需要大量且多樣化的數(shù)據(jù)。受基礎模型從互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中學習成功的啟發(fā),我們從網(wǎng)絡和公共許可的數(shù)據(jù)集構(gòu)建我們的駕駛數(shù)據(jù)集。與現(xiàn)有的選項相比,由于其受到監(jiān)管的收集流程的限制,現(xiàn)有的選項在規(guī)模和多樣性上受到限制,而在線數(shù)據(jù)在幾個方面具有很高的多樣性:地理位置、地形、天氣條件、安全關(guān)鍵場景、傳感器設置、交通元素等。為了確保數(shù)據(jù)具有高質(zhì)量且適合大規(guī)模訓練,我們通過嚴格的人工驗證從YouTube上詳盡地收集駕駛記錄,并刪除意外損壞幀。此外,視頻與各種文本級別的條件配對,包括利用現(xiàn)有的基礎模型生成和優(yōu)化的描述,以及由視頻分類器推斷出的高級指令。通過這些步驟,我們構(gòu)建了迄今為止最大的公共駕駛數(shù)據(jù)集OpenDV-2K,其中包含超過2000小時的駕駛視頻,比廣泛使用的nuScenes數(shù)據(jù)集大374倍。

通用預測模型。 學習一個通用的駕駛視頻預測器面臨幾個關(guān)鍵挑戰(zhàn):生成質(zhì)量、訓練效率、因果推理和視角劇烈變化。我們通過提出一種新穎的兩階段學習的時間生成模型來解決這些方面的問題。為了同時捕捉環(huán)境細節(jié)、提高生成質(zhì)量和保持訓練效率,我們借鑒了最近潛在擴散模型(LDMs)的成功經(jīng)驗。在第一階段,我們通過對OpenDV-2K圖像進行微調(diào),將LDM的生成分布從其預先訓練的通用視覺領(lǐng)域轉(zhuǎn)移到駕駛領(lǐng)域。在第二階段,我們將所提出的時間推理模塊插入到原始模型中,并學習在給定過去幀和條件的情況下預測未來。與傳統(tǒng)的時間模塊不同,我們的解決方案包括因果時間注意力和分離的空間注意力,以有效地建模高度動態(tài)的駕駛場景中的劇烈時空轉(zhuǎn)移。經(jīng)過充分訓練,我們的自動駕駛生成模型(GenAD)能夠以零樣本方式泛化到各種場景。

仿真和規(guī)劃的擴展。 在進行視頻預測的大規(guī)模預訓練之后,GenAD基本上了解了世界的演變方式以及如何駕駛。我們展示了如何將其學習到的知識應用于真實世界的駕駛問題,即仿真和規(guī)劃。對于仿真,我們通過使用未來的自車軌跡作為額外條件,對預先訓練的模型進行微調(diào),將未來的想象與不同的自車行為聯(lián)系起來。我們還賦予了GenAD在具有挑戰(zhàn)性的基準測試中執(zhí)行規(guī)劃的能力,通過使用輕量級規(guī)劃器將潛在特征轉(zhuǎn)化為自車未來軌跡。由于其預先訓練能力能夠準確預測未來幀,我們的算法在仿真一致性和規(guī)劃可靠性方面展現(xiàn)出了令人期待的結(jié)果。

OpenDV-2K Dataset

OpenDV-2K數(shù)據(jù)集  這是一個用于自動駕駛的大規(guī)模多模態(tài)數(shù)據(jù)集,以支持通用視頻預測模型的訓練。其主要組成部分是大量高質(zhì)量的YouTube駕駛視頻,這些視頻來自世界各地,并經(jīng)過精心篩選后被收入我們的數(shù)據(jù)集中。利用視覺-語言模型自動生成了這些視頻的語言標注。為了進一步提高數(shù)據(jù)集中的傳感器配置和語言表達的多樣性,將7個公開授權(quán)的數(shù)據(jù)集合并到我們的OpenDV-2K中,如表1所示。

因此,OpenDV-2K總共包含了2059小時的視頻與文本配對,其中1747小時來自YouTube,312小時來自公開數(shù)據(jù)集。使用OpenDV-YouTube和OpenDV-2K來指定YouTube拆分和整體數(shù)據(jù)集,分別表示YouTube拆分和整體數(shù)據(jù)集。

與先前數(shù)據(jù)集的多樣性比較

表1提供了與其他公開數(shù)據(jù)集的簡要比較。除了其顯著的規(guī)模外,提出的OpenDV-2K在以下各個方面都具有多樣性。

全球地理分布。 由于在線視頻的全球性質(zhì),OpenDV-2K覆蓋了全球40多個國家和244個城市。這相比于先前的公開數(shù)據(jù)集是一個巨大的改進,先前的數(shù)據(jù)集通常只收集在少數(shù)受限制的地區(qū)。在圖2中繪制了OpenDV-YouTube的具體分布。

開放式駕駛場景。 本數(shù)據(jù)集提供了大量的現(xiàn)實世界中的駕駛經(jīng)驗,涵蓋了像森林、大雪等極端天氣條件以及對交互式交通情況做出的適當駕駛行為等稀有環(huán)境。這些數(shù)據(jù)對于多樣性和泛化至關(guān)重要,但是在現(xiàn)有的公開數(shù)據(jù)集中很少被收集。

無限制的傳感器配置。 當前的駕駛數(shù)據(jù)集局限于特定的傳感器配置,包括內(nèi)在和外在的相機參數(shù)、圖像、傳感器類型、光學等,這給使用不同傳感器部署學習模型帶來了巨大挑戰(zhàn)。相比之下,YouTube駕駛視頻是在各種類型的車輛上錄制的,具有靈活的相機設置,這有助于在使用新的相機設置部署訓練模型時的穩(wěn)健性。

邁向高質(zhì)量多模態(tài)數(shù)據(jù)集

駕駛視頻收集與篩選。 從廣闊的網(wǎng)絡中找到干凈的駕駛視頻是一項繁瑣且成本高昂的任務。為了簡化這個過程,首先選擇了某些視頻上傳者,即YouTubers。從平均長度和整體質(zhì)量來看,收集了43位YouTuber的2139個高質(zhì)量前視駕駛視頻。為了確保訓練集和驗證集之間沒有重疊,從中選擇了3位YouTuber的所有視頻作為驗證集,其余視頻作為訓練集。為了排除非駕駛幀,如視頻介紹和訂閱提醒,丟棄了每個視頻開頭和結(jié)尾一定長度的片段。然后,使用VLM模型BLIP-2 對每個幀進行語言上下文描述。進一步通過手動檢查這些上下文中是否包含特定關(guān)鍵字,來移除不利于訓練的黑色幀和過渡幀。數(shù)據(jù)集構(gòu)建流程的示意圖見圖3,下面介紹如何生成這些上下文。

YouTube視頻的語言標注。 為了創(chuàng)建一個可以通過自然語言控制以相應地模擬不同未來的預測模型,為了使預測模型可控并提高樣本質(zhì)量,將駕駛視頻與有意義且多樣化的語言標注配對至關(guān)重要。為OpenDV-YouTube構(gòu)建了兩種類型的文本,即自車指令和幀描述,即“指令”和“上下文”,以幫助模型理解自車動作和開放世界的概念。對于指令,在Honda-HDD-Action上訓練了一個視頻分類器,用于標注4秒序列中的自車行為的14種類型的動作。這些分類指令將進一步映射到預定義字典中的多個自由形式表達。對于上下文,利用一個成熟的視覺語言模型BLIP-2,描述每個幀的主要目標和場景。有關(guān)標注的更多細節(jié),請參閱附錄。

用公共數(shù)據(jù)集擴大語言范圍。 考慮到BLIP-2標注是為靜態(tài)幀生成的,沒有理解動態(tài)駕駛場景,例如交通燈的過渡,我們利用幾個提供駕駛場景的語言描述的公共數(shù)據(jù)集。然而,它們的元數(shù)據(jù)相對稀疏,只有一些諸如“晴天的道路”之類的詞語。使用GPT進一步提升它們的文本質(zhì)量,形成描述性的“上下文”,并通過對每個視頻剪輯的記錄軌跡進行分類,生成“指令”。最終,我們將這些數(shù)據(jù)集與OpenDV-YouTube集成,建立OpenDV-2K數(shù)據(jù)集,如表1的最后一行所示。

GenAD框架

本節(jié)介紹了GenAD模型的訓練和設計。如圖4所示,GenAD分為兩個階段進行訓練,即圖像域轉(zhuǎn)移和視頻預測預訓練。第一階段將通用的文本到圖像模型調(diào)整到駕駛領(lǐng)域。第二階段通過提出的時間推理塊和修改的訓練方案,將文本到圖像模型擴展為視頻預測模型。最后,探討了如何將預測模型擴展到動作條件預測和規(guī)劃。

圖像域遷移

車載相機捕捉了豐富的視野,包括道路、背景建筑、周圍車輛等豐富的視覺內(nèi)容,需要強大而魯棒的生成能力來產(chǎn)生連續(xù)和逼真的駕駛場景。為了促進學習過程,首先在第一階段進行獨立的圖像生成。具體地,使用SDXL初始化我們的模型,SDXL是一個用于文本到圖像生成的大規(guī)模潛在擴散模型(LDM),利用其合成高質(zhì)量圖像的能力。它被實現(xiàn)為一個具有多個堆疊的卷積和注意力塊的去噪θ,通過去噪的方式學習合成圖像。具體來說,給定由前向擴散過程損壞的噪聲輸入潛在 ,通過以下目標函數(shù)被訓練來預測   的添加噪聲ε:

其中 x 和分別是干凈和嘈雜的潛在空間,t 表示不同噪聲尺度的時間步長,c 是指導去噪過程的文本條件,它是上下文和指令的串聯(lián)。為了訓練效率,學習過程發(fā)生在壓縮的潛在空間中,而不是像素空間。在采樣過程中,模型通過迭代地去噪最后一步的預測,從標準高斯噪聲中生成圖像。然而,原始的SDXL是在通用域的數(shù)據(jù)上進行訓練的,例如肖像和藝術(shù)畫作,這些數(shù)據(jù)與自主系統(tǒng)無關(guān)。為了使模型適應于為駕駛場景合成圖像,在OpenDV-2K中使用圖像文本對進行文本到圖像生成的微調(diào),目標與方程(1)相同。在SDXL的原始訓練之后,所有UNet的參數(shù)θ都在此階段進行微調(diào),而CLIP文本編碼器和自編碼器保持凍結(jié)狀態(tài)。

視頻預測預訓練

在第二階段,利用連續(xù)視頻的幾幀作為過去的觀察,GenAD被訓練來推理所有視覺觀察,并以可信的方式預測未來的幾幀。與第一階段類似,預測過程也可以由文本條件指導。然而,由于兩個基本障礙,預測高度動態(tài)的駕駛世界在時間上是具有挑戰(zhàn)性的。

  1. 因果推理: 為了預測遵循駕駛世界時間因果關(guān)系的合理未來,模型需要理解所有其他agents和自車的意圖,并了解潛在的交通規(guī)則,例如,交通信號燈轉(zhuǎn)換時交通將如何變化。
  2. 視圖變化劇烈: 與Typical視頻生成基準相反,后者主要具有靜態(tài)背景,中心目標的移動速度較慢,駕駛的視圖隨時間變化劇烈。每個幀中的每個像素可能會在下一個幀中移動到一個遙遠的位置。

本文提出了時間推理block來解決這些問題。如圖4(c)所示,每個block由三個連續(xù)的注意力層組成,即因果時間注意力層和兩個解耦的空間注意力層,分別用于因果推理和模擬駕駛場景中的大的移位。

因果時間注意力。 由于第一階段訓練后的模型只能獨立處理每個幀,本文利用時間注意力在不同的視頻幀之間交換信息。注意力發(fā)生在時間軸上,并模擬每個網(wǎng)格特征的時間依賴性。然而,直接采用雙向時間注意力在這里幾乎無法獲得因果推理的能力,因為預測將不可避免地依賴于隨后的幀而不是過去的條件。因此,通過添加因果注意mask,限制注意力方向,鼓勵模型充分利用過去的觀察知識,并如實推理未來,就像在真實的駕駛中一樣。在經(jīng)驗上發(fā)現(xiàn),因果約束極大地使預測的幀與過去的幀保持一致。遵循通用做法,還在時間軸上添加了實現(xiàn)為相對位置嵌入的時間偏差,以區(qū)分序列的不同幀,用于時間注意力。

解耦的空間注意力。 由于駕駛視頻具有快速的視角變化,在不同的時間步長中,特定網(wǎng)格中的特征可能會有很大的變化,并且很難通過時間注意力進行相關(guān)性和學習,因為時間注意力具有有限的感受野??紤]到這一點,引入了空間注意力來在空間軸中傳播每個網(wǎng)格特征,以幫助收集用于時間注意力的信息。采用了一種解耦的自注意力變體,由于其具有線性計算復雜度,相對于二次完全自注意力,它更加高效。如圖4(c)所示,這兩個解耦注意層分別在水平和垂直軸上傳播特征。

深度交互。 直覺上,第一階段中調(diào)整的空間block獨立地使每個幀的特征朝向照片逼真性,而第二階段引入的時間block使所有視頻幀的特征朝向一致性和一致性對齊。為了進一步增強時空特征交互,本文將提出的時間推理block與SDXL中的原始Transformer block交叉,即空間注意力,交叉注意力和前饋網(wǎng)絡,如圖4(b)所示。

零初始化。 與先前的做法類似,對于在第二階段新引入的每個block,將其最終層的所有參數(shù)初始化為零。這樣可以避免在開始時破壞經(jīng)過良好訓練的圖像生成模型的先驗知識,并穩(wěn)定訓練過程。

訓練。 GenAD通過在噪聲潛變量的共同去噪過程中利用過去幀和文本條件的指導來預測未來。首先將視頻剪輯的T個連續(xù)幀投影到一批潛變量中,其中前m幀潛變量是干凈的,代表歷史觀察,而其他n=T?m幀潛變量表示要預測的未來。然后,被轉(zhuǎn)換為通過前向擴散過程產(chǎn)生的,其中t索引隨機抽取的噪聲尺度。模型被訓練以預測受觀察和文本c條件下的噪聲。視頻預測模型的學習目標如下所示:

其中,θ表示繼承自第一階段模型的參數(shù),φ表示新插入的時間推理塊。遵循[8]凍結(jié)θ,并僅訓練時間推理塊,以避免干擾圖像生成模型的生成能力,并集中學習視頻中的時間依賴性。請注意,只有來自受損幀的輸出會對訓練損失做出貢獻,而來自條件幀的輸出會被忽略。訓練方法也可以很容易地應用于視頻插值,只需進行輕微的修改,即交換條件幀的索引。

擴展。 依靠在駕駛場景中訓練良好的視頻預測能力,進一步挖掘了預訓練模型在動作控制預測和規(guī)劃方面的潛力,這對于真實世界的駕駛系統(tǒng)非常重要。在這里,探索了nuScenes上的下游任務,該任務提供了記錄的姿態(tài)。

動作條件預測。 為了使我們的預測模型能夠受到精確的自我行為控制并充當模擬器,使用成對的未來軌跡作為額外條件對模型進行微調(diào)。具體來說,使用Fourier embedding將原始軌跡映射到高維特征。經(jīng)過線性層的進一步投影后,將其添加到原始條件中。因此,自我行為通過圖4(b)中的條件交叉注意力層注入到網(wǎng)絡中。

規(guī)劃。 通過學習預測未來,GenAD獲得了復雜駕駛場景的強大表示,這可以進一步用于規(guī)劃。具體來說,通過凍結(jié)的GenAD的UNet編碼器提取兩個歷史幀的時空特征,該編碼器幾乎是整個模型大小的一半,并將它們饋送到多層感知器(MLP)以預測未來的路標。通過凍結(jié)的GenAD編碼器和可學習的MLP層,規(guī)劃器的訓練過程可以比端到端規(guī)劃模型UniAD 加快3400倍,驗證了GenAD學習的時空特征的有效性。

實驗

設置與實驗方案

GenAD在OpenDV-2K上分兩個階段學習,但具有不同的學習目標和輸入格式。在第一階段,模型接受(圖像,文本)對作為輸入,并在文本到圖像生成上進行訓練。將命令標注廣播到包含的所有幀中,每4秒視頻序列標注一個。該模型在32個NVIDIA Tesla A100 GPU上進行了300K次迭代訓練,總批量大小為256。在第二階段,GenAD被訓練以在過去的潛變量和文本的條件下聯(lián)合去噪未來的潛變量。其輸入為(視頻剪輯,文本)對,其中每個視頻剪輯為2Hz的4秒。當前版本的GenAD在64個GPU上進行了112.5K次迭代訓練,總batch大小為64。輸入幀在兩個階段的訓練中被調(diào)整為256×448的大小,并且以概率p = 0.1丟棄文本條件c,以啟用無分類器的引導在采樣中,這在擴散模型中通常用于改善樣本質(zhì)量。

視頻預訓練結(jié)果

與最近的視頻生成方法的比較

將GenAD與最近的先進方法進行比較,使用OpenDV-YouTube、Waymo 、KITTI和Cityscapes上的未見過的地理圍欄集合進行zero-shot生成方式。圖5顯示了定性結(jié)果。圖像到視頻模型I2VGen-XL和VideoCrafter1不能嚴格按照給定的幀進行預測,導致預測幀與過去幀之間的一致性較差。在Cityscapes上訓練的視頻預測模型DMVFN在其預測中遭遇了不利的形狀扭曲,尤其是在三個未見過的數(shù)據(jù)集上。相比之下,盡管這些集合都沒有包含在訓練中,但GenAD表現(xiàn)出了顯著的zero-shot泛化能力和視覺質(zhì)量。

圖片

與nuScenes專家的比較

還將GenAD與最近可用的專門針對nuScenes訓練的駕駛視頻生成模型進行比較。表2顯示,GenAD在圖像保真度(FID)和視頻連貫性(FVD)方面超過了所有先前的方法。

具體來說,與DrivingDiffusion相比,GenAD將FVD顯著降低了44.5%,而沒有將3D未來布局作為額外輸入。為了公平比較,訓練了一個模型變體(GenAD-nus)只在nuScenes數(shù)據(jù)集上進行訓練。我們發(fā)現(xiàn),盡管GenAD-nus在nuScenes上表現(xiàn)與GenAD相當,但它很難推廣到未見過的數(shù)據(jù)集,例如Waymo,其中生成物會退化到nuScenes的視覺模式。相比之下,訓練在OpenDV-2K上的GenAD在各個數(shù)據(jù)集上都表現(xiàn)出很強的泛化能力,如前圖5所示。

在nuScenes上提供了語言條件預測樣本,如圖6所示,GenAD根據(jù)不同的文本指令模擬了相同起始點的各種未來。復雜的環(huán)境細節(jié)和自運動的自然過渡展示了令人印象深刻的生成質(zhì)量。

消融研究

通過在OpenDV-2K的子集上進行75K步的訓練,執(zhí)行消融實驗。從具有普通時間注意力的基線開始,逐漸引入我們提出的組件。值得注意的是,通過將時間塊與空間塊交錯,F(xiàn)VD顯著提高了(-17%),這是由于更充分的時空交互。時間因果關(guān)系和解耦的空間注意力都有助于更好的CLIP-SIM,改善了未來預測與條件幀之間的時間一致性。需要明確的是,表3中第四行和第三行顯示的FID和FVD的輕微增加,并不真實反映了生成質(zhì)量的下降,如[8, 10, 79]中所討論的。每種設計的有效性如圖7所示。

擴展結(jié)果

動作條件預測。 進一步展示了在nuScenes上微調(diào)的動作條件模型GenAD-act的性能,如圖8和表4所示。給定兩個起始幀和一個包含6個未來路徑點的軌跡w,GenAD-act模擬了6個按照軌跡順序的未來幀。為了評估輸入軌跡w和預測幀之間的一致性,在nuScenes上建立了一個反向動力學模型(IDM)作為評估器,該模型將視頻序列映射到相應的自車軌跡上。我們利用IDM將預測幀轉(zhuǎn)換為軌跡?w,并計算w和?w之間的L2距離作為動作預測誤差。具體來說,與具有文本條件的GenAD相比,GenAD-act將動作預測誤差顯著降低了20.4%,從而實現(xiàn)更準確的未來模擬。

規(guī)劃結(jié)果。 表5描述了在nuScenes上的規(guī)劃結(jié)果,其中可以獲得自車的姿態(tài)真值。通過凍結(jié)GenAD編碼器,并僅優(yōu)化其頂部的附加MLP,模型可以有效地學習規(guī)劃。值得注意的是,通過通過GenAD的UNet編碼器預提取圖像特征,規(guī)劃適應的整個學習過程僅需在單個NVIDIA Tesla V100設備上花費10分鐘,比UniAD規(guī)劃器的訓練高效3400倍。

結(jié)論

對GenAD進行了系統(tǒng)級開發(fā)研究,這是一個用于自動駕駛的大規(guī)模通用視頻預測模型。還驗證了GenAD學習表示適應駕駛?cè)蝿盏哪芰?,即學習“世界模型”和運動規(guī)劃。盡管在開放領(lǐng)域獲得了改進的泛化能力,但增加的模型容量在訓練效率和實時部署方面帶來了挑戰(zhàn)。設想統(tǒng)一的視頻預測任務將成為未來關(guān)于表示學習和策略學習的研究的可擴展目標。另一個有趣的方向是將編碼的知識提煉出來,用于更廣泛的下游任務。

責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-04-23 13:38:00

AI數(shù)據(jù)

2017-12-15 17:14:10

云端

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動應用

2015-05-06 13:52:52

微軟外媒

2023-07-17 08:03:03

Shell腳本SQL

2024-01-24 09:24:19

自動駕駛算法

2014-07-29 13:25:43

WWDC 2014 S

2023-03-13 13:40:20

機器學習AI

2012-02-28 09:54:01

Windows 8微軟賬戶

2023-10-20 09:43:56

模型訓練

2025-03-18 10:29:48

端到端自動駕駛AI

2023-09-14 09:44:29

2024-08-26 07:40:00

AI訓練

2025-03-13 10:18:42

2025-03-18 09:29:54

2023-05-10 14:58:06

開源模型

2017-06-27 10:49:48

Intel 300Wi-Fi芯片

2021-04-18 22:18:39

SQL數(shù)據(jù)分析工具

2023-07-22 13:17:33

人工智能框架
點贊
收藏

51CTO技術(shù)棧公眾號