自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Waymo玩明白了!全新多模態(tài)端到端算法EMMA:規(guī)劃、感知、靜態(tài)元素一網(wǎng)打盡~

人工智能 新聞
今天為大家分享Waymo最新的多模態(tài)端到端自動(dòng)駕駛工作EMMA!

寫在前面 & 筆者的個(gè)人理解

本文介紹了EMMA,一種用于自動(dòng)駕駛的端到端多模態(tài)模型。EMMA建立在多模態(tài)大型語(yǔ)言模型的基礎(chǔ)上,將原始攝像頭傳感器數(shù)據(jù)直接映射到各種特定于駕駛的輸出中,包括規(guī)劃者軌跡、感知目標(biāo)和道路圖元素。EMMA通過將所有非傳感器輸入(如導(dǎo)航指令和自車狀態(tài))和輸出(如軌跡和3D位置)表示為自然語(yǔ)言文本,最大限度地利用了預(yù)訓(xùn)練的大型語(yǔ)言模型中的世界知識(shí)。這種方法允許EMMA在統(tǒng)一的語(yǔ)言空間中聯(lián)合處理各種駕駛?cè)蝿?wù),并使用任務(wù)特定的提示為每個(gè)任務(wù)生成輸出。根據(jù)經(jīng)驗(yàn),我們通過在nuScenes上實(shí)現(xiàn)最先進(jìn)的運(yùn)動(dòng)規(guī)劃性能以及在Waymo開放運(yùn)動(dòng)數(shù)據(jù)集(WOMD)上取得有競(jìng)爭(zhēng)力的結(jié)果來(lái)證明EMMA的有效性。EMMA還為Waymo開放數(shù)據(jù)集(WOD)上的相機(jī)主3D目標(biāo)檢測(cè)提供了有競(jìng)爭(zhēng)力的結(jié)果。我們表明,將EMMA與規(guī)劃器軌跡、目標(biāo)檢測(cè)和道路圖任務(wù)聯(lián)合訓(xùn)練,可以在所有三個(gè)領(lǐng)域取得進(jìn)步,突顯了EMMA作為自動(dòng)駕駛應(yīng)用的通用模型的潛力。然而,EMMA也表現(xiàn)出一定的局限性:它只能處理少量的圖像幀,不包含激光雷達(dá)或雷達(dá)等精確的3D傳感方式,計(jì)算成本很高。我們希望我們的研究結(jié)果能夠激發(fā)進(jìn)一步的研究,以緩解這些問題,并進(jìn)一步發(fā)展自動(dòng)駕駛模型架構(gòu)的最新技術(shù)。

總結(jié)來(lái)說(shuō),本文的主要貢獻(xiàn)如下:

  • EMMA在端到端運(yùn)動(dòng)規(guī)劃方面表現(xiàn)出色,在公共基準(zhǔn)nuScenes上實(shí)現(xiàn)了最先進(jìn)的性能,在Waymo開放運(yùn)動(dòng)數(shù)據(jù)集(WOMD)上取得了有競(jìng)爭(zhēng)力的結(jié)果。我們還表明,通過更多的內(nèi)部訓(xùn)練數(shù)據(jù)和思維鏈推理,我們可以進(jìn)一步提高運(yùn)動(dòng)規(guī)劃質(zhì)量。
  • EMMA展示了各種感知任務(wù)的競(jìng)爭(zhēng)結(jié)果,包括3D目標(biāo)檢測(cè)、道路圖估計(jì)和場(chǎng)景理解。在相機(jī)主Waymo開放數(shù)據(jù)集(WOD)上,EMMA在3D物體檢測(cè)方面比最先進(jìn)的方法具有更好的精度和召回率。
  • 我們證明了EMMA可以作為自動(dòng)駕駛領(lǐng)域的多面手模型,為多個(gè)與駕駛相關(guān)的任務(wù)聯(lián)合生成輸出。特別是,當(dāng)EMMA與運(yùn)動(dòng)規(guī)劃、目標(biāo)檢測(cè)和道路圖任務(wù)共同訓(xùn)練時(shí),它的性能可以與單獨(dú)訓(xùn)練的模型相匹配,甚至超過單獨(dú)訓(xùn)練模型的性能。
  • 最后,我們展示了EMMA在復(fù)雜的長(zhǎng)尾駕駛場(chǎng)景中推理和決策的能力。

盡管有這些SOTA的結(jié)果,但EMMA并非沒有局限性。特別是,它面臨著現(xiàn)實(shí)世界部署的挑戰(zhàn),原因是:(1)由于無(wú)法將相機(jī)輸入與LiDAR或雷達(dá)融合,3D空間推理受到限制,(2)需要真實(shí)且計(jì)算昂貴的傳感器仿真來(lái)為其閉環(huán)評(píng)估提供動(dòng)力,以及(3)相較于傳統(tǒng)模型,計(jì)算要求增加。我們計(jì)劃在未來(lái)的工作中更好地理解和應(yīng)對(duì)這些挑戰(zhàn)。

詳解EMMA

圖片

EMMA建立在Gemini之上,Gemini是谷歌開發(fā)的MLLM家族。我們利用經(jīng)過訓(xùn)練的自回歸Gemini模型來(lái)處理交錯(cuò)的文本和視覺輸入,以產(chǎn)生文本輸出:

圖片

如圖1所示,我們將自動(dòng)駕駛?cè)蝿?wù)映射到基于Gemini的EMMA公式中。所有傳感器數(shù)據(jù)都表示為拼接圖像或視頻V;所有路由器命令、驅(qū)動(dòng)上下文和任務(wù)特定提示都表示為T;所有輸出任務(wù)都以語(yǔ)言輸出O的形式呈現(xiàn)。一個(gè)挑戰(zhàn)是,許多輸入和輸出需要捕獲3D世界坐標(biāo),例如用于運(yùn)動(dòng)規(guī)劃的航路點(diǎn)BEV(鳥瞰圖)位置(x,y)以及3D框的位置和大小。我們考慮兩種表示方式:第一種是直接將文本轉(zhuǎn)換為浮點(diǎn)數(shù),表示為。RT-2在機(jī)器人控制中舉例說(shuō)明了這種方法。第二種方法使用特殊的標(biāo)記來(lái)表示每個(gè)位置或動(dòng)作,表示為,分辨率由學(xué)習(xí)或手動(dòng)定義的離散化方案確定。MotionLM利用這種方法進(jìn)行運(yùn)動(dòng)預(yù)測(cè)。我們注意到,這兩種方法各有優(yōu)缺點(diǎn)。我們選擇文本表示,這樣所有任務(wù)都可以共享相同的統(tǒng)一語(yǔ)言表示空間,并且它們可以最大限度地重用預(yù)訓(xùn)練權(quán)重中的知識(shí),即使文本表示可能比專門的標(biāo)記化產(chǎn)生更多的標(biāo)記。

End-to-End Motion Planning

EMMA采用統(tǒng)一的端到端訓(xùn)練模型,直接從傳感器數(shù)據(jù)生成自動(dòng)駕駛汽車的未來(lái)軌跡。然后,這些生成的軌跡被轉(zhuǎn)化為特定于車輛的控制動(dòng)作,如自動(dòng)駕駛車輛的加速和轉(zhuǎn)彎。EMMA的端到端方法旨在仿真人類駕駛行為,重點(diǎn)關(guān)注兩個(gè)關(guān)鍵方面:(1)第一,使用導(dǎo)航系統(tǒng)(如谷歌地圖)進(jìn)行路線規(guī)劃和意圖確定;(2)第二,利用過去的行動(dòng)來(lái)確保平穩(wěn)、一致的駕駛。

們的模型結(jié)合了三個(gè)關(guān)鍵輸入,以與這些人類駕駛行為保持一致:

  1. 環(huán)視視頻(V):提供全面的環(huán)境信息。
  2. 高級(jí)意圖命令(Tintent):源自路由器,包括“直行”、“左轉(zhuǎn)”、“右轉(zhuǎn)”等指令。
  3. 歷史自車狀態(tài)集(Tego):表示為鳥瞰圖(BEV)空間中的一組航路點(diǎn)坐標(biāo)。所有航路點(diǎn)坐標(biāo)都表示為純文本,沒有專門的標(biāo)記。這也可以擴(kuò)展到包括更高階的自我狀態(tài),如速度和加速度。

該模型為運(yùn)動(dòng)規(guī)劃生成未來(lái)軌跡,表示為同一BEV空間中自車的一組未來(lái)軌跡航路點(diǎn):表示未來(lái)Tf時(shí)間戳,其中所有輸出航路點(diǎn)也表示為純文本。將所有內(nèi)容放在一起,完整的公式表示為:

圖片

然后,我們使用此公式對(duì)Gemini進(jìn)行微調(diào),以生成端到端的規(guī)劃器軌跡,如圖1所示。我們強(qiáng)調(diào)了這種配方的三個(gè)特點(diǎn):

  1. 自監(jiān)督:唯一需要的監(jiān)督是自車的未來(lái)位置。不需要專門的人類標(biāo)簽。
  2. 僅限攝像頭:所需的唯一傳感器輸入是全景攝像頭。
  3. 無(wú)高清地圖:除了谷歌地圖等導(dǎo)航系統(tǒng)的高級(jí)路線信息外,不需要高清地圖。

2.2 Planning with Chain-of-Thought Reasoning

思維鏈提示是MLLM中的一個(gè)強(qiáng)大工具,可以增強(qiáng)推理能力并提高可解釋性。在EMMA中,我們通過要求模型在預(yù)測(cè)最終未來(lái)軌跡航路點(diǎn)Otrajectory的同時(shí)闡明其決策原理Orationale,將思維鏈推理納入端到端規(guī)劃器軌跡生成中。

我們按層次結(jié)構(gòu)構(gòu)建驅(qū)動(dòng)原理,從4種粗粒度信息到細(xì)粒度信息:

  • R1:場(chǎng)景描述廣泛地描述了駕駛場(chǎng)景,包括天氣、時(shí)間、交通狀況和道路狀況。例如:天氣晴朗,陽(yáng)光明媚,現(xiàn)在是白天。這條路是四車道不可分割的街道,在中間有人行橫道。街道兩邊都停著汽車。
  • R2:關(guān)鍵目標(biāo)是可能影響自車駕駛行為的道路代理,我們要求模型識(shí)別其精確的3D/BEV坐標(biāo)。例如:行人位于[9.01,3.22],車輛位于[11.58,0.35]。
  • R3:關(guān)鍵目標(biāo)的行為描述描述了已識(shí)別關(guān)鍵目標(biāo)的當(dāng)前狀態(tài)和意圖。一個(gè)具體的例子如下:行人目前正站在人行道上,朝著路看,也許正準(zhǔn)備過馬路。這輛車目前在我前方,朝著同一個(gè)方向行駛,它的未來(lái)軌跡表明它將繼續(xù)筆直行駛。
  • R4:元駕駛決策包括12類高級(jí)駕駛決策,總結(jié)了之前觀察到的駕駛計(jì)劃。一個(gè)例子是,我應(yīng)該保持目前的低速。

我們強(qiáng)調(diào),驅(qū)動(dòng)原理說(shuō)明是使用自動(dòng)化工具生成的,沒有任何額外的人工標(biāo)簽,確保了數(shù)據(jù)生成管道的可擴(kuò)展性。具體來(lái)說(shuō),我們利用現(xiàn)成的感知和預(yù)測(cè)專家模型來(lái)識(shí)別關(guān)鍵代理,然后使用精心設(shè)計(jì)的視覺和文本提示的Gemini模型來(lái)生成全面的場(chǎng)景和代理行為描述。元駕駛決策是使用分析自車地面真實(shí)軌跡的啟發(fā)式算法計(jì)算的。

在訓(xùn)練和推理過程中,該模型在預(yù)測(cè)未來(lái)的航路點(diǎn)之前預(yù)測(cè)了駕駛原理的所有四個(gè)組成部分,即:

圖片

EMMA Generalist

雖然端到端的運(yùn)動(dòng)規(guī)劃是最終的核心任務(wù),但全面的自動(dòng)駕駛系統(tǒng)需要額外的功能。具體來(lái)說(shuō),它必須感知3D世界,識(shí)別周圍的物體、道路圖和交通狀況。為了實(shí)現(xiàn)這一目標(biāo),我們將EMMA制定為一種多面手模型,能夠通過混合訓(xùn)練來(lái)處理多種駕駛?cè)蝿?wù)。

我們的視覺語(yǔ)言框架將所有非傳感器輸入和輸出表示為純文本,提供了整合許多其他駕駛?cè)蝿?wù)所需的靈活性。我們采用指令調(diào)優(yōu)(LLM中一種成熟的方法)來(lái)聯(lián)合訓(xùn)練所有任務(wù)以及方程1的輸入T中包含的任務(wù)特定提示。我們將這些任務(wù)分為三大類:空間推理、道路圖估計(jì)和場(chǎng)景理解。圖2顯示了整個(gè)EMMA概化圖。

圖片

空間推理是理解、推理和得出關(guān)于物體及其在空間中的關(guān)系的結(jié)論的能力。這使得自動(dòng)駕駛系統(tǒng)能夠解釋周圍環(huán)境并與之交互,以實(shí)現(xiàn)安全導(dǎo)航。

我們空間推理的主要重點(diǎn)是3D目標(biāo)檢測(cè)。我們遵循Pix2Seq,將輸出的3D邊界框表示為Oboxes。我們通過寫兩位小數(shù)的浮點(diǎn)數(shù)將7D框轉(zhuǎn)換為文本,每個(gè)維度之間用空格隔開。然后,我們使用固定提示Tdetect_3D表示檢測(cè)任務(wù),例如“檢測(cè)3D中的每個(gè)目標(biāo)”,如下所示:

圖片

道路圖估計(jì)側(cè)重于識(shí)別安全駕駛的關(guān)鍵道路元素,包括語(yǔ)義元素(如車道標(biāo)記、標(biāo)志)和物理屬性(如車道曲率)。這些道路元素的集合形成了一個(gè)道路圖。例如,車道段由(a)節(jié)點(diǎn)表示,其中車道遇到交叉口、合并或分割,以及(b)這些節(jié)點(diǎn)之間沿交通方向的邊緣。完整的道路圖由許多這樣的折線段組成。

雖然每條折線內(nèi)的邊是有方向的,但每條折線相對(duì)于其他元素不一定有唯一的順序。這與目標(biāo)檢測(cè)相似,其中每個(gè)框由有序?qū)傩裕ㄗ笊辖?、右下角)定義,但框之間不一定存在相對(duì)順序。已有數(shù)篇研究使用Transformers對(duì)折線圖進(jìn)行建模,與語(yǔ)言模型有相似之處。

我們?cè)贓MMA中的一般建模公式如下:

圖片

本文特別關(guān)注預(yù)測(cè)可行駛車道,即自車在場(chǎng)景中可以行駛的車道。這些是同一交通方向上的相鄰車道和從當(dāng)前自我車道分叉的車道。為了構(gòu)建Oroadgraph,我們(a)將車道轉(zhuǎn)換為有序的航路點(diǎn)集,(b)將這些航路點(diǎn)集轉(zhuǎn)換為文本。使用樣本排序的航路點(diǎn)來(lái)表示交通方向和曲率是有益的。與檢測(cè)一樣,我們還發(fā)現(xiàn)按近似距離對(duì)車道進(jìn)行排序可以提高預(yù)測(cè)質(zhì)量。我們的折線文本編碼的一個(gè)例子是:“(x1,y1和…以及xn,yn);…”其中“x,y”是精度為小數(shù)點(diǎn)后2位的浮點(diǎn)航點(diǎn),“;”分隔折線實(shí)例。

場(chǎng)景理解任務(wù)測(cè)試模型對(duì)整個(gè)場(chǎng)景上下文的理解,這可能與駕駛有關(guān)。例如,道路可能會(huì)因施工、緊急情況或其他事件而暫時(shí)受阻。及時(shí)檢測(cè)這些障礙物并安全繞過它們對(duì)于確保自動(dòng)駕駛汽車的平穩(wěn)安全運(yùn)行至關(guān)重要;然而,需要場(chǎng)景中的多個(gè)線索來(lái)確定是否存在堵塞。我們使用以下公式重點(diǎn)研究我們的模型在這個(gè)臨時(shí)堵塞檢測(cè)任務(wù)中的表現(xiàn):

圖片

Generalist Training

我們統(tǒng)一的視覺語(yǔ)言公式能夠使用單個(gè)模型同時(shí)訓(xùn)練多個(gè)任務(wù),允許在推理時(shí)通過任務(wù)提示Ttask的簡(jiǎn)單變化進(jìn)行特定任務(wù)的預(yù)測(cè)。訓(xùn)練方式既簡(jiǎn)單又靈活。

實(shí)驗(yàn)結(jié)果表明,在多個(gè)任務(wù)中訓(xùn)練的通才模型明顯優(yōu)于在單個(gè)任務(wù)上訓(xùn)練的每個(gè)專家模型。這突出了通才方法的優(yōu)勢(shì):增強(qiáng)了知識(shí)轉(zhuǎn)移,提高了泛化能力,提高了效率。

實(shí)驗(yàn)結(jié)果

圖片圖片圖片圖片圖片圖片

我們?cè)趫D8、9和10中展示了12個(gè)不同的視覺示例,每個(gè)示例都是為了突出EMMA模型在一系列場(chǎng)景中的通用性。在所有場(chǎng)景中,我們顯示模型的預(yù)測(cè)(從左到右):端到端運(yùn)動(dòng)規(guī)劃、3D目標(biāo)檢測(cè)和道路圖估計(jì)。

我們按場(chǎng)景類型對(duì)視覺示例進(jìn)行分組:示例(a)-(d)展示了EMMA如何安全地與路上罕見、看不見的物體或動(dòng)物互動(dòng)。示例(e)-(f)的特點(diǎn)是EMMA在施工區(qū)域?qū)Ш?。示例(g)-(j)展示了EMMA在有交通信號(hào)燈或交通管制員的十字路口遵守交通規(guī)則的情況。示例(k)-(l)強(qiáng)調(diào)了EMMA尊重摩托車手等弱勢(shì)道路使用者。

鑒于這些示例,我們展示了EMMA的以下功能:

  • 泛化能力:能夠很好地適應(yīng)不同環(huán)境中的各種現(xiàn)實(shí)駕駛場(chǎng)景,并關(guān)注其微調(diào)類別之外的目標(biāo),如松鼠。
  • 預(yù)測(cè)性駕駛:主動(dòng)適應(yīng)其他道路使用者的行為,實(shí)現(xiàn)安全平穩(wěn)的駕駛。
  • 避障:持續(xù)調(diào)整軌跡,避開障礙物、碎片和堵塞的車道。
  • 適應(yīng)性行為:安全地處理復(fù)雜的情況,如屈服、施工區(qū)和遵循交通管制信號(hào)。
  • 精確的3D檢測(cè):有效識(shí)別和跟蹤道路代理人,包括車輛、騎自行車的人、摩托車手和行人。
  • 可靠的道路圖估計(jì):準(zhǔn)確捕捉道路布局,并將其整合到安全軌跡規(guī)劃中。

總之,這些場(chǎng)景突出了EMMA在各種具有挑戰(zhàn)性和多樣性的駕駛場(chǎng)景和環(huán)境中安全高效運(yùn)行的能力。

圖片圖片圖片

限制、風(fēng)險(xiǎn)和緩解措施

在前面的部分中,我們?cè)趎uScenes規(guī)劃基準(zhǔn)上展示了最先進(jìn)的端到端運(yùn)動(dòng)規(guī)劃。我們還在WOD規(guī)劃基準(zhǔn)上實(shí)現(xiàn)了端到端的運(yùn)動(dòng)規(guī)劃和WOD上的相機(jī)主3D檢測(cè)的競(jìng)爭(zhēng)性能。此外,我們的通才設(shè)置通過聯(lián)合訓(xùn)練提高了多項(xiàng)任務(wù)的質(zhì)量。盡管取得了這些有希望的結(jié)果,但我們承認(rèn)我們工作的局限性,并提出了在此基礎(chǔ)上進(jìn)一步發(fā)展和在未來(lái)研究中應(yīng)對(duì)這些挑戰(zhàn)的方向。

內(nèi)存和視頻功能:目前,我們的模型只處理有限數(shù)量的幀(最多4幀),這限制了它捕獲駕駛?cè)蝿?wù)所必需的長(zhǎng)期依賴關(guān)系的能力。有效的駕駛不僅需要實(shí)時(shí)決策,還需要在更長(zhǎng)的時(shí)間范圍內(nèi)進(jìn)行推理,依靠長(zhǎng)期記憶來(lái)預(yù)測(cè)和應(yīng)對(duì)不斷變化的場(chǎng)景。增強(qiáng)模型執(zhí)行長(zhǎng)期推理的能力是未來(lái)研究的一個(gè)有前景的領(lǐng)域。這可以通過集成存儲(chǔ)模塊或擴(kuò)展其高效處理較長(zhǎng)視頻序列的能力來(lái)實(shí)現(xiàn),從而實(shí)現(xiàn)更全面的時(shí)間理解。

擴(kuò)展到激光雷達(dá)和雷達(dá)輸入:我們的方法嚴(yán)重依賴于預(yù)訓(xùn)練的MLLM,這些MLLM通常不包含激光雷達(dá)或雷達(dá)輸入。擴(kuò)展我們的模型以集成這些3D傳感模式帶來(lái)了兩個(gè)關(guān)鍵挑戰(zhàn):1)可用相機(jī)和3D傳感數(shù)據(jù)量之間存在顯著不平衡,導(dǎo)致與基于相機(jī)的編碼器相比,3D傳感編碼器的通用性較差。2) 3D傳感編碼器的發(fā)展尚未達(dá)到基于相機(jī)的編碼器的規(guī)模和復(fù)雜程度。解決這些挑戰(zhàn)的一個(gè)潛在解決方案是使用與相機(jī)輸入仔細(xì)對(duì)齊的數(shù)據(jù)對(duì)大規(guī)模3D傳感編碼器進(jìn)行預(yù)訓(xùn)練。這種方法可以促進(jìn)更好的跨模態(tài)協(xié)同作用,并大大提高3D傳感編碼器的泛化能力。

預(yù)測(cè)駕駛信號(hào)的驗(yàn)證:我們的模型可以直接預(yù)測(cè)駕駛信號(hào),而不依賴于中間輸出,如物體檢測(cè)或道路圖估計(jì)。這種方法給實(shí)時(shí)和事后驗(yàn)證帶來(lái)了挑戰(zhàn)。我們已經(jīng)證明,我們的多面手模型可以聯(lián)合預(yù)測(cè)額外的人類可讀輸出,如目標(biāo)和道路圖元素,并且可以用思維鏈驅(qū)動(dòng)原理進(jìn)一步解釋駕駛決策。然而,盡管經(jīng)驗(yàn)觀察表明這些輸出通常確實(shí)是一致的,但不能保證它們總是一致的。此外,額外的輸出會(huì)給部署帶來(lái)巨大的運(yùn)行時(shí)延遲開銷。

閉環(huán)評(píng)估的傳感器仿真:人們普遍認(rèn)為,開環(huán)評(píng)估可能與閉環(huán)性能沒有很強(qiáng)的相關(guān)性。為了在閉環(huán)環(huán)境中準(zhǔn)確評(píng)估端到端的自動(dòng)駕駛系統(tǒng),需要一個(gè)全面的傳感器仿真解決方案。然而,傳感器仿真的計(jì)算成本通常比行為仿真器高幾倍。除非進(jìn)行大量?jī)?yōu)化,否則這種巨大的成本負(fù)擔(dān)可能會(huì)阻礙端到端模型的徹底測(cè)試和驗(yàn)證。

車載部署的挑戰(zhàn):自動(dòng)駕駛需要實(shí)時(shí)決策,由于推理延遲增加,在部署大型模型時(shí)面臨重大挑戰(zhàn)。這就需要優(yōu)化模型或?qū)⑵涮釤挸蛇m合部署的更緊湊的形式,同時(shí)保持性能和安全標(biāo)準(zhǔn)。實(shí)現(xiàn)模型尺寸、效率和質(zhì)量之間的微妙平衡對(duì)于自動(dòng)駕駛系統(tǒng)在現(xiàn)實(shí)世界中的成功部署至關(guān)重要,也是未來(lái)研究的關(guān)鍵領(lǐng)域。

結(jié)論

在本文中,我們提出了EMMA,一種基于Gemini的自動(dòng)駕駛端到端多模式模型。它將雙子座視為一等公民,并將自動(dòng)駕駛?cè)蝿?wù)重新定義為視覺問答問題,以適應(yīng)MLLM的范式,旨在最大限度地利用雙子座的世界知識(shí)及其配備思維鏈工具的推理能力。與具有專門組件的歷史級(jí)聯(lián)系統(tǒng)不同,EMMA直接將原始攝像頭傳感器數(shù)據(jù)映射到各種特定于駕駛的輸出中,包括規(guī)劃軌跡、感知目標(biāo)和道路圖元素。所有任務(wù)輸出都表示為純文本,因此可以通過任務(wù)特定的提示在統(tǒng)一的語(yǔ)言空間中聯(lián)合處理。實(shí)證結(jié)果表明,EMMA在多個(gè)公共和內(nèi)部基準(zhǔn)和任務(wù)上取得了最先進(jìn)或具有競(jìng)爭(zhēng)力的結(jié)果,包括端到端的規(guī)劃軌跡預(yù)測(cè)、相機(jī)主要3D目標(biāo)檢測(cè)、道路圖估計(jì)和場(chǎng)景理解。我們還證明,單個(gè)聯(lián)合訓(xùn)練的EMMA可以聯(lián)合生成多個(gè)任務(wù)的輸出,同時(shí)匹配甚至超越單獨(dú)訓(xùn)練的模型的性能,突出了其作為許多自動(dòng)駕駛應(yīng)用的多面手模型的潛力。

雖然EMMA顯示出有希望的結(jié)果,但它仍處于早期階段,在機(jī)載部署、空間推理能力、可解釋性和閉環(huán)仿真方面存在挑戰(zhàn)和局限性。盡管如此,我們相信我們的EMMA發(fā)現(xiàn)將激發(fā)該領(lǐng)域的進(jìn)一步研究和進(jìn)展。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-11-14 10:17:38

2024-04-26 00:25:52

Rust語(yǔ)法生命周期

2021-08-05 06:54:05

流程控制default

2021-10-29 09:32:33

springboot 靜態(tài)變量項(xiàng)目

2024-02-27 10:11:36

前端CSS@規(guī)則

2021-10-26 16:15:26

Spring 事務(wù)隔離性

2023-09-26 00:29:40

CSS布局標(biāo)簽

2021-10-11 07:55:42

瀏覽器語(yǔ)法Webpack

2022-09-15 10:47:19

數(shù)據(jù)庫(kù)事務(wù)工作單元

2013-08-02 10:52:10

Android UI控件

2024-04-07 08:41:34

2024-08-26 10:01:50

2024-06-12 00:00:05

2010-08-25 01:59:00

2011-12-02 09:22:23

網(wǎng)絡(luò)管理NetQos

2013-10-16 14:18:02

工具圖像處理

2023-04-06 09:08:41

BPM流程引擎

2013-05-17 14:28:14

91助手

2019-07-24 15:30:00

SQL注入數(shù)據(jù)庫(kù)

2020-02-21 08:45:45

PythonWeb開發(fā)框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)