自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DriveGPT4:自動(dòng)駕駛或?qū)⒂瓉?lái)GPT時(shí)刻?結(jié)合LLM的端到端系統(tǒng)來(lái)了!

人工智能 智能汽車(chē)
DriveGPT4是世界首個(gè)專注于可解釋的端到端自動(dòng)駕駛的工作。當(dāng)與傳統(tǒng)方法和視頻理解LLM一起在多個(gè)任務(wù)上進(jìn)行評(píng)估時(shí),DriveGPT4表現(xiàn)出SOTA的定性和定量性能。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

筆者的個(gè)人理解

在過(guò)去的十年里,自動(dòng)駕駛在學(xué)術(shù)界和工業(yè)界都得到了快速發(fā)展。然而其有限的可解釋性仍然是一個(gè)懸而未決的重大問(wèn)題,嚴(yán)重阻礙了自動(dòng)駕駛的發(fā)展進(jìn)程。以前使用小語(yǔ)言模型的方法由于缺乏靈活性、泛化能力和魯棒性而未能解決這個(gè)問(wèn)題。近兩年隨著ChatGPT的出現(xiàn),多模態(tài)大型語(yǔ)言模型(LLM)因其通過(guò)文本處理和推理非文本數(shù)據(jù)(如圖像和視頻)的能力而受到研究界的極大關(guān)注。因此一些工作開(kāi)始嘗試將自動(dòng)駕駛和大語(yǔ)言模型結(jié)合起來(lái),今天汽車(chē)人為大家分享的DriveGPT4就是利用LLM的可解釋實(shí)現(xiàn)的端到端自動(dòng)駕駛系統(tǒng)。DriveGPT4能夠解釋車(chē)輛動(dòng)作并提供相應(yīng)的推理,以及回答用戶提出的各種問(wèn)題以增強(qiáng)交互。此外,DriveGPT4以端到端的方式預(yù)測(cè)車(chē)輛的運(yùn)動(dòng)控制。這些功能源于專門(mén)為無(wú)人駕駛設(shè)計(jì)的定制視覺(jué)指令調(diào)整數(shù)據(jù)集。DriveGPT4也是世界首個(gè)專注于可解釋的端到端自動(dòng)駕駛的工作。當(dāng)與傳統(tǒng)方法和視頻理解LLM一起在多個(gè)任務(wù)上進(jìn)行評(píng)估時(shí),DriveGPT4表現(xiàn)出SOTA的定性和定量性能。

項(xiàng)目主頁(yè):https://tonyxuqaq.github.io/projects/DriveGPT4/

總結(jié)來(lái)說(shuō),DriveGPT4的主要貢獻(xiàn)如下:

  • 為可解釋的自動(dòng)駕駛開(kāi)發(fā)了一個(gè)新的視覺(jué)指令調(diào)整數(shù)據(jù)集。
  • 提出了一個(gè)全新的多模態(tài)LLM—DriveGPT4。DriveGPT4對(duì)創(chuàng)建的數(shù)據(jù)集進(jìn)行了微調(diào),可以處理多模態(tài)輸入數(shù)據(jù),并提供文本輸出和預(yù)測(cè)的控制信號(hào)。
  • 在多個(gè)任務(wù)上評(píng)估所有方法,DriveGPT4的性能優(yōu)于所有基線。此外,DriveGPT4可以通過(guò)零樣本泛化處理看不見(jiàn)的場(chǎng)景。

通過(guò)ChatGPT生成指令數(shù)據(jù)

具體來(lái)說(shuō),DriveGPT4訓(xùn)練使用的視頻和標(biāo)簽是從BDD-X數(shù)據(jù)集中收集的,該數(shù)據(jù)集包含約20000個(gè)樣本,包括16803個(gè)用于訓(xùn)練的clip和2123個(gè)用于測(cè)試的clip。每個(gè)clip采樣8個(gè)圖像。此外,它還提供每幀的控制信號(hào)數(shù)據(jù)(例如,車(chē)輛速度和車(chē)輛轉(zhuǎn)彎角度)。BDD-X為每個(gè)視頻clip提供了關(guān)于車(chē)輛行動(dòng)描述和行動(dòng)理由的文本注釋,如圖1所示。在以前的工作中,ADAPT訓(xùn)練caption網(wǎng)絡(luò)來(lái)預(yù)測(cè)描述和理由。但是,提供的描述和標(biāo)簽是固定的和剛性的。如果人類用戶希望了解更多關(guān)于車(chē)輛的信息并詢問(wèn)日常問(wèn)題,那么過(guò)去的工作可能會(huì)功虧一簣。因此,僅BDD-X不足以滿足可解釋自動(dòng)駕駛的要求。

由ChatGPT/GPT4生成的指令調(diào)整數(shù)據(jù)已被證明在自然語(yǔ)言處理、圖像理解和視頻理解中對(duì)性能增強(qiáng)是有效的。ChatGPT/GPT4可以訪問(wèn)更高級(jí)別的信息(例如,圖像標(biāo)記的captions、GT目標(biāo)邊界框),并可以用于提示生成對(duì)話、描述和推理。目前,還沒(méi)有為自動(dòng)駕駛目的定制的視覺(jué)指令跟隨數(shù)據(jù)集。因此,我們?cè)贑hatGPT的輔助下,基于BDD-X創(chuàng)建了自己的數(shù)據(jù)集。

修正問(wèn)題回答。由于BDD-X為每個(gè)視頻clip提供了車(chē)輛動(dòng)作描述、動(dòng)作理由和控制信號(hào)序列標(biāo)簽,因此我們直接使用ChatGPT基于這些標(biāo)簽生成一組三輪問(wèn)答(QA)。首先,我們創(chuàng)建三個(gè)問(wèn)題集:Qa、Qj和Qc。

  • Qa包含相當(dāng)于“這輛車(chē)目前的行動(dòng)是什么?”的問(wèn)題。
  • Qj包含相當(dāng)于“為什么車(chē)輛會(huì)有這種行為?”的問(wèn)題。
  • Qc包含相當(dāng)于“預(yù)測(cè)下一幀中車(chē)輛的速度和轉(zhuǎn)彎角度”的問(wèn)題。

LLM可以同時(shí)學(xué)習(xí)預(yù)測(cè)和解釋車(chē)輛動(dòng)作。但是如前所述,這些QA具有固定和嚴(yán)格的格式。由于缺乏多樣性,僅對(duì)這些QA進(jìn)行訓(xùn)練會(huì)降低LLM的推理能力,使其無(wú)法回答其他形式的問(wèn)題。

ChatGPT生成的對(duì)話。為了解決上述問(wèn)題,ChatGPT作為一名教師以生成更多關(guān)于自車(chē)的對(duì)話。提示通常遵循LLaVA中使用的提示設(shè)計(jì)。為了使ChatGPT能夠“看到”視頻,YOLOv8用于檢測(cè)視頻每幀中常見(jiàn)的目標(biāo)(例如,車(chē)輛、行人)。所獲得的目標(biāo)框作為更高級(jí)別的信息饋送到ChatGPT。除了目標(biāo)檢測(cè)結(jié)果外,ChatGPT還可以訪問(wèn)視頻clip的真實(shí)控制信號(hào)序列和captions?;谶@些特權(quán)信息,ChatGPT會(huì)被提示生成關(guān)于自車(chē)、紅綠燈、轉(zhuǎn)彎方向、變道、周?chē)矬w、物體之間的空間關(guān)系等的多輪和類型的對(duì)話。詳細(xì)提示見(jiàn)附錄。

最后,我們收集了28K的視頻文本指令如下樣本,包括由ChatGPT生成的16K固定QA和12K對(duì)話。生成的示例如表1所示。

DriveGPT4

模型架構(gòu)

DriveGPT4是一個(gè)多功能多模態(tài)的LLM,能夠處理各種輸入類型,包括視頻、文本和控制信號(hào)。視頻被均勻地采樣到固定數(shù)量的圖像中,并使用基于Valley的視頻標(biāo)記器將視頻幀轉(zhuǎn)換為文本域標(biāo)記。從RT-2中汲取靈感,文本和控制信號(hào)使用相同的文本標(biāo)記器,這意味著控制信號(hào)可以被解釋為一種語(yǔ)言,并被LLM有效地理解和處理。所有生成的令牌都被連接起來(lái)并輸入到LLM中。本文采用LLaMA 2作為L(zhǎng)LM。在生成預(yù)測(cè)的令牌后,de-tokenizer對(duì)其進(jìn)行解碼以恢復(fù)人類語(yǔ)言。解碼文本包含固定格式的預(yù)測(cè)信號(hào)。DriveGPT4的整體架構(gòu)如圖2所示。

視頻標(biāo)記器。視頻標(biāo)記器基于Valley。對(duì)于每個(gè)視頻幀,使用預(yù)訓(xùn)練的CLIP視覺(jué)編碼器來(lái)提取其特征。的第一個(gè)通道表示的全局特征,而其他256個(gè)通道響應(yīng)的patch特征。為了簡(jiǎn)潔地表示,的全局特征被稱為,而的局部patch特征被表示為。然后,整個(gè)視頻的時(shí)間視覺(jué)特征可以表示為:

同時(shí),整個(gè)視頻的空間視覺(jué)特征由下式給出:

最終,使用projector將視頻的時(shí)間特征T和空間特征S都投影到文本域中。tokenizer的詳細(xì)結(jié)構(gòu)如圖3所示。

文本和控制信號(hào)。受RT-2的啟發(fā),控制信號(hào)的處理類似于文本,因?yàn)樗鼈儗儆谕挥蚩臻g??刂菩盘?hào)直接嵌入文本中進(jìn)行提示,并使用默認(rèn)的LLaMA標(biāo)記器。在本研究中,ego車(chē)輛的速度v和轉(zhuǎn)向角?被視為目標(biāo)控制信號(hào)。轉(zhuǎn)向角度表示當(dāng)前幀和初始幀之間的相對(duì)角度。在獲得預(yù)測(cè)的令牌后,LLaMA的tokenizer用于將令牌解碼回文本。DriveGPT4預(yù)測(cè)后續(xù)步驟的控制信號(hào),即(vN+1,?N+1)。預(yù)測(cè)的控制信號(hào)使用固定格式嵌入輸出文本中,通過(guò)簡(jiǎn)單的后處理可以輕松提取。表2中給出了DriveGPT4的輸入和輸出示例。

訓(xùn)練

與以往LLM相關(guān)研究一致,DriveGPT4的訓(xùn)練包括兩個(gè)階段:(1)預(yù)訓(xùn)練階段,重點(diǎn)是視頻文本對(duì)齊;以及(2)微調(diào)階段,旨在訓(xùn)練LLM回答與端到端自動(dòng)駕駛相關(guān)的問(wèn)題。

預(yù)訓(xùn)練。與LLaVA和Valley一致,該模型對(duì)來(lái)自CC3M數(shù)據(jù)集的593K個(gè)圖像-文本對(duì)和來(lái)自WebVid-10M數(shù)據(jù)集的100K個(gè)視頻-文本對(duì)進(jìn)行了預(yù)訓(xùn)練。預(yù)訓(xùn)練圖像和視頻包含各種主題,并不是專門(mén)為自動(dòng)駕駛應(yīng)用設(shè)計(jì)的。在此階段,CLIP編碼器和LLM權(quán)重保持固定。只有視頻標(biāo)記器被訓(xùn)練為將視頻與文本對(duì)齊。

微調(diào)。在這個(gè)階段,DriveGPT4中的LLM與可解釋的端到端自動(dòng)駕駛的視覺(jué)標(biāo)記器一起進(jìn)行訓(xùn)練。為了使DriveGPT4能夠理解和處理主要知識(shí),它使用前文中生成的28K視頻文本指令進(jìn)行訓(xùn)練。為了保持DriveGPT4回答日常問(wèn)題的能力,還使用了LLaVA生成的80K指令跟蹤數(shù)據(jù)。因此,在微調(diào)階段,DriveGPT4使用28K視頻文本指令跟隨數(shù)據(jù)以及80K圖像文本指令跟隨的數(shù)據(jù)進(jìn)行訓(xùn)練。前者確保了DriveGPT4可以應(yīng)用于可互操作的端到端自動(dòng)駕駛,而后者增強(qiáng)了數(shù)據(jù)靈活性,有助于保持DriveGPT4的通用問(wèn)答能力。

實(shí)驗(yàn)

可解釋的自動(dòng)駕駛

在本節(jié)評(píng)估了DriveGPT4及其解釋生成的基線,包括車(chē)輛行動(dòng)描述、行動(dòng)理由和有關(guān)車(chē)輛狀態(tài)的其他問(wèn)題。ADAPT是最先進(jìn)的基線工作。最近的多模式視頻理解LLM也被考慮進(jìn)行比較。ADAPT采用32幀視頻作為輸入,而其他方法則采用8幀視頻作為輸出。

評(píng)估指標(biāo)。為了詳細(xì)評(píng)估這些方法,本文報(bào)告了NLP社區(qū)中廣泛使用的多個(gè)指標(biāo)得分,包括BLEU4、METEOR和CIDEr。然而,這些指標(biāo)主要衡量單詞級(jí)別的性能,而沒(méi)有考慮語(yǔ)義,這可能會(huì)導(dǎo)致意想不到的評(píng)估結(jié)果。鑒于ChatGPT強(qiáng)大的推理能力,它被用來(lái)衡量預(yù)測(cè)質(zhì)量,并提供更合理的分?jǐn)?shù)。ChatGPT會(huì)被提示分配一個(gè)介于0和1之間的數(shù)字分?jǐn)?shù),分?jǐn)?shù)越高表示預(yù)測(cè)精度越高?;贑hatGPT的評(píng)估的詳細(xì)提示見(jiàn)附錄。度量比較示例如圖4所示。與傳統(tǒng)指標(biāo)相比,Chat-GPT生成的分?jǐn)?shù)為評(píng)估提供了更合理、更令人信服的依據(jù)。

行動(dòng)描述和理由。考慮到評(píng)估的成本和效率,DriveGPT4在來(lái)自BDD-X測(cè)試集的500個(gè)隨機(jī)采樣的視頻clip上進(jìn)行了測(cè)試。目標(biāo)是盡可能根據(jù)給定標(biāo)簽預(yù)測(cè)車(chē)輛行動(dòng)描述和理由。評(píng)估結(jié)果顯示在表3中。結(jié)果表明,與之前最先進(jìn)的(SOTA)方法ADAPT相比,DriveGPT4實(shí)現(xiàn)了卓越的性能,盡管ADAPT使用32幀視頻,而DriveGPT4只有8幀視頻作為輸入。

附加問(wèn)答。上述車(chē)輛行動(dòng)描述和理由具有相對(duì)固定的格式。為了進(jìn)一步評(píng)估DriveGPT的可解釋能力和靈活性,在第3節(jié)中生成了其他問(wèn)題。BDD-X測(cè)試集中的100個(gè)隨機(jī)采樣的視頻片段用于生成問(wèn)題。與行動(dòng)描述和理由相比,這些問(wèn)題更加多樣化和靈活。評(píng)價(jià)結(jié)果如表4所示。ADAPT無(wú)法回答除車(chē)輛操作說(shuō)明和理由之外的其他問(wèn)題。之前的視頻了解LLM可以回答這些問(wèn)題,但他們沒(méi)有學(xué)習(xí)到駕駛領(lǐng)域的知識(shí)。與所有基線相比,DriveGPT4呈現(xiàn)出優(yōu)異的結(jié)果,展示了其靈活性。

端到端控制

在本節(jié)評(píng)估了DriveGPT4及其開(kāi)環(huán)控制信號(hào)預(yù)測(cè)的基線,特別關(guān)注速度和轉(zhuǎn)向角。所有方法都需要基于順序輸入來(lái)預(yù)測(cè)下一單個(gè)幀的控制信號(hào)。

評(píng)估指標(biāo)。繼之前關(guān)于控制信號(hào)預(yù)測(cè)的工作之后,我們使用均方根誤差(RMSE)和閾值精度(Aτ)進(jìn)行評(píng)估。τ測(cè)量預(yù)測(cè)誤差低于τ的測(cè)試樣本的比例。為了進(jìn)行全面比較,我們將τ設(shè)置為多個(gè)值:{0.1,0.5,1.0,5.0}。

定量結(jié)果。在去除帶有錯(cuò)誤控制信號(hào)標(biāo)簽的樣本后,BDD-X測(cè)試集中的所有其他樣本用于控制評(píng)估。先前最先進(jìn)的(SOTA)方法ADAPT和DriveGPT4的定量結(jié)果如表5所示。DriveGPT4實(shí)現(xiàn)了卓越的控制預(yù)測(cè)結(jié)果。

定性結(jié)果

我們進(jìn)一步提供了多種定性結(jié)果,便于直觀比較。首先,BDD-X測(cè)試集的兩個(gè)示例如圖5所示。然后,為了驗(yàn)證DriveGPT4的泛化能力,我們將DriveGPT4應(yīng)用于圖6中零樣本會(huì)話生成的NuScenes數(shù)據(jù)集。最后,我們?cè)谝曨l游戲上嘗試DriveGPT4,以進(jìn)一步測(cè)試其泛化能力。一個(gè)例子如圖7所示。

消融實(shí)驗(yàn)

消融實(shí)驗(yàn)如表6所示:

結(jié)論

本文介紹了DriveGPT4,一個(gè)使用多模態(tài)LLM的可解釋的端到端自動(dòng)駕駛系統(tǒng)。在ChatGPT的幫助下,開(kāi)發(fā)了一個(gè)新的自動(dòng)駕駛解釋數(shù)據(jù)集,并用于微調(diào)DriveGPT4,使其能夠響應(yīng)人類對(duì)車(chē)輛的提問(wèn)。DriveGPT4利用輸入視頻、文本和歷史控制信號(hào)來(lái)生成對(duì)問(wèn)題的文本響應(yīng),并預(yù)測(cè)車(chē)輛操作的控制信號(hào)。它在各種任務(wù)中都優(yōu)于基線模型,如車(chē)輛動(dòng)作描述、動(dòng)作論證、一般問(wèn)題分析和控制信號(hào)預(yù)測(cè)。此外,DriveGPT4通過(guò)零樣本自適應(yīng)表現(xiàn)出強(qiáng)大的泛化能力。

原文鏈接:https://mp.weixin.qq.com/s/tIuMUdTlp1_R-D06kRO8Qg

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-12-18 10:15:30

自動(dòng)駕駛自然語(yǔ)言

2023-10-30 09:47:00

自動(dòng)駕駛技術(shù)

2024-04-15 11:40:37

自動(dòng)駕駛端到端

2023-08-24 09:52:44

自動(dòng)駕駛設(shè)計(jì)

2024-02-21 09:14:32

端到端自動(dòng)駕駛

2023-12-11 10:29:11

自動(dòng)駕駛系統(tǒng)

2024-01-04 09:35:41

自動(dòng)駕駛端到端

2025-02-10 10:35:00

自動(dòng)駕駛端到端模型

2024-01-23 13:32:53

地平線自動(dòng)駕駛

2024-03-13 09:39:45

端到端自動(dòng)駕駛

2024-04-17 09:50:28

自動(dòng)駕駛端到端

2023-08-05 13:08:54

2024-10-11 09:32:48

2024-08-14 10:40:00

模型自動(dòng)駕駛

2023-10-18 09:40:25

自動(dòng)駕駛技術(shù)

2023-01-04 09:59:48

自動(dòng)駕駛技術(shù)

2023-10-10 09:31:35

自動(dòng)駕駛技術(shù)

2025-04-07 03:00:00

自動(dòng)駕駛

2023-12-08 09:50:44

自動(dòng)駕駛機(jī)器學(xué)習(xí)數(shù)據(jù)

2024-08-13 12:39:23

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)