SimpleLLM4AD攻克復(fù)雜駕駛場(chǎng)景!自動(dòng)駕駛端到端視覺語言模型
論文信息
題目:SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving
作者:Peiru Zheng, Yun Zhao, Zhan Gong, Hong Zhu, Shaohua Wu
機(jī)構(gòu):IEIT Systems
原文鏈接:https://arxiv.org/html/2407.21293v1
內(nèi)容速覽
- 作者利用GVQA的邏輯依賴性,使用相關(guān)問題的答案作為當(dāng)前問題的上下文信息,顯著提高了LLMs在準(zhǔn)確性(ACC)和語言得分方面的能力。
- 作者優(yōu)化了提示語,以進(jìn)一步提高LLMs的性能。作者簡(jiǎn)化了上下文的簡(jiǎn)單問答(Q+A)格式,使LLMs更容易、更高效地利用先前的知識(shí)。
- 作者將目標(biāo)檢測(cè)分支引入到LLM優(yōu)化過程中,包括目標(biāo)定位、顏色識(shí)別和分類。這些額外的分支為L(zhǎng)LMs提供了更豐富的上下文線索,進(jìn)一步提高了它們的性能。
摘要
在自動(dòng)駕駛領(lǐng)域,大型語言模型(LLMs)的快速發(fā)展為端到端自動(dòng)駕駛(e2eAD)帶來了新的機(jī)遇。本文提出了一種名為SimpleLLM4AD的e2eAD方法,該方法利用視覺-語言模型(VLM)將自動(dòng)駕駛?cè)蝿?wù)劃分為感知、預(yù)測(cè)、規(guī)劃和行為四個(gè)階段。每個(gè)階段由多個(gè)視覺問答(VQA)對(duì)組成,這些VQA對(duì)相互連接,形成一個(gè)圖結(jié)構(gòu),稱為圖視覺問答(GVQA)。通過VLM逐步推理GVQA中的每個(gè)VQA對(duì),作者的方法能夠?qū)崿F(xiàn)用語言進(jìn)行端到端駕駛。在感知階段,系統(tǒng)從駕駛環(huán)境中識(shí)別和分類目標(biāo)。預(yù)測(cè)階段涉及預(yù)測(cè)這些目標(biāo)的潛在運(yùn)動(dòng)。規(guī)劃階段利用收集到的信息制定駕駛策略,確保自動(dòng)駕駛車輛的安全性和效率。最后,在行為階段,將計(jì)劃的行動(dòng)轉(zhuǎn)化為車輛可執(zhí)行的命令。作者的實(shí)驗(yàn)表明,SimpleLLM4AD在復(fù)雜駕駛場(chǎng)景中取得了競(jìng)爭(zhēng)性的性能。
1. 引言
自動(dòng)駕駛技術(shù)近十年來受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。一個(gè)充滿安全的道路、緩解交通擁堵以及為更多人提供出行便利的未來愿景,正推動(dòng)著這一領(lǐng)域技術(shù)的迅猛發(fā)展。傳統(tǒng)上,自動(dòng)駕駛技術(shù)依賴于感知、預(yù)測(cè)、規(guī)劃和控制等多個(gè)模塊的串聯(lián)處理流程。但這種串聯(lián)的模塊化方法可能會(huì)導(dǎo)致在復(fù)雜多變的交通環(huán)境中性能不佳,因?yàn)槟K間的誤差可能會(huì)累積放大。
隨著大型語言模型(LLMs)的興起,作者看到了重新定義自動(dòng)駕駛方法的新機(jī)遇。特別是當(dāng)這些模型與視覺-語言模型(VLMs)結(jié)合時(shí),它們?cè)诶斫庖曈X輸入并生成類似人類的文本方面展現(xiàn)出了令人矚目的能力。這些能力可以被用來構(gòu)建更加連貫和一體化的自動(dòng)駕駛系統(tǒng),這些系統(tǒng)能夠進(jìn)行細(xì)致的推理和決策。
在本研究中,作者提出了SimpleLLM4AD,這是一種端到端的自動(dòng)駕駛方法,它充分利用了VLMs的強(qiáng)大功能。作者的方法打破了傳統(tǒng)的自動(dòng)駕駛流程,將其重新構(gòu)建為四個(gè)緊密相連的階段:感知、預(yù)測(cè)、規(guī)劃和行為。每個(gè)階段都構(gòu)建在一系列視覺問答(VQA)對(duì)上,這些VQA對(duì)通過形成圖視覺問答(Graph VQA, GVQA)相互連接。這種基于圖的結(jié)構(gòu)使系統(tǒng)能夠系統(tǒng)地推理每對(duì)VQA,確保從感知到行動(dòng)的信息流和決策過程的連貫性。
在SimpleLLM4AD的感知階段,ViT模型被用來處理原始的視覺數(shù)據(jù),提取有意義的特征并識(shí)別駕駛環(huán)境中的物體。這些視覺洞察隨后被轉(zhuǎn)化為語言模型能夠理解的格式,允許對(duì)場(chǎng)景進(jìn)行更精細(xì)的分析。預(yù)測(cè)階段中,系統(tǒng)將預(yù)測(cè)已識(shí)別物體的未來狀態(tài),考慮它們可能的運(yùn)動(dòng)和相互作用。這種預(yù)測(cè)能力對(duì)于預(yù)見潛在的危險(xiǎn)和規(guī)劃安全的駕駛策略至關(guān)重要。規(guī)劃階段涉及將前幾個(gè)階段收集的信息綜合起來,制定一個(gè)旨在優(yōu)化安全性和效率的駕駛策略,同時(shí)考慮到駕駛環(huán)境的動(dòng)態(tài)性。最終,在行為階段,計(jì)劃中的行動(dòng)被轉(zhuǎn)化為車輛可執(zhí)行的命令,確保精確的控制和響應(yīng)。
作者的實(shí)驗(yàn)結(jié)果表明,SimpleLLM4AD在駕駛基準(zhǔn)測(cè)試中不僅展現(xiàn)出了競(jìng)爭(zhēng)性的性能,而且在復(fù)雜場(chǎng)景中也顯示出了增強(qiáng)的魯棒性。通過整合VLMs,系統(tǒng)能夠做出更加上下文感知的決策,顯著提升了其可靠性和安全性。作者的主要貢獻(xiàn)可以總結(jié)如下:
- 作者利用GVQA的邏輯依賴性,將相關(guān)問題的答案作為當(dāng)前問題的上下文信息,這種方法已被證明可以顯著提高LLMs在準(zhǔn)確性和語言得分方面的表現(xiàn)。
- 作者改進(jìn)了提示語,以進(jìn)一步提升LLMs的性能。作者優(yōu)化了簡(jiǎn)單的問答格式,簡(jiǎn)化了上下文信息,使LLMs更容易、更高效地利用先前的知識(shí)。
- 最后,作者引入了目標(biāo)檢測(cè)分支到LLM優(yōu)化過程中,包括目標(biāo)定位、顏色識(shí)別和分類。這些額外的分支為L(zhǎng)LMs提供了更豐富的上下文線索,從而進(jìn)一步提高了它們的性能。
2. 方法
2.1 總體架構(gòu)
作者的方法流程詳見圖1。整個(gè)系統(tǒng)由兩大核心模塊構(gòu)成:一個(gè)負(fù)責(zé)圖像處理的視覺編碼器,以及一個(gè)專門處理問題的LLM解碼器。
Figure 1. 整體架構(gòu)圖。展示了作者方法的流程圖,包括視覺編碼器處理圖像和語言模型解碼器處理問題的兩個(gè)主要模塊。
視覺編碼器:作者選用了InternViT-6B作為視覺編碼器。這款具有60億參數(shù)的視覺變換器由Chen等人首次提出,并利用來自互聯(lián)網(wǎng)的海量圖像-文本數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練,以與大型語言模型相匹配。查詢模型充當(dāng)視覺編碼器與LLM解碼器之間的橋梁,負(fù)責(zé)對(duì)齊視覺與文本兩種模態(tài)。該視覺-文本對(duì)齊組件初始化時(shí)采用了增強(qiáng)多語言能力的LLaMA模型。
LLM解碼器:作者采用了Vicuna-13B作為L(zhǎng)LM解碼器,這是一個(gè)開源的大型語言模型,基于從ShareGPT收集的用戶共享對(duì)話數(shù)據(jù)對(duì)LLaMA模型進(jìn)行了微調(diào)。盡管不同問題共用同一LLM解碼器模型,作者設(shè)計(jì)了一種GVQA策略來增強(qiáng)語言模型的能力,并根據(jù)不同問題類型定制了專門的提示。
在本方法中,nuScenes數(shù)據(jù)集中的每一幀關(guān)鍵圖像都會(huì)經(jīng)歷一系列問答對(duì)的處理。首先,利用InternViT-6B將關(guān)鍵幀中的六張圖像編碼成特征圖。然后,在查詢模塊中,這些圖像特征與問答對(duì)中的問題文本以及96個(gè)可學(xué)習(xí)查詢進(jìn)行互動(dòng)。查詢模塊將InternViT-6B生成的圖像標(biāo)記轉(zhuǎn)換成與LLMs對(duì)齊的表示形式。最終,查詢模塊的輸出被送入Vicuna-13B以生成答案。值得注意的是,前一步生成的答案會(huì)與下一個(gè)問題結(jié)合,形成一個(gè)信息豐富的新問題。通過這種方式迭代,逐步完成端到端自動(dòng)駕駛?cè)蝿?wù)。
這種模塊化的設(shè)計(jì)確保了從視覺編碼到視覺-文本對(duì)齊,再到語言生成的每個(gè)處理階段都針對(duì)其特定功能進(jìn)行了優(yōu)化,同時(shí)在整個(gè)流程中保持了無縫集成。這種架構(gòu)不僅提升了系統(tǒng)處理復(fù)雜視覺和語言輸入的能力,還確保了信息的連貫流動(dòng),使得在自動(dòng)駕駛場(chǎng)景中的決策更為精確和具有上下文感知。
2.2 GVQA邏輯依賴性
SimpleLLM4AD方法涵蓋了四個(gè)階段的序列,每個(gè)階段都由它們包含的問答對(duì)的邏輯依賴性緊密相連。如圖2所示,GVQA的邏輯依賴性以圖形化的方式呈現(xiàn),揭示了整個(gè)過程中問答對(duì)之間相互連接的本質(zhì)。圖中包含兩個(gè)主要元素:節(jié)點(diǎn)(N)和邊(E)。節(jié)點(diǎn)(N)代表單獨(dú)的問答對(duì),而連接它們的邊(E)則表示它們之間的邏輯依賴性。具體來說,前一個(gè)節(jié)點(diǎn)(NP)的答案作為后續(xù)節(jié)點(diǎn)(NS)的上下文信息。
Figure 2. GVQA邏輯依賴圖。展示了自動(dòng)駕駛過程中各個(gè)問答對(duì)(QA pairs)之間的邏輯依賴關(guān)系,其中節(jié)點(diǎn)(N)代表單獨(dú)的問答對(duì),邊(E)表示它們之間的邏輯聯(lián)系。
在自動(dòng)駕駛的背景下,理解這些邏輯依賴性對(duì)于系統(tǒng)的決策過程至關(guān)重要。例如,在感知階段,系統(tǒng)必須識(shí)別當(dāng)前場(chǎng)景中的關(guān)鍵目標(biāo),這些目標(biāo)將作為未來推理和駕駛決策的依據(jù)。這一初步識(shí)別為預(yù)測(cè)階段奠定了基礎(chǔ),系統(tǒng)在該階段評(píng)估目標(biāo)的運(yùn)動(dòng)狀態(tài),并預(yù)測(cè)它們可能的未來狀態(tài)。
規(guī)劃階段接著利用感知和預(yù)測(cè)階段收集的信息,為自動(dòng)駕駛車輛制定一個(gè)安全高效的行動(dòng)方案。這包括考慮對(duì)已識(shí)別目標(biāo)可能采取的行動(dòng),并預(yù)測(cè)這些行動(dòng)的結(jié)果,如碰撞的可能性和所提議機(jī)動(dòng)的安全性。
圖2清晰地展示了從一個(gè)階段到下一個(gè)階段的邏輯流程,每個(gè)節(jié)點(diǎn)代表一個(gè)關(guān)鍵的決策點(diǎn)或信息里程碑。例如,節(jié)點(diǎn)(c1,CAM_FRONT,714.3,503.6)代表了由前攝像頭捕獲的目標(biāo)的識(shí)別和初步評(píng)估。隨后的節(jié)點(diǎn)則基于這一信息進(jìn)一步提問,詢問目標(biāo)的運(yùn)動(dòng)狀態(tài)以及它可能如何與場(chǎng)景中的其他目標(biāo),如節(jié)點(diǎn)(c3,CAM_FRONT,1300.8,531.7)所代表的另一輛車或顯著障礙物,進(jìn)行交互。
連接這些節(jié)點(diǎn)的邊指示了邏輯流程和系統(tǒng)思維過程的進(jìn)展。例如,關(guān)于目標(biāo)'c1'是否會(huì)進(jìn)入目標(biāo)'c3'運(yùn)動(dòng)方向的問題,是基于前一節(jié)點(diǎn)得出的答案。同樣,關(guān)于自動(dòng)駕駛車輛行動(dòng)的決策過程也取決于前幾個(gè)階段的預(yù)測(cè)和評(píng)估。
通過明確這些邏輯依賴性,SimpleLLM4AD方法確保了自動(dòng)駕駛決策制定的連貫性和系統(tǒng)化,這不僅有助于開發(fā)更復(fù)雜的AI系統(tǒng),還提高了這些系統(tǒng)決策的透明度和可靠性。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集與評(píng)估指標(biāo)
在本項(xiàng)研究中,作者采用了專為自動(dòng)駕駛模型量身定制的DriveLM-nuScenes數(shù)據(jù)集,進(jìn)行模型的微調(diào)和性能評(píng)估。該數(shù)據(jù)集包含4072幀的訓(xùn)練集和799幀的驗(yàn)證集,為模型的深入學(xué)習(xí)和精準(zhǔn)評(píng)估提供了堅(jiān)實(shí)的數(shù)據(jù)支撐。數(shù)據(jù)集精心設(shè)計(jì),涵蓋了從簡(jiǎn)單到復(fù)雜的各類駕駛場(chǎng)景,包括場(chǎng)景描述和細(xì)致的幀級(jí)問答對(duì),這些問答對(duì)被劃分為感知、預(yù)測(cè)和規(guī)劃三個(gè)關(guān)鍵領(lǐng)域,以確保對(duì)駕駛環(huán)境的全面和深入理解。
感知領(lǐng)域的問題旨在對(duì)整個(gè)駕駛場(chǎng)景進(jìn)行細(xì)致的審視,包括對(duì)場(chǎng)景中各目標(biāo)的識(shí)別與分類。這些問題部分由人工精確標(biāo)注,部分則基于場(chǎng)景中目標(biāo)的特性,自動(dòng)生成問題,同時(shí)借助nuScenes和OpenLane-V2數(shù)據(jù)集的真實(shí)信息進(jìn)行輔助。
預(yù)測(cè)領(lǐng)域的問題專注于對(duì)關(guān)鍵目標(biāo)在未來幀中的狀態(tài)進(jìn)行預(yù)測(cè),包括它們可能的運(yùn)動(dòng)軌跡和行為變化。鑒于預(yù)測(cè)任務(wù)的復(fù)雜性,所有相關(guān)問題的答案均經(jīng)過人工細(xì)致標(biāo)注,以確保預(yù)測(cè)的準(zhǔn)確性和可靠性。
規(guī)劃領(lǐng)域的問題則涉及自動(dòng)駕駛車輛在當(dāng)前場(chǎng)景中的行動(dòng)策略,包括對(duì)車輛接下來應(yīng)采取的行動(dòng)進(jìn)行規(guī)劃和決策。這些問題同樣需要人工標(biāo)注,以確保對(duì)規(guī)劃過程的深入理解和準(zhǔn)確表達(dá)。
在數(shù)據(jù)集中,每個(gè)關(guān)鍵目標(biāo)都通過一個(gè)編碼標(biāo)簽<c, CAM, x, y>來明確標(biāo)識(shí),其中c代表目標(biāo)的唯一標(biāo)識(shí)符,CAM指代攝像頭的視角,而(x, y)則是目標(biāo)在攝像頭視野中的2D邊界框坐標(biāo)。此外,數(shù)據(jù)集為每個(gè)關(guān)鍵幀配備了一個(gè)字典,詳細(xì)記錄了各關(guān)鍵目標(biāo)的基本信息,包括邊界框的尺寸、類別、運(yùn)動(dòng)狀態(tài)和視覺描述等。
為了全面評(píng)估模型在自動(dòng)駕駛?cè)蝿?wù)中的表現(xiàn),作者選用了以下評(píng)估指標(biāo):
- VQA評(píng)估指標(biāo):包括BLEU、ROUGE_L、METEOR、CIDEr和SPICE等,這些指標(biāo)綜合考量了模型在視覺問答任務(wù)中的準(zhǔn)確性和語言生成的質(zhì)量。
- BLEU:衡量生成文本與參考文本之間n-gram重疊的程度。
- ROUGE_L:通過最長(zhǎng)公共子序列計(jì)算模型輸出和參考答案之間的相似度。
- METEOR:考慮同義詞和句法結(jié)構(gòu),提供模型輸出和參考之間的對(duì)齊。
- CIDEr:通過n-gram TF-IDF向量的余弦相似性計(jì)算語義一致性。
- SPICE:通過場(chǎng)景圖的F-scores評(píng)估預(yù)測(cè)和參考場(chǎng)景圖之間的對(duì)齊。
- GPT得分:由ChatGPT提供,根據(jù)模型的推理能力,對(duì)預(yù)測(cè)的質(zhì)量進(jìn)行0到100分的評(píng)分,以更細(xì)致地評(píng)估語義的準(zhǔn)確性。
- 行為任務(wù)指標(biāo):專注于評(píng)估模型對(duì)自動(dòng)駕駛車輛行為預(yù)測(cè)的準(zhǔn)確性,包括行為分類的準(zhǔn)確度、行為速度和轉(zhuǎn)向的準(zhǔn)確性。
分類準(zhǔn)確性:評(píng)估行為預(yù)測(cè)的準(zhǔn)確性,通過比較預(yù)測(cè)行為與真實(shí)情況的一致性。
這些評(píng)估指標(biāo)共同構(gòu)成了一個(gè)全面的評(píng)估體系,使作者能夠從多個(gè)維度細(xì)致地評(píng)估和理解模型的性能,確保評(píng)估結(jié)果的準(zhǔn)確性和全面性。
3.2 實(shí)施細(xì)節(jié)
在本項(xiàng)研究中,作者對(duì)SimpleLLM4AD模型進(jìn)行了精細(xì)的微調(diào),使用了DriveLM-nuScenes數(shù)據(jù)集來優(yōu)化模型表現(xiàn)。作者沿用了InternViT-6B模型的預(yù)訓(xùn)練權(quán)重,并且在微調(diào)過程中將其固定,以保留其在大規(guī)模圖像-文本數(shù)據(jù)預(yù)訓(xùn)練中獲得的知識(shí)。進(jìn)一步地,作者的模型中QLLaMA和96個(gè)可訓(xùn)練的查詢組件在微調(diào)中被特別優(yōu)化,以提升模型對(duì)問題的理解和回答能力。至于Vicuna13B這一大型語言模型,作者采取了兩種策略:一是完全凍結(jié)其參數(shù),保持其原始的通用語言理解能力;二是通過參數(shù)高效微調(diào)(PEFT)技術(shù)如LoRA對(duì)其進(jìn)行微調(diào),以適應(yīng)特定的自動(dòng)駕駛?cè)蝿?wù)。在模型輸入方面,作者將圖像分辨率統(tǒng)一設(shè)置為224×224像素,以確保數(shù)據(jù)的一致性并適配模型的輸入需求。微調(diào)操作是在NVIDIA GPU上執(zhí)行的,作者選擇了1e-4的學(xué)習(xí)率和16的全局批量大小,這樣的參數(shù)配置旨在實(shí)現(xiàn)模型的穩(wěn)定學(xué)習(xí)與有效收斂。
3.3 在DriveLM-nuScenes上的測(cè)試成果
在DriveLM-nuScenes數(shù)據(jù)集上的測(cè)試表明,經(jīng)過精心微調(diào)的SimpleLLM4AD模型在自動(dòng)駕駛的多項(xiàng)任務(wù)中均展現(xiàn)出了卓越的性能。作者的模型不僅在感知、預(yù)測(cè)和規(guī)劃等關(guān)鍵環(huán)節(jié)上表現(xiàn)突出,更在復(fù)雜多變的交通場(chǎng)景中證明了其強(qiáng)大的應(yīng)用潛力。
Table 1. DriveLM-nuScenes基準(zhǔn)測(cè)試結(jié)果(測(cè)試集)。列出了不同方法在DriveLM-nuScenes數(shù)據(jù)集測(cè)試集上的表現(xiàn),包括準(zhǔn)確度、ChatGPT匹配度、BLEU1、ROUGEL、CIDEr得分和最終得分。
在與現(xiàn)有自動(dòng)駕駛模型的對(duì)比測(cè)試中,SimpleLLM4AD在多個(gè)評(píng)估維度上均取得了顯著的優(yōu)勢(shì)。相較于DriveLM baseline基線模型,SimpleLLM4AD在準(zhǔn)確性和語言得分上的巨大提升,使得其在測(cè)試集上的綜合得分高達(dá)52.7分,這一分?jǐn)?shù)的顯著提高充分展現(xiàn)了SimpleLLM4AD處理復(fù)雜駕駛情境的優(yōu)越能力。
Figure 3. 結(jié)果展示。展示了SimpleLLM4AD方法在DriveLM-nuScenes基準(zhǔn)測(cè)試中的部分結(jié)果。
3.4 消融研究分析
在本研究的探索階段,作者對(duì)SimpleLLM4AD模型在多種不同配置下進(jìn)行了訓(xùn)練與推理。這些不同方案的主要區(qū)別在于提示(prompt)的處理方式和關(guān)鍵目標(biāo)的檢測(cè)方法。表1所展示的基線性能是基于作者自行創(chuàng)建的驗(yàn)證集,使用LLaMA-Adapter-V2模型進(jìn)行評(píng)估得出的。該驗(yàn)證集是通過從原始訓(xùn)練集中每六個(gè)場(chǎng)景中選取一個(gè)場(chǎng)景來構(gòu)成的。
Table 2. DriveLM-nuScenes不同設(shè)置的結(jié)果(作者自行劃分的驗(yàn)證集)。展示了SimpleLLM4AD在不同配置下的性能,包括準(zhǔn)確度、匹配度、BLEU1、ROUGEL和CIDEr得分。
注意:表2中的“匹配度”僅指代邊界框坐標(biāo)的匹配程度;與表1不同,表1中的“匹配度”既包括邊界框坐標(biāo)匹配也包括ChatGPT得分。
思維鏈(Chain of Thought, CoT)的應(yīng)用
思維鏈?zhǔn)且环N在提示中包含推理中間步驟的方法,它不僅包括任務(wù)的輸入和輸出。文獻(xiàn)顯示,這種方法能顯著提升大型語言模型解決問題的能力,而無需對(duì)模型進(jìn)行任何更新。
在SimpleLLM4AD模型中,作者采用思維鏈的方式,使用前一個(gè)問題的答案(NP)作為后一個(gè)問題(NS)的上下文信息。NS始終是數(shù)據(jù)集中緊隨NP之后的QA對(duì)。與DriveLM基線相比,采用CoT的版本A在準(zhǔn)確度和語言得分上均有顯著提升。
DriveLM-nuScenes數(shù)據(jù)集中的每個(gè)幀都以“當(dāng)前場(chǎng)景中的重要目標(biāo)是什么?”這個(gè)問題開始,作者稱之為N0。在版本B中,作者將N0和NP的答案結(jié)合起來,作為每個(gè)NS的上下文。
思維圖譜(Graph of Thought, GoT)的探索
與思維鏈不同,思維圖譜允許當(dāng)前任務(wù)利用任何先前的QA對(duì)作為上下文,并允許任何后續(xù)問題引用當(dāng)前任務(wù)的結(jié)果。經(jīng)過多種邏輯依賴圖的嘗試,作者發(fā)現(xiàn)圖2所示的結(jié)構(gòu)最為有效。采用GoT安排上下文的方式,使得版本C在性能上取得了顯著提升。
提示的優(yōu)化
精心設(shè)計(jì)的提示對(duì)于提升大型語言模型的性能至關(guān)重要。在DriveLM基線的解決方案中,傳遞給后續(xù)問題的上下文是前一個(gè)問題和答案的組合,這可能導(dǎo)致上下文冗余且難以理解。因此,作者優(yōu)化了提示的格式,簡(jiǎn)化了上下文信息,使其更加易于LLMs處理和利用。
例如,原始的N0答案可能會(huì)這樣描述:“自我車前有一輛紅色汽車、一輛白色SUV、一輛白色轎車、一輛黑色轎車,以及前方的一個(gè)紅色信號(hào)燈。這些目標(biāo)的ID分別是...”。為了簡(jiǎn)化,作者將其改寫為:“目標(biāo)<c1,CAM_FRONT,714.3,503.6>是自我車前部的一輛紅色汽車?!?/p>
如您所見,同一目標(biāo)的顏色/類別信息和坐標(biāo)信息在兩個(gè)句子中分別描述,這可能會(huì)使LLMs感到困惑。因此,當(dāng)將其用作后續(xù)問題的上下文時(shí),作者將答案格式化為:“<c1,CAM_FRONT,714.3,503.6>是自我車前部的一輛紅色汽車。”
作者只提供當(dāng)前問題中提到的目標(biāo)的信息,而不是N0中檢測(cè)到的所有目標(biāo)。
此外,作者將其他QA對(duì)修改為陳述句,當(dāng)用作上下文時(shí)。例如,像“<c1,CAM_FRONT,714.3,503.6>是否會(huì)在自我車的移動(dòng)方向上?否?!边@樣的QA對(duì)在用作上下文時(shí)將被修改為“<c1,CAM_FRONT,714.3,503.6>不會(huì)在自我車的移動(dòng)方向上?!?/p>
通過重新格式化QA對(duì),簡(jiǎn)潔且信息豐富的上下文在版本D中提供了語言得分的提高。
關(guān)鍵目標(biāo)檢測(cè)的改進(jìn)
格式指令為“依次輸入六張圖片。前六張圖片中的第一張是 <CAM_FRONT>,位于自我車前部。第二張是<CAM_FRONT_LEFT>,位于自我車前部左側(cè)。第三張是<CAM_FRONT_RIGHT>,位于自我車前部右側(cè)。第四張是<CAM_BACK>,位于自我車后部。第五張是<CAM_BACK_LEFT>,位于自我車后部左側(cè)。第六張是<CAM_BACK_RIGHT>,位于自我車后部右側(cè)。<數(shù)字,數(shù)字>是圖片中目標(biāo)框中心的坐標(biāo)(1600*900)?!?/p>
為了提高模型性能,作者集成了格式指令來引導(dǎo)LLMs。利用現(xiàn)有的成熟檢測(cè)網(wǎng)絡(luò),例如dino v2,作者獲得了強(qiáng)大的目標(biāo)檢測(cè)輸出。此外,作者還訓(xùn)練了一個(gè)專門的檢測(cè)分類網(wǎng)絡(luò),它不僅能夠檢測(cè)目標(biāo),還能識(shí)別目標(biāo)的顏色、精確位置甚至方向等關(guān)鍵屬性。這使作者能夠生成詳細(xì)的描述,如:“自我車前有一輛紅色汽車,其框中心坐標(biāo)為[714.3,503.6]。”
通過將自我車環(huán)境中目標(biāo)的位置、顏色和類別等詳細(xì)信息整合起來,作者在版本E中的匹配得分有了顯著提升。特別是,目標(biāo)框中心的位置精度提高到了24.6%。
5. 結(jié)論
本文提出了SimpleLLM4AD,一個(gè)端到端的自動(dòng)駕駛多模態(tài)語言模型,它在復(fù)雜駕駛環(huán)境中展現(xiàn)出了卓越的性能。通過融入視覺-語言模型(VLM),作者的系統(tǒng)能夠在決策過程中實(shí)現(xiàn)更深層次的情境感知和連貫性,顯著增強(qiáng)了自動(dòng)駕駛系統(tǒng)的穩(wěn)健性和可信度。此外,作者的研究還展示了大型語言模型(LLMs)在提升多模態(tài)人工智能應(yīng)用方面的潛力,為自動(dòng)駕駛領(lǐng)域未來的技術(shù)進(jìn)步奠定了基礎(chǔ)。