全球首個基于大語言模型的自動駕駛語言控制模型
Arxiv論文鏈接:https://arxiv.org/abs/2312.03543
項目主頁:https://github.com/Petrichor625/Talk2car_CAVG
近年來,工業(yè)界和學(xué)術(shù)界都爭先恐后地研發(fā)全自動駕駛汽車(AVs)。盡管自動駕駛行業(yè)已經(jīng)取得了顯著進展,但公眾仍然難以完全接受且信任自動駕駛汽車。公眾對完全將控制權(quán)交給人工智能的接受度仍然相對謹(jǐn)慎,這主要受到了對人機交互可靠性的擔(dān)憂以及對失去控制的恐懼的阻礙。這些挑戰(zhàn)在復(fù)雜的駕駛情境中尤為凸顯,車輛必須做出分秒必爭的決定,這強調(diào)了加強人與機器之間溝通的緊迫需求。因此,開發(fā)一個能讓乘客通過語言指令控制車輛的系統(tǒng)顯得尤為重要。這要求系統(tǒng)允許乘客基于當(dāng)前的交通環(huán)境給出相應(yīng)指令,自動駕駛汽車需準(zhǔn)確理解這些口頭指令并做出符合發(fā)令者真實意圖的操作。
得益于大型語言模型(LLMs)的快速發(fā)展,與自動駕駛汽車進行語言交流已經(jīng)變得可行。澳門大學(xué)智慧城市物聯(lián)網(wǎng)國家重點實驗室須成忠教授、李振寧助理教授團隊聯(lián)合重慶大學(xué),吉林大學(xué)科研團隊提出了首個基于大語言模型的自動駕駛自然語言控制模型(CAVG)。該研究使用了大語言模型(GPT-4)作為乘客的語意情感分析,捕捉自然語言命令中的細(xì)膩情感內(nèi)容,同時結(jié)合跨模態(tài)注意力機制,讓自動駕駛車輛識別乘客的語意目的,進而定位到對應(yīng)的交通道路區(qū)域,改變了傳統(tǒng)乘客和自動駕駛汽車交互的方式。該研究還利用區(qū)域特定動態(tài)層注意力機制(RSD Layer Attention)作為解碼器,幫助汽車精確識別和理解乘客的語言指令,定位到符合意圖的關(guān)鍵區(qū)域,從而實現(xiàn)了一種高效的“與車對話”(Talk to Car)的交互方式。
自動駕駛汽車?yán)斫獬丝驼Z意,涉及到兩個關(guān)鍵領(lǐng)域——計算機視覺和自然語言處理。如何利用跨模態(tài)的算法,在復(fù)雜的語言描述和實際場景之間建立有效的橋梁,使得駕駛系統(tǒng)能夠全面理解乘客的意圖,并在多樣的目標(biāo)中進行智能選擇,是當(dāng)前研究的一個關(guān)鍵問題。
鑒于乘客的語言表達(dá)與實際場景之間存在較大的差異,傳統(tǒng)方法通常難以準(zhǔn)確地將乘客的語言描述轉(zhuǎn)化為實際駕駛目標(biāo)。現(xiàn)有的挑戰(zhàn)在于:傳統(tǒng)模型很難實現(xiàn)乘客的意圖分析,模型往往無法在全局場景下進行綜合信息分析,由于陷入局部分析而給出錯誤的定位結(jié)果。同時在面對多個符合語義的潛在目標(biāo)時,模型如何判斷篩選,從中選擇最符合乘客期待的結(jié)果也是研究的一個關(guān)鍵難題。
現(xiàn)有的視覺定位的算法主要分為兩大類,One-Stage Methods和Two-Stage Methods:
- One-Stage Methods: One-Stage Methods本質(zhì)上是一種端到端的算法,它只需要一個單一的網(wǎng)絡(luò)就能夠同時完成定位和分類兩件事。在這種方法中的核心思想是將文本特征和圖片特征進行編碼,然后映射到特定的語意空間中,接著直接在整張圖像上預(yù)測對象的類別和位置,沒有單獨的區(qū)域提取步驟。
- Two-Stage Methods:在Two-Stage Methods中,視覺定位任務(wù)拆成先定位、后識別的兩個階段。其核心思想是利用一個視覺網(wǎng)絡(luò)(如CenterNet),在圖像中識別出潛在的感興趣區(qū)域(Regions of Interest, ROI),將潛在的符合語意的位置和對應(yīng)的特征向量保存下來。ROI區(qū)域?qū)⒂杏玫那熬靶畔⒈M可能多地保留下來,同時濾除掉對后續(xù)任務(wù)無用的背景信息,隨后在第二個識別階段,結(jié)合對應(yīng)的語意信息在多個ROI區(qū)域中挑選出最符合語意的結(jié)果。
但不管是哪個任務(wù),如何更好地理解不同模態(tài)信息之間的交互關(guān)系是圖文視覺定位必須解決的核心問題。
算法和模型介紹
作者將視覺定位問題歸納為:“通過給出乘客的目標(biāo)指令與自動駕駛汽車的前視圖,模型能夠處理一幅車輛的正面視圖圖像,以遵循給定的命令,在圖像中準(zhǔn)確指出車輛應(yīng)導(dǎo)航至的目的地區(qū)域。”
圖1.1 Region Proposal示意圖
為了使這一目標(biāo)具體化,模型將考慮為一個映射問題:將文本向量映射到候選子區(qū)域中最合適的子區(qū)域。具體而言,CAVG基于Two-Stage Methods的架構(gòu)思想,利用CenterNet模型在圖像I提取分割出多個候選區(qū)域(Region Proposal),提取出對應(yīng)區(qū)域的區(qū)域特征向量和候選區(qū)域框(bounding boxes)。如下圖所示, CAVG使用Encoder-Decoder架構(gòu):包含文本、情感、視覺、上下文編碼器和跨模態(tài)編碼器以及多模態(tài)解碼器。該模型利用最先進的大語言模型(GPT-4V)來捕捉上下文語義和學(xué)習(xí)人類情感特征,并引入全新的多頭跨模態(tài)注意力機制和用于注意力調(diào)制的特定區(qū)域動態(tài)(RSD)層進一步處理和解釋一系列跨模態(tài)輸入,在所有Region Proposals中選擇最契合指令的區(qū)域。
圖1.2 CAVG模型架構(gòu)圖
- Text Encoder: 文本編碼器使用BERT的文本編碼表示生成對映Command的文本向量,表示為c。輸入命令c通過BERT的Tokenizer分詞器分詞成序列,然后輸入到BERT模型中,生成對應(yīng)的文本向量,包含了輸入命令的文本特征。
- Emotion Encoder: 情感編碼器調(diào)用 GPT-4 進行情感分析。利用GPT4將每條輸入命令都經(jīng)過預(yù)處理,然后它分析文本,識別乘客對應(yīng)的情感狀態(tài),劃分歸類為預(yù)定義的類別之一。如Urgent,Comamanding,Informative等。假如對乘客的指令的情感分析歸類為Urgent,意味著乘客的命令由于其時間敏感性或關(guān)鍵性質(zhì)需要立即采取行動。例如,乘客使用的指令為:“Wow hold on! That looks like my stolen bike over there! Drop me off next to it.”,指令中傳達(dá)了一種需要立即關(guān)注的緊急情緒。情感編碼器識別出這種情感狀態(tài),作為文本情感向量輸入到模型中,幫助模型推斷的目的地應(yīng)該在最近的靠邊區(qū)域搜索。
- Vison Encoder: 視覺編碼器專門用于從輸入的視覺圖像中提取豐富的視覺信息。視覺編碼器的架構(gòu)基于先進的圖像處理技術(shù),編碼器利用CenterNet提取出候選區(qū)域(如樹木、車輛、自行車和行人等),利用ResNet-101網(wǎng)絡(luò)架構(gòu)將這候選區(qū)域的局部特征向量提取出來。
- Context Encoder: 上下文編碼器利用預(yù)訓(xùn)練模型BLIP作為骨架,輸入對應(yīng)的提取文本向量和全局圖片,將這部分向量進行文本-圖片跨模態(tài)對齊。上下文編碼器采取了一種更全面的方法。該部分編碼器不僅旨在識別輸入圖像中的關(guān)鍵焦點,而且還超越了Region Proposal局部區(qū)域邊界框的限制,辨別整個視覺場景中更廣泛的上下文關(guān)系。這部分全局特征向量捕捉了一些例如車道標(biāo)記、行人路徑、交通標(biāo)志的關(guān)鍵的上下文細(xì)節(jié)。通過引入全局向量擴展的視野使我們的模型能夠吸收更廣泛的視覺信息和上下文線索,確保全面的語義解釋。
圖1.3 Context Encoder中不同層輸出示意圖
- Cross-Modal Encoder: 文章通過提出一種新的跨模態(tài)注意力機制方法,將跨模態(tài)編碼器通過多頭注意力機制融合前面的多種模態(tài)向量,將視覺和文本數(shù)據(jù)對齊和整合。將文本編碼器和情感編碼器得到的文本向量和拼接后,通過線性層映射到和和圖片向量同一個維度,作為多頭注意力機制中的查詢向量Q 。同理將視覺編碼器和上下文編碼器得到的向量和分別映射到多頭注意力機制中的和和特征向量。
圖1.4 跨模態(tài)注意力機制示意圖
數(shù)據(jù)集介紹
本工作采用了Talk2Car數(shù)據(jù)集。下圖詳細(xì)比較了Talk2Car和其他Visual Grounding相關(guān)數(shù)據(jù)集(如ReferIt、RefCOCO、RefCOCO+、RefCOCOg、Cityscape Ref和CLEVR-Ref)的異同。Talk2Car數(shù)據(jù)集包含11959個自然語言命令和對應(yīng)場景環(huán)境視圖的數(shù)據(jù)集,用于自動駕駛汽車的研究。這些命令來自nuScenes訓(xùn)練集中的850個視頻,其中55.94%的視頻拍攝于波士頓,44.06%的視頻拍攝于新加坡。數(shù)據(jù)集對每個視頻平均給出了14.07個命令。每個命令平均由11.01個單詞、2.32個名詞、2.29個動詞和0.62個形容詞組成。在每幅圖像中,平均有4.27個目標(biāo)與描述目標(biāo)屬于相同類別,平均每幅圖片有10.70個目標(biāo)。下圖解釋了文章所統(tǒng)計數(shù)據(jù)集中的指令長度和場景中交通車輛種類的布局。
圖1.5 不同Visual Grounding任務(wù)數(shù)據(jù)集之間的場景比較
圖1.6 對Talk2Car挑戰(zhàn)任務(wù)的統(tǒng)計分析結(jié)果
符合C4AV挑戰(zhàn)賽的要求,我們將預(yù)測區(qū)域利用bounding boxes在圖中標(biāo)出表示,同時采用左上坐標(biāo)和右下坐標(biāo)(x1,y1,x2,y2)的格式來提交對應(yīng)的數(shù)據(jù)結(jié)果。t同時我們使用scores作為評估指標(biāo),定義為預(yù)測的bounding boxes中交并區(qū)域與實際邊界框相交的比中超過0.5閾值的占比(IoU0.5)。這一評估指標(biāo)在PASCAL(Everingham和Winn,2012年)、VOC(Everingham等人,2010年)和COCO(Lin等人,2014年)數(shù)據(jù)集等挑戰(zhàn)和基準(zhǔn)測試中廣泛使用,為我們的預(yù)測準(zhǔn)確性提供了嚴(yán)格的量化,并與計算機視覺和對象識別任務(wù)中的既定實踐相一致。以下方程詳細(xì)說明了預(yù)測邊界框和實際邊界框之間的IoU的計算方法:
實驗結(jié)果
本文使用度量在Talk2Car數(shù)據(jù)集上的模型與各種SOTA方法的性能比較。模型分為三種類型:One-stage、Two-stage和Others,并基于架構(gòu)骨干進行評估:視覺特征提取視覺、語義信息提取語言和整體數(shù)據(jù)同化全局。其他被評估的成分包括是否使用情緒分類(EmoClf.),全局圖像特征提取(全局Img特征表示),語言增強(NLP Augm.),和視覺增強(Vis Augm.)?!癥es”表示使用了相關(guān)的技術(shù)或者功能組件,“No”表示模型未使用對應(yīng)的功能和組件,“-”表示
在對應(yīng)文章中未公開相關(guān)的星系。這種分類闡明了影響每個模型性能的基本組件和策略。下圖中的粗體值和下劃線值分別代表最佳的模型和第二好的模型。
為了嚴(yán)格評估CAVG的模型在現(xiàn)實場景中的有效性,文章根據(jù)語言命令的復(fù)雜性和視覺環(huán)境的挑戰(zhàn),文章精心地劃分了測試集。一方面,由于較長的命令可能會引入不相關(guān)的細(xì)節(jié),或者對自動駕駛汽車來說更難理解。對于長文本測試集,我們采用了一種數(shù)據(jù)增強策略,在不偏離原始語義意圖的情況下,增加了數(shù)據(jù)集的豐富性。我們使用GPT擴展了命令長度,得到的命令范圍從23到50個單詞。進一步評估模型處理擴展的語言輸入的能力,對模型的適應(yīng)性和魯棒性進行全面的評估。
另一方面,為了進一步衡量模型的泛用性,本文還額外選取構(gòu)造了特定的測試場景場景:如低光的夜晚場景、復(fù)雜物體交互的擁擠城市環(huán)境、模糊的命令提示以及能見度下降的場景,使預(yù)測更具困難。將而外構(gòu)造的兩個測試集合分別稱為為Long-text Test和Corner-case Test。
除此之外,僅使用一半的數(shù)據(jù)集CAVG(50%)和CAVG(75%)迭代顯示出令人印象深刻的性能。提供足夠的訓(xùn)練數(shù)據(jù)時,我們的模型CAVG和CAVG(75%)在部分特殊場景中表現(xiàn)出色。
本文在RSD Layer Attention機制的多模態(tài)解碼器中可視化了13層的層注意權(quán)值的分布,以進一步展示文章所使用的RSD層注意機制的有效性。根據(jù)其與地面真實區(qū)域?qū)R,將輸入?yún)^(qū)域劃分為兩個不同的組:> 0:包含所有超過0的區(qū)域,表明與地面真實區(qū)域有重疊。= 0:構(gòu)成沒有重疊的區(qū)域,其精確地為0。如下圖所示,較高的解碼器層(特別是第7至第10層)被賦予了較大比例的注意權(quán)重。這一觀察結(jié)果表明,向量對這些更高的層有更大的影響,可能是由于增加的跨模態(tài)相互作用。與直觀預(yù)期相反,最頂層并不主導(dǎo)注意力的權(quán)重。這與傳統(tǒng)的主要依賴于最頂層表示來預(yù)測最佳對齊區(qū)域的技術(shù)明顯不同,RSD Layer Attention機制會避開其他層中固有的微妙的跨模態(tài)特征。
圖1.7 VIT中不同層的注意力分布示意圖
圖1.8 調(diào)研用戶歲數(shù)和駕駛經(jīng)驗分布
圖1.9 用戶調(diào)研結(jié)果