自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

參數(shù)少60%還不掉點！浙大EfficientFuser：端到端如何高效融合？

作者：Yipin Guo等 2024-07-09 10:24:13

人工智能新聞

今天為大家分享浙江大學最新的工作EfficientFuser！與SOTA的輕量級方法相比，EfficientFuser僅使用了37.6%的參數(shù)和8.7%的計算量，就能取得相同性能！

本文經(jīng)自動駕駛之心公眾號授權轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

寫在前面&出發(fā)點

為了應對傳感器融合和安全風險預測的挑戰(zhàn)，當前利用模仿學習的閉環(huán)自動駕駛神經(jīng)網(wǎng)絡通常需要大量的參數(shù)和計算資源來運行。鑒于車載計算機有限的計算能力，這里引入了一種緊湊而強大的解決方案，名為EfficientFuser。該方法采用EfficientViT進行視覺信息提取，并通過交叉注意力整合特征圖。隨后，它利用僅含解碼器的transformer將多個特征進行融合。為了進行預測，將可學習向量作為標記embedding，以通過注意力機制探索任務與傳感器特征之間的關聯(lián)。在CARLA仿真平臺上進行評估，EfficientFuser表現(xiàn)出色，與最先進的輕量級方法相比，僅使用了37.6%的參數(shù)和8.7%的計算量，同時駕駛評分僅低0.4%，安全評分接近領先的增強安全性的方法，展示了其在自動駕駛系統(tǒng)中的有效性和實際應用潛力。

當前領域背景

深度神經(jīng)網(wǎng)絡的成功為基于數(shù)據(jù)驅(qū)動學習的自動駕駛（AD）方法鋪平了道路，這些方法利用大規(guī)模數(shù)據(jù)和計算。這使得端到端自動駕駛（E2E AD）系統(tǒng)成為現(xiàn)實。E2E AD被定義為完全可微的程序，直接將原始傳感器數(shù)據(jù)映射到計劃動作或低級控制命令，從而消除了對中間模塊的需求。這不僅簡化了開發(fā)，而且有可能提高性能。E2E AD主要在兩個主要方向上發(fā)展：強化學習（RL）和模仿學習（IL）。雖然RL能夠增強對數(shù)據(jù)分布變化的魯棒性，但最近駕駛場景生成的進步，加上BEV數(shù)據(jù)的日益可用性，使得IL變得越來越有吸引力。

早期的基于模仿學習（IL）的端到端自動駕駛（E2E AD）利用卷積神經(jīng)網(wǎng)絡（CNNs）提取圖像特征并直接模仿控制動作。然而，由于數(shù)據(jù)可用性和計算能力的限制，這些早期系統(tǒng)難以獲得良好的性能。隨后，大多數(shù)研究轉(zhuǎn)向了預測軌跡（即waypoints）。LBC利用策略提煉，其中使用鳥瞰圖（BEV）語義地圖訓練的教師模型預測未來的waypoints。而學生模型僅使用圖像數(shù)據(jù)，從教師的預測中學習。TransFuser使用兩個CNNs分別提取圖像和激光雷達（LiDAR）信息，然后利用轉(zhuǎn)換器在每個下采樣步驟中融合這些信息。類似地，InterFuser使用CNNs提取傳感器特征，但利用編碼器-解碼器結構額外融合了交通規(guī)則和車輛密度信息，旨在實現(xiàn)安全的駕駛策略。TCP結合了兩種預測目標，將控制動作和一段時間內(nèi)的waypoints引入訓練，并使用了一種混合軌跡跟蹤器和行為預測結果的控制方法。

盡管端到端方法具有潛力，但它們面臨著一個關鍵障礙：深度神經(jīng)網(wǎng)絡（DNN）龐大的計算需求與自動駕駛（AD）對實時、低延遲操作的需求之間存在不匹配。當前的車載硬件難以處理DNN的復雜架構和大量參數(shù)，從而限制了端到端系統(tǒng)在現(xiàn)實世界中的可行性。最近，越來越多的研究開始關注輕量級神經(jīng)網(wǎng)絡（NN）的設計。MobileNet利用深度可分離卷積來提高計算效率，同時不損失準確性。MCUNet則進一步推動了小型化的極限，將網(wǎng)絡適配到僅有256KB內(nèi)存的嵌入式平臺上，極大地擴展了在資源受限環(huán)境中的部署可能性。盡管在輕量級NN設計方面取得了進展，但專門為端到端自動駕駛系統(tǒng)量身定制的此類網(wǎng)絡仍然稀缺。

為了克服端到端自動駕駛（E2E AD）的計算障礙，這里引入了EfficientFuser，這是一個強大且硬件友好的模型，它使用EfficientViT從多視角進行特征提取，并采用僅解碼器的轉(zhuǎn)換器結合任務引導嵌入進行預測。交叉注意力機制無縫地在不同尺度上整合了多視角信息。值得注意的是，EfficientFuser在保持強大功能和效率的同時，所需的參數(shù)和計算量更少，非常適合于實際應用。主要貢獻如下：

EfficientFuser通過交叉注意力機制融合多個camera視角，提供了對環(huán)境更豐富的理解，同時計算負擔不大。
使用僅解碼器的轉(zhuǎn)換器進行預測過程，通過學習到的向量作為嵌入令牌，解碼器通過注意力機制找到任務與傳感器特征之間的聯(lián)系。
預測的waypoints和控制輸入被動態(tài)混合，提供了對不同駕駛場景的靈活適應性和潛在的安全行為。

EfficientFuser結構

如圖1所示，該架構包含三個組件：(1) 交叉注意力特征融合。(2) 僅解碼器的transformer用于預測。(3) 動態(tài)混合行為預測結果和waypoints跟蹤器actions。

EfficientFuser的決策過程基于一個廣泛的輸入狀態(tài)x，它融合了多個數(shù)據(jù)源：傳感器信號i，通過車輛相機捕捉實時環(huán)境狀況；車輛速度v，表示當前速度；以及高級導航信息g，包括來自全局規(guī)劃器的離散導航指令和目標坐標。為了調(diào)節(jié)車輛的速度和方向，系統(tǒng)生成油門∈[0, 1]、剎車∈[0, 1]和轉(zhuǎn)向∈[-1, 1]的輸出，分別控制加速、減速和轉(zhuǎn)向。

模仿學習（IL）的目標是學習一個策略π，該策略能夠模仿專家π* 的行為。TCP認為軌跡和控制動作都包含重要的駕駛信息，因此兩者都應作為模仿目標。EfficientFuser遵循TCP的設置。不同之處在于，TCP首先預測軌跡，然后利用軌跡來指導控制動作的預測，而EfficientFuser則在解碼器中通過注意力機制完全交換這兩者之間的信息，并同時進行預測。模仿目標可以表述為：

其中，$D ～ (x, [π^_t, π^_c]) $是一個數(shù)據(jù)集，包含從專家那里收集的狀態(tài)-動作對。πc 表示控制分支的策略，πt 表示軌跡預測。L 是衡量專家動作與模型動作之間接近程度的損失。

Roach 被用作專家，它是一個相對簡單的模型，通過強化學習（RL）訓練得到，并可以訪問特權信息。這些信息涵蓋了駕駛環(huán)境的各個方面，如道路、車道、路線、車輛、行人、交通信號燈和停車標志，所有這些都被渲染成2D鳥瞰圖（BEV）圖像。與基于手工規(guī)則的專家相比，Roach可以為控制動作預測提供潛在特征作為中間監(jiān)督，使訓練更加穩(wěn)定。

1）結構設計

該結構結合了視覺transformer（ViT）和大語言模型（LLM）中的僅解碼器transformer。

2）Image Backbone

EfficientViT 被用作視覺主干網(wǎng)絡。它首先將輸入圖像分割成更小的塊（例如，16x16 像素）。然后，將這些block展平并視為一系列標記（token），類似于句子中的單詞。隨后，transformer的自注意力機制對這些圖像塊token進行操作，這使得 ViT 能夠?qū)W習圖像不同區(qū)域之間的復雜關系。雖然標準的 ViT 往往需要大量的計算資源，但采用級聯(lián)group注意力（Cascaded Group Attention）的 EfficientViT 能夠保持高效。這種方法允許更快的處理速度和更低的內(nèi)存使用量。與基于卷積神經(jīng)網(wǎng)絡（CNN）的融合方法 Transfuser 不同，后者在每個下采樣之后都依賴于多個transformer層進行融合，ViT 可以直接與小圖像block一起工作。對于 Transfuser 來說，在transformer階段之前，CNN 仍然需要進行特征池化以減少計算負擔，之后可能還需要進行插值以恢復分辨率。這種插值可能會損害原始特征圖的完整性。

為了保留原始圖像特征，采用了一種利用兩個圖像主干網(wǎng)絡之間交叉注意力的方法，這能夠?qū)崿F(xiàn)兩個視角之間的知識交換，引導它們關注特定區(qū)域的相關特征，如圖2所示。

3） Decoder Transformer

在序列處理領域，Transformer通常依賴于編碼器-解碼器結構。編碼器首先處理輸入序列（圖像塊）并提取關鍵信息，最終生成一個context 向量，該向量捕獲了整個輸入的本質(zhì)。然后，解碼器接手，利用context 向量和來自其他信息（如速度、命令、占用圖等）的查詢來逐個生成輸出序列的元素。這就是InterFuser的工作原理。

受流行的大型語言模型（如GPT[18]）的啟發(fā)，我們采用僅解碼器的轉(zhuǎn)換器架構來對所有輸入數(shù)據(jù)進行統(tǒng)一學習。研究表明，這種僅解碼器的框架不僅提供了增強的泛化能力，還具有更簡潔的結構、更高的操作效率和更好的可擴展性。

與典型的基于transformer的架構（該架構交互標記特征然后將其送入預測頭）不同，我們的方法引入了一個獨特的預測嵌入向量。該向量使用從高斯分布中抽取的隨機值進行初始化，并在整個訓練過程中學習預測任務的特征表示。這種技術不僅提高了解碼器組件的可擴展性，還利用注意力機制在早期階段識別標記之間的有利關系。示意圖如圖3所示。

4） Dynamic control

與TCP（傳輸控制協(xié)議）不同，TCP優(yōu)先考慮模型預測的控制量，而忽略了waypoints跟蹤器的控制量，而本文認為，底層控制器的偏好應根據(jù)駕駛場景動態(tài)調(diào)整。

為了實現(xiàn)這一目標，開發(fā)了一個損失估計器，它利用waypoints頭部中的GRU（門控循環(huán)單元）的隱藏特征和控制頭部的中間特征作為輸入，從而對兩者的訓練損失進行建模。該過程的結果被用作預測置信度的度量，進而用于調(diào)整最終控制序列的偏好。更具體地說，可以表述如下：

實驗結果

評估指標。使用四個指標來評估方法的有效性：駕駛分數(shù)（DS）、路線完成率（RC）、參數(shù)數(shù)量（Param）和浮點運算次數(shù)（Flops）。其中，DS和RC用于表示駕駛效果，Param和Flops用于表示神經(jīng)網(wǎng)絡的效率。

駕駛分數(shù)（DS）是Carla排行榜的主要指標，它是路線完成率和違規(guī)罰分的乘積。RC表示智能體完成的路線距離百分比。Param指的是需要保存的參數(shù)總數(shù)，它代表神經(jīng)網(wǎng)絡的大小，并通常決定了運行神經(jīng)網(wǎng)絡所需的存儲空間量。Flops是衡量通過網(wǎng)絡執(zhí)行一次前向傳播（推理）所需的計算成本的指標。

數(shù)據(jù)集。使用CARLA模擬器進行訓練和測試，具體是CARLA 0.9.10版本。在7個城鎮(zhèn)上進行訓練，在Town05上進行評估。選擇Town05進行評估是因為與其他CARLA城鎮(zhèn)相比，其可駕駛區(qū)域具有較大的多樣性，例如多車道和單車道道路、高速公路和出口、橋梁和地道。為了進一步提高駕駛安全性的評估，將涉及行人突然出現(xiàn)和車輛異常行為的場景集成到模擬環(huán)境中?？紤]兩種評估設置：(1) Town05 Short：32條100-500米的短路線，每條路線包含3個路口；(2) Town05 Long：10條1000-2000米的長路線，每條路線包含10個路口。天氣條件為晴朗中午。

訓練。使用EfficientViT-m1和m0作為視覺主干，并加載ImageNet預訓練權重。其他部分使用高斯隨機數(shù)進行初始化。EfficientFuser以0.0005的學習率訓練60個周期，然后以0.0001的學習率再訓練60個周期。bs大小為256。使用Adam優(yōu)化器，權重衰減為1e-7。每30個周期將學習率減半。設置了四個損失部分，即速度損失Ls、特征損失Lf、航點損失Lw和控制損失Lc。Lf和Ls是中間監(jiān)督，用于指導訓練，這與TCP類似。

結果對比

表1展示了在公開的Carla排行榜框架內(nèi)，EfficientFuser與其他顯著研究的比較分析。EfficientFuser的性能以兩個不同版本進行闡述。初始版本結合了前視圖和焦點視圖（即增強的正面視角）的輸入，圖像分辨率為256x256?！案鼘捯曇啊钡３窒嗤南鄼C方向，但將圖像寬度擴展到768像素，從而捕捉更廣泛的信息。

EfficientFuser顯著減小了基于模仿學習的閉環(huán)自動駕駛模型的大小，達到了前所未有的水平。與最先進的輕量級方法TCP相比，EfficientFuser的模型大小僅為TCP的37.6%，計算需求僅為TCP的8.5%。盡管EfficientFuser的神經(jīng)網(wǎng)絡（NN）大小顯著減小，但在Town05 Short場景中，其駕駛分數(shù)（DS）僅下降了0.4%。與在相似參數(shù)和計算負載下的CIL相比，EfficientFuser表現(xiàn)出色，在DS上獲得了顯著的73分優(yōu)勢。

作為一種前沿的易于實現(xiàn)的閉環(huán)自動駕駛解決方案，InterFuser在路線完成率（RC）上與EfficientFuser相似，但駕駛分數(shù)（DS）提高了6.3分。然而，這一提升是以參數(shù)數(shù)量增加8.4倍和計算需求增加31.6倍為代價的?；跈z測結果，這些模型通常采取謹慎的方法，建議在車輛長時間靜止且路徑上沒有任何障礙物時緩慢行駛。憑借其增強的安全駕駛策略，InterFuser甚至會識別到遠處下一個無法到達的路口紅燈并停下來——這種行為不符合典型的人類駕駛模式，而EfficientFuser則不會出現(xiàn)這種情況。

為了突出EfficientFuser的安全性能，我們在Town05 Short上報告了各種方法因違規(guī)而受到的處罰。EfficientFuser在安全性方面顯著超過了TCP和Transfuser設定的基準，并且僅略遜于以安全為核心的InterFuser。

EfficientFuser采用了一種新穎的方法，通過引入一個可學習的嵌入向量來進行預測。這種方法與傳統(tǒng)做法不同，后者通常直接將傳感器標記信息輸入到預測頭中。通過采用這種設計，EfficientFuser開始在早期階段探索預測目標與輸入數(shù)據(jù)之間的相關性，從而生成特定于任務的表示。為了說明這種方法的影響，我們可視化了兩個代表性的注意力圖。紅線將來自不同信息源的標記分隔開。以橫坐標為例，從左到右分別是預測標記、測量標記、側視圖標記和主視圖標記。

消融實驗

為了全面調(diào)查系統(tǒng)架構并評估提出方法的有效性，進行了一系列消融研究。首先，評估了使用不同大小的圖像主干的影響以及跨注意力融合器帶來的性能提升。隨后，我們探索了改變解碼器層深度和實現(xiàn)可學習向量嵌入的影響。最后，動態(tài)控制調(diào)整與TCP中采用的靜態(tài)分配方法進行了比較。這些實驗的結果均在Town05 Short上收集，為分析每個組件對整體性能的貢獻提供了全面的視角。

跨注意力融合是一種高效的方法，在EfficientFuser中僅增加了5.7%的額外參數(shù)和7.2%的計算量。盡管其計算需求很小，但跨注意力在EfficientFuser中發(fā)揮著關鍵作用。缺少這種多級圖像信息交互會顯著影響系統(tǒng)的有效性，導致駕駛分數(shù)大幅降低14.9分。這凸顯了跨注意力在促進有效特征融合和提高模型做出明智決策能力方面的重要性。

直觀上，人們可能會認為更大的圖像主干由于其增強的特征提取能力會產(chǎn)生更好的結果。然而，如表2所示，主干大小的增加實際上降低了模型的性能。這種反直覺的結果可能歸因于訓練任務的復雜性，這阻礙了更大主干充分訓練潛力的發(fā)揮。

在評估解碼器層時，建立了兩組比較分析。第一組研究了解碼器層深度變化的影響。隨后考察了我們提出的將可學習向量作為預測標記的方法。為了比較，進行了另一項實驗，其中沒有使用可學習向量并將其集成到標記維度中，而是對傳感器特征進行了平均處理，并將其發(fā)送到預測頭以觀察對預測的影響。這些調(diào)查的結果列于表3中。

盡管引入了一些輕微的計算開銷，但EfficientFuser所使用的可學習向量方法顯著提高了駕駛性能。關于解碼器層的深度，很明顯增加深度并不一定會提高性能。雖然車輛的響應能力（RC）可能會增加，但駕駛得分（DS）卻大幅下降，這表明車輛開始忽視與安全相關的信息。這一現(xiàn)象在視覺注意力圖中也可以觀察到；從第七層開始，焦點從預測標記轉(zhuǎn)移到加強某些測量標記信息的方向上。

EfficientFuser采用了TCP使用的混合控制，并結合了動態(tài)分配策略。為了驗證動態(tài)調(diào)整方法的有效性，我們進行了關于TCP設置和動態(tài)設置的實驗。表4中的結果證實了動態(tài)分配組件的有效性，提高了駕駛得分（DS）和響應能力（RC）。

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛端到端

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營