自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="oyvze"><button id="oyvze"></button></style>

<style id="oyvze"></style>^{<sub id="oyvze"></sub>}

<sub id="oyvze"><p id="oyvze"></p></sub>

<sub id="oyvze"><p id="oyvze"></p></sub>

<cite id="oyvze"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Wayformer: 一個(gè)實(shí)現(xiàn)運(yùn)動(dòng)預(yù)測(cè)簡(jiǎn)單有效的注意網(wǎng)絡(luò)

作者：黃浴 2022-12-29 12:06:28

人工智能新聞

本文的Wayformer，是一系列簡(jiǎn)單且同類(lèi)的基于注意運(yùn)動(dòng)預(yù)測(cè)架構(gòu)。

arXiv論文“Wayformer: Motion Forecasting via Simple & Efficient Attention Networks“，2022年7月上傳，是谷歌Waymo的工作。

自動(dòng)駕駛的運(yùn)動(dòng)預(yù)測(cè)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，因?yàn)閺?fù)雜的駕駛場(chǎng)景會(huì)導(dǎo)致靜態(tài)和動(dòng)態(tài)輸入的各種混合形式。如何最好地表示和融合有關(guān)道路幾何形狀、車(chē)道連通性、時(shí)變交通信號(hào)燈狀態(tài)以及智體的動(dòng)態(tài)集及其交互的歷史信息，并將其轉(zhuǎn)換為有效的編碼，這是一個(gè)尚未解決的問(wèn)題。為了對(duì)這組多樣輸入特征進(jìn)行建模，有許多方法設(shè)計(jì)具有不同特定模態(tài)模塊集的同樣復(fù)雜系統(tǒng)。這導(dǎo)致系統(tǒng)難以擴(kuò)展、規(guī)?；蛞試?yán)格方式在質(zhì)量和效率之間權(quán)衡。

本文的Wayformer，是一系列簡(jiǎn)單且同類(lèi)的基于注意運(yùn)動(dòng)預(yù)測(cè)架構(gòu)。Wayformer提供了一種緊湊的模型描述，由基于注意的場(chǎng)景編碼器和解碼器組成。在場(chǎng)景編碼器中，研究了輸入模式的前融合、后融合和分層融合的選擇。對(duì)于每種融合類(lèi)型，探索通過(guò)分解注意或潛在query注意來(lái)權(quán)衡效率和質(zhì)量的策略。前融合結(jié)構(gòu)簡(jiǎn)單，不僅模態(tài)不可知，而且在Waymo開(kāi)放運(yùn)動(dòng)數(shù)據(jù)集（WOMD）和Argoverse排行榜上都實(shí)現(xiàn)了最先進(jìn)的結(jié)果。

駕駛場(chǎng)景由多模態(tài)數(shù)據(jù)組成，例如道路信息、紅綠燈狀態(tài)、智體歷史和交互。對(duì)于模態(tài)，有一個(gè)上下文第4維，表示每個(gè)建模智體的“一組上下文目標(biāo)”（即其他道路用戶(hù)的表示）。

智體歷史包含一系列過(guò)去的智體狀態(tài)以及當(dāng)前狀態(tài)。對(duì)于每個(gè)時(shí)間步，考慮定義智體狀態(tài)的特征，例如x、y、速度、加速度、邊框等，還有一個(gè)上下文維度。

交互張量表示智體之間的關(guān)系。對(duì)于每個(gè)建模的智體，考慮建模智體周?chē)墓潭〝?shù)量最鄰近上下文。這些上下文智體表示影響建模智體行為的智體。

道路圖包含智體周?chē)牡缆诽卣?。道路圖線(xiàn)段表示為多段線(xiàn)，由其端點(diǎn)指定并用類(lèi)型信息注釋的線(xiàn)段集合，可近似道路形狀。采用最接近建模智體的道路圖線(xiàn)段。請(qǐng)注意，道路特征沒(méi)有時(shí)間維度，可加入時(shí)間維度1。

對(duì)于每個(gè)智體，交通燈信息包含最接近該智體的交通信號(hào)狀態(tài)。每個(gè)交通信號(hào)點(diǎn)具有描述信號(hào)位置和置信度的特征。

Wayformer模型系列，由兩個(gè)主要組件組成：場(chǎng)景編碼器和解碼器。場(chǎng)景編碼器主要由一個(gè)或多個(gè)注意編碼器組成，用于總結(jié)駕駛場(chǎng)景。解碼器是一個(gè)或多個(gè)標(biāo)準(zhǔn)transformer交叉注意模塊，其輸入學(xué)習(xí)的初始query，然后與場(chǎng)景編碼交叉注意生成軌跡。

如圖顯示W(wǎng)ayformer模型處理多模態(tài)輸入產(chǎn)生場(chǎng)景編碼：該場(chǎng)景編碼用作解碼器的上下文，生成覆蓋輸出空間多模態(tài)的k條可能軌跡。

場(chǎng)景編碼器的輸入多樣性使這種集成變成一項(xiàng)不平凡的任務(wù)。模態(tài)可能不會(huì)以相同的抽象級(jí)別或尺度來(lái)表示：{像素pixels vs 目標(biāo) objects}。因此，某些模態(tài)可能需要比其他模態(tài)更多的計(jì)算。模態(tài)之間計(jì)算分解是取決于應(yīng)用的，對(duì)于工程師來(lái)說(shuō)非常重要。這里提出三個(gè)融合層次來(lái)簡(jiǎn)化這個(gè)過(guò)程：{后，前，分級(jí)}，如圖所示：

后融合是運(yùn)動(dòng)預(yù)測(cè)模型最常用的方法，其中每個(gè)模態(tài)都有自己的專(zhuān)用編碼器。將這些編碼器的寬度設(shè)置相等，避免在輸出中引入額外的投影層。此外，在所有編碼器中共享相同深度，探索空間縮小到可管理的范圍。只允許在軌跡解碼器的交叉注意層跨模態(tài)傳輸信息。

前融合不是將自注意編碼器專(zhuān)用于每個(gè)模態(tài)，而是減少特定模態(tài)的參數(shù)到投影層。圖中場(chǎng)景編碼器由單個(gè)自注意編碼器（“跨模態(tài)編碼器”）組成，網(wǎng)絡(luò)在跨模態(tài)分配重要性時(shí)具有最大的靈活性，同時(shí)具有最小的歸納偏差。

分層融合作為前兩個(gè)極端之間的折衷，體量以層次化的方式在模態(tài)特定的自注意編碼器和跨模態(tài)編碼器之間分解。正如在后融合所做的那樣，寬度和深度在注意編碼器和跨模態(tài)編碼器中共享。這有效地將場(chǎng)景編碼器的深度在模態(tài)特定編碼器和跨模態(tài)編碼器之間分?jǐn)偂?/p>

由于以下兩個(gè)因素，Transformer網(wǎng)絡(luò)不能很好地?cái)U(kuò)展到大型多維序列：

（a）自注意對(duì)輸入序列長(zhǎng)度是二次方。
（b）位置前饋網(wǎng)絡(luò)是昂貴的子網(wǎng)絡(luò)。

下面討論加速方法，（S為空間維度，T為時(shí)域維度），其框架如圖所示：

多軸注意（Multi-Axis Attention）：這是指默認(rèn)的transformer設(shè)置，同時(shí)在空間和時(shí)間維度上應(yīng)用自注意，預(yù)計(jì)是計(jì)算成本最高的。具有多軸注意的前、后和分層融合的計(jì)算復(fù)雜度為O（Sm2×T2）。

分解注意（Factorized attention）：自注意的計(jì)算復(fù)雜度是輸入序列長(zhǎng)度的二次方。這在多維序列中變得更加明顯，因?yàn)槊總€(gè)額外維度都會(huì)通過(guò)乘法因子增加輸入的大小。例如，一些輸入模態(tài)有時(shí)間和空間維度，因此計(jì)算成本規(guī)模為O（Sm2×T2）。為了緩解這種情況，考慮沿兩個(gè)維度分解注意。該方法利用輸入序列的多維結(jié)構(gòu)，通過(guò)在每個(gè)維度單獨(dú)應(yīng)用自注意，將自注意子網(wǎng)絡(luò)的成本從O（S2×T2）降低到O（S2）+O（T2）。

雖然與多軸注意相比，分解注意有可能減少計(jì)算量，但將自注意應(yīng)用到每個(gè)維度的順序時(shí)引入復(fù)雜性。這里比較兩種分解注意范式：

順序注意（sequential attention）：一個(gè)N層編碼器由N/2個(gè)時(shí)間編碼器塊和另一個(gè)N/2個(gè)空間編碼器塊組成。
交錯(cuò)注意（Interleaved attention）：N層編碼器由時(shí)間和空間編碼器塊交替N/2次組成。

潛查詢(xún)注意（Latent query attention）：解決大輸入序列計(jì)算成本的另一種方法是在第一個(gè)編碼器塊中使用潛查詢(xún)，其中輸入映射到潛空間。這些潛變量由一系列編碼器塊做進(jìn)一步處理，這些編碼器塊接收然后返回該潛空間。這樣可以完全自由地設(shè)置潛空間分辨率，減少每個(gè)塊中自注意分量和位置前饋網(wǎng)絡(luò)的計(jì)算成本。將縮減量（R=Lout/Lin）設(shè)置為輸入序列長(zhǎng)度的百分比。在后融合和分層融合中，所有注意編碼器的折減因子R保持不變。

Wayformer預(yù)測(cè)器輸出高斯混合，表示智體可能采取的軌跡。為了生成預(yù)測(cè)，用Transformer解碼器，輸入一組k個(gè)學(xué)習(xí)的初始query（Si）并與編碼器的場(chǎng)景嵌入做交叉注意，為高斯混合的每個(gè)分量生成嵌入。

給定混合中一個(gè)特定成分的嵌入，一個(gè)線(xiàn)性投影層產(chǎn)生該成分的非規(guī)范對(duì)數(shù)似然，估計(jì)整個(gè)混合似然。為了生成軌跡，用另一個(gè)線(xiàn)性層投影，輸出4個(gè)時(shí)間序列，對(duì)應(yīng)于每個(gè)時(shí)間步預(yù)測(cè)高斯的均值和對(duì)數(shù)標(biāo)準(zhǔn)偏差。

在訓(xùn)練期間，將損失分解為各自分類(lèi)和回歸損失。假設(shè)k個(gè)預(yù)測(cè)高斯，訓(xùn)練混合似然，最大化真實(shí)軌跡的對(duì)數(shù)概率。

如果預(yù)測(cè)器輸出具有多個(gè)模式的混合高斯，則很難進(jìn)行推理，基準(zhǔn)測(cè)度通常會(huì)限制所考慮的軌跡數(shù)。因此，在評(píng)估過(guò)程中，應(yīng)用軌跡聚合，減少所考慮的模態(tài)數(shù)量，同時(shí)仍保持原始輸出混合的多樣性。

實(shí)驗(yàn)結(jié)果如下：

分解注意

潛查詢(xún)

責(zé)任編輯：張燕妮來(lái)源：知乎

架構(gòu)自動(dòng)駕駛

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="0uly1"></style>

<cite id="0uly1"><rp id="0uly1"><form id="0uly1"></form></rp></cite>

<cite id="0uly1"><track id="0uly1"></track></cite>

<style id="0uly1"></style>