自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Wayformer: 一個(gè)實(shí)現(xiàn)運(yùn)動(dòng)預(yù)測(cè)簡(jiǎn)單有效的注意網(wǎng)絡(luò)

人工智能 新聞
本文的Wayformer,是一系列簡(jiǎn)單且同類(lèi)的基于注意運(yùn)動(dòng)預(yù)測(cè)架構(gòu)。

arXiv論文“Wayformer: Motion Forecasting via Simple & Efficient Attention Networks“,2022年7月上傳,是谷歌Waymo的工作。

自動(dòng)駕駛的運(yùn)動(dòng)預(yù)測(cè)是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)閺?fù)雜的駕駛場(chǎng)景會(huì)導(dǎo)致靜態(tài)和動(dòng)態(tài)輸入的各種混合形式。如何最好地表示和融合有關(guān)道路幾何形狀、車(chē)道連通性、時(shí)變交通信號(hào)燈狀態(tài)以及智體的動(dòng)態(tài)集及其交互的歷史信息,并將其轉(zhuǎn)換為有效的編碼,這是一個(gè)尚未解決的問(wèn)題。為了對(duì)這組多樣輸入特征進(jìn)行建模,有許多方法設(shè)計(jì)具有不同特定模態(tài)模塊集的同樣復(fù)雜系統(tǒng)。這導(dǎo)致系統(tǒng)難以擴(kuò)展、規(guī)?;蛞試?yán)格方式在質(zhì)量和效率之間權(quán)衡。

本文的Wayformer,是一系列簡(jiǎn)單且同類(lèi)的基于注意運(yùn)動(dòng)預(yù)測(cè)架構(gòu)。Wayformer提供了一種緊湊的模型描述,由基于注意的場(chǎng)景編碼器和解碼器組成。在場(chǎng)景編碼器中,研究了輸入模式的前融合、后融合和分層融合的選擇。對(duì)于每種融合類(lèi)型,探索通過(guò)分解注意或潛在query注意來(lái)權(quán)衡效率和質(zhì)量的策略。前融合結(jié)構(gòu)簡(jiǎn)單,不僅模態(tài)不可知,而且在Waymo開(kāi)放運(yùn)動(dòng)數(shù)據(jù)集(WOMD)和Argoverse排行榜上都實(shí)現(xiàn)了最先進(jìn)的結(jié)果。

駕駛場(chǎng)景由多模態(tài)數(shù)據(jù)組成,例如道路信息、紅綠燈狀態(tài)、智體歷史和交互。對(duì)于模態(tài),有一個(gè)上下文第4維,表示每個(gè)建模智體的“一組上下文目標(biāo)”(即其他道路用戶(hù)的表示)。

智體歷史包含一系列過(guò)去的智體狀態(tài)以及當(dāng)前狀態(tài)。對(duì)于每個(gè)時(shí)間步,考慮定義智體狀態(tài)的特征,例如x、y、速度、加速度、邊框等,還有一個(gè)上下文維度。

交互張量表示智體之間的關(guān)系。對(duì)于每個(gè)建模的智體,考慮建模智體周?chē)墓潭〝?shù)量最鄰近上下文。這些上下文智體表示影響建模智體行為的智體。

道路圖包含智體周?chē)牡缆诽卣?。道路圖線(xiàn)段表示為多段線(xiàn),由其端點(diǎn)指定并用類(lèi)型信息注釋的線(xiàn)段集合,可近似道路形狀。采用最接近建模智體的道路圖線(xiàn)段。請(qǐng)注意,道路特征沒(méi)有時(shí)間維度,可加入時(shí)間維度1。

對(duì)于每個(gè)智體,交通燈信息包含最接近該智體的交通信號(hào)狀態(tài)。每個(gè)交通信號(hào)點(diǎn)具有描述信號(hào)位置和置信度的特征。

Wayformer模型系列,由兩個(gè)主要組件組成:場(chǎng)景編碼器和解碼器。場(chǎng)景編碼器主要由一個(gè)或多個(gè)注意編碼器組成,用于總結(jié)駕駛場(chǎng)景。解碼器是一個(gè)或多個(gè)標(biāo)準(zhǔn)transformer交叉注意模塊,其輸入學(xué)習(xí)的初始query,然后與場(chǎng)景編碼交叉注意生成軌跡。

如圖顯示W(wǎng)ayformer模型處理多模態(tài)輸入產(chǎn)生場(chǎng)景編碼:該場(chǎng)景編碼用作解碼器的上下文,生成覆蓋輸出空間多模態(tài)的k條可能軌跡。

場(chǎng)景編碼器的輸入多樣性使這種集成變成一項(xiàng)不平凡的任務(wù)。模態(tài)可能不會(huì)以相同的抽象級(jí)別或尺度來(lái)表示:{像素pixels vs 目標(biāo) objects}。因此,某些模態(tài)可能需要比其他模態(tài)更多的計(jì)算。模態(tài)之間計(jì)算分解是取決于應(yīng)用的,對(duì)于工程師來(lái)說(shuō)非常重要。這里提出三個(gè)融合層次來(lái)簡(jiǎn)化這個(gè)過(guò)程:{后,前,分級(jí)},如圖所示:

后融合是運(yùn)動(dòng)預(yù)測(cè)模型最常用的方法,其中每個(gè)模態(tài)都有自己的專(zhuān)用編碼器。將這些編碼器的寬度設(shè)置相等,避免在輸出中引入額外的投影層。此外,在所有編碼器中共享相同深度,探索空間縮小到可管理的范圍。只允許在軌跡解碼器的交叉注意層跨模態(tài)傳輸信息。

前融合不是將自注意編碼器專(zhuān)用于每個(gè)模態(tài),而是減少特定模態(tài)的參數(shù)到投影層。圖中場(chǎng)景編碼器由單個(gè)自注意編碼器(“跨模態(tài)編碼器”)組成,網(wǎng)絡(luò)在跨模態(tài)分配重要性時(shí)具有最大的靈活性,同時(shí)具有最小的歸納偏差。

分層融合作為前兩個(gè)極端之間的折衷,體量以層次化的方式在模態(tài)特定的自注意編碼器和跨模態(tài)編碼器之間分解。正如在后融合所做的那樣,寬度和深度在注意編碼器和跨模態(tài)編碼器中共享。這有效地將場(chǎng)景編碼器的深度在模態(tài)特定編碼器和跨模態(tài)編碼器之間分?jǐn)偂?/p>

由于以下兩個(gè)因素,Transformer網(wǎng)絡(luò)不能很好地?cái)U(kuò)展到大型多維序列:

  • (a)自注意對(duì)輸入序列長(zhǎng)度是二次方。
  • (b) 位置前饋網(wǎng)絡(luò)是昂貴的子網(wǎng)絡(luò)。

下面討論加速方法,(S為空間維度,T為時(shí)域維度),其框架如圖所示:

多軸注意(Multi-Axis Attention):這是指默認(rèn)的transformer設(shè)置,同時(shí)在空間和時(shí)間維度上應(yīng)用自注意,預(yù)計(jì)是計(jì)算成本最高的。具有多軸注意的前、后和分層融合的計(jì)算復(fù)雜度為O(Sm2×T2)。

分解注意 (Factorized attention):自注意的計(jì)算復(fù)雜度是輸入序列長(zhǎng)度的二次方。這在多維序列中變得更加明顯,因?yàn)槊總€(gè)額外維度都會(huì)通過(guò)乘法因子增加輸入的大小。例如,一些輸入模態(tài)有時(shí)間和空間維度,因此計(jì)算成本規(guī)模為O(Sm2×T2)。為了緩解這種情況,考慮沿兩個(gè)維度分解注意。該方法利用輸入序列的多維結(jié)構(gòu),通過(guò)在每個(gè)維度單獨(dú)應(yīng)用自注意,將自注意子網(wǎng)絡(luò)的成本從O(S2×T2)降低到O(S2)+O(T2)。

雖然與多軸注意相比,分解注意有可能減少計(jì)算量,但將自注意應(yīng)用到每個(gè)維度的順序時(shí)引入復(fù)雜性。這里比較兩種分解注意范式:

  • 順序注意(sequential attention):一個(gè)N層編碼器由N/2個(gè)時(shí)間編碼器塊和另一個(gè)N/2個(gè)空間編碼器塊組成。
  • 交錯(cuò)注意(Interleaved attention):N層編碼器由時(shí)間和空間編碼器塊交替N/2次組成。

潛查詢(xún)注意(Latent query attention):解決大輸入序列計(jì)算成本的另一種方法是在第一個(gè)編碼器塊中使用潛查詢(xún),其中輸入映射到潛空間。這些潛變量由一系列編碼器塊做進(jìn)一步處理,這些編碼器塊接收然后返回該潛空間。這樣可以完全自由地設(shè)置潛空間分辨率,減少每個(gè)塊中自注意分量和位置前饋網(wǎng)絡(luò)的計(jì)算成本。將縮減量(R=Lout/Lin)設(shè)置為輸入序列長(zhǎng)度的百分比。在后融合和分層融合中,所有注意編碼器的折減因子R保持不變。

Wayformer預(yù)測(cè)器輸出高斯混合,表示智體可能采取的軌跡。為了生成預(yù)測(cè),用Transformer解碼器,輸入一組k個(gè)學(xué)習(xí)的初始query(Si)并與編碼器的場(chǎng)景嵌入做交叉注意,為高斯混合的每個(gè)分量生成嵌入。

給定混合中一個(gè)特定成分的嵌入,一個(gè)線(xiàn)性投影層產(chǎn)生該成分的非規(guī)范對(duì)數(shù)似然,估計(jì)整個(gè)混合似然。為了生成軌跡,用另一個(gè)線(xiàn)性層投影,輸出4個(gè)時(shí)間序列,對(duì)應(yīng)于每個(gè)時(shí)間步預(yù)測(cè)高斯的均值和對(duì)數(shù)標(biāo)準(zhǔn)偏差。

在訓(xùn)練期間,將損失分解為各自分類(lèi)和回歸損失。假設(shè)k個(gè)預(yù)測(cè)高斯,訓(xùn)練混合似然,最大化真實(shí)軌跡的對(duì)數(shù)概率。

如果預(yù)測(cè)器輸出具有多個(gè)模式的混合高斯,則很難進(jìn)行推理,基準(zhǔn)測(cè)度通常會(huì)限制所考慮的軌跡數(shù)。因此,在評(píng)估過(guò)程中,應(yīng)用軌跡聚合,減少所考慮的模態(tài)數(shù)量,同時(shí)仍保持原始輸出混合的多樣性。

實(shí)驗(yàn)結(jié)果如下:

分解注意

潛查詢(xún)


責(zé)任編輯:張燕妮 來(lái)源: 知乎
相關(guān)推薦

2024-02-27 17:32:30

時(shí)間序列分析庫(kù)PyTimeTK數(shù)據(jù)科學(xué)

2018-09-18 10:11:21

前端vue.jsjavascript

2021-07-20 10:30:46

Golanghttp語(yǔ)言

2016-11-08 18:53:08

編譯器

2022-11-29 17:34:43

虛擬形象系統(tǒng)

2020-06-04 12:55:44

PyTorch分類(lèi)器神經(jīng)網(wǎng)絡(luò)

2024-05-07 09:02:47

2025-02-19 18:00:00

神經(jīng)網(wǎng)絡(luò)模型AI

2019-12-11 10:45:08

Python 開(kāi)發(fā)編程語(yǔ)言

2021-05-20 07:56:35

Bean容器Spring

2011-03-24 09:34:41

SPRING

2015-01-14 13:07:03

2022-09-19 08:01:45

數(shù)據(jù)庫(kù)SQLitePostgreSQL

2022-10-21 14:21:46

JavaScript筆記技能

2024-05-13 08:40:02

Go事件驅(qū)動(dòng)編程

2011-05-17 15:13:59

oracle分頁(yè)存儲(chǔ)

2010-09-04 10:49:16

數(shù)據(jù)泄密DLPCheck Point

2009-08-19 04:14:00

線(xiàn)性鏈表

2018-11-22 14:09:45

iOS架構(gòu)組件開(kāi)發(fā)

2023-02-07 10:40:30

gRPC系統(tǒng)Mac
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)