自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

我們研究了特斯拉、毫末智行「自動(dòng)駕駛算法」的秘密

人工智能 無(wú)人駕駛
隨著自動(dòng)駕駛技術(shù)的快速發(fā)展和落地,越來(lái)越多的量產(chǎn)車型上開(kāi)始搭載支持不同級(jí)別自動(dòng)駕駛系統(tǒng)的軟件和硬件。

目前,自動(dòng)駕駛技術(shù)已經(jīng)走出實(shí)驗(yàn)室,進(jìn)入量產(chǎn)落地的階段,也成為了各大車企,零部件供應(yīng)商,高科技公司爭(zhēng)相進(jìn)入的領(lǐng)域,競(jìng)爭(zhēng)空前激烈。

自動(dòng)駕駛駕駛技術(shù)這一輪的爆發(fā),很大程度上取決于兩點(diǎn):

  • 大算力計(jì)算平臺(tái)在消費(fèi)端取得的突破,為人工智能領(lǐng)域提供了基礎(chǔ)算力。
  • 深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得的突破,這也是自動(dòng)駕駛視覺(jué)感知的基礎(chǔ)。

目前,基于英偉達(dá)、高通、Mobileye、地平線、華為的自動(dòng)駕駛芯片,做多芯片集成開(kāi)發(fā)出來(lái)的計(jì)算平臺(tái)整體算力最高已經(jīng)達(dá)到上千 Tops,這為高階自動(dòng)駕駛提供了算力保障。

但在算法和算力之間,技術(shù)既深度耦合又相互促進(jìn),安霸半導(dǎo)體中國(guó)區(qū)總經(jīng)理馮羽濤說(shuō)過(guò):

「自動(dòng)駕駛所需要的算力不會(huì)無(wú)限擴(kuò)展下去,算力要隨著算法和數(shù)據(jù)的能力增長(zhǎng)而增長(zhǎng),以目前各家算法技術(shù)來(lái)說(shuō),市面上主流的大算力芯片已經(jīng)足夠,而算法才是接下來(lái)競(jìng)爭(zhēng)的重點(diǎn),除非算法和數(shù)據(jù)與算力之間的耦合達(dá)到一個(gè)瓶頸點(diǎn),那再去做更大算力的平臺(tái)才有意義。

在 1 月 27 日,中金發(fā)布了一份名為《人工智能十年展望(三):AI 視角下的自動(dòng)駕駛行業(yè)全解析》的研究報(bào)告。報(bào)告指出,「深度學(xué)習(xí)是自動(dòng)駕駛技術(shù)發(fā)展的分水嶺及底層推動(dòng)力,算法是各廠商接下來(lái)應(yīng)該重點(diǎn)布局的核心能力,同時(shí),數(shù)據(jù)是決定自動(dòng)駕駛量產(chǎn)能力的勝負(fù)手」。

也就是說(shuō),算力性能已經(jīng)到了階段性的平穩(wěn)發(fā)展期,「算法能力 + 數(shù)據(jù)能力」會(huì)成為自動(dòng)駕駛領(lǐng)域里的各個(gè)公司之間競(jìng)爭(zhēng)誰(shuí)能勝出的關(guān)鍵。

01 多層神經(jīng)網(wǎng)絡(luò)的技術(shù)趨勢(shì)

視覺(jué)感知的技術(shù)突破,進(jìn)一步推動(dòng)了其他傳感器(比如激光雷達(dá)和毫米波雷達(dá))的感知算法以及多傳感器融合算法的進(jìn)步。另一方面,深度學(xué)習(xí)中的強(qiáng)化學(xué)習(xí)算法也在決策系統(tǒng)中起到了非常重要的作用。

對(duì)于深度學(xué)習(xí)算法來(lái)說(shuō),除了算法本身的能力以外,高質(zhì)量,大規(guī)模的訓(xùn)練數(shù)據(jù)也是算法取得成功的關(guān)鍵因素。因此,如何高效地采集和標(biāo)注數(shù)據(jù)對(duì)于每一家自動(dòng)駕駛公司來(lái)說(shuō)都是非常現(xiàn)實(shí)的課題。

在數(shù)據(jù)采集方面,面向量產(chǎn)的公司有著先天的優(yōu)勢(shì)。路面上行駛的數(shù)十萬(wàn),甚至上百萬(wàn)的車輛,每一輛都可以源源不斷地提供豐富的路況數(shù)據(jù),加在一起就是一個(gè)海量的自動(dòng)駕駛數(shù)據(jù)庫(kù)。

相比之下,面向 L4 級(jí)別的公司只能依靠有限的測(cè)試車輛來(lái)采集數(shù)據(jù)。目前路測(cè)規(guī)模最大的 Waymo 也只有幾百輛測(cè)試車,數(shù)據(jù)采集的規(guī)模自然不可同日而語(yǔ)。

有了海量數(shù)據(jù)是不是問(wèn)題就解決了呢?

顯然沒(méi)有那么簡(jiǎn)單。

雖然說(shuō)深度神經(jīng)網(wǎng)絡(luò)依賴于大數(shù)據(jù),但是不同網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)海量數(shù)據(jù)的能力還是有很大差別的。最早出現(xiàn)的多層感知機(jī)結(jié)構(gòu)網(wǎng)絡(luò)只有幾層,只需要很少的數(shù)據(jù)就可以使網(wǎng)絡(luò)的學(xué)習(xí)能力達(dá)到飽和。

近些年來(lái)提出的卷積神經(jīng)網(wǎng)絡(luò)(CNN),深度從十幾層增加到上百層,甚至上千層,這時(shí)就需要大規(guī)模的訓(xùn)練數(shù)據(jù)來(lái)保證網(wǎng)絡(luò)訓(xùn)練的質(zhì)量。

但是簡(jiǎn)單的堆積層數(shù)也是行不通的,這時(shí)深度學(xué)習(xí)領(lǐng)域一個(gè)非常關(guān)鍵的技術(shù) ResNet(深度殘差網(wǎng)絡(luò))出現(xiàn)了,它提出通過(guò)增加額外的連接,使得信息可以從淺層直接傳輸?shù)缴顚?,減少信息在網(wǎng)絡(luò)層之間傳輸時(shí)的損失。通過(guò)這個(gè)技術(shù),卷積神經(jīng)網(wǎng)絡(luò)才能擁有更深的結(jié)構(gòu),從而更好地利用大規(guī)模數(shù)據(jù)。

雖然有了 ResNet 技術(shù),深度卷積神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)規(guī)模增加到一定程度之后,其性能的提升也變得非常有限,也就是說(shuō)存在飽和的趨勢(shì),這說(shuō)明神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力還是存在著一定的瓶頸。

大約從 2017 年開(kāi)始,一種新型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)開(kāi)始引起研究人員的廣泛關(guān)注,那就是大名鼎鼎的基于注意力機(jī)制的 Transformer 網(wǎng)絡(luò)。

Transformer 首先被應(yīng)用在自然語(yǔ)言處理領(lǐng)域(NLP),用來(lái)處理序列文本數(shù)據(jù)。

谷歌團(tuán)隊(duì)提出的用于生成詞向量的 BERT 算法在 NLP 的 11 項(xiàng)任務(wù)中均取得了大幅的效果提升,而 BERT 算法中最重要的部分便是 Transformer。

在自然語(yǔ)言處理領(lǐng)域取得廣泛應(yīng)用后,Transformer 也被成功移植到了很多視覺(jué)任務(wù)上,比如「圖像分類,物體檢測(cè)」等,并同樣取得了不錯(cuò)的效果。Transformer 在海量數(shù)據(jù)上可以獲得更大的性能提升,也就是說(shuō)學(xué)習(xí)能力的飽和區(qū)間更大。

有研究表明,當(dāng)訓(xùn)練數(shù)據(jù)集增大到包含 1 億張圖像時(shí),Transformer 的性能開(kāi)始超過(guò) CNN。而當(dāng)圖像數(shù)量增加到 10 億張時(shí),兩者的性能差距變得更大。

上面是 ResNet(CNN)和 ViT(Transformer)在不同大小訓(xùn)練集上達(dá)到的圖像分類正確率。數(shù)據(jù)量為 1000 萬(wàn)時(shí),Transformer 的正確率遠(yuǎn)低于 CNN,但是當(dāng)數(shù)據(jù)量增加到 1 億時(shí),Transformer 就開(kāi)始超過(guò) CNN。

此外,CNN 網(wǎng)絡(luò)在數(shù)據(jù)量超過(guò) 1 億以后呈現(xiàn)飽和趨勢(shì),而 Transformer 的準(zhǔn)確率還在繼續(xù)增加。

簡(jiǎn)單理解就是,Transformer 在海量數(shù)據(jù)的處理能力上具有巨大冗余優(yōu)勢(shì)。

正是因?yàn)榭吹搅诉@一點(diǎn),面向量產(chǎn)的自動(dòng)駕駛公司在擁有數(shù)據(jù)收集優(yōu)勢(shì)的情況下,自然就會(huì)傾向于選擇 Transformer 作為其感知算法的主體

2021 年夏天,特斯拉的自動(dòng)駕駛技術(shù)負(fù)責(zé)人 Andrej Karpathy 博士在 AI Day 上,公開(kāi)了 FSD 自動(dòng)駕駛系統(tǒng)中采用的算法,而 Transformer 則是其中最核心的模塊之一。在國(guó)內(nèi)方面,毫末智行也同樣提出將 Transformer 神經(jīng)網(wǎng)絡(luò)與海量數(shù)據(jù)進(jìn)行有效的融合。

在 2021 年底,毫末智行 CEO 顧維灝在毫末 AI Day 上介紹了 MANA(雪湖)數(shù)據(jù)智能體系。除了視覺(jué)數(shù)據(jù)以外,MANA 系統(tǒng)還包含了激光雷達(dá)數(shù)據(jù)

并基于 Transformer 神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行空間、時(shí)間、傳感器三個(gè)維度的融合,從而去提升感知算法的準(zhǔn)確率。

了解了目前自動(dòng)駕駛技術(shù)發(fā)展的趨勢(shì)以后,文章接下來(lái)的部分會(huì)首先簡(jiǎn)單介紹一下 Transformer 的設(shè)計(jì)動(dòng)機(jī)和工作機(jī)制,然后詳細(xì)解讀特斯拉和毫末智行的技術(shù)方案。

02 Transformer 神經(jīng)網(wǎng)絡(luò)

在說(shuō) Transformer 之前,要先理解一個(gè)概念:「機(jī)器翻譯、注意力機(jī)制」

機(jī)器翻譯

機(jī)器翻譯可以粗暴理解成 「由現(xiàn)代化計(jì)算機(jī)模擬人類的智能活動(dòng),自動(dòng)進(jìn)行語(yǔ)言之間的翻譯」

說(shuō)起翻譯,不得不提自然語(yǔ)言處理(NLP)領(lǐng)域的機(jī)器翻譯應(yīng)用,簡(jiǎn)單說(shuō)就是「輸入一句話,輸出另一句話」,后者可以是前者的其他語(yǔ)種表達(dá),如「自行車翻譯為 Bicycle」;也可以是前者的同語(yǔ)種關(guān)鍵詞表達(dá),如「騎行的兩輪車」。

而工程師把「翻譯」的過(guò)程,用數(shù)學(xué)函數(shù)設(shè)計(jì)了一套模型,這個(gè)模型就是大家通常意義上理解的「神經(jīng)網(wǎng)絡(luò)」。

在 Transformer 到來(lái)之前,大家一般都是使用基于循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 的「編碼器-解碼器」結(jié)構(gòu)來(lái)完成序列翻譯。

所謂序列翻譯,「就是輸入一個(gè)序列,輸出另一個(gè)序列」。例如,漢英翻譯即輸入的序列是漢語(yǔ)表示的一句話,而輸出的序列即為對(duì)應(yīng)的英語(yǔ)表達(dá)。

基于 RNN 的架構(gòu)有一個(gè)明顯弊端就是,RNN 屬于序列模型,需要以一個(gè)接一個(gè)的序列化方式進(jìn)行信息處理,注意力權(quán)重需要等待序列全部輸入模型之后才能確定,簡(jiǎn)單理解就是,需要 RNN 對(duì)序列「從頭看到尾」。

例如:

面對(duì)翻譯問(wèn)題「A magazine is stuck in the gun」,其中的「Magazine」到底應(yīng)該翻譯為「雜志」還是「彈匣」?

當(dāng)看到「gun」一詞時(shí),將「Magazine」翻譯為「彈匣」才確認(rèn)無(wú)疑。在基于RNN的機(jī)器翻譯模型中,需要一步步的順序處理從 Magazine 到 gun 的所有詞語(yǔ),而當(dāng)它們相距較遠(yuǎn)時(shí) RNN 中存儲(chǔ)的信息將不斷被稀釋,翻譯效果常常難以盡人意,而且效率非常很低。

這種架構(gòu)無(wú)論是在訓(xùn)練環(huán)節(jié)還是推理環(huán)節(jié),都具有大量的時(shí)間開(kāi)銷,并且難以實(shí)現(xiàn)并行處理。而這個(gè)時(shí)候,工程師又想到了一個(gè)方案,就是在標(biāo)準(zhǔn)的 RNN 模型中加入一個(gè)「注意力機(jī)制」。

什么是注意力機(jī)制?

「深度學(xué)習(xí)中的注意力機(jī)制,源自于人腦的注意力機(jī)制,當(dāng)人的大腦接受外部信息時(shí),如視覺(jué)信息,聽(tīng)覺(jué)信息時(shí),往往不會(huì)對(duì)全部信息處理和理解,而只會(huì)將注意力集中在部分顯著或者感興趣的信息上,這樣有利于濾除不重要的信息,而提升的信息處理效率?!?/span>

加入注意力機(jī)制的模型會(huì)一次性的「看見(jiàn)」所有輸入的詞匯,利用注意力機(jī)制將距離不同的單詞進(jìn)行結(jié)合,為序列中每個(gè)元素提供全局的上下文。

谷歌團(tuán)隊(duì)賦予新模型一個(gè)大名鼎鼎的名字:「Transformer」。

Transformer 與處理序列數(shù)據(jù)常用的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer 中的注意力機(jī)制并不會(huì)按照順序來(lái)處理數(shù)據(jù),也就是說(shuō),每個(gè)元素和序列中的所有元素都會(huì)產(chǎn)生聯(lián)系,這樣就保證了不管在時(shí)序上相距多遠(yuǎn),元素之間的相關(guān)性都可以被很好地保留。

而這種長(zhǎng)時(shí)相關(guān)性對(duì)于自然語(yǔ)言處理的任務(wù)來(lái)說(shuō)通常都是非常重要。比如下圖中,句子中的「it」所指的是「The animal」,但是這兩個(gè)元素之間相距較遠(yuǎn),如果用 RNN 來(lái)順序處理的話很難建立起兩者之間的聯(lián)系。

一個(gè)句子中各個(gè)單詞之間的相關(guān)性

Transformer 并不關(guān)心順序,在計(jì)算相關(guān)性時(shí),每個(gè)元素的重要性是根據(jù)數(shù)據(jù)本身的語(yǔ)義信息計(jì)算出來(lái)的。因此,可以輕松地提取任意距離元素之間的相關(guān)性。

為什么要說(shuō)這些?

因?yàn)樵谝曈X(jué)任務(wù)圖像分類和物體檢測(cè)上,通過(guò)帶有注意力機(jī)制的 Transformer 模型其結(jié)果出乎意料的好。

為什么源自自然語(yǔ)言領(lǐng)域的算法,在視覺(jué)上同樣適用呢?

原因主要有兩點(diǎn):

  • 雖然圖像本身不是時(shí)間序列數(shù)據(jù),但可以看作空間上的序列,視覺(jué)任務(wù)一個(gè)關(guān)鍵的步驟就是要提取像素之間的相關(guān)性,普通的 CNN 是通過(guò)卷積核來(lái)提取局部的相關(guān)性(也稱為:局部感受野)。與 CNN 的局部感受野不同,Transformer 可以提供全局的感受野。因此,特征學(xué)習(xí)能力相比 CNN 要高很多
  • 如果進(jìn)一步考慮視頻輸入數(shù)據(jù)的話,那么這本身就是時(shí)序數(shù)據(jù),因此,更加適合Transformer 的處理。

Transformer 在圖像分類中的應(yīng)用

在圖 3 的例子中,Transformer 被用來(lái)進(jìn)行圖像分類的任務(wù)。圖像被均勻地分成若干小塊,按照空間排列的順序組成了一個(gè)圖像塊的序列。每個(gè)圖像塊的像素值(或者其他特征)組成了該圖像塊的特征向量,經(jīng)過(guò) Transformer 編碼在進(jìn)行拼接后就得到整幅圖像的特征。

上圖的右側(cè),給出了編碼器的具體結(jié)構(gòu),其關(guān)鍵部分是一個(gè) 「多頭注意力模塊」。

簡(jiǎn)單來(lái)說(shuō),多頭注意力其實(shí)就是多個(gè)注意力機(jī)制模塊的集成,這些模塊各自獨(dú)立的進(jìn)行編碼,提取不同方面的特征,在增加編碼能力的同時(shí),也可以非常高效的在計(jì)算芯片上實(shí)現(xiàn)并行處理。

綜上所述,這也就是中金《人工智能十年展望(三):AI 視角下的自動(dòng)駕駛行業(yè)全解析》這份報(bào)告里說(shuō)的:

由于 Transformer 可以很好地在 「空間-時(shí)序」 維度上進(jìn)行建模,目前特斯拉和毫末智行等行業(yè)龍頭通過(guò) Transformer 在感知端提升模型效果。

特斯拉從安裝在汽車周圍的八個(gè)攝像頭的視頻中用傳統(tǒng)的 ResNet 提取圖像特征,并使用 Transformer CNN、3D 卷積中的一種或者多種組合完成跨時(shí)間的圖像融合,實(shí)現(xiàn)基于 2D 圖像形成具有 3D 信息輸出

毫末智行的 AI 團(tuán)隊(duì)正在逐步將基于 Transformer 的感知算法應(yīng)用到實(shí)際的道路感知問(wèn)題,如車道線檢測(cè)、障礙物檢測(cè)、可行駛區(qū)域分割、紅綠燈檢測(cè)&識(shí)別、道路交通標(biāo)志檢測(cè)、點(diǎn)云檢測(cè)&分割等。

03 特斯拉的 FSD 系統(tǒng)解讀

Andrej 博士在特斯拉 AI Day 上首先提到,五年前 Tesla 的視覺(jué)系統(tǒng)是先獲得單張圖像上的檢測(cè)結(jié)果,然后將其映射到向量空間(Vector Space)。

這個(gè)「向量空間」則是 AI Day 中的核心概念之一。其實(shí),它就是環(huán)境中的各種目標(biāo),在世界坐標(biāo)系中的表示空間

比如,「對(duì)于物體檢測(cè)任務(wù),目標(biāo)在 3D 空間中的位置、大小、朝向、速度等描述特性組成了一個(gè)向量,所有目標(biāo)的描述向量組成的空間就是向量空間?!?/p>

視覺(jué)感知系統(tǒng)的任務(wù)就是,將圖像空間中的信息轉(zhuǎn)化為向量空間中的信息。

一般可以通過(guò)兩種方法來(lái)實(shí)現(xiàn):

  • 先在圖像空間中完成所有的感知任務(wù),然后將結(jié)果映射到向量空間,最后融合多攝像頭的結(jié)果;
  • 先將圖像特征轉(zhuǎn)換到向量空間,然后融合來(lái)自多個(gè)攝像頭的特征,最后在向量空間中完成所有的感知任務(wù)。

Andrej 舉了兩個(gè)例子,說(shuō)明為什么第一種方法是不合適的。

一,由于透視投影,圖像中看起來(lái)不錯(cuò)的感知結(jié)果在向量空間中精度很差,尤其是遠(yuǎn)距離的區(qū)域。如下圖所示,車道線(藍(lán)色)和道路邊緣(紅色)在投影到向量空間后位置非常不準(zhǔn),無(wú)法用支持自動(dòng)駕駛的應(yīng)用。

圖像空間的感知結(jié)果(上)及其在向量空間中的投影(下)

二,在多目系統(tǒng)中,由于視野的限制,單個(gè)攝像頭可能無(wú)法看到完整的目標(biāo)。比如,在下圖的例子中,一輛大貨車出現(xiàn)在了一些攝像頭的視野中,但是很多攝像頭都只看到了目標(biāo)的一部分,因此無(wú)法根據(jù)殘缺的信息做出正確的檢測(cè),后續(xù)的融合效果也就無(wú)法保證。這其實(shí)是多傳感器決策層融合的一個(gè)一般性問(wèn)題。

單攝像頭受限的視野 

綜合以上分析,圖像空間感知 + 決策層融合并不是一個(gè)很好的方案

進(jìn)而直接在向量空間中完成融合和感知可以有效地解決以上問(wèn)題,這也是 FSD 感知系統(tǒng)的核心思路。

為了實(shí)現(xiàn)這個(gè)思路,需要解決兩個(gè)重要的問(wèn)題:一,如何將特征從圖像空間變換到向量空間;二,如何得到向量空間中的標(biāo)注數(shù)據(jù)。

特征的空間變換

對(duì)于特征的空間變換問(wèn)題,一般性的做法就是:「利用攝像頭的標(biāo)定信息將圖像像素映射到世界坐標(biāo)系」

但這有一些條件上的問(wèn)題,需要有一定的約束,自動(dòng)駕駛應(yīng)用中通常采用的是地平面約束,也就是目標(biāo)位于地面,而且地面是水平的,這個(gè)約束太強(qiáng)了,在很多場(chǎng)景下無(wú)法滿足。

Tesla 的解決方案,核心有三點(diǎn):

一,通過(guò) Transformer 和自注意力的方式建立圖像空間到向量空間的對(duì)應(yīng)關(guān)系。簡(jiǎn)單說(shuō)就是,向量空間中每一個(gè)位置的特征都可以看作圖像所有位置特征的加權(quán)組合。

當(dāng)然對(duì)應(yīng)位置的權(quán)重肯定大一些,但這個(gè)加權(quán)組合的過(guò)程通過(guò)自注意力和空間編碼來(lái)自動(dòng)的實(shí)現(xiàn),不需要手工設(shè)計(jì),完全根據(jù)需要完成的任務(wù)來(lái)進(jìn)行端對(duì)端的學(xué)習(xí)。

二,在量產(chǎn)車中,每一輛車上攝像頭的標(biāo)定信息都不盡相同,導(dǎo)致輸入數(shù)據(jù)與預(yù)訓(xùn)練的模型不一致。因此,這些標(biāo)定信息需要作為額外的輸入提供給神經(jīng)網(wǎng)絡(luò)

簡(jiǎn)單的做法是,將每個(gè)攝像頭的標(biāo)定信息拼接起來(lái),通過(guò)神經(jīng)網(wǎng)絡(luò)編碼后再輸入給神經(jīng)網(wǎng)絡(luò);但更好的做法是將來(lái)自不同攝像頭的圖像通過(guò)標(biāo)定信息進(jìn)行校正,使不同車輛上對(duì)應(yīng)的攝像頭都輸出一致的圖像。

三,視頻(多幀)輸入被用來(lái)提取時(shí)序信息,以增加輸出結(jié)果的穩(wěn)定性,更好地處理遮擋場(chǎng)景,并且預(yù)測(cè)目標(biāo)的運(yùn)動(dòng)。

這部分還有一個(gè)額外的輸入就是車輛自身的運(yùn)動(dòng)信息(可以通過(guò) IMU 獲得),以支持神經(jīng)網(wǎng)絡(luò)對(duì)齊不同時(shí)間點(diǎn)的特征圖,時(shí)序信息的處理可以采用 3D 卷積,Transformer 或者 RNN。

圖像空間感知(左下) vs. 向量空間感知(右下) 

通過(guò)以上這些算法上的改進(jìn),F(xiàn)SD 在向量空間中的輸出質(zhì)量有了很大的提升。在下面的對(duì)比圖中,下方左側(cè)是來(lái)自圖像空間感知+決策層融合方案的輸出,而下方右側(cè)上述特征空間變換 + 向量空間感知融合的方案。

向量空間中的標(biāo)注

既然是深度學(xué)習(xí)算法,那么數(shù)據(jù)和標(biāo)注自然就是關(guān)鍵環(huán)節(jié),圖像空間中的標(biāo)注非常直觀,但是系統(tǒng)最終需要的是在向量空間中的標(biāo)注。

Tesla 的做法是利用來(lái)自多個(gè)攝像頭的圖像重建 3D 場(chǎng)景,并在 3D 場(chǎng)景下進(jìn)行標(biāo)注,標(biāo)注者只需要在 3D 場(chǎng)景中進(jìn)行一次標(biāo)注,就可以實(shí)時(shí)地看到標(biāo)注結(jié)果在各個(gè)圖像中的映射,從而進(jìn)行相應(yīng)的調(diào)整。

3D 空間中的標(biāo)注

人工標(biāo)注只是整個(gè)標(biāo)注系統(tǒng)的一部分,為了更快更好地獲得標(biāo)注,還需要借助自動(dòng)標(biāo)注和模擬器。

自動(dòng)標(biāo)注系統(tǒng)首先基于單攝像頭的圖像生成標(biāo)注結(jié)果,然后通過(guò)各種空間和時(shí)間的線索將這些結(jié)果整合起來(lái)。形象點(diǎn)說(shuō)就是 「各個(gè)攝像頭湊在一起討論出一個(gè)一致的標(biāo)注結(jié)果」。

除了多個(gè)攝像頭的配合,在路上行駛的多臺(tái) Tesla 車輛也可以對(duì)同一個(gè)場(chǎng)景的標(biāo)注進(jìn)行融合改進(jìn)。當(dāng)然這里還需要 GPS 和 IMU 傳感器來(lái)獲得車輛的位置和姿態(tài),從而將不同車輛的輸出結(jié)果進(jìn)行空間對(duì)齊。

自動(dòng)標(biāo)注可以解決標(biāo)注的效率問(wèn)題,但是對(duì)于一些罕見(jiàn)的場(chǎng)景,比如,中金《人工智能十年展望(三):AI 視角下的自動(dòng)駕駛行業(yè)全解析》報(bào)告中所演示的在高速公路上奔跑的行人,還需要借助模擬器來(lái)生成虛擬數(shù)據(jù)。

以上所有這些技術(shù)組合起來(lái),才構(gòu)成了 Tesla 完整的深度學(xué)習(xí)網(wǎng)絡(luò)、數(shù)據(jù)收集和標(biāo)注系統(tǒng)。

04 毫末智行的 MANA 系統(tǒng)解讀

依托長(zhǎng)城汽車,毫末智行可以獲得海量的真實(shí)路測(cè)數(shù)據(jù),對(duì)于數(shù)據(jù)的處理問(wèn)題,毫末智行也提出將 Transformer 引入到其數(shù)據(jù)智能體系 MANA 中,并逐步應(yīng)用到實(shí)際的道路感知問(wèn)題,比如障礙物檢測(cè)、車道線檢測(cè)、可行駛區(qū)域分割、交通標(biāo)志檢測(cè)等等。

從這一點(diǎn)上就可以看出,量產(chǎn)車企在有了超大數(shù)據(jù)集作為支撐以后,其技術(shù)路線正在走向趨同。

在自動(dòng)駕駛技術(shù)百花齊放的時(shí)代,選擇一條正確的賽道,確立自身技術(shù)的優(yōu)勢(shì),無(wú)論對(duì)于特斯拉還是毫末智行來(lái)說(shuō),都是極其重要的。

在自動(dòng)駕駛技術(shù)的發(fā)展中,一直就對(duì)采用何種傳感器存在爭(zhēng)論。目前爭(zhēng)論的焦點(diǎn)在于是走純視覺(jué)路線還是激光雷達(dá)路線。

特斯拉采用純視覺(jué)方案,這也是基于其百萬(wàn)量級(jí)的車隊(duì)和百億公里級(jí)別的真實(shí)路況數(shù)據(jù)做出的選擇。

而采用激光雷達(dá),主要有兩方面的考慮:

  • 數(shù)據(jù)規(guī)模方面的差距其他自動(dòng)駕駛公司很難填補(bǔ),要獲得競(jìng)爭(zhēng)優(yōu)勢(shì)就必須增加傳感器的感知能力。目前,半固態(tài)的激光雷達(dá)成本已經(jīng)降低到幾百美元的級(jí)別,基本可以滿足量產(chǎn)車型的需求。
  • 從目前的技術(shù)發(fā)展來(lái)看,基于純視覺(jué)的技術(shù)可以滿足 L2/L2+ 級(jí)別的應(yīng)用,但是對(duì)L3/4級(jí)的應(yīng)用(比如RoboTaxi)來(lái)說(shuō),激光雷達(dá)還是必不可少的。

在這種背景下,誰(shuí)能夠既擁有海量數(shù)據(jù),又能同時(shí)支持視覺(jué)和激光雷達(dá)兩種傳感器,那么無(wú)疑會(huì)在競(jìng)爭(zhēng)中占據(jù)先發(fā)的優(yōu)勢(shì)。顯然,毫末智行在這個(gè)方向上已經(jīng)占據(jù)了先機(jī)。

根據(jù)毫末智行 CEO 顧維灝的在 AI Day 上的介紹,MANA 系統(tǒng)采用 Transformer 在底層融合視覺(jué)和激光雷達(dá)數(shù)據(jù),進(jìn)而實(shí)現(xiàn)空間、時(shí)間、傳感器三位一體的深層次感知。

下面我就來(lái)詳細(xì)解讀一下 MANA 系統(tǒng),尤其是與特斯拉 FSD 的差異之處。

視覺(jué)感知模塊

相機(jī)獲取原始數(shù)據(jù)之后,要經(jīng)過(guò) ISP(Image Signal Process)數(shù)字處理過(guò)程后,才能提供給后端的神經(jīng)網(wǎng)絡(luò)使用。

ISP 的功能一般來(lái)說(shuō)是為了獲得更好的視覺(jué)效果,但是神經(jīng)網(wǎng)絡(luò)其實(shí)并不需要真正的「看到」數(shù)據(jù),視覺(jué)效果只是為人類設(shè)計(jì)的。

因此,將 ISP 作為神經(jīng)網(wǎng)絡(luò)的一層,讓神經(jīng)網(wǎng)絡(luò)根據(jù)后端的任務(wù)來(lái)決定 ISP 的參數(shù)并對(duì)相機(jī)進(jìn)行校準(zhǔn),這有利于最大程度上保留原始的圖像信息,也保證采集到的圖像與神經(jīng)網(wǎng)絡(luò)的訓(xùn)練圖像在參數(shù)上盡可能的一致。

處理過(guò)后的圖像數(shù)據(jù)被送入主干網(wǎng)絡(luò) Backbone,毫末采用的 DarkNet 類似于多層的卷積殘差網(wǎng)絡(luò)(ResNet),這也是業(yè)界最常用的主干網(wǎng)絡(luò)結(jié)構(gòu)。

主干網(wǎng)絡(luò)輸出的特征再送到不同的頭(Head)來(lái)完成不同的任務(wù)。

這里的任務(wù)分為三大類:全局任務(wù)(Global Task)、道路任務(wù)(Road Tasks)和目標(biāo)任務(wù)(Object Tasks)。

不同的任務(wù)共用主干網(wǎng)絡(luò)的特征,每個(gè)任務(wù)自己擁有獨(dú)立的 Neck 網(wǎng)絡(luò),用來(lái)提取針對(duì)不同任務(wù)的特征。這與特斯拉 HydraNet 的思路是基本一致的。

但是 MANA 感知系統(tǒng)的特點(diǎn)在于 「為全局任務(wù)設(shè)計(jì)了一個(gè)提取全局信息的 Neck 網(wǎng)絡(luò)」。

這一點(diǎn)其實(shí)是非常重要的,因?yàn)槿秩蝿?wù)(比如可行駛道路的檢測(cè))非常依賴于對(duì)場(chǎng)景的理解,而對(duì)場(chǎng)景的理解又依賴于全局信息的提取。

MANA 系統(tǒng)的視覺(jué)和激光雷達(dá)感知模塊 

激光雷達(dá)感知模塊

激光雷達(dá)感知采用的是 PointPillar 算法,這也是業(yè)界常用的一個(gè)基于點(diǎn)云的三維物體檢測(cè)算法。這個(gè)算法的特點(diǎn)在于:「將三維信息投影到二維(俯視視圖),在二維數(shù)據(jù)上進(jìn)行類似于視覺(jué)任務(wù)中的特征提取和物體檢測(cè)」。

這種做法的優(yōu)點(diǎn)在于避免了計(jì)算量非常大的三維卷積操作,因此,算法的整體速度非常快。PointPillar 也是在點(diǎn)云物體檢測(cè)領(lǐng)域第一個(gè)能夠達(dá)到實(shí)時(shí)處理要求的算法。

在 MANA 之前的版本中,視覺(jué)數(shù)據(jù)和激光雷達(dá)數(shù)據(jù)是分別處理的,融合過(guò)程在各自輸出結(jié)果的層面上完成,也就是自動(dòng)駕駛領(lǐng)域常說(shuō)的 「后融合」。

這樣做可以盡可能地保證兩個(gè)系統(tǒng)之間的獨(dú)立性,并為彼此提供安全冗余。但后融合也導(dǎo)致神經(jīng)網(wǎng)絡(luò)無(wú)法充分利用兩個(gè)異構(gòu)傳感器之間數(shù)據(jù)的互補(bǔ)性,來(lái)學(xué)習(xí)最有價(jià)值的特征。

融合感知模塊

前面提到了一個(gè)三位一體融合的概念,這也是 MANA 感知系統(tǒng)區(qū)別于其他感知系統(tǒng)的關(guān)鍵之處。正如毫末智行 CEO 顧維灝在 AI Day 上所說(shuō):目前大部分的感知系統(tǒng)都存在「時(shí)間上的感知不連續(xù)、空間上的感知碎片化」的問(wèn)題。

MANA 系統(tǒng)的融合感知模塊

時(shí)間上的不連續(xù):是由于系統(tǒng)按照幀為單位進(jìn)行處理,而兩幀之間的時(shí)間間隔可能會(huì)有幾十毫秒,系統(tǒng)更多地關(guān)注單幀的處理結(jié)果,將時(shí)間上的融合作為后處理的步驟。

比如,采用單獨(dú)的物體跟蹤模塊將單幀的物體檢測(cè)結(jié)果串聯(lián)起來(lái),這也是一種后融合策略,因此無(wú)法充分利用時(shí)序上的有用信息。

空間上的碎片化:是由多個(gè)同構(gòu)或異構(gòu)傳感器所在的不同空間坐標(biāo)系導(dǎo)致的。

對(duì)于同構(gòu)傳感器(比如多個(gè)攝像頭)來(lái)說(shuō),由于安裝位置和角度不同,導(dǎo)致其可視范圍(FOV)也不盡相同。每個(gè)傳感器的 FOV 都是有限的,需要把多個(gè)傳感器的數(shù)據(jù)融合在一起,才可以得到車身周圍 360 度的感知能力,這對(duì)于 L2 以上級(jí)別的自動(dòng)駕駛系統(tǒng)來(lái)說(shuō)是非常重要的。

對(duì)于異構(gòu)傳感器(比如攝像頭和激光雷達(dá))來(lái)說(shuō),由于數(shù)據(jù)采集的方式不同,不同傳感器得到的數(shù)據(jù)信息和形式都有很大差別。

攝像頭采集到的是圖像數(shù)據(jù),具有豐富的紋理和語(yǔ)義信息,適合用于物體分類和場(chǎng)景理解;而激光雷達(dá)采集到的是點(diǎn)云數(shù)據(jù),其空間位置信息非常精確,適合用于感知物體的三維信息和檢測(cè)障礙物。

如果系統(tǒng)對(duì)每個(gè)傳感器進(jìn)行單獨(dú)處理,并在處理結(jié)果上進(jìn)行后融合,那么就無(wú)法利用多個(gè)傳感器的數(shù)據(jù)中包含的互補(bǔ)信息。

如何解決這兩個(gè)問(wèn)題呢?

答案是:用 Transformer 做空間和時(shí)間上的前融合。

先說(shuō)空間的前融合

與 Transformer 在一般的視覺(jué)任務(wù)(比如圖像分類和物體檢測(cè))中扮演的角色不同,Transformer 在空間前融合中的主要作用并不是提取特征,而是進(jìn)行坐標(biāo)系的變換。

這與特斯拉所采用的技術(shù)有異曲同工之處,但是毫末進(jìn)一步增加了激光雷達(dá),進(jìn)行多傳感器(跨模態(tài))的前融合,也就是圖 8 中的 Cross-Domain Association 模塊。

上面介紹了 Transformer 的基本工作原理,簡(jiǎn)單來(lái)說(shuō)就是 「計(jì)算輸入數(shù)據(jù)各個(gè)元素之間的相關(guān)性,利用該相關(guān)性進(jìn)行特征提取」。

坐標(biāo)系轉(zhuǎn)換也可以形式化為類似的流程。

比如,將來(lái)自多個(gè)攝像頭的圖像轉(zhuǎn)換到與激光雷達(dá)點(diǎn)云一致的三維空間坐標(biāo)系,那么系統(tǒng)需要做的是找到三維坐標(biāo)系中每個(gè)點(diǎn)與圖像像素的對(duì)應(yīng)關(guān)系。傳統(tǒng)的基于幾何變換的方法會(huì)將三維坐標(biāo)系中的一個(gè)點(diǎn)映射到圖像坐標(biāo)系中的一個(gè)點(diǎn),并利用該圖像點(diǎn)周圍一個(gè)小的鄰域(比如 3x3 像素)來(lái)計(jì)算三維點(diǎn)的像素值。

而 Transformer 則會(huì)建立三維點(diǎn)到每個(gè)圖像點(diǎn)的聯(lián)系,并通過(guò)自注意力機(jī)制,也就是相關(guān)性計(jì)算來(lái)決定哪些圖像點(diǎn)會(huì)被用來(lái)進(jìn)行三維點(diǎn)的像素值。

如圖 9 所示,Transformer 首先編碼圖像特征,然后將其解碼到三維空間,而坐標(biāo)系變換已經(jīng)被嵌入到了自注意力的計(jì)算過(guò)程中。

這種思路打破的傳統(tǒng)方法中對(duì)鄰域的約束,算法可以看到場(chǎng)景中更大的范圍,通過(guò)對(duì)場(chǎng)景的理解來(lái)進(jìn)行坐標(biāo)變換。同時(shí),坐標(biāo)變換的過(guò)程在神經(jīng)網(wǎng)絡(luò)中進(jìn)行,可以由后端所接的具體任務(wù)來(lái)自動(dòng)調(diào)整變換的參數(shù)。

采用 Transformer 進(jìn)行圖像坐標(biāo)系到三維空間坐標(biāo)系的轉(zhuǎn)換 

因此,這個(gè)變換過(guò)程是完全由數(shù)據(jù)驅(qū)動(dòng)的,也是任務(wù)相關(guān)的。在擁有超大數(shù)據(jù)集的前提下,基于 Transformer 來(lái)進(jìn)行空間坐標(biāo)系變換是完全可行的。

再說(shuō)時(shí)間上的前融合

這個(gè)比空間上的前融合更容易理解一些,因?yàn)?Transformer 在設(shè)計(jì)之初就是為了處理時(shí)序數(shù)據(jù)的。

圖 8 中的 Feature Queue 就是空間融合模塊在時(shí)序上的輸出,可以理解為一個(gè)句子中的多個(gè)單詞,這樣就可以自然的采用 Transformer 來(lái)提取時(shí)序特征。相比特斯拉采用 RNN 來(lái)進(jìn)行時(shí)序融合的方案,Transformer 的方案特征提取能力更強(qiáng),但是在運(yùn)行效率上會(huì)低一些。

毫末的方案中也提到了 RNN,相信目前也在進(jìn)行兩種方案的對(duì)比,甚至是進(jìn)行某種程度的結(jié)合,以充分利用兩者的優(yōu)勢(shì)。

除此之外,由于激光雷達(dá)的加持,毫末采用了 SLAM 跟蹤以及光流算法,可以快速的完成自身定位和場(chǎng)景感知,更好的保證時(shí)序上的連貫性。

認(rèn)知模塊

除了感知模塊以外,毫末在認(rèn)知模塊,也就是路徑規(guī)劃部分也有一些特別的設(shè)計(jì)。

顧維灝在 AI Day 上介紹到,認(rèn)知模塊與感知模塊最大的不同在于,認(rèn)知模塊沒(méi)有確定的「尺子」來(lái)衡量其性能的優(yōu)劣,而且認(rèn)知模塊需要考慮的因素比較多,比如安全,舒適和高效,這無(wú)疑也增加了認(rèn)知模塊設(shè)計(jì)的難度。

針對(duì)這些問(wèn)題,毫末的解決方案是場(chǎng)景數(shù)字化和大規(guī)模強(qiáng)化學(xué)習(xí)。

場(chǎng)景數(shù)字化,就是將行駛道路上的不同場(chǎng)景進(jìn)行參數(shù)化的表示。參數(shù)化的好處在于可以對(duì)場(chǎng)景進(jìn)行有效地分類,從而進(jìn)行差異化的處理。

按照不同的粒度,場(chǎng)景參數(shù)分為宏觀和微觀兩種:宏觀的場(chǎng)景參數(shù)包括天氣,光照,路況等;微觀的場(chǎng)景參數(shù)則刻畫了自車的行駛速度,與周圍障礙物的關(guān)系等。

MANA 系統(tǒng)中的宏觀場(chǎng)景聚類 


MANA 系統(tǒng)中的微觀場(chǎng)景(例子是跟車場(chǎng)景) 

在將各種場(chǎng)景數(shù)字化了以后,就可以采用人工智能的算法來(lái)進(jìn)行學(xué)習(xí)。一般情況下,強(qiáng)化學(xué)習(xí)是完成這個(gè)任務(wù)的一個(gè)比較好的選擇。

強(qiáng)化學(xué)習(xí)就是著名的 AlphaGo 中采用的方法,但是與圍棋不同,自動(dòng)駕駛?cè)蝿?wù)的評(píng)價(jià)標(biāo)準(zhǔn)不是輸和贏,而是駕駛的合理性和安全性。

如何對(duì)每一次的駕駛行為進(jìn)行正確地評(píng)價(jià),是認(rèn)知系統(tǒng)中強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)的關(guān)鍵。毫末采取的策略是模擬人類司機(jī)的行為,這也是最快速有效的方法。

當(dāng)然,只有幾個(gè)司機(jī)的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,采用這種策略的基礎(chǔ)也是海量的人工駕駛數(shù)據(jù),而這恰恰又是毫末的優(yōu)勢(shì)所在,這就是基于長(zhǎng)城汽車,毫末在智能駕駛系統(tǒng)上的交付能力會(huì)遠(yuǎn)遠(yuǎn)領(lǐng)先其他對(duì)手,而這背后的核心則是數(shù)據(jù)的收集能力,基于海量的數(shù)據(jù),毫末可以快速迭代算法交付覆蓋更多場(chǎng)景的自動(dòng)駕駛系統(tǒng)。

寫在最后

隨著自動(dòng)駕駛技術(shù)的快速發(fā)展和落地,越來(lái)越多的量產(chǎn)車型上開(kāi)始搭載支持不同級(jí)別自動(dòng)駕駛系統(tǒng)的軟件和硬件。在逐漸向商業(yè)化邁進(jìn)的同時(shí),量產(chǎn)車型的規(guī)模效應(yīng)也可以為自動(dòng)駕駛系統(tǒng)的迭代提供海量的數(shù)據(jù)支持。這也是業(yè)界普遍認(rèn)可的通向高階自動(dòng)駕駛的必經(jīng)之路。

在這種背景下,擁有潛在數(shù)據(jù)優(yōu)勢(shì)的量產(chǎn)車的企業(yè)該如何切入,特斯拉和依托長(zhǎng)城汽車的毫末智行率先給出了方案。兩者的方案既有宏觀的神似之處,也有很多具體策略上的差異,既體現(xiàn)了共識(shí),也展現(xiàn)了個(gè)性。

共識(shí)之處在于,兩家公司都采用了 Transformer 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升在超大數(shù)據(jù)集上的學(xué)習(xí)能力,同時(shí)兩家公司也都認(rèn)為數(shù)據(jù)的采集和自動(dòng)標(biāo)注是整個(gè)算法迭代的重要環(huán)節(jié),并為此進(jìn)行了巨大的投入。

個(gè)性方面,特斯拉采用純視覺(jué)的方案,而毫末采用視覺(jué)加激光雷達(dá)的方案。在激光雷達(dá)量產(chǎn)成本不斷降低的背景下,毫末的方案是具有發(fā)展?jié)摿Φ?。此外,毫末?Transformer 的應(yīng)用上更加深入。

除了融合空間信息以外,Transformer 在 MANA 系統(tǒng)中還被用來(lái)融合時(shí)序和多模態(tài)信息,將系統(tǒng)采集的各種離散數(shù)據(jù)統(tǒng)一起來(lái),形成連貫的數(shù)據(jù)流,以更好地支持后端的不同應(yīng)用。

不管采用何種實(shí)現(xiàn)方案,特斯拉和毫末智行在海量數(shù)據(jù)上進(jìn)行的嘗試對(duì)于自動(dòng)駕駛技術(shù)的發(fā)展和最終落地實(shí)現(xiàn)都是意義重大的。

也希望未來(lái)會(huì)有更多的企業(yè)加入進(jìn)來(lái),嘗試更多不同的可能性,互通有無(wú),互相學(xué)習(xí),甚至共享技術(shù)和數(shù)據(jù),讓自動(dòng)駕駛能夠更好更快地為大眾服務(wù)。

責(zé)任編輯:張燕妮 來(lái)源: 焉知新能源汽車
相關(guān)推薦

2021-12-24 10:33:35

毫末智行RNN自動(dòng)駕駛

2023-02-17 08:54:57

2023-02-13 12:15:41

自動(dòng)駕駛算法

2022-01-04 12:11:42

自動(dòng)駕駛數(shù)據(jù)人工智能

2022-01-13 09:53:04

自動(dòng)駕駛語(yǔ)義分割

2022-04-02 10:53:13

大算力芯片自動(dòng)駕駛

2024-01-03 15:07:10

2023-02-09 15:30:35

特斯拉AI

2021-12-09 09:41:09

小馬智行自動(dòng)駕駛深圳

2022-02-25 15:27:22

特斯拉自動(dòng)駕駛硬件

2024-03-20 10:42:38

毫末AI

2021-07-22 16:01:14

自動(dòng)駕駛汽車行業(yè)智能

2023-03-11 22:44:04

人工智能特斯拉

2023-07-24 09:41:08

自動(dòng)駕駛技術(shù)交通

2022-04-06 11:05:25

自動(dòng)駕駛商業(yè)化馬斯克

2021-12-02 10:08:48

自動(dòng)駕駛數(shù)據(jù)汽車

2021-01-26 21:26:10

自動(dòng)駕駛AI人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)