搭載激光雷達(dá),德儀芯片的現(xiàn)代L3自動(dòng)駕駛架構(gòu)剖析
圖片來源:互聯(lián)網(wǎng)
明年上市的現(xiàn)代G90和GV80將是現(xiàn)代汽車L3級(jí)自動(dòng)駕駛車型,當(dāng)然,L3級(jí)自動(dòng)駕駛是選配的。圖中是測(cè)試原型車,很明顯可以看到兩個(gè)激光雷達(dá)。
G90自動(dòng)駕駛諜照車
圖片來源:互聯(lián)網(wǎng)
這是在韓國(guó)首爾拍攝到的G90自動(dòng)駕駛諜照車,激光雷達(dá)似乎是后加的。
搭載激光雷達(dá)的G90諜照
圖片來源:互聯(lián)網(wǎng)
標(biāo)準(zhǔn)版G90諜照
圖片來源:互聯(lián)網(wǎng)
現(xiàn)代汽車的全球銷量穩(wěn)居600萬輛之上,2020年銷量下滑12%,但仍達(dá)635萬輛,算單獨(dú)廠家不算聯(lián)盟的話,現(xiàn)代汽車銷量第三,比第四名的通用汽車略高,因此現(xiàn)代汽車的自動(dòng)駕駛還是值得一看的。
圖片來源:互聯(lián)網(wǎng)
L3級(jí)自動(dòng)駕駛傳感器布局如上。激光雷達(dá)方面,現(xiàn)代汽車旗下子公司現(xiàn)代摩比斯曾經(jīng)5千萬美元投資老牌激光雷達(dá)公司Velodyne,并且與Velodyne研發(fā)量產(chǎn)低價(jià)激光雷達(dá),現(xiàn)代摩比斯代工Velodyne的激光雷達(dá),但比較遙遠(yuǎn),現(xiàn)代汽車沒有選擇Velodyne的激光雷達(dá),而是選擇更老的法雷奧激光雷達(dá),即二代Scala。
圖片來源:互聯(lián)網(wǎng)
更詳細(xì)的參數(shù)如下。
圖片來源:互聯(lián)網(wǎng)
有效距離的參數(shù)尤其精密,不像大多數(shù)廠家簡(jiǎn)單說一個(gè)幾百米,沒有限定條件的參數(shù)毫無意義。在正前方,掃描密度有所增加,特別為雙激光雷達(dá)設(shè)計(jì)。
圖片來源:互聯(lián)網(wǎng)
L3系統(tǒng)計(jì)算架構(gòu)如上圖。與大多數(shù)廠家不同,現(xiàn)代的方案力求低成本,連前視攝像頭FR CMR居然用CAN-FD總線連接,而不是常見的以太網(wǎng)或SerDes,因此像素必然很低,估計(jì)不超過150萬像素。FR RDR是前主毫米波雷達(dá),F(xiàn)R C RDR和RR C RDR是4個(gè)角毫米波雷達(dá)。FR C LDR LH為左激光雷達(dá),F(xiàn)R C LDR RH為右激光雷達(dá)。CCIC是中控與儀表一體的座艙顯示屏,CCU實(shí)際是TCU,做OTA升級(jí)的。用韓文標(biāo)注的那個(gè)是debug用的,量產(chǎn)時(shí)不存在。PHY是物理層芯片,大概率會(huì)是Marvell的88Q211,使用了7個(gè)PHY,大概要105-140美元。兩個(gè)以太網(wǎng)交換機(jī),大概率會(huì)是Marvell的88Q5050。MCU是英飛凌的TC397XP,目前缺貨嚴(yán)重。
盡管是L3,仍然是雙系統(tǒng)設(shè)計(jì),且有兩套供電系統(tǒng)。如果換了其他廠家肯定會(huì)說是L4。右側(cè)的方框是主系統(tǒng),左側(cè)的是緊急備份系統(tǒng)。實(shí)際上是三套,還有一套自動(dòng)泊車。這套系統(tǒng)應(yīng)該是現(xiàn)代和Aptiv合資的Motional設(shè)計(jì)并生產(chǎn)的。
圖片來源:互聯(lián)網(wǎng)
先看備份系統(tǒng),CPU是英特爾的Denverton,也就是Atom C3000系列,C3000系列只有三款是16核,即C3950、C3955和C3958。其中C3950的TDP功率最低,只有24瓦,C3958是31瓦,C3955是32瓦,現(xiàn)代大概率會(huì)選擇C3958。C3000系列主要面向IoT領(lǐng)域,不是針對(duì)汽車領(lǐng)域,而針對(duì)汽車領(lǐng)域的是A3900系列。不過兩者應(yīng)該高度相似,均屬于Atom3000系列。與A3900系列不同,C3000系列不帶GPU,只有CPU。C3950目前零售價(jià)大約160美元,大量采購(gòu)估計(jì)在100美元左右。
4核@2.0GHz的A3950的CPU算力為42160 DMIPS,C3958是16核@2.0GHz,算力應(yīng)該為168.6K,大致略高于高通5納米的SA8295,不過C3958是14納米。此外X86的亂序執(zhí)行能力比ARM要高不少,雖然DMIPS相當(dāng),但實(shí)際表現(xiàn)上X86很多時(shí)候都會(huì)比較好。寶馬的L3系統(tǒng)也是選擇了Denverton,估計(jì)也是16核,在傳統(tǒng)激光雷達(dá)ICP算法中,主要靠CPU出力,這或許是為什么選擇Denverton的原因。
主系統(tǒng)的核心元件是德州儀器的TDA4VMID,這是德州儀器針對(duì)ADAS和自動(dòng)泊車推出的芯片,目前量產(chǎn)的僅一款即TDA4VMID,還有兩款在2022年上半年有樣片,一款是TDA4VMID Plus,一款是TDA4VLow。一片算力不夠的話,可以4片并聯(lián)。
圖片來源:互聯(lián)網(wǎng)
2022年德州儀器還有一款TDA4AH提供樣片,這是德州儀器的旗艦芯片,采用8個(gè)A72@2.4GHz,算力達(dá)100KDMIPS,4個(gè)MMA,算力為36TOPS@INT8,4個(gè)C7x DSP,算力為320GFLOPS。
TDA4VMID內(nèi)部框架圖
圖片來源:互聯(lián)網(wǎng)
TDA4VMID采用兩個(gè)A72,算力大約25KDMIPS,1個(gè)MMA,算力為8TOPS,1個(gè)C7x DSP,算力80GFLOPS,1個(gè)GE8430,算力100GFLOPS。從板子看現(xiàn)代L3應(yīng)該是采用了4片TDA4VMID,總CPU算力有100K,NPU有32TOPS,也算不錯(cuò)了。
圖片來源:互聯(lián)網(wǎng)
3個(gè)ARM Cortex-R5F實(shí)時(shí)鎖步系統(tǒng),讓整體芯片達(dá)到ASIL-D級(jí)。
圖片來源:互聯(lián)網(wǎng)
預(yù)裝與底層抽象層MCAL關(guān)聯(lián)的Autosar驅(qū)動(dòng),由Vector開發(fā)。
圖片來源:互聯(lián)網(wǎng)
預(yù)裝KPIT開發(fā)的AUTOSAR,包括網(wǎng)關(guān)、安全島、OTA、V2X、診斷、IPC通訊。
圖片來源:互聯(lián)網(wǎng)
深度學(xué)習(xí)方面,德州儀器開發(fā)了TI Deep Learning (TIDL),對(duì)三大推理深度學(xué)習(xí)模型都做了優(yōu)化,尤其是微軟的開放式神經(jīng)網(wǎng)絡(luò)交換ONNX。硬件方面,DSP增加了MMA即矩陣乘法加速器。
DSP在深度學(xué)習(xí)方面有一個(gè)NPU之類加速器無法比擬的優(yōu)勢(shì),那就是DSP采用了哈佛結(jié)構(gòu),將存儲(chǔ)器空間劃分成兩個(gè),分別存儲(chǔ)指令和數(shù)據(jù)。它們有兩組總線連接到處理器核,允許同時(shí)對(duì)它們進(jìn)行訪問,每個(gè)存儲(chǔ)器獨(dú)立編址,獨(dú)立訪問。這種安排將處理器的數(shù)據(jù)吞吐率加倍,更重要的是同時(shí)為處理器核提供數(shù)據(jù)與指令。
在這種布局下,DSP得以實(shí)現(xiàn)單周期的MAC指令。除DSP外的包括NPU一般都采用馮諾依曼架構(gòu),數(shù)據(jù)和程序共用總線和存儲(chǔ)空間,在深度學(xué)習(xí)推理的卷積運(yùn)算中,一條指令同時(shí)取兩個(gè)操作數(shù),在流水線處理時(shí),同時(shí)還有一個(gè)取指操作,如果程序和數(shù)據(jù)通過一條總線訪問,取指和取數(shù)必會(huì)產(chǎn)生沖突,而這對(duì)大運(yùn)算量的循環(huán)的執(zhí)行效率是很不利的。
哈佛結(jié)構(gòu)能基本上解決取指和取數(shù)的沖突問題。它沒有存儲(chǔ)的瓶頸,并且是天生的流水線架構(gòu)。最終的結(jié)果是DSP的深度學(xué)習(xí)推理加速算力值是幾乎不含水分的,而NPU專用的深度學(xué)習(xí)推理加速表現(xiàn)不穩(wěn)定,需要高度定制化,軟硬一體,在針對(duì)其架構(gòu)開發(fā)的某個(gè)模型上,加速器的利用率有90%,但是換一個(gè)模型,可能只有10%或5%,例如英偉達(dá)的Orin,其理想算力如果是254TOPS,但在某些模型上,算力會(huì)下降到12.7TOPS。實(shí)際考慮到存儲(chǔ)瓶頸,沒有一個(gè)馮諾依曼架構(gòu)的加速器能達(dá)到理想值的80%。DSP的通用性強(qiáng),任何模型都有90%的利用率。
現(xiàn)代的L3系統(tǒng)不依賴深度學(xué)習(xí)算力,更多依賴CPU和傳統(tǒng)可確定可解釋算法,可靠性遠(yuǎn)比依賴深度學(xué)習(xí)這種不確定不可解釋算法的自動(dòng)駕駛系統(tǒng)要高得多。
TDAV4MID的視覺加速管線
圖片來源:互聯(lián)網(wǎng)