自動(dòng)駕駛行業(yè)現(xiàn)狀,端到端大模型,訓(xùn)練,數(shù)據(jù)合成方法
自動(dòng)駕駛行業(yè)現(xiàn)狀
1、當(dāng)前行業(yè)主要玩家有
第一梯隊(duì)有:華為,momenta,元戎
第二梯隊(duì)有:鑒智, 絕影智能等
2、主機(jī)廠現(xiàn)在都要求自動(dòng)駕駛廠商白盒交付,本質(zhì)上就是前兩年依賴供應(yīng)商,后面打算自己做。 整個(gè)行業(yè)基本上是賠本賺吆喝的階段。沒有收入,每年還要自己投入幾個(gè)億進(jìn)行模型的訓(xùn)練,人才等。
3、行業(yè)競(jìng)爭(zhēng)非常激烈,獨(dú)立的自動(dòng)駕駛廠商未來可能存活的不會(huì)超過 5 家。未來的格局大概率是頭部tier1廠商+主機(jī)廠自己。
4、可能存活的玩家有華為,momenta,小馬智行等等。
自動(dòng)駕駛分級(jí)
自動(dòng)駕駛分為 6 級(jí)。
L0至L2級(jí)為駕駛輔助,現(xiàn)階段多家車企提出的“智駕平權(quán)”,都屬于L2級(jí)范疇,駕駛員需全程監(jiān)控駕駛。
從L3級(jí)開始,就進(jìn)入了自動(dòng)駕駛的范疇,屬于有條件自動(dòng)駕駛,緊急情況下需要駕駛員接管車輛;
而L4級(jí)和L5級(jí)則分別代表高度自動(dòng)駕駛和完全自動(dòng)駕駛,車輛幾乎可以在所有場(chǎng)景下自主運(yùn)行。
自動(dòng)駕駛模型以及端到端大模型是什么
1、主流的自動(dòng)駕駛架構(gòu)分為三個(gè)部分,感知,決策和執(zhí)行三大模塊。
2、感知模型復(fù)制物體識(shí)別。決策和執(zhí)行負(fù)責(zé)執(zhí)行指令,包括汽車的操作,車內(nèi)控制等。傳統(tǒng)方案通過感知模型感知物體,然后通過寫各種規(guī)則進(jìn)行決策和執(zhí)行。這一個(gè)比較大的問題就是很難窮盡所有的場(chǎng)景,進(jìn)化也非常消耗人力。
3、大模型出來之后,業(yè)界也都在訓(xùn)練端到端大模型,就是感知模型和決策和執(zhí)行模型到一起。理論上只需要不停的灌數(shù)據(jù),模型就不停的升級(jí)。
4、自動(dòng)駕駛模型參數(shù)量一般是 7B~12B,相比幾百 B 的大語言模型非常小。
激光雷達(dá)方案和純視覺方案
激光雷達(dá)方案是通過發(fā)射激光束并接收反射信號(hào),生成高精度的三維環(huán)境地圖,并與其他傳感器(如攝像頭、雷達(dá))結(jié)合使用,形成多傳感器融合的感知系統(tǒng)。
優(yōu)勢(shì)在于可靠性、高精度感知和全天候性能;缺點(diǎn)也顯而易見,就是成本高昂。另外,激光雷達(dá)通常體積較大、功耗高,對(duì)于產(chǎn)品設(shè)計(jì)和能源管理要求很高。
相比之下,純視覺方案主要依賴攝像頭作為核心傳感器,通過計(jì)算機(jī)視覺算法對(duì)攝像頭捕捉到的圖像進(jìn)行處理,識(shí)別道路上的車輛、行人、交通標(biāo)志、信號(hào)燈等物體,并基于這些信息做出駕駛決策。
核心在于深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò),通過大量的數(shù)據(jù)訓(xùn)練,逐步提升系統(tǒng)對(duì)復(fù)雜環(huán)境的理解能力。優(yōu)勢(shì)在于成本較低、技術(shù)成熟和數(shù)據(jù)豐富,缺點(diǎn)在于受環(huán)境影響較大,精度有限,對(duì)于計(jì)算資源需求高。
自動(dòng)駕駛數(shù)據(jù)采集和訓(xùn)練方法
一般是通過采集車去采集各種道路數(shù)據(jù),這個(gè)有專門的團(tuán)隊(duì)去負(fù)責(zé)這個(gè)事情。
采集車的設(shè)備一般比量產(chǎn)車的設(shè)備精度要更高,獲得數(shù)據(jù)更多。
用這些數(shù)據(jù)去訓(xùn)練自動(dòng)駕駛模型,然后量產(chǎn)車上更低的精度的數(shù)據(jù)作為輸入,進(jìn)行推理。
數(shù)據(jù)合成方法
物理采集有非常多多限制,典型比如各種下雨天場(chǎng)景,或者限速比較容易采集 80,120,但是有些特別的場(chǎng)景比如限速 30,40。就比較難采集。需要用到數(shù)據(jù)合成的方法。
典型的一個(gè)自動(dòng)駕駛公司 40PB 圖片視頻數(shù)據(jù),80% 靠采集,20% 靠合成。
合成數(shù)據(jù)也是用到模型,合成感知模型數(shù)據(jù)的模型叫世界大模型,合成規(guī)劃控制的叫規(guī)控模型。
自動(dòng)駕駛廠商,算法工程師,PM 需要把 corner case 找出來,然后用世界大模型,規(guī)控模型合成相應(yīng)的數(shù)據(jù)然后再 fine tune 自動(dòng)駕駛模型。
自動(dòng)駕駛需要用到的數(shù)據(jù)處理相關(guān)工作
視頻,圖片數(shù)據(jù)需要處理的比較少。主要有處理的部分有:
1、采集數(shù)據(jù)不清晰,需要過濾能力。
2、多模態(tài)檢索能力,算法工程師,PM 需要將一定場(chǎng)景的視頻數(shù)據(jù)通過檢索,挖掘出來用于合成之后,進(jìn)行二次訓(xùn)練。
3、對(duì)場(chǎng)景驚醒均勻化,比如前面提到的限速問題。
所以綜合來說,自動(dòng)駕駛行業(yè)主要用到的是數(shù)據(jù)管理,多模態(tài)檢索的能力。