數(shù)據(jù)閉環(huán)研究:自動(dòng)駕駛發(fā)展從技術(shù)驅(qū)動(dòng)轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)
佐思汽研發(fā)布《2022年中國(guó)自動(dòng)駕駛數(shù)據(jù)閉環(huán)研究報(bào)告》。
一、自動(dòng)駕駛發(fā)展逐步從技術(shù)驅(qū)動(dòng)轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)
如今,自動(dòng)駕駛傳感器方案及計(jì)算平臺(tái)已日趨同質(zhì)化,供應(yīng)商技術(shù)差距日益收窄。近兩年自動(dòng)駕駛技術(shù)迭代飛速推進(jìn),量產(chǎn)落地加速。根據(jù)佐思數(shù)據(jù)中心,2021年,國(guó)內(nèi)L2級(jí)輔助駕駛乘用車上險(xiǎn)量累計(jì)達(dá)479.0萬(wàn)輛,同比增長(zhǎng) 58.0%。2022年1-6月,中國(guó)L2級(jí)輔助駕駛在乘用車新車市場(chǎng)滲透率攀升至32.4%。
對(duì)于自動(dòng)駕駛而言,數(shù)據(jù)貫穿研發(fā)、測(cè)試、量產(chǎn)、運(yùn)營(yíng)維護(hù)等全生命周期。伴隨智能網(wǎng)聯(lián)汽車傳感器數(shù)量的快速增加,ADAS和自動(dòng)駕駛車輛數(shù)據(jù)的生成量也呈現(xiàn)指數(shù)級(jí)增長(zhǎng),從GB到TB、PB、EB直至將來的ZB。以數(shù)據(jù)驅(qū)動(dòng)的汽車進(jìn)化,滿足用戶個(gè)性化的需求,車企才能走實(shí)走遠(yuǎn)。
根據(jù)《汽車采集數(shù)據(jù)處理安全指南》,汽車采集數(shù)據(jù)是指汽車傳感設(shè)備、控制單元采集的數(shù)據(jù),以及對(duì)其進(jìn)行加工后產(chǎn)生的數(shù)據(jù),可細(xì)分為車外數(shù)據(jù)、座艙數(shù)據(jù)、運(yùn)行數(shù)據(jù)和位置軌跡數(shù)據(jù)等。
根據(jù)網(wǎng)信辦2021年8月頒布的《汽車數(shù)據(jù)安全管理若干規(guī)定(試行)》對(duì)汽車數(shù)據(jù)收集、分析、存儲(chǔ)、傳輸、查詢、應(yīng)用、刪除等全流程做了詳細(xì)的規(guī)定。在開展汽車數(shù)據(jù)處理過程中堅(jiān)持“車內(nèi)處理”、“默認(rèn)不收集”、“精度范圍適用”、“脫敏處理”等數(shù)據(jù)處理原則,減少對(duì)汽車數(shù)據(jù)的無序收集和違規(guī)濫用。在自動(dòng)駕駛技術(shù)開發(fā)過程中,數(shù)據(jù)收集及處理等首先要合法合規(guī)。
數(shù)據(jù)采集/清洗
從汽車攝像頭、毫米波雷達(dá)、激光雷達(dá)及超聲波雷達(dá)收集來的大量非結(jié)構(gòu)化數(shù)據(jù)(圖像、視頻、語(yǔ)音)可能是原始的和混亂的。為使數(shù)據(jù)有意義,需對(duì)其進(jìn)行清理、結(jié)構(gòu)化與整理。首先將來自多個(gè)來源的數(shù)據(jù)導(dǎo)入適當(dāng)?shù)拇鎯?chǔ)庫(kù),標(biāo)準(zhǔn)化數(shù)據(jù)格式,并根據(jù)相關(guān)規(guī)則進(jìn)行聚合。而后檢查損壞、重復(fù)或丟失的數(shù)據(jù)點(diǎn),并丟棄可能影響數(shù)據(jù)集整體質(zhì)量的不需要的數(shù)據(jù)。最后,用標(biāo)簽對(duì)在不同條件下捕獲的視頻進(jìn)行分類,例如白天、夜晚、晴天、下雨等。此步驟提供了對(duì)將用于訓(xùn)練、驗(yàn)證的清洗后的結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)標(biāo)注
對(duì)數(shù)據(jù)采集后經(jīng)過清洗的結(jié)構(gòu)化數(shù)據(jù)需要進(jìn)行標(biāo)注。標(biāo)注是將編碼值分配給原始數(shù)據(jù)的過程。編碼值包括但不限于分配類標(biāo)簽、繪制邊界框和標(biāo)記對(duì)象邊界。需要高質(zhì)量的標(biāo)注來教授監(jiān)督學(xué)習(xí)模型對(duì)象是什么以及測(cè)量訓(xùn)練模型的性能。
在自動(dòng)駕駛領(lǐng)域,數(shù)據(jù)標(biāo)注處理的場(chǎng)景通常包括換道超車、通過路口、無紅綠燈控制的無保護(hù)左轉(zhuǎn)、右轉(zhuǎn),以及一些復(fù)雜的長(zhǎng)尾場(chǎng)景諸如闖紅燈車輛、橫穿馬路的行人、路邊違章??康能囕v等。
常用的標(biāo)注工具包括圖片通用拉框、車道線標(biāo)注、駕駛員面部標(biāo)注、3D點(diǎn)云標(biāo)注、2D/3D融合標(biāo)注、全景語(yǔ)義分割等。由于大數(shù)據(jù)的發(fā)展和大型數(shù)據(jù)集數(shù)量的增加,數(shù)據(jù)標(biāo)注工具的使用不斷迅速擴(kuò)大。
數(shù)據(jù)傳輸
如今,數(shù)據(jù)采集的頻率已進(jìn)入毫秒級(jí)別,需要的是數(shù)千個(gè)信號(hào)維度(如總線信號(hào)、傳感器內(nèi)部狀態(tài)、軟件埋點(diǎn)、用戶行為及環(huán)境感知數(shù)據(jù)等)的高精度數(shù)據(jù),同時(shí)避免數(shù)據(jù)丟失、亂序、跳變及延時(shí),并在高精度高質(zhì)量前提下,極大壓縮傳輸/存儲(chǔ)成本。車聯(lián)網(wǎng)數(shù)據(jù)的上下行鏈路比較長(zhǎng)(從車端MCU、DCU、網(wǎng)關(guān)、4G/5G到云端)需要保證各鏈路節(jié)點(diǎn)的數(shù)據(jù)傳輸質(zhì)量。
針對(duì)數(shù)據(jù)傳輸?shù)男伦兓?,部分企業(yè)已能提供高效的數(shù)據(jù)采集及車云一體傳輸方案,例如智協(xié)慧同EXCEEDDATA靈活數(shù)采平臺(tái)方案,在車端邊緣計(jì)算環(huán)境基于實(shí)時(shí)數(shù)據(jù),實(shí)現(xiàn)了10毫秒級(jí)實(shí)時(shí)運(yùn)算,用于觸發(fā)靈活數(shù)據(jù)采集上傳功能,上傳的數(shù)據(jù)已經(jīng)經(jīng)過計(jì)算和篩選,顯著降低上傳的數(shù)據(jù)量。此外對(duì)車端原始信號(hào)進(jìn)行100-300倍無損壓縮和存儲(chǔ),云端管理平臺(tái)保存無損高壓縮比的車端高質(zhì)量信號(hào), 支持?jǐn)?shù)采算法的下發(fā)、多種采集模式的觸發(fā)、采集數(shù)據(jù)實(shí)時(shí)上傳到業(yè)務(wù)桌面的一鍵式下載,按車輛、按事件、按時(shí)間段等多重靈活篩選,隨用隨解,存算分離,實(shí)現(xiàn)了車云同構(gòu)的數(shù)據(jù)采集-計(jì)算-上傳-加工的閉環(huán);2021年,國(guó)內(nèi)首個(gè)搭載智協(xié)慧同EXCEEDDATA解決方案的量產(chǎn)車型已落地(高合HiPhiX)。
來源:智協(xié)慧同
數(shù)據(jù)存儲(chǔ)
為更清晰感知周圍環(huán)境,自動(dòng)駕駛汽車增配更多傳感器,并生成大量數(shù)據(jù)。一些高等級(jí)自動(dòng)駕駛系統(tǒng)甚至配置40多個(gè)各類傳感器,對(duì)車輛周邊360°環(huán)境準(zhǔn)確感知。自動(dòng)駕駛系統(tǒng)的研發(fā)需經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)匯聚、清洗標(biāo)記、模型訓(xùn)練、模擬仿真、大數(shù)據(jù)分析等多個(gè)環(huán)節(jié),期間涉及對(duì)海量數(shù)據(jù)的匯聚存儲(chǔ),不同環(huán)節(jié)不同系統(tǒng)之間的數(shù)據(jù)流轉(zhuǎn),以及模型訓(xùn)練時(shí)對(duì)海量數(shù)據(jù)的讀寫。數(shù)據(jù)面臨存儲(chǔ)瓶頸的新挑戰(zhàn)。
為此,眾多云服務(wù)提供商在這方面的技術(shù)和能力成為了幫助車企制勝的關(guān)鍵。比如亞馬遜云科技AWS以自動(dòng)駕駛數(shù)據(jù)湖為中心,助力車企構(gòu)建起端到端的自動(dòng)駕駛數(shù)據(jù)閉環(huán)。借助Amazon Simple Storage Service (Amazon S3,云上對(duì)象存儲(chǔ)服務(wù))構(gòu)建自動(dòng)駕駛數(shù)據(jù)湖,實(shí)現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)管理和分析、數(shù)據(jù)標(biāo)注、模型和算法開發(fā)、仿真驗(yàn)證、地圖開發(fā)以及DevOps和MLOps,車企能更加容易地實(shí)現(xiàn)自動(dòng)駕駛?cè)鞒痰拈_發(fā)、測(cè)試和應(yīng)用。
來源:AWS
在國(guó)內(nèi)的科技巨頭中,以百度數(shù)據(jù)閉環(huán)解決方案為例,其數(shù)據(jù)存儲(chǔ)提供路側(cè)及車輛多源數(shù)據(jù)信息的數(shù)據(jù)檢索服務(wù),用于業(yè)務(wù)平臺(tái)的海量數(shù)據(jù)查找,具備多維度檢索(車輛信息、里程數(shù)、自動(dòng)駕駛時(shí)長(zhǎng)等)、數(shù)據(jù)生產(chǎn)到銷毀的整個(gè)生命周期的管理、支持全景數(shù)據(jù)視圖、數(shù)據(jù)溯源和數(shù)據(jù)開放共享等優(yōu)勢(shì)。
百度自動(dòng)駕駛數(shù)據(jù)閉環(huán)解決方案架構(gòu)
來源:百度
二、自動(dòng)駕駛高效開發(fā)需構(gòu)建數(shù)據(jù)閉環(huán)系統(tǒng)
自動(dòng)駕駛發(fā)展從技術(shù)驅(qū)動(dòng)轉(zhuǎn)向了數(shù)據(jù)驅(qū)動(dòng),但是數(shù)據(jù)驅(qū)動(dòng)的商業(yè)模式面臨諸多困難。
海量數(shù)據(jù)處理難:高等級(jí)自動(dòng)駕駛測(cè)試車每天采集的數(shù)據(jù)量是TB級(jí)別的,開發(fā)團(tuán)隊(duì)需要PB級(jí)的存儲(chǔ)空間,但這些數(shù)據(jù)中,可用于訓(xùn)練的價(jià)值數(shù)據(jù)約只占不到5%。且對(duì)車載攝像頭、激光雷達(dá)、高精定位等傳感器采集的數(shù)據(jù)還有嚴(yán)格的安全合規(guī)要求,無疑對(duì)海量數(shù)據(jù)的接入、存儲(chǔ)、脫敏、處理等帶來了極大的挑戰(zhàn)。
數(shù)據(jù)標(biāo)注成本高:數(shù)據(jù)標(biāo)注占據(jù)了大量的人力和時(shí)間成本。隨自動(dòng)駕駛高階能力的發(fā)展,場(chǎng)景復(fù)雜度持續(xù)提升,會(huì)出現(xiàn)更多的難例場(chǎng)景。而提升車輛感知模型的精度,則對(duì)訓(xùn)練數(shù)據(jù)集的規(guī)模和質(zhì)量提出了更高要求。傳統(tǒng)人工標(biāo)注在效率和成本方面,已難以滿足模型訓(xùn)練對(duì)海量數(shù)據(jù)集的需求。
仿真測(cè)試效率低:虛擬仿真是加速自動(dòng)駕駛算法訓(xùn)練的有效手段,但仿真場(chǎng)景構(gòu)建難、還原度低,尤其是一些復(fù)雜、危險(xiǎn)場(chǎng)景,很難構(gòu)建。加之并行仿真能力不足,仿真測(cè)試的效率低,算法的迭代周期過長(zhǎng)。
高精地圖覆蓋少:高精地圖主要還是靠自采集、自制圖,僅滿足試驗(yàn)階段指定道路的場(chǎng)景。后續(xù)要走向商用,擴(kuò)展到全國(guó)各大城市的城區(qū)街道,在覆蓋、動(dòng)態(tài)更新,以及成本和效率方面都面臨著非常突出的挑戰(zhàn)。
為了解決各種困難和問題,自動(dòng)駕駛高效開發(fā)需構(gòu)建高效的數(shù)據(jù)閉環(huán)系統(tǒng)。
來源:福瑞泰克
就自動(dòng)駕駛數(shù)據(jù)閉環(huán)而言,在自動(dòng)駕駛落地過程中需要不斷解決Corner Cases,為此必須擁有足夠多的數(shù)據(jù)樣本以及便捷的車端驗(yàn)證方式。影子模式就是解決Corner Cases的最佳解決方案之一。
影子模式由特斯拉2019年4月提出并應(yīng)用到車端,進(jìn)行相關(guān)決策的對(duì)比和觸發(fā)數(shù)據(jù)上傳。利用售出車輛上的自動(dòng)駕駛軟件持續(xù)記錄傳感器探測(cè)的數(shù)據(jù),在適當(dāng)時(shí)間選擇性回傳用于機(jī)器學(xué)習(xí)、改進(jìn)原來的自動(dòng)駕駛算法。
Dojo超級(jí)計(jì)算機(jī)能利用海量視頻數(shù)據(jù),做無人監(jiān)管標(biāo)注和訓(xùn)練。
2021年特斯拉全球交付93.62萬(wàn)輛汽車,其中中國(guó)工廠交付了48.41萬(wàn)輛。2022年上半年交付56萬(wàn)輛。特斯拉利用量產(chǎn)優(yōu)勢(shì),通過影子模式不斷優(yōu)化算法。利用影子模式,通過百萬(wàn)已售車輛做測(cè)試車輛,對(duì)周圍感知以及特殊路況進(jìn)行捕捉,不斷強(qiáng)化對(duì)于不確定性事件的預(yù)測(cè)和規(guī)避、學(xué)習(xí)能力。因?yàn)橛邪偃f(wàn)量級(jí)的已售車輛支撐,覆蓋的Corner Cases及極端工況就會(huì)更全面,靈活觸發(fā)式采集的高質(zhì)量數(shù)據(jù)能迭代出更優(yōu)質(zhì)的算法,而算法迭代的卓越度又決定著軟件的價(jià)值。從軟件升級(jí)訂閱服務(wù)來講,數(shù)據(jù)閉環(huán)的爆發(fā)力才剛剛嶄露頭角。
三、數(shù)據(jù)閉環(huán)成為自動(dòng)駕駛迭代升級(jí)的核心
自動(dòng)駕駛系統(tǒng)不斷迭代的前提是算法的持續(xù)優(yōu)化,而算法的卓越度又取決于數(shù)據(jù)閉環(huán)系統(tǒng)的效能,數(shù)據(jù)在自動(dòng)駕駛開發(fā)每個(gè)場(chǎng)景的高效能流轉(zhuǎn)至關(guān)重要,數(shù)據(jù)智能化將成為加速自動(dòng)駕駛量產(chǎn)的關(guān)鍵。
2021年12月,毫末智行正式發(fā)布了國(guó)內(nèi)首個(gè)自動(dòng)駕駛數(shù)據(jù)智能體系MANA雪湖,從感知、認(rèn)知、標(biāo)注、仿真、計(jì)算五大能力方面加速自動(dòng)駕駛技術(shù)的演進(jìn)。未來三年毫末輔助駕駛系統(tǒng)可搭載超100萬(wàn)臺(tái)乘用車。毫末智行依靠其全自研的自動(dòng)駕駛系統(tǒng),在數(shù)據(jù)的積累、處理、應(yīng)用上取得了顯著優(yōu)勢(shì)。海量數(shù)據(jù)帶來技術(shù)迭代優(yōu)勢(shì)。降本增效優(yōu)勢(shì)明顯。
再比如,Momenta實(shí)現(xiàn)了領(lǐng)先的全流程數(shù)據(jù)驅(qū)動(dòng)的技術(shù)能力,包括感知、融合、預(yù)測(cè)和規(guī)控等算法模塊都可以通過數(shù)據(jù)驅(qū)動(dòng)的方式高效的迭代與更新。其閉環(huán)自動(dòng)化(Closed Loop Automation)是一整套讓數(shù)據(jù)流推動(dòng)數(shù)據(jù)驅(qū)動(dòng)的算法自動(dòng)迭代的工具鏈。CLA能自動(dòng)篩選出海量黃金數(shù)據(jù),驅(qū)動(dòng)算法的自動(dòng)迭代,讓自動(dòng)駕駛飛輪越轉(zhuǎn)越快。
來源:Momenta
軟件定義汽車背景下,數(shù)據(jù)、算法和算力是自動(dòng)駕駛開發(fā)的三駕馬車。車企研發(fā)周期縮短、功能迭代加速,未來能夠持續(xù)地低成本、高效率、高效能收集數(shù)據(jù),并通過真實(shí)數(shù)據(jù)迭代算法,最終形成數(shù)據(jù)閉環(huán)及商業(yè)閉環(huán)是自動(dòng)駕駛企業(yè)可持續(xù)發(fā)展的關(guān)鍵所在。