腦洞大開!用大模型開卡車,還融了2億美元
物理生成式AI駕駛平臺Waabi在官網(wǎng)宣布獲得2億美元,本次由英偉達(NVIDIA)、沃爾沃、保時捷、Uber、Khosla等全球知名企業(yè)投資。
Waabi僅成立3年便獲得4級自主駕駛權限,主要是借助了ChatGPT等生成式AI風口,將其融合在自動駕駛中突破了很多重大技術難點,將在2025年推出無人干預的全自動化運輸卡車。
Waabi開發(fā)了一個端到端的大模型Copilot4D,可以模擬人類的智力、推理和駕駛習慣。相比傳統(tǒng)的自動化駕駛方案所需要的訓練數(shù)據(jù)和算力資源更少,在安全、環(huán)境偵測方面卻有巨大提升,這也是全球為數(shù)不多將生成式AI與自動化駕駛相結合的案例之一。
其實,Waabi起初是一家自動化駕駛平臺,但看到全球生成式AI風口越刮越大并且已經(jīng)進入商業(yè)化落地階段。所以,在今年3月18日官宣與英偉達進行深度技術合作,將NVIDIA DRIVE Thor集成在自動化駕駛技術中,同時轉(zhuǎn)型成為物理生成式AI駕駛平臺。
NVIDIA DRIVE Thor是一個包含從底層硬件GPU、開發(fā)層SDK再到應用層輔助駕駛、自動化駕駛的全套開發(fā)平臺。
其每秒可提供高達254萬億次運算,有12個外部攝像頭、3個內(nèi)部攝像頭、9個雷達、12個超聲波和1個前置激光雷達等,是全球應用最多的自動化駕駛基礎開發(fā)套件之一。
NVIDIA DRIVE Thor體驗地址:https://www.nvidia.com/en-us/self-driving-cars/in-vehicle-computing/
Copilot4D模型簡單介紹
除了借助英偉達強大的開發(fā)生態(tài)之外,Waabi與多倫多大學的研究人員聯(lián)合開發(fā)了,通過離散擴散學習自動駕駛的無監(jiān)督世界模型——Copilot4D。
Copilot4D是一個專為自動駕駛領域開發(fā)的大模型,其核心技術是將觀察標記化,通過向量量化變分自編碼器(VQVAE)將連續(xù)的傳感器數(shù)據(jù),如激光雷達點云,轉(zhuǎn)換為離散的標記。
這種轉(zhuǎn)換不僅簡化了數(shù)據(jù)表示,VQVAE也能將輸入數(shù)據(jù)映射到有限的離散潛在空間中,有效地將高維、連續(xù)的數(shù)據(jù)壓縮為低維、離散的表示,從而降低了模型的復雜度并使得數(shù)據(jù)可以被高效地解碼和去噪。
在這些離散標記的基礎上,Copilot4D采用了一種新穎的離散擴散模型來預測未來的觀察結果,通過在數(shù)據(jù)中逐步引入噪聲,然后學習逆向過程以去除噪聲并重構數(shù)據(jù)。
與傳統(tǒng)的擴散模型相比,離散擴散模型專門針對離散數(shù)據(jù)設計,能夠更加高效地處理經(jīng)過標記化的數(shù)據(jù)。
為了捕捉環(huán)境的動態(tài)變化,Copilot4D引入了時空變換器,基于Transformer架構在空間和時間維度上交替應用注意力機制。這種設計使得模型不僅能夠理解車輛在道路上的運動模式和行人的行走路徑,還能夠在不同時間步驟的標記之間建立聯(lián)系,生成連貫的未來環(huán)境預測。
在生成過程中,Copilot4D使用了分類器自由擴散引導(Classifier-Free Diffusion Guidance, 簡稱CFG)技術,通過調(diào)整模型的輸出分布來增強生成數(shù)據(jù)的質(zhì)量和多樣性。
CFG可利用過去的代理歷史,例如,過去的觀察和行動,來引導未來的預測,從而顯著提高了環(huán)境的預測準確性和可靠性。
Copilot4D在多個自動駕駛數(shù)據(jù)集上NuScenes、KITTI Odometry和Argoverse2進行了評測。在1秒內(nèi)的預測中,Copilot4D相比之前最佳方法將Chamfer距離(一種衡量點云間相似度的指標)降低了65%—75%。
而在3秒預測時也降低了超過50%,整體性能非常強悍,這也是被Waabi應用在自動化卡車駕駛中的主要原因之一。
物理生成式AI
在獲得巨額融資后,Waabi聯(lián)合創(chuàng)始人兼CEO Raquel Urtasun發(fā)表了一篇長文,介紹了物理世界中的生成式AI。
Raquel介紹技術
她表示,近兩年生成式AI取得了令人驚嘆的進步,ChatGPT通過了法律專業(yè)律師考試、專業(yè)醫(yī)師考試,Midjourney生成的圖片可以和專業(yè)設計師相媲美,Suno生成的音樂來頂級音樂人都贊不絕口。
但這些成就都是在虛擬世界完成的,我們該如何將其引入到現(xiàn)實的物理世界中呢?但引入的過程并不容易,首先,物理世界對安全的要求極高,幾乎不能出現(xiàn)半點錯誤,例如,在自動化駕駛卡車中如果大模型對環(huán)境的判斷、預測不準確,很容易出現(xiàn)嚴重的車禍事故。
其次,移動的卡車受限于環(huán)境,無法像超級算力矩陣那樣提供源源不斷的算力,只能在有限的空間內(nèi)來完成部署和使用,這就對模型的性能有著極高的要求。
為了解決這些難題,Waabi開發(fā)了適用于物理世界的大模型,這是一種前所未有的突破。它不僅能感知這個真實的物理世界,創(chuàng)建可解釋的安全規(guī)則,還能以人類的方式進行推理,找出最佳的駕駛解決方案。
長距離的大型卡車駕駛是一個枯燥,容易讓人疲憊的職業(yè),同時隨著全球勞動力的下降,有安全經(jīng)驗的卡車司機正在逐年下降。
Waabi希望通過將生成式AI引入到自動化駕駛中,打造一批安全、可靠的“數(shù)字駕駛員”幫助企業(yè)解決運輸鏈難題,同時降低勞動成本。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
