馬斯克直播試駕特斯拉FSD V12!世界首個端到端AI自動駕駛,1萬塊H100訓練
當?shù)貢r間8月26日,馬斯克親自上線開啟了一場FSD Beta V12試駕直播,引百萬人現(xiàn)場圍觀。
據(jù)稱,F(xiàn)SD Beta V12是有史以來第一個端到端AI自動駕駛系統(tǒng)(Full AI End-to-End),是特斯拉最重要的一次升級。
直播45分鐘,F(xiàn)SD Beta V12系統(tǒng)在行駛全程進展非常順利,能夠輕松繞過障礙物,識別道路各種標志。
馬斯克激動地表示:
V12系統(tǒng)從頭到尾都是通過AI實現(xiàn)。我們沒有編程,沒有程序員寫一行代碼來識別道路、行人等,全部交給了神經(jīng)網(wǎng)絡。
具體來說,V12的C++代碼控制減少了10倍,從2萬多行減少到2千行。
獨特的地方在于,特斯拉99%的決策都交給神經(jīng)網(wǎng)絡給出,視覺輸入,控制輸出,就像人類大腦一樣。
另外,它所擁有的超強能力,是經(jīng)過巨量的「視頻數(shù)據(jù)」、1萬個H100加持下完成的。
不過,直播中,V12出現(xiàn)僅有一次的小失誤,試圖闖過紅燈,讓人類去主動干預。馬斯克現(xiàn)場來了個緊急剎車。
馬斯克表示,F(xiàn)SD Beta V12仍在調(diào)試中,因此還沒有確定正式發(fā)布的時間。
馬斯克:我們沒有編程
馬斯克這場實時直播,出發(fā)點是特斯拉總部。
馬斯克單手開啟特斯拉Model S后,全程45分鐘,自己舉著手機錄下V12的行駛全程。
馬斯克在地圖上隨機選擇了一個目的地——斯坦福??纯碫12是如何帶他去往第一個目的地。
行駛中,馬斯克稱,特斯拉遇到的這些建筑、道路標志,是從未見過的。雖然離總部很近,但是對其來說還是新事物。
走到交叉路口時,特斯拉主動停了下來,并耐心等待信號燈變化。
馬斯克笑著調(diào)侃道,它做到了!
綠燈后,特斯拉平穩(wěn)地進行了左轉。
馬斯克表示,這完全是通過人工智能和攝像頭實現(xiàn)的,就如同我們大腦運作方式一樣,對應之為神經(jīng)網(wǎng)絡和眼睛。
遇到減速帶時,V12讓汽車緩慢行駛。
馬斯克激動地稱,沒有一行代碼讓特斯拉,在停車標志處停車,或等待另一輛車,沒有「等待x秒」之類代碼。這都是神經(jīng)網(wǎng)絡,除了神經(jīng)網(wǎng)絡什么也沒有。
說著說著,第一個目的地斯坦福到了。馬斯克還是惦記著和小扎來場籠斗,因此第二個目的——小扎的家。
然后,他輸入了小扎家的地址,讓V12加持的特斯拉帶路。
路上,特斯拉繞著一個環(huán)形交叉路口行駛時,V12再次展示了頂級水平。
在等待前兩輛車開走后,然后決定轉彎行駛。
這里,馬斯克再次重申道,團隊從未對環(huán)形交叉路口的概念進行編程。我們剛剛向它展示了一堆關于環(huán)形交叉路口的視頻。
簡之,V12是通過大量的視頻訓練數(shù)據(jù)來實現(xiàn)這一目標。
FSD AI現(xiàn)在只輸入大量視頻,以便識別在不同情況下需要做什么,而不是對每個道路元素或情況進行單獨編碼。
這使得特斯拉能夠省去FSD V12中的數(shù)十萬行代碼,使其更加輕便、更靈活,同時它仍然可以在不熟悉的地形上無需數(shù)據(jù)連接的情況下工作。
馬斯克介紹,所有這些都是在Tesla HW3上完成的,推理計算功率約為100瓦。所有推理無需網(wǎng)絡連接,在本地進行。顯然這是必要的,如果沒有互聯(lián)網(wǎng)連接,你就無法安全駕駛。
停車后,馬斯克還談到了特斯拉的幀率。
我們正在以全幀率運行。8個攝像頭以每秒36幀的速度進行拍攝。純AI版本比「普通軟件和人工智能混合」的版本運行得更好更快。
事實上,它的拍攝速度將超過每秒36幀,只是攝像頭只能達到36 fps。據(jù)我們推算,它可能以每秒50幀的速度拍攝,實際路況基本上只需要每秒24幀,F(xiàn)SD V12就可以正常工作。
小扎的家到了,馬斯克沒有下車,反而轉身決定去下一個目的地Palo Alto。
直播中,馬斯克還展示了V12到達目的地后,自動將車停到合適的位置。
「視頻數(shù)據(jù)」直接訓AI
馬斯克曾表示,F(xiàn)SD V12將成為4級自動駕駛系統(tǒng)。
在今年6月底,馬斯克就宣稱,Tesla的自動駕駛FSD V12版本將不會再是測試版。
直播演示中,馬斯克也提到了對于通過AI訓練視頻數(shù)據(jù)來實現(xiàn)自動駕駛這個方向可能面對的挑戰(zhàn)。
「僅僅因為沒有代碼行并不意味著它不可控?,F(xiàn)在只需擁有數(shù)據(jù),你仍然可以實現(xiàn)控制?!?/span>
首先是,訓練視頻的質量非常重要,所以只能用優(yōu)秀司機的駕駛視頻來訓練,而不能用技術不好的司機的數(shù)據(jù)。
當前,已經(jīng)有相當多的軟件可以實現(xiàn)選擇什么數(shù)據(jù)、訓練什么數(shù)據(jù)。
所以數(shù)據(jù)量不重要,數(shù)據(jù)的質量才是提供安全自動駕駛技術的關鍵。
對于汽車來說,能夠運行的軟件很小,但后端訓練的軟件要大得多,更加復雜。
因此,V12系統(tǒng)使用了Python的普通軟件來決定從隊列中選擇哪些數(shù)據(jù),然后確定什么是高質量數(shù)據(jù),什么是相當好的數(shù)據(jù)。
一旦有了AI模型,還可以將這些模型以「影子模式」(shadow mode)傳送到系統(tǒng)上,然后每次它與用戶所做的事情不一致時,特斯拉都會得到數(shù)據(jù),這比僅僅收集隨機數(shù)據(jù)更有價值。
用V12的FSD可以識別人像,只要傳一張照片,然后告訴汽車你在星巴克門口。車到了之后會找到你,接你上車。因為它可以自動找到星巴克,然后根據(jù)照片找到乘客。
馬斯克表示,我們實際上對系統(tǒng)擁有一個非常快速的良性循環(huán)反饋感到興奮。
當人類對汽車進行干預時,干預行為就會自動上傳,訓練與訓練相結合,然后實際上只是更新權重。
在V12的編程中,特斯拉團隊并沒有加入交通信號燈概念,而存在于V11的普通堆棧中。
汽車能夠流暢行駛,主要是基于視頻訓練。
「我們已經(jīng)從V11的顯式控制堆棧中的超過300,000行C++進行了轉換,而在V12中基本上沒有這些內(nèi)容」。
還有一個有趣的困難是,對于停車問題,因為人類在遇到停車標識時不會真的停下來,只會降到很低的速度,大概只有不到1%的駕駛員會完全讓車停下來。
但是監(jiān)管機構要求必須完全停下來,這樣就必須專門訓練FSD在這些情況下完全停車。
直播中唯一一次干預,是由于搭載了V12系統(tǒng)的Modle S在遇到紅燈時并沒有停下來。
對此,馬斯克現(xiàn)場表示,我們只需要再多喂一些包含大量交通信號燈的視頻,問題就能解決了。
未來兩周,特斯拉將會發(fā)布在后臺運行的Shadow Moon,能夠對行駛狀況進行檢查。
另外,馬斯克提到這套系統(tǒng)有一個問題是如何應對低能見度的駕駛條件。
因為特斯拉所在總部加州從不下雨,所以需要世界各地各種天氣條件的駕駛視頻進行訓練。
目前,F(xiàn)SD V12在全球有12名試駕人員,遍布新西蘭、泰國、挪威和日本等地。
1萬個H100訓練,Infiniband比GPU還缺
他還在試駕直播之前串進了WholeMars的Space,和里面的開會的網(wǎng)友聊了10多分鐘,為自己的直播預熱。
網(wǎng)友看到他進來了,就不自覺地開始采訪他,他也順勢打開了話匣子,和網(wǎng)友聊了聊自己馬上要進行的直播和相關的問題。
首先他說特斯拉已經(jīng)馬上要上線由10000塊H100組成的GPU集群,來訓練新版本的FSD系統(tǒng)。
現(xiàn)在訓練過程基本上都要全完依賴英偉達的GPU,只有很少一部分會使用自己的超算Dojo。
而目前他們遇到的最大技術困難是需要像Infiniband那樣的高速網(wǎng)絡連接來并行更大的算力。
GPU雖然短缺,但是至少有改善的希望,但是現(xiàn)在支持Infiniband設備短缺比GPU的短缺還嚴重。
大規(guī)模密集型的計算集群之間的數(shù)據(jù)交換會很困難。
而對于英偉達的依賴會持續(xù)很長的時間。
聊著聊著,馬斯克又不自覺地進入了地球球長的角色,說到:
而長遠來看,未來人類會成為強計算依賴的文明,有80%-90%的能源消耗在計算之上。
所以改善現(xiàn)有計算基礎設施的能效比是很重要的事情。
Transformer的能效比不太好,效率也不高,用戶使用的延遲過長,需要進一步的優(yōu)化。
GPU的能耗比也不太好,而且現(xiàn)在像H100這樣的GPU已經(jīng)不會輸出圖像了,所以叫GPU已經(jīng)不太合適了。
馬斯克還在推上表示,使用自回歸Transfomer的LLM能效極差,不僅在訓練中如此,在推理中也是如此。我認為它偏離了幾個數(shù)量級。
接下來,馬斯克就開始為他即將進行的直播造勢,聊起了自己將演示FSD V 12的上路直播。
他反復強調(diào)Tesla在新版FSD的加持之下,將會帶來非常順滑的乘坐體驗。
能夠模擬優(yōu)秀的司機來駕駛汽車,不會像之前的系統(tǒng)一樣偶爾顯得像一個新手開車一樣。
聊到這里,他拂袖而去,最后只留下一句話,讓大家趕緊去看他馬上開始的自動駕駛的直播。
不得不說,公關流量這一塊,馬老板玩得是明明白白的!
網(wǎng)友熱議
看完這次的直播之后網(wǎng)友紛紛表示,一切看起來都很nice!
不用聯(lián)網(wǎng)實在是太棒了。
還有人稱,簡直就是DriveGPT。
目前看來沒有任何自動駕駛技術能接近這個表現(xiàn)。
但也有網(wǎng)友表示,V12的新任務是接受亞洲交通的考驗,并上了一段中國某路口的視頻......
這位網(wǎng)友貼心地總結出了他認為視頻中的亮點:
特斯拉的推理只需要100w的功率支持,不用聯(lián)網(wǎng)
能自動處理環(huán)島,自行車,行人。
所有的訓練都是基于英偉達的GPU和Dojo,而且AI駕駛連地圖都不需要,只需要GPS數(shù)據(jù)就行。