很突然、很驚艷,馬斯克公布特斯拉人形機(jī)器人,自研超算Dojo亮相
特斯拉的自動(dòng)化能力很強(qiáng),不用來造機(jī)器人就太浪費(fèi)了。
「非常抱歉,我們?cè)庥隽艘稽c(diǎn)技術(shù)問題,希望以后這可以用 AI 來解決?!菇裉斓幕顒?dòng)延遲了半個(gè)多小時(shí),伊隆 · 馬斯克這樣做了開場(chǎng)白。
北京時(shí)間 8 月 20 日上午,萬眾矚目的「特斯拉 AI 日」開始了。在活動(dòng)上,伊隆 · 馬斯克向全世界展示了特斯拉在自研超級(jí)計(jì)算機(jī) Dojo、FSD 軟件等內(nèi)容上的最新進(jìn)展。
按照馬斯克本人的說法,吸引最好的 AI 人才加入特斯拉似乎是本次活動(dòng)的唯一目標(biāo)。
當(dāng)然,這次發(fā)布向世人宣告的遠(yuǎn)不止于此,有關(guān)通用機(jī)器人的計(jì)劃讓我們始料未及。

純視覺自動(dòng)駕駛系統(tǒng)和 HydraNets
首先,特斯拉最被人們關(guān)注的是自動(dòng)駕駛技術(shù)。
特斯拉一直標(biāo)榜自己的電動(dòng)車具備高度自動(dòng)化的輔助駕駛能力,7 月 10 日,F(xiàn)SD(Fully Self Driving,全自動(dòng)輔助駕駛系統(tǒng))軟件迎來更新。不過當(dāng)時(shí),更新僅限于特斯拉搶先體驗(yàn)計(jì)劃用戶,這些用戶可以進(jìn)行 FSD Beta V9 版本測(cè)試,其最大亮點(diǎn)是基于攝像頭和 AI 智能算法的純視覺自動(dòng)輔助駕駛技術(shù)路線,而不依賴于雷達(dá)傳感器。
7 月 31 日,特斯拉正式推送 FSD 的最新版本 FSD Beta V9.1,這是首個(gè)使用「特斯拉視覺」的先進(jìn)司機(jī)輔助駕駛套件。8 月 16 日,特斯拉又推送了 FSD Beta V9.2 版本。
特斯拉 AI 總監(jiān) Andrej Karpathy 博士介紹了這種基于視覺的自動(dòng)駕駛系統(tǒng):它通過八個(gè)攝像頭的數(shù)據(jù)輸入(1280×960 12-Bit HDR 36Hz)進(jìn)單個(gè)神經(jīng)網(wǎng)絡(luò)中,整合成 3D 環(huán)境的感知,這被稱為 Vector Space。
「AI 可以被視為生物,它是從頭開始構(gòu)建的,包括其合成視覺皮層?!?/p>
當(dāng)特斯拉在汽車中設(shè)計(jì)視覺皮層時(shí),他們從頭設(shè)計(jì)了神經(jīng)網(wǎng)絡(luò),按照生物視覺方法去建模,并利用多頭路線,其中包括相機(jī)校準(zhǔn)、緩存、隊(duì)列和優(yōu)化以簡(jiǎn)化所有任務(wù)。
特斯拉從主干網(wǎng)絡(luò)中獲取數(shù)據(jù),并將有用的信息輸入到不同的任務(wù)中(比如目標(biāo)檢測(cè)、交通信號(hào)燈和車道預(yù)測(cè)),同時(shí)拋棄其他內(nèi)容,避免浪費(fèi)算力。
特斯拉的自動(dòng)駕駛算法是從識(shí)別單張圖片的普通計(jì)算機(jī)視覺算法開始的,雖然每個(gè)攝像頭的單獨(dú)檢測(cè)效果很棒,但這顯然不夠?,F(xiàn)在的純視覺算法「HydraNets」基于不同攝像頭的視覺內(nèi)容進(jìn)行識(shí)別的,而且訓(xùn)練和推斷是端到端的。
該算法將多個(gè)攝像頭的視覺內(nèi)容轉(zhuǎn)變?yōu)橄蛄靠臻g和道路特征。
多攝像頭網(wǎng)絡(luò)的效果值得肯定,盡管只是數(shù)量上的增加,但卻可能成為解決預(yù)測(cè)問題的關(guān)鍵之處。該網(wǎng)絡(luò)生成的周圍景觀預(yù)測(cè)很大程度上提高了自動(dòng)駕駛系統(tǒng)的穩(wěn)健性。
紅綠燈左轉(zhuǎn)是對(duì)于自動(dòng)駕駛的巨大挑戰(zhàn),當(dāng)車輛在道路上行駛并通過交叉路口時(shí),神經(jīng)網(wǎng)絡(luò)會(huì)通過 Spacial RNN 進(jìn)行預(yù)測(cè)。并在虛擬環(huán)境中進(jìn)行多次模擬,以進(jìn)一步改善路徑規(guī)劃和理解。
在算法模擬的單元空間中,每一個(gè) unit 都是一個(gè) RNN,并隨著車輛的運(yùn)動(dòng)更新。
Karpathy 指出,特斯拉現(xiàn)在的 FSD 戰(zhàn)略是更具凝聚力的。事實(shí)證明,特斯拉的車輛可以有效地繪制實(shí)時(shí)地圖。與 Super Cruise 和 Waymo 等汽車及軟件領(lǐng)域的競(jìng)爭(zhēng)對(duì)手的預(yù)繪制地圖策略相比,這是一個(gè)巨大的差異。
自動(dòng)駕駛軟件總監(jiān) Ashok Elluswamy 介紹了混合規(guī)劃系統(tǒng),以 Autopilot 如何變道為例,當(dāng)與其他汽車并排行駛時(shí),Autopilot 不僅要考慮它們的駕駛方式,還必須考慮其他汽車的運(yùn)行方式。
在狹窄的過道周圍進(jìn)行規(guī)劃時(shí),重要的是要考慮其他駕駛員及其行為,例如在必要時(shí)讓行:
Karpathy 還提到了數(shù)據(jù)標(biāo)注問題。他指出,外包給第三方公司的手動(dòng)標(biāo)簽并不是最佳選擇,本著垂直整合的精神,特斯拉選擇建立自己的標(biāo)注團(tuán)隊(duì)。
一開始,特斯拉使用的是 2D 圖像標(biāo)簽。最終,特斯拉轉(zhuǎn)向了 4D 標(biāo)簽,可以在向量空間中進(jìn)行標(biāo)注。但是這還不夠,自動(dòng)標(biāo)注技術(shù)得到了發(fā)展。
有太多的標(biāo)簽需要完成標(biāo)注,而讓人們手動(dòng)來完成是不可能的。特斯拉自動(dòng)駕駛軟件負(fù)責(zé)人 Ashok Elluswamy 展示了道路和道路上的其他物品是如何從一輛正在行駛的汽車中「重建」出來的。這有效地讓特斯拉能夠更快地標(biāo)記數(shù)據(jù),同時(shí)允許車輛即使在存在遮擋的情況下也能安全準(zhǔn)確地導(dǎo)航。
甚至在對(duì)比度過高,攝像頭采集的圖像不夠清晰時(shí),特斯拉還使用神經(jīng)網(wǎng)絡(luò)對(duì)畫面進(jìn)行了增強(qiáng)。
Ashok 指出,這些策略最終幫助特斯拉將雷達(dá)從 FSD 和 Autopilot 套件中淘汰,并采用了純視覺模型。雷達(dá) + 攝像頭系統(tǒng)與純視覺之間的比較顯示了該公司當(dāng)前的戰(zhàn)略有多精細(xì)。同時(shí)他也談到了仿真如何幫助特斯拉開發(fā)其自動(dòng)駕駛系統(tǒng)。盡管特斯拉專注于現(xiàn)實(shí)世界的數(shù)據(jù),但它也使用仿真。
特斯拉利用一個(gè)新的仿真程序 (用他們自己的話說,就是 Autopilot 扮演玩家的視頻游戲) 來測(cè)試邊緣情況和其他可能遇到的問題。
神秘超算 Dojo:革命性架構(gòu)
DOJO,這次特斯拉 AI 日的最大看點(diǎn),最終也沒有讓人失望。
2020 年 8 月,馬斯克表示,該公司正在研發(fā)一款名為「Dojo」的神經(jīng)網(wǎng)絡(luò)訓(xùn)練超級(jí)計(jì)算機(jī),將主要處理從特斯拉汽車在路上獲得的海量視頻數(shù)據(jù)。馬斯克發(fā)推稱:「Dojo V1.0 還未完成,估計(jì)還需要一年的時(shí)間。不僅僅是芯片本身的研發(fā)難度,能效和冷卻問題也非常的難?!?/p>
幾個(gè)月后,馬斯克又補(bǔ)充道:「Dojo 采用我們自研的芯片和為神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化的計(jì)算架構(gòu),而非 GPU 集群。盡管可能是不準(zhǔn)確的,但是我認(rèn)為 Dojo 將會(huì)是世界上最棒的超算。」
今天,特斯拉終于揭開了 Dojo 計(jì)算機(jī)芯片的神秘面紗。它采用了創(chuàng)新的架構(gòu),將算力分布在復(fù)雜的網(wǎng)絡(luò)構(gòu)造中,實(shí)現(xiàn)了極高的算力、高帶寬、低延遲的網(wǎng)絡(luò)吞吐量。
Dojo 的設(shè)計(jì)是從芯片開始從頭做起的。Dojo 的訓(xùn)練 CPU 屬于 ASIC 芯片,專注于人工智能訓(xùn)練,采用 7 納米制程,可以實(shí)現(xiàn) 1024GFLOPS 的 BF16 算力,在芯片周圍的四向都有 4TB/s 的傳輸帶寬。
特斯拉宣稱它的效率超過了現(xiàn)有的 GPU 和 TPU,其主要的優(yōu)勢(shì)是在帶寬上。
Dojo 用所有力量做一件事:使自動(dòng)駕駛汽車成為可能。它是一個(gè)純粹的機(jī)器學(xué)習(xí)機(jī)器,以現(xiàn)有芯片和服務(wù)器的思路看,它的規(guī)格堪稱「瘋狂」:首先把 50 萬個(gè)訓(xùn)練節(jié)點(diǎn)集合在一起,每個(gè)區(qū)塊都有 9 petaflops 的算力,每秒 36 TB 的區(qū)塊外帶寬。
但這只是 Dojo 的冰山一角。在應(yīng)用時(shí),120 個(gè)這樣的 D1 芯片區(qū)塊被整合為一個(gè) ExaPOD,顧名思義,它有每秒超過 1 億億次的運(yùn)算能力(10 的 18 次方),這是目前世界上最快的 AI 訓(xùn)練計(jì)算機(jī)。與業(yè)內(nèi)其他產(chǎn)品相比,在同樣的成本上,ExaPOD 的性能要高 4 倍,能耗比高 1.3 倍,占用空間縮小了 5 倍。

「我們很快就會(huì)組裝起第一臺(tái)這樣的服務(wù)器,這樣的設(shè)備可以無限鏈接?!固厮估?Dojo 項(xiàng)目負(fù)責(zé)人 Ganesh Venkataramanan 表示,Dojo 有望成為地球上最強(qiáng)大的超級(jí)計(jì)算機(jī)之一。
這些芯片可以幫助 AI 模型利用特斯拉汽車上的攝像頭收集到的視頻,進(jìn)而識(shí)別各種內(nèi)容?!肝覀儜?yīng)該在明年讓 Dojo 投入運(yùn)營(yíng),」馬斯克說道。
與此同時(shí),特斯拉還圍繞這套計(jì)算系統(tǒng)構(gòu)建了完整的軟件堆棧,深度學(xué)習(xí)框架用的是 PyTorch。
此外,特斯拉還計(jì)劃讓下一代 Dojo 性能再提升 10 倍。
特斯拉人形機(jī)器人
以上都是此前劇透過的信息,但還有 one more thing,特斯拉要造人形機(jī)器人。
在幾張幻燈片中,我們可以了解到 Tesla Bot 的一些信息。首先,這款機(jī)器人可以用在特斯拉的自動(dòng)駕駛汽車上,它能學(xué)會(huì)使用我們?cè)隈{駛汽車時(shí)所操作的所有裝置。然后,你就可以吩咐它去商店買東西…… 馬斯克認(rèn)為,人形機(jī)器人「會(huì)對(duì)未來經(jīng)濟(jì)產(chǎn)生深遠(yuǎn)影響」。
它的身高大概是 1.72 米(5 英尺 8 英寸),重約 125 磅,身材勻稱,還帶有一張面部屏幕能夠以約 5 英里 / 小時(shí)的速度移動(dòng)。
這款機(jī)器人的第一個(gè)實(shí)體版本或?qū)⒃诿髂昝媸溃O(shè)計(jì)初衷就是用來處理那些「不安全、重復(fù)的、無聊的工作」。馬斯克說:「我認(rèn)為在未來,體力工作會(huì)是一種選擇,你愿意的話也可以,不愿意的話也行。」
這仿佛代表了馬斯克的某種設(shè)想:「制造類人機(jī)器人是特斯拉下一個(gè)必然要投入的方向?!巩吘顾J(rèn)真地說過,特斯拉已經(jīng)是「世界上最大的機(jī)器人公司」。
當(dāng)然,特斯拉機(jī)器人目前還只是一個(gè)設(shè)想,我們距離全能機(jī)器人管家的距離,要比自動(dòng)駕駛汽車更遠(yuǎn)。
在最后,QA 環(huán)節(jié)的第一個(gè)問題有點(diǎn)幽默:「特斯拉會(huì)擁抱開源嗎?」
馬斯克的回答是:「這些東西都是花費(fèi)了巨資研制的,所以我不太確定要不要開源?!沟绻渌嚬鞠胍@得 Autopilot 的許可,那是可以做到的。
但正如 SpaceX 和特斯拉此前所做的一樣,馬斯克的公司經(jīng)常能讓先進(jìn)技術(shù)變得越來越便宜。不知在未來,人形機(jī)器人是否也會(huì)很快有一個(gè)親民的價(jià)格?
【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】