AI無(wú)人機(jī)競(jìng)速擊敗人類冠軍,Nature封面:將AlphaGo成果帶到物理世界
AI再一次擊敗人類世界冠軍,登上Nature封面。
與上一次AlphaGo下圍棋不同,這次不是腦力運(yùn)動(dòng),而是在真實(shí)物理環(huán)境中的競(jìng)技體育項(xiàng)目——“空中F1”無(wú)人機(jī)競(jìng)速。
與AlphaGo也有相同之處,核心技術(shù)都是深度強(qiáng)化學(xué)習(xí)。
成果來(lái)自蘇黎世大學(xué),作者之一Davide Scaramuzza認(rèn)為,這是國(guó)際象棋的深藍(lán)、圍棋的AlphaGo之后的又一大突破。
這標(biāo)志著自主移動(dòng)機(jī)器人首次在為人類設(shè)計(jì)并由人類設(shè)計(jì)的物理環(huán)境體育運(yùn)動(dòng)中擊敗人類冠軍。
微軟高級(jí)研究工程師Shital Shah認(rèn)為這比AlphaGo更難,也更難獲得認(rèn)可,但仍是歷史性的里程碑。
深度強(qiáng)化學(xué)習(xí),又一次勝利
先介紹一下這個(gè)運(yùn)動(dòng)項(xiàng)目:FPV(第一人稱視角)無(wú)人機(jī)競(jìng)速。
人類選手會(huì)通過(guò)機(jī)載攝像頭傳輸?shù)囊曨l,從無(wú)人機(jī)的視角觀察環(huán)境,穿越障礙。
賽道由七個(gè)方形大門組成,每一圈都必須按順序通過(guò)。要贏得比賽,參賽者必須連續(xù)領(lǐng)先對(duì)手完成三圈。
兩臺(tái)無(wú)人機(jī)同時(shí)出發(fā),正面對(duì)決,最高速度可達(dá)每小時(shí)100公里,同時(shí)承受數(shù)倍于重力的加速度。
這次與AI同臺(tái)的是2019年無(wú)人機(jī)競(jìng)速聯(lián)盟世界冠軍Alex Vanover、MultiGP國(guó)際公開賽世界杯冠軍Thomas Bitmatta和三屆瑞士全國(guó)冠軍Marvin Schaepper。
對(duì)AI來(lái)說(shuō),要達(dá)到專業(yè)人類選手的水平非常有挑戰(zhàn)性,因?yàn)闊o(wú)人機(jī)需要在物理極限下飛行,同時(shí)僅通過(guò)機(jī)載傳感器估計(jì)速度和位置。
為解決這些挑戰(zhàn),蘇黎世大學(xué)設(shè)計(jì)了Swift,由兩個(gè)關(guān)鍵模塊組成:
- 感知系統(tǒng),將高維視覺信息和慣性信息轉(zhuǎn)換為低維表示。
- 控制策略,感知系統(tǒng)產(chǎn)生的低維表示并產(chǎn)生控制命令。
其中,感知系統(tǒng)主要是一個(gè)VIO(Visual-Inertial Odometry)模塊,同時(shí)利用視覺和慣性傳感器對(duì)自身定位和對(duì)環(huán)境建模。
VIO估計(jì)與神經(jīng)網(wǎng)絡(luò)相結(jié)合,用于檢測(cè)障礙門的四個(gè)角點(diǎn)。
控制策略是一個(gè)前饋神經(jīng)網(wǎng)絡(luò),使用無(wú)模型的On-policy深度強(qiáng)化學(xué)習(xí)進(jìn)行模擬訓(xùn)練,獎(jiǎng)勵(lì)目標(biāo)結(jié)合了向下一個(gè)門的中心前進(jìn),和保持下一個(gè)門在攝像機(jī)視野內(nèi)。
為了彌合模擬和物理世界之間感知和動(dòng)力學(xué)上的差距,使用了從物理系統(tǒng)中收集的數(shù)據(jù),驅(qū)動(dòng)一個(gè)MLP殘差模型。
在比賽開始前,人類選手在指定賽道上有一周的練習(xí)時(shí)間,賽道包含“Split-S”等高難度機(jī)動(dòng)動(dòng)作。
具體規(guī)則還有:由聲學(xué)信號(hào)(發(fā)令槍)開啟比賽,如果發(fā)生碰撞也可以繼續(xù)比賽,如果兩架無(wú)人機(jī)都?jí)嬄鋭t飛得遠(yuǎn)的獲勝。
最終在與三位人類選手的比賽中,Swift分別拿下了9局5勝,7局4勝,和9局6勝的成績(jī)。
在Swift輸?shù)舻谋荣愔?,?0%是因?yàn)榕c對(duì)手發(fā)生碰撞,40%是因?yàn)榕c門發(fā)生碰撞,20%是因?yàn)樗俣缺热祟惵?/p>
Swift還在比賽中取得最快記錄,人類選手的最佳時(shí)間領(lǐng)先半秒。
在累計(jì)300圈的數(shù)據(jù)中,Swift平均時(shí)間更短,方差更低,代表AI每圈都穩(wěn)定追求更快圈速。
而人類則會(huì)在自己領(lǐng)先時(shí)保持一個(gè)較慢的速度,降低碰撞的風(fēng)險(xiǎn),表現(xiàn)出更大的方差。
這也體現(xiàn)出當(dāng)前的Swift系統(tǒng)無(wú)法得知對(duì)手的情況,在領(lǐng)先時(shí)不夠穩(wěn),落后時(shí)又不夠浪。
AI與人類選手,哪里不同?
在論文中,團(tuán)隊(duì)還討論了AI與人類選手的更多對(duì)比。
首先,Swift利用了機(jī)載慣性傳感器,這類似于人類的前庭系統(tǒng)。
但反而是人類在這個(gè)項(xiàng)目上無(wú)法使用前庭系統(tǒng),因?yàn)樗麄儾浑S無(wú)人機(jī)一起移動(dòng),感受不到加速度。
另外,Swift的傳感器延遲更低為40毫秒,專業(yè)人類選手平均能做到220毫秒。
但Swift的攝像頭刷新率有限,只有30Hz,人類使用的攝像頭則120Hz。
最后,人類有更高的韌性。
比如即使在全速墜機(jī)了只要設(shè)備沒壞就能繼續(xù)比賽,但Swift沒有接受碰撞后恢復(fù)的訓(xùn)練。
如果改變比賽現(xiàn)場(chǎng)的光照環(huán)境,Swift的感知系統(tǒng)就會(huì)失效。
作者認(rèn)為,這項(xiàng)研究可能會(huì)激發(fā)在其他物理系統(tǒng)(例如自動(dòng)駕駛汽車、飛機(jī)和機(jī)器人)中跨廣泛應(yīng)用部署基于混合學(xué)習(xí)的解決方案。
論文地址:https://www.nature.com/articles/s41586-023-06419-4。
參考鏈接:[1]https://x.com/davsca1/status/1696938013421429111。