刺激,無人機競速超越頂級人類玩家,強化學(xué)習(xí)再登Nature封面
最近,在一場無人機比賽中,一架自主控制的無人機戰(zhàn)勝了頂級人類玩家。
這架自主控制無人機是由來自蘇黎世大學(xué)的研究團隊設(shè)計研發(fā)的 Swift 系統(tǒng),研究成果登上了最新一期的《Nature》雜志封面。
研究內(nèi)容:https://www.nature.com/articles/s41586-023-06419-4
在這場無人機比賽中,人類操縱者通過機載攝像機操縱無人機通過 3D 賽道,這是為了讓操縱者從無人機的視角觀察環(huán)境。自主無人機要達到人類控制無人機的水平是非常具有挑戰(zhàn)性的,因為無人機需要僅通過機載傳感器估計其在賽道中的速度和位置。
而 Swift 戰(zhàn)勝的是世界冠軍級人類玩家,他們分別是:2019 年無人機競速聯(lián)盟世界冠軍 Alex Vanover、兩屆 MultiGP 國際公開賽冠軍 Thomas Bitmatta 和三屆瑞士全國冠軍 Marvin Schaepper。
下圖 1a 是這次比賽的賽道,Swift 不僅贏得了與人類冠軍的比賽,還創(chuàng)造了最快的比賽紀錄。這項工作是移動機器人和機器智能領(lǐng)域的一個里程碑。
圖 1
下面我們就來看一下自主無人機 Swift 的技術(shù)方法。
Swift 技術(shù)介紹
Swift 是一個僅使用機載傳感器和計算完成自主控制的四旋翼飛行器,由兩個關(guān)鍵模塊組成:
- 感知系統(tǒng),將高維的視覺和慣性信息轉(zhuǎn)換成低維表征;
- 控制策略,攝取感知系統(tǒng)產(chǎn)生的低維表征并產(chǎn)生控制命令。
其中,控制策略由一個前饋神經(jīng)網(wǎng)絡(luò)來表征,并使用無模型 on-policy 深度強化學(xué)習(xí)(RL)進行訓(xùn)練。
由于模擬與現(xiàn)實世界在傳感和動力學(xué)方面存在差異,僅在模擬中優(yōu)化策略會導(dǎo)致無人機的現(xiàn)實性能較差,因此研究團隊利用物理系統(tǒng)收集的數(shù)據(jù)來估計非參數(shù)經(jīng)驗噪聲模型(non-parametric empirical noise model)。實驗表明,這些經(jīng)驗噪聲模型有助于將控制策略從模擬成功轉(zhuǎn)移到現(xiàn)實。
具體來說,Swift 將機載傳感器的讀數(shù)映射成控制命令,這一映射包括兩部分:(1) 觀察策略,將高維的視覺和慣性信息提煉成特定于任務(wù)的低維編碼;(2) 控制策略,將編碼轉(zhuǎn)換成無人機命令。Swift 系統(tǒng)整體概覽如下圖 2 所示:
圖 2
如圖 1 所示場景,Swift 的觀察策略需要運行視覺 - 慣性估計器和門檢測器。其中,門檢測器是一個卷積神經(jīng)網(wǎng)絡(luò),用于檢測機載圖像中的賽車門,然后使用檢測到的門來估計無人機在賽道上的全局位置和飛行方向。這是使用相機后方交會算法(camera-resectioning algorithm),并結(jié)合賽道地圖來完成的。最后,Swift 用卡爾曼濾波(Kalman filter)將全局姿態(tài)估計(從門檢測器獲得)與視覺 - 慣性估計結(jié)合起來,從而更準(zhǔn)確地表征機器人的狀態(tài)。
控制策略(用一個兩層感知器表征),負責(zé)將卡爾曼濾波(Kalman filter)的輸出映射成無人機控制命令??刂撇呗栽谀M中使用無模型 on-policy 深度強化學(xué)習(xí)(RL)進行訓(xùn)練。在訓(xùn)練期間,該策略會考慮相機視野內(nèi)下一個競賽門的信息,將獎勵最大化,以提高姿態(tài)估計的準(zhǔn)確性。
實驗及結(jié)果
為了評估 Swift 的性能,該研究進行了一系列的比賽實驗,并與軌跡規(guī)劃和模型預(yù)測控制(MPC)進行了比較。
如下圖 3b 所示,在與 A. Vanover 的 9 場比賽中,Swift 贏了 5 場;在與 T. Bitmatta 的 7 場比賽中,Swift 贏了 4 場;在與 M. Schaepper 的 9 場比賽中,Swift 贏了 6 場。在 Swift 記錄的 10 次失利中,40% 是因為與對手相撞,40% 是因為與競賽門相撞,20% 是因為比人類控制的無人機慢??傮w而言,在與人類控制無人機進行的比賽中,Swift 獲勝次數(shù)最多,并且它還創(chuàng)造了最快的比賽紀錄,比人類控制無人機(A. Vanover)的最佳時間快了半秒。
圖 3
為了對 Swift 的性能進行更細致的分析,該研究比較了 Swift 和人類控制無人機的最快單圈飛行速度,結(jié)果如下圖 4 和表 1 所示。
圖 4
表 1
雖然從整體上看,Swift 比所有人類控制無人機都要快,但它在賽道的每個賽段上的速度并不快,如表 1 所示。
研究團隊仔細分析發(fā)現(xiàn):在起飛時,Swift 的反應(yīng)時間較短,平均比人類飛行員早 120 毫秒起飛;Swift 的加速也更快,進入第一個競賽門時速度更高。在急轉(zhuǎn)彎時,如圖 4cd 所示,Swift 的動作更加緊湊。
研究團隊還提出一種假設(shè),Swift 在比人類操控者更長的時間尺度上優(yōu)化軌跡。眾所周知,無模型 RL 可以通過價值函數(shù)優(yōu)化長期獎勵(long-term reward)。相反,人類操控者規(guī)劃運動的時間尺度較短,最多只能預(yù)測未來一個競賽門。