自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擊敗三位人類世界冠軍,登上Nature封面!AI無人機極限競速開啟自動駕駛新紀(jì)元

人工智能
「無人機AI很快就會成為一種訓(xùn)練工具,讓我們了解到人類的極限:隨著飛得更快,你會以精確度為代價來換取速度。但這也激發(fā)人們?nèi)ニ伎紵o人機真正能做到的事情?!?/div>

在下棋,辦公,游戲這類腦力活動中,人類被AI碾壓已經(jīng)早就不是什么新聞了。

現(xiàn)在連極限競速領(lǐng)域,人類的陣地也失守了!

今天Nature的封面論文,內(nèi)容是AI駕駛系統(tǒng)在無人機競速領(lǐng)域擊敗了人類SOTA。

圖片圖片

論文地址:https://www.nature.com/articles/s41586-023-06419-4

來自蘇黎世大學(xué)和英特爾的研究團(tuán)隊開發(fā)的Swift系統(tǒng),成功地在第一人稱視角(FPV)無人機比賽中,擊敗了3位人類世界冠軍,單圈速度比人類快了半秒!

AI無人機內(nèi)心OS「遙遙領(lǐng)先!」

比賽當(dāng)中,駕駛選手需要駕駛高速無人機完成一個三

維空間內(nèi)的立體賽道。人類駕駛員和AI都只能通過機載攝像頭的拍攝的視頻流來觀察環(huán)境,操縱無人機的飛行。

圖片圖片

2019年,當(dāng)時成績最好的Alphapilot系統(tǒng),如果不依靠外部的追蹤系統(tǒng)來精確控制無人機的飛行軌跡,完成比賽的時間幾乎是人類的兩倍。

Swift系統(tǒng)和人類選手一樣,僅通過對機載攝像頭收集的數(shù)據(jù)做出實時反應(yīng),讓完成比賽的時間有了質(zhì)的飛躍。

它的集成的慣性測量單元(inertial measurement unit)測量無人機的加速度和速度,神經(jīng)網(wǎng)絡(luò)通過來自攝像頭的數(shù)據(jù)來定位無人機在空中的位置,并檢測跑道上的需要通過的門。

這些信息被匯總到基于深度強化學(xué)習(xí)(DeepRL)的控制單元,做出最佳的反饋指令,從而盡可能快地完成賽道。

圖片圖片

FPV無人機比賽中使用的是四軸飛行器,是市面上最為靈活的無人機。比賽中無人機受到的加速力,可能超過自身重力的5倍還多,飛行時速超過100公里每小時!

圖片圖片

賽道由7個正方形的門組成,場地大小為30*30*7的三維空間,飛行距離超過75米。無人機必須按順序通過每個門,連續(xù)跑完3圈,才能完成比賽。

圖片圖片

人類駕駛員佩戴頭顯,來獲得實時的視頻信號。頭顯能提供身臨其境的「第一人稱視角」體驗。

超越人類世界冠軍選手的Swift系統(tǒng),主要由兩個關(guān)鍵模塊組成:

1. 將高維度視覺和加速度信息轉(zhuǎn)化為低維度表示的感知系統(tǒng)

2. 獲取低維度表示并生成控制命令的控制AI系統(tǒng)

這個控制AI系統(tǒng)由前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行表征,使用無模型的On-Policy深度強化學(xué)習(xí)進(jìn)行模擬訓(xùn)練,不斷提高跑圈成績。

圖片圖片

研究人員通過使用從物理世界收集的數(shù)據(jù)估計的非參數(shù)經(jīng)驗噪聲模型(non-parametric empircal noise medels),來縮小模擬與物理世界中的感知和動力學(xué)差異。

這些噪聲模型能有效地將模擬中的控制策略轉(zhuǎn)化為現(xiàn)實中的控制指令。

人類選手在賽道上進(jìn)行了一周的練習(xí),在完成了一周的訓(xùn)練后,每個飛行員都與Swift進(jìn)行了多場正面1V1的比賽。

圖片圖片

Swift的勝利標(biāo)志著AI控制的自主操控系統(tǒng)首次在與人類的競技比賽中獲得了勝利。

Swift系統(tǒng)

機器人領(lǐng)域中主要的挑戰(zhàn)之一是虛擬和現(xiàn)實兩者之間存在差距,傳統(tǒng)的端到端學(xué)習(xí)方法難以將虛擬環(huán)境的映射轉(zhuǎn)移到現(xiàn)實世界。

Swift是一個端到端的自主控制系統(tǒng),它能讓無人機像人類選手一樣參加FPV無人機賽事并取得具有競爭力的成績。

它的系統(tǒng)中主要包含以下兩個模塊:

1. 感知系統(tǒng)

感知系統(tǒng)由一個VIO模塊組成,該模塊通過相機圖像和慣性測量單元(IMU)獲得的高頻測量值計算無人機狀態(tài)的度量估計值。

VIO和門檢測結(jié)果經(jīng)卡爾曼濾波整合為無人機狀態(tài)。隨后,控制策略網(wǎng)絡(luò)將狀態(tài)和之前動作作為輸入,輸出控制命令。

這個系統(tǒng)能將來自無人機上的攝像頭和慣性傳感器等復(fù)雜高維信息,轉(zhuǎn)化成無人機當(dāng)前狀態(tài)的低維表示。

包括無人機在賽道上的位置、速度、姿態(tài)等,并使用了視覺慣性系統(tǒng)和神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理和狀態(tài)估計。

2. 控制策略

每個timestep中,策略網(wǎng)絡(luò)會根據(jù)狀態(tài)和之前動作輸出。

Swift中的價值網(wǎng)絡(luò)評估這個動作的價值,之后兩個網(wǎng)絡(luò)的參數(shù)會通過強化學(xué)習(xí)進(jìn)行優(yōu)化。

這個策略用一個簡單的兩層全連接神經(jīng)網(wǎng)絡(luò)表示,輸入是感知系統(tǒng)輸出的無人機當(dāng)前狀態(tài),輸出是給無人機的控制命令(推力和體積轉(zhuǎn)速)。它通過在模擬環(huán)境中用強化學(xué)習(xí)的方式進(jìn)行訓(xùn)練。

此外,為了把Swift的感知和行動跨域遷移到真實世界,研究人員使用了兩個殘差模型來處理動力學(xué)和感知上的偏差:

感知殘差模型:使用高斯過程擬合真實飛行中慣性系統(tǒng)的誤差,并在模擬中加入。

動力學(xué)殘差模型:使用k近鄰回歸擬合真實飛行中動力學(xué)的誤差,并在模擬中加入。

通過這種方式,Swift可以適應(yīng)真實世界中的不確定性,實現(xiàn)從模擬到物理系統(tǒng)的有效遷移。

經(jīng)過訓(xùn)練后,它可以像專業(yè)選手一樣駕駛無人機進(jìn)行FPV賽事,甚至在部分場景下超越了人類冠軍的表現(xiàn)。

圖片圖片

圖a:Swift在實際使用中從傳感器獲取數(shù)據(jù)并生成控制命令的過程

圖b:在仿真環(huán)境中使用強化學(xué)習(xí)訓(xùn)練控制策略的過程

結(jié)果

研究人員將Swift與計時賽中的人類飛行員的成績進(jìn)行了比較。

單圈時間表示連續(xù)三圈熱火中達(dá)到的最佳單圈時間和最佳平均時間。如下圖a所示,Swift不僅平均單圈時間更快,平均三圈時間也更穩(wěn)定。

正面交鋒的結(jié)果則如下圖b所示,在與A.Vanover的9場比賽中,Swift贏了5場;在與T.Bitmatta的7場比賽中,Swift贏了4場;在與M.Schaepper的9場比賽中,Swift贏了6場。

研究人員解釋,在Swift輸?shù)舻?0場比賽中,40%是因為與對手發(fā)生碰撞,40%是因為與閘門發(fā)生碰撞,20%是因為無人機的速度比人類飛行員慢。

總的來說,Swift在與人類飛行員的比賽中獲勝最多。Swift還取得了最快的比賽時間記錄,比人類飛行員(A.Vanover)的最佳時間領(lǐng)先半秒。

圖片圖片

研究人員分析了Swift和每個人類飛行員飛行的最快圈速。

從整體上看,Swift比所有人類飛行員都要快,但它在賽道的所有單個賽段上的速度并不快。

在起跑時,Swift的反應(yīng)時間較短,平均比人類飛行員早120毫秒從領(lǐng)獎臺起飛。并且它的加速更快,進(jìn)入第一個閘門時的速度更高。

如下圖c、d所示,在急轉(zhuǎn)彎時,Swift的機動更緊湊。

研究人員推測,造成這一結(jié)果的原因是Swift在選擇軌跡時的時間更長。

因為它可以根據(jù)價值函數(shù)來優(yōu)化長期回報,而人類飛行員最多預(yù)測一個未來,所以規(guī)劃的時間尺度更短。

在下圖b,d中可以看到,人類飛行員在動作開始和結(jié)束時速度較快,但總體速度較慢。

同時,與人類相比,Swift在執(zhí)行某些機動動作時也能依靠其他線索,例如慣性數(shù)據(jù)和針對周圍環(huán)境特征的視覺里程測量。

這些都幫助了自主無人機在比賽中實現(xiàn)了最高的平均速度、最短的賽線,并在整個比賽過程中設(shè)法將飛機保持在更接近其驅(qū)動極限的狀態(tài)。

圖片圖片

討論

研究人員開發(fā)的這個自主控制系統(tǒng),能夠在FPV無人機競速中實現(xiàn)冠軍級別的表現(xiàn),甚至在某些情況下超越人類世界冠軍。

這個系統(tǒng)相對于人類選手具有一定的結(jié)構(gòu)優(yōu)勢。

首先,它利用了來自機載慣性測量單元(IMU)的慣性數(shù)據(jù)。這類似于人類前庭系統(tǒng)(vestibular system),但人類選手沒有辦法使用自身的這個系統(tǒng),因為他們沒有乘坐在飛行器內(nèi)部,無法親身感受到飛行器的加速度。

其次,Swift系統(tǒng)具有更低的感覺運動延遲(Swift為40毫秒,而專業(yè)人類選手平均為220毫秒)。另一方面,Swift使用的攝像頭刷新率有限(30赫茲),相比之下,人類飛行員的攝像頭刷新率快了四倍(120赫茲),從而提高了他們的反應(yīng)時間。

人類飛行員的適應(yīng)能力非常強:無人機全速出事故墜落后,如果硬件仍然正常工作,他們還能繼續(xù)飛行并完成賽道。而Swift不具備出事故墜毀后恢復(fù)比賽能力。

圖片圖片

人類飛行員還能夠適應(yīng)環(huán)境條件的變化,比如會顯著改變賽道外觀的光照變化等。

Swift的感知系統(tǒng)假設(shè)比賽環(huán)境的外觀與訓(xùn)練時觀察到的是完全一致的。如果環(huán)境發(fā)生了變化,系統(tǒng)可能會無法工作。

不過可以通過在各種條件下訓(xùn)練門探測器和殘余觀測模型(residual observation model)來提供對于比賽環(huán)境變化的適應(yīng)能力。

盡管研究人員研發(fā)的系統(tǒng)還存在一些限制和待解決的工作,但一個自主移動機器人能夠達(dá)到體育項目中世界冠軍級別的表現(xiàn)是機器人技術(shù)和AI領(lǐng)域的一個重要里程碑。

這項工作可能會激發(fā)在其他物理系統(tǒng)(自動駕駛車輛、飛行器和機器人等)中部署基于混合學(xué)習(xí)的解決方案,從而在更加廣泛的應(yīng)用領(lǐng)域發(fā)揮更大的作用。

方法

訓(xùn)練算法

訓(xùn)練是使用近端策略優(yōu)化(Proximal Policy Optimization,PPO)方法進(jìn)行的。這種actor-critic方法在訓(xùn)練期間需要同時優(yōu)化兩個神經(jīng)網(wǎng)絡(luò):策略網(wǎng)絡(luò)(將觀測映射到動作)和值網(wǎng)絡(luò)(作為「critic」評估策略采取的動作)。

經(jīng)過訓(xùn)練后,只有策略網(wǎng)絡(luò)被部署到無人機上。

觀察、行動和獎勵

在時間t從環(huán)境中獲得的觀測值????∈?31包括:

(1)當(dāng)前機器人狀態(tài)的估計;

(2)下一個需要通過的賽道上的門的相對姿態(tài);

(3)上一步中施加的動作。具體而言,機器人狀態(tài)的估計包括平臺的位置、速度和姿態(tài),姿態(tài)由旋轉(zhuǎn)矩陣表示,從而形成一個?15中的向量。

雖然仿真內(nèi)部使用四元數(shù),但研究人員使用旋轉(zhuǎn)矩陣表示姿態(tài),以避免歧義。

下一個門的相對姿態(tài)通過提供四個門角相對于車輛的位置來編碼,從而得到一個?12中的向量。

所有觀測值在傳遞給網(wǎng)絡(luò)之前都經(jīng)過歸一化(normalized)處理。由于值網(wǎng)絡(luò)僅在訓(xùn)練時使用,它可以訪問有關(guān)環(huán)境的特權(quán)信息,這些信息對策略網(wǎng)絡(luò)是不可訪問的。

這些特權(quán)信息(privileged information)與策略網(wǎng)絡(luò)的其他輸入連接在一起,包含了機器人的確切位置、方向和速度信息。

訓(xùn)練細(xì)節(jié)

數(shù)據(jù)收集是通過同時模擬100個代理與環(huán)境進(jìn)行交互,每個代理在1500個步驟的episode中與環(huán)境交互來完成的。

在每次環(huán)境重置時,每個代理都會在賽道上的隨機門處進(jìn)行初始化,代理的狀態(tài)在經(jīng)過該門時先前觀察到,并且在其周圍進(jìn)行有界擾動。與之前的研究不同,研究人員在訓(xùn)練時不對平臺動態(tài)進(jìn)行隨機化。相反,他們根據(jù)真實世界數(shù)據(jù)進(jìn)行微調(diào)。

訓(xùn)練環(huán)境使用TensorFlow Agents實現(xiàn)。策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)都由兩層感知器表示,每層有128個節(jié)點,并且使用帶有負(fù)斜率為0.2的Leaky ReLU激活函數(shù)。網(wǎng)絡(luò)參數(shù)使用Adam優(yōu)化器進(jìn)行優(yōu)化,策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)的學(xué)習(xí)率都為3×10^-4。

研究人員根據(jù)在現(xiàn)實世界中收集到的少量數(shù)據(jù)對原始策略進(jìn)行微調(diào)。

具體來說,他們在現(xiàn)實世界中進(jìn)行了三次完整的試驗,相當(dāng)于約50秒的飛行時間。

研究人員通過識別殘余觀測和殘余動態(tài)來對策略進(jìn)行微調(diào),然后將這些信息用于在模擬中進(jìn)行訓(xùn)練。在這個微調(diào)階段,只有控制策略的權(quán)重會被更新,門探測網(wǎng)絡(luò)的權(quán)重保持不變。

殘差觀測模型

高速移動會導(dǎo)致明顯的運動模糊,這可能導(dǎo)致跟蹤的視覺特征丟失和線性里程計估計的嚴(yán)重漂移。

研究人員通過在現(xiàn)實世界中僅進(jìn)行少數(shù)試驗來確定的里程計模型對策略進(jìn)行微調(diào)。

為了模擬里程計中的漂移,他們使用高斯過程,因為它們允許擬合里程計擾動的后驗分布,從中可以采樣出具有時間一致性的實現(xiàn)。

具體來說,高斯過程模型將殘余位置、速度和姿態(tài)作為地面實際機器人狀態(tài)的函數(shù)進(jìn)行擬合。

觀測殘差是通過將真實世界中的試驗期間觀察到的視覺慣性里程計(VIO)估計與外部運動跟蹤系統(tǒng)獲得的地面實際平臺狀態(tài)進(jìn)行比較而確定的。

無人機硬件配置

人類飛行員和Swift使用的四旋翼飛行器具有相同的重量、形狀和推進(jìn)力。但由人類駕駛的無人機既不攜帶Jetson計算機,也不攜帶RealSense攝像頭,而是配備了相應(yīng)的壓艙物。

1. 無人機機架

底座采用Armattan Chameleon 6英寸的主機架,配備了T-Motor Velox2306電機,以及5英寸3葉螺旋槳。

2. 計算平臺

使用英偉達(dá)Jetson TX2和ConnectTech Quasar載板為自主無人機提供了主要計算資源,集成了6核CPU和256核GPU。

3. 攝像頭

搭載了英特爾Real Sense跟蹤攝像頭T265,可通過USB向英偉達(dá)Jetson TX2提供100Hz的VIO估計值。

4. 飛行控制器

使用STM32處理器運行Betaflight軟件(一款開源的飛行控制軟件)來控制無人機。

5. 重量

整體無人機重量為870克,可產(chǎn)生約35牛頓的最大靜態(tài)推力,靜態(tài)推力重量比為4.1。

人類飛行員評價

與Swift比賽的三位人類冠軍都談了談和無人機比賽的感受:

Alex Vanover:

「比賽的勝負(fù)將在SplitS(指賽道上的一種飛行動作)時決定,這是賽道上最具挑戰(zhàn)性的部分?!?/p>

「這是我最精彩的比賽!我離無人機如此之近,在試圖跟上它時,我甚至能真切地感受到空氣的亂流?!?/p>

Thomas Bitmatta:

「AI的可能性是無限的,這可能改變整個世界的開始。但作為一名賽手,我不希望有任何東西比我更快?!?/p>

「無人機AI很快就會成為一種訓(xùn)練工具,讓我們了解到人類的極限:隨著飛得更快,你會以精確度為代價來換取速度。但這也激發(fā)人們?nèi)ニ伎紵o人機真正能做到的事情?!?/p>

Marvin Schaepper:

「與機器比賽的感覺很不一樣,因為你知道機器不會感到疲勞?!?/p>

參考資料:https://www.nature.com/articles/s41586-023-06419-4

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-08-31 17:18:07

2023-08-31 14:50:18

無人機Swift

2023-08-31 13:37:00

訓(xùn)練模型

2022-04-02 10:18:04

AI棋牌程序

2022-09-22 15:23:27

3D打印技術(shù)

2025-04-30 06:52:20

2020-01-06 10:28:53

無人機自動駕駛AI

2012-12-04 15:47:45

2019-08-15 09:00:00

AI人工智能

2020-08-17 09:15:09

AI 數(shù)據(jù)人工智能

2018-12-13 12:03:59

閃存

2022-08-03 12:10:57

計算

2023-05-22 10:00:09

雷達(dá)激光

2022-11-17 12:49:36

世界冠軍AI國際象棋

2021-01-11 13:27:55

無人機通信技術(shù)

2024-03-11 10:08:12

駕駛模型

2016-12-21 13:55:46

無人機自駕汽車導(dǎo)航

2011-01-28 15:12:05

人機大戰(zhàn)沃森深藍(lán)

2018-05-09 20:08:09

人工智能深度學(xué)習(xí)Python
點贊
收藏

51CTO技術(shù)棧公眾號