MIT研究新型神經(jīng)網(wǎng)絡(luò),在復(fù)雜環(huán)境中執(zhí)行導(dǎo)航任務(wù)
神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)解決各種問題,從識別照片中的貓到駕駛自動駕駛汽車。但這些強大的模式識別算法是否真正理解它們正在執(zhí)行的任務(wù)仍然是一個懸而未決的問題。
例如,一個負(fù)責(zé)讓自動駕駛汽車保持在車道上的神經(jīng)網(wǎng)絡(luò)可能會通過觀察路邊的灌木叢來學(xué)習(xí)如何做到這一點,而不是學(xué)習(xí)檢測車道和關(guān)注道路的地平線。
近日,麻省理工學(xué)院的研究人員表明,當(dāng)某種特定的神經(jīng)網(wǎng)絡(luò)被訓(xùn)練執(zhí)行導(dǎo)航任務(wù)時,其能夠理解該項任務(wù)真正的因果結(jié)構(gòu)。由于這些網(wǎng)絡(luò)可以直接從視覺數(shù)據(jù)中理解任務(wù),因此在復(fù)雜環(huán)境(例如樹木茂密的位置或快速變化的天氣條件)中導(dǎo)航時,它們應(yīng)該比其他神經(jīng)網(wǎng)絡(luò)更有效。
未來,這項工作可以提高執(zhí)行高風(fēng)險任務(wù)的機(jī)器學(xué)習(xí)代理的可靠性和可信度。如在繁忙高速公路上駕駛自動駕駛汽車。
研究成果以「 Causal Navigation by Continuous-time Neural Networks 」為題發(fā)表在預(yù)印本平臺 arXiv 上。該研究將于今年 12 月在 「2021 年神經(jīng)信息處理系統(tǒng)會議 (NeurIPS) 」上發(fā)表。
「因為這些機(jī)器學(xué)習(xí)系統(tǒng)能夠以因果方式進(jìn)行推理,我們可以知道并指出它們?nèi)绾芜\作和做出決策的。這對于安全關(guān)鍵型應(yīng)用至關(guān)重要,」共同主要作者、計算機(jī)科學(xué)與人工智能實驗室 (CSAIL) 的博士后 Ramin Hasani 說。
因果學(xué)習(xí)模型 主要方法是圖形方法,它試圖將因果關(guān)系建模為有向圖。對時間連續(xù)過程進(jìn)行因果建模的一種方法是學(xué)習(xí)常微分方程 (ODE) 。在該研究中,描述了一類連續(xù)模型,它能夠解釋干預(yù)并因此從數(shù)據(jù)中捕獲因果結(jié)構(gòu)。
連續(xù)時間模型(Continuous-time Models)與離散化深度模型相比,連續(xù)時間(CT)模型顯示出廣泛的優(yōu)勢。它們可以通過高級 ODE 求解器實現(xiàn)的連續(xù)向量場執(zhí)行自適應(yīng)計算。它們在建模時間序列數(shù)據(jù)方面很強,并實現(xiàn)了內(nèi)存和參數(shù)效率。
在這項工作中,研究人員證明了 CT 網(wǎng)絡(luò)的一個重要屬性:表明神經(jīng) ODE 的雙線性近似可以產(chǎn)生富有表現(xiàn)力的因果模型。
連續(xù)時間網(wǎng)絡(luò)是一類深度學(xué)習(xí)模型,其隱藏狀態(tài)由連續(xù) ODE 表示。
視覺導(dǎo)航 視覺導(dǎo)航認(rèn)知映射和規(guī)劃通過構(gòu)建環(huán)境地圖來解決學(xué)習(xí)從視覺輸入流中導(dǎo)航的問題,并計劃代理的行動以實現(xiàn)給定的目標(biāo)。用于學(xué)習(xí)駕駛上下文的視覺導(dǎo)航已經(jīng)廣泛研究了因果混淆問題,以及模仿學(xué)習(xí)問題的泛化,通過使用模塊從像素輸入中提取有用的先驗。這些方法可以從該研究中設(shè)計的基于液體時間常數(shù)網(wǎng)絡(luò) (liquid time-constant networks,LTC)的網(wǎng)絡(luò)中受益。
一個引人注目的結(jié)果
神經(jīng)網(wǎng)絡(luò)是一種重要的機(jī)器學(xué)習(xí)技術(shù),其中計算機(jī)通過分析許多訓(xùn)練示例,通過反復(fù)試驗來學(xué)習(xí)完成任務(wù)。而「液體」神經(jīng)網(wǎng)絡(luò)會改變它們的基本方程,以不斷適應(yīng)新的輸入。
這項新研究借鑒了先前的工作,其中 Hasani 和其他人展示了一種受大腦啟發(fā)的深度學(xué)習(xí)系統(tǒng),稱為神經(jīng)回路策略 (NCP),可以將感知模塊中的數(shù)據(jù)轉(zhuǎn)換為轉(zhuǎn)向命令,僅包含 19 個神經(jīng)元,比現(xiàn)有最好模型要小好幾個數(shù)量級,能夠自主控制自動駕駛車輛。
圖示:來自原始視覺輸入的因果導(dǎo)航。(來源:論文)
研究人員觀察到,執(zhí)行車道保持任務(wù)的 NCP 在做出駕駛決定時將注意力集中在道路的地平線和邊界上,就像人類駕駛汽車時一樣。他們研究的其他神經(jīng)網(wǎng)絡(luò)并不總是專注于道路。
「這是一個很酷的觀察,但我們沒有對其進(jìn)行量化。因此,我們想找出這些網(wǎng)絡(luò)為何以及如何能夠捕獲數(shù)據(jù)的真正因果關(guān)系的數(shù)學(xué)原理,」Hasani 說。
研究人員發(fā)現(xiàn),當(dāng) NCP 被訓(xùn)練完成一項任務(wù)時,網(wǎng)絡(luò)學(xué)習(xí)與環(huán)境交互并解釋干預(yù)。本質(zhì)上,網(wǎng)絡(luò)識別其輸出是否因某種干預(yù)而改變,然后將因果關(guān)系聯(lián)系在一起。
在訓(xùn)練期間,網(wǎng)絡(luò)向前運行以生成輸出,然后向后運行以糾正錯誤。研究人員觀察到,NCP 在前向模式和后向模式期間關(guān)聯(lián)因果關(guān)系,這使網(wǎng)絡(luò)能夠非常關(guān)注任務(wù)的真實因果結(jié)構(gòu)。
Hasani 和他的同事不需要對系統(tǒng)施加任何額外的限制,也不需要為 NCP 執(zhí)行任何特殊設(shè)置來了解這種因果關(guān)系。
「因果關(guān)系對于飛行等安全關(guān)鍵應(yīng)用的表征尤為重要,」Rus 說?!肝覀兊墓ぷ髯C明了用于飛行決策的神經(jīng)回路策略的因果關(guān)系特性,包括在具有密集障礙物的環(huán)境中飛行,如森林和編隊飛行?!?/p>
NCP 在不同環(huán)境下執(zhí)行導(dǎo)航任務(wù)
他們通過一系列模擬測試 NCP,其中自主無人機(jī)執(zhí)行導(dǎo)航任務(wù)。每架無人機(jī)都使用來自單個攝像頭的輸入進(jìn)行導(dǎo)航。無人機(jī)的任務(wù)是前往目標(biāo)物體、追逐移動目標(biāo)或在不同環(huán)境(包括紅杉林和社區(qū))中跟蹤一系列標(biāo)記。他們還在不同的天氣條件下旅行,如晴朗的天空、大雨和大霧。
研究人員設(shè)計了具有不同記憶范圍的逼真視覺導(dǎo)航任務(wù),包括 (1) 導(dǎo)航到靜態(tài)目標(biāo),(2) 追逐移動目標(biāo),以及 (3) 使用引導(dǎo)標(biāo)記「徒步旅行」(hiking)。
圖示:視覺無人機(jī)導(dǎo)航任務(wù)。(來源:論文)
研究人員選擇一組基線模型評估 NCP 網(wǎng)絡(luò)。包括 ODERNNs、長短期記憶網(wǎng)絡(luò) (LSTMs) 和 CT-GRU 網(wǎng)絡(luò)。
使用遮擋導(dǎo)航到靜態(tài)目標(biāo) 研究人員觀察到 NCP 已經(jīng)學(xué)會了注意其視野內(nèi)的靜態(tài)目標(biāo)以做出未來的決定。與 CT 模型相比,LSTM 代理對光照條件敏感。NCP 是唯一可以直接從視覺數(shù)據(jù)中捕獲任務(wù)因果結(jié)構(gòu)的模型。
圖示:在閉環(huán)環(huán)境中導(dǎo)航到靜態(tài)目標(biāo)。(來源:論文)
追逐移動目標(biāo) 并非所有模型都能在干預(yù)發(fā)揮重要作用的閉環(huán)環(huán)境中成功完成任務(wù)。NCP 完成任務(wù)的成功率為 78%,而 LSTM 為 66%,ODE-RNN 為 52%,CT-GRU 為 38%。相比之下,NCP 已經(jīng)學(xué)會了關(guān)注目標(biāo),并在它們在環(huán)境中移動時跟隨它們。
圖示:在閉環(huán)環(huán)境中追逐移動目標(biāo)。NCP 是唯一可以直接從視覺數(shù)據(jù)中捕獲任務(wù)因果結(jié)構(gòu)的模型。(來源:論文)
在環(huán)境中「徒步旅行」 在此任務(wù)中,無人機(jī)跟隨放置在環(huán)境中障礙物表面的多個目標(biāo)標(biāo)記。這個任務(wù)比之前的任務(wù)復(fù)雜得多。
研究人員觀察到大多數(shù)代理在學(xué)習(xí)過程中學(xué)習(xí)了合理程度的驗證損失。即使是 ODE-RNN 在被動設(shè)置中也實現(xiàn)了出色的性能。但是,在環(huán)境中部署時,除了 NCP 之外的任何模型都無法在 50 次運行中完全執(zhí)行任務(wù)。由于其因果結(jié)構(gòu),NCP 可以成功執(zhí)行 30%。
「我們觀察到,NCP 是唯一一個在完成導(dǎo)航任務(wù)的同時,在不同環(huán)境中關(guān)注感興趣對象的網(wǎng)絡(luò),無論你在哪里測試,以及在不同的照明或環(huán)境條件下。這是唯一可以隨意執(zhí)行此操作并實際學(xué)習(xí)我們希望系統(tǒng)學(xué)習(xí)的行為的系統(tǒng),」Hasani 說。
「一旦系統(tǒng)了解了它實際應(yīng)該做什么,它就可以在它從未經(jīng)歷過的新場景和環(huán)境條件下表現(xiàn)良好。這是當(dāng)前非因果機(jī)器學(xué)習(xí)系統(tǒng)的一大挑戰(zhàn)。我們相信這些結(jié)果非常令人興奮,因為它們展示了如何從神經(jīng)網(wǎng)絡(luò)的選擇中產(chǎn)生因果關(guān)系,」他說。
未來,研究人員希望探索使用 NCP 來構(gòu)建更大的系統(tǒng)。將數(shù)千或數(shù)百萬個網(wǎng)絡(luò)放在一起,可以使他們處理更復(fù)雜的任務(wù)。
論文鏈接:https://arxiv.org/abs/2106.08314