結(jié)合求解器,清華大學(xué)校友、MIT中國博士生開發(fā)出第一套提高自動駕駛安全性的感知算法
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
自動駕駛的落地,離不開一個(gè)關(guān)鍵條件:安全。近日,清華大學(xué)校友、MIT 在讀的中國博士生楊珩與團(tuán)隊(duì)合作開發(fā)了第一套針對自動駕駛汽車的“可認(rèn)證的感知”算法,有助于提高下一代自動駕駛汽車的行駛安全。
鏈接:https://arxiv.org/pdf/2109.03349.pdf
楊珩,2015年本科畢業(yè)于清華大學(xué)汽車工程專業(yè),碩士就讀于麻省理工學(xué)院機(jī)械工程專業(yè)。碩士期間,他主要研究如何改進(jìn)超聲成像系統(tǒng),以追蹤肝纖維化病癥。為了做研究,他需要參加一門關(guān)于機(jī)器人的課程,叫《Underactuated Robotics》,學(xué)習(xí)如何通過設(shè)計(jì)算法來控制機(jī)器人。這使他愛上了算法設(shè)計(jì)的研究方向:
“這門課講到了數(shù)學(xué)優(yōu)化,用抽象的公式來模擬世界上幾乎所有事物。我在這門課上學(xué)會了一個(gè)巧妙的方法來解決我的論文問題。計(jì)算在優(yōu)化設(shè)計(jì)方面的強(qiáng)大表現(xiàn)讓我感到驚訝,我很快確定了這是我接下來要探索的方向。”
2017年,楊珩碩士畢業(yè),轉(zhuǎn)讀 MIT 博士,目前在 MIT 的信息與決策系統(tǒng)實(shí)驗(yàn)室(LIDS)讀博,師從 Luca Carlone,主要研究可認(rèn)證的感知挑戰(zhàn)。目前,他已在自動駕駛的可認(rèn)證感知算法設(shè)計(jì)上取得了一系列杰出成果。
什么是可認(rèn)證的感知算法?
當(dāng)機(jī)器人在感知周圍環(huán)境時(shí),機(jī)器人必須使用算法來估計(jì)周圍環(huán)境,并判斷自己所處的位置。目前,用于機(jī)器人感知的算法都是被設(shè)計(jì)于快速感知,幾乎無法保證機(jī)器人是否正確理解了周圍的環(huán)境。
這也是自動駕駛算法設(shè)計(jì)的現(xiàn)有缺陷之一,而楊珩與 LIDS 實(shí)驗(yàn)室的部分成員要解決的就是這一問題,希望通過設(shè)計(jì)“經(jīng)過驗(yàn)證的”算法來確定評估是否正確。
比方說,機(jī)器人在進(jìn)行感知之前,首先捕捉圖像,如自動駕駛汽車會拍下正在靠近自己的汽車快照。然后,這張圖像會通過神經(jīng)網(wǎng)絡(luò),在圖像中生成有關(guān)接近汽車的后視鏡、車輪、車門等關(guān)鍵點(diǎn),繪制出線條,以從 2D 汽車圖像上檢測到的關(guān)鍵點(diǎn)追蹤到3D 汽車模型中標(biāo)記的 3D 關(guān)鍵點(diǎn)。
在這個(gè)過程中,楊珩與團(tuán)隊(duì)必須解決一個(gè)優(yōu)化問題,將 3D 模型旋轉(zhuǎn)與平移,以使模型與圖像上的關(guān)鍵點(diǎn)對齊。這個(gè) 3D 模型有助于機(jī)器人了解真實(shí)世界的環(huán)境。
在接受 MIT News 的采訪中,楊珩解釋:每一條被追蹤的線都必須經(jīng)過分析,以確保它們進(jìn)行了準(zhǔn)確的匹配。由于有許多關(guān)鍵的點(diǎn)可能會被錯誤匹配(比如,神經(jīng)網(wǎng)絡(luò)可能會將鏡子識別為門把手),那么這個(gè)問題就是“非凸”的,很難解決。
去年,楊珩與團(tuán)隊(duì)找到了解決方法,并獲得了 ICRA 2020 的機(jī)器人視覺最佳論文獎。
論文地址:https://arxiv.org/pdf/1909.08605.pdf
在楊珩的工作中,他將非凸問題轉(zhuǎn)為凸問題,并找到了成功的匹配方法。楊珩稱,即使匹配不正確,他們所設(shè)計(jì)的算法也知道應(yīng)該如何繼續(xù)嘗試,以找到最佳解決方案,即“全局最小值”。
“如果沒有更好的解決方案,(系統(tǒng))就會給出一個(gè)認(rèn)證。”他指出,這些可認(rèn)證的算法有巨大的潛在影響,因?yàn)橄褡詣玉{駛汽車這樣的工具必須魯棒,且值得信賴。“我們的目標(biāo)是,如果感知系統(tǒng)出現(xiàn)故障,駕駛員可以收到一個(gè)警報(bào),快速接管方向盤。”
而楊珩與團(tuán)隊(duì)的最新工作采取了通用與可拓展的框架來設(shè)計(jì)可認(rèn)證的算法,可以在自動駕駛汽車的行駛過程中進(jìn)行魯棒的幾何體感知。
這個(gè)工作的主要亮點(diǎn)如下:
1)將常見的魯棒成本(如TLS、最大共識、Geman-McClure、Tukey 雙權(quán)重等)轉(zhuǎn)化為多項(xiàng)式優(yōu)化問題(POP);
2)通過關(guān)注 TLS 的成本,他們利用 POP 中的稀疏性,提出了一種比標(biāo)準(zhǔn) Lasserre 層次結(jié)構(gòu)小得多的稀疏半定規(guī)劃 (SDP) 松弛,同時(shí)保留了準(zhǔn)確性;
3)提出 STRIDE(一種將凸 SDP 中的全局下降與非凸 POP 的快速局部搜索相結(jié)合的求解器),以前所未有的規(guī)模和精度解決了 SDP 松弛問題;
4)評估了所提出的針對六個(gè)幾何感知問題的框架,包括單次與多次旋轉(zhuǎn)平均、點(diǎn)云和網(wǎng)格配準(zhǔn)、絕對姿態(tài)估計(jì)以及類別級對象姿態(tài)和形狀估計(jì)。
他們的實(shí)驗(yàn)表明,雖然還達(dá)不到實(shí)時(shí),但 STRIDE 在中等規(guī)模問題上比現(xiàn)有 SDP 求解器快了 100 倍,而且是目前唯一可以高精度求解具有數(shù)十萬個(gè)約束的大規(guī)模 SDP 的求解器。
同時(shí),STRIDE 為現(xiàn)有的快速啟發(fā)式算法(如 RANSAC 或階段非凸)提供了一種保護(hù)措施,即如果啟發(fā)式估計(jì)是最優(yōu)的,則證明全局最優(yōu)。
使模型適應(yīng)不同的汽車
在將 2D 圖像與 3D 模型進(jìn)行匹配時(shí),一個(gè)假設(shè)是 3D 模型要與識別的汽車類型相一致。但是,如果圖像中的汽車具有機(jī)器人從未見過的形狀,會發(fā)生什么?結(jié)局可能無法預(yù)料,所以,楊珩需要估計(jì)汽車的位置,并重建 3D 模型的形狀。雷鋒網(wǎng)
他們找到了一個(gè)解決方法:通過對原先識別的車輛進(jìn)行線性組合,使 3D 模型自動變形、以匹配 2D 圖像。比方說,該模型可以從奧迪變成現(xiàn)代,因?yàn)樗呀?jīng)記錄了汽車的實(shí)際構(gòu)造。識別接近車輛的尺寸是防止碰撞的關(guān)鍵。
楊珩與團(tuán)隊(duì)的這項(xiàng)工作還入圍了機(jī)器人頂級會議 RSS 的最佳論文獎,楊珩被評為“RSS 先驅(qū)”。
鏈接:https://arxiv.org/pdf/2104.08383.pdf
近兩年,楊珩及其團(tuán)隊(duì)在自動駕駛可認(rèn)證感知算法的設(shè)計(jì)上取得了成系列的研究成果,而算法從實(shí)驗(yàn)室走到現(xiàn)實(shí)世界,必然要面臨許多亟待解決的問題。期待楊珩及其團(tuán)隊(duì)接下來的工作!