SLAM 領域發(fā)展到現在,還有什么的研究的大方向呢?
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
Sky Shaw
目前的話,我認為若是探索、討論和分析一些SLAM領域的新方向的話,除了對目前已有的算法進行較完整的分析外,再就是結合實際落地的困難點進行單方向的深入研究了。
本人在之前的文章中針對激光SLAM中的挑戰(zhàn)和階段進行過一次簡單地分析,SLAM技術綜述、挑戰(zhàn)和階段分析。
截止至2022年5月24日,2022年ICRA總共收到了3344篇文章的申請,最終1498篇文章通過審核上線發(fā)表。在這優(yōu)秀的1498篇文章中,SLAM、Sensor-Fusion和Localization領域的文章簡單整理下來有140篇左右,再進一步細分Visual SLAM相關領域的有大約58篇,利用視覺傳感器進行定位的相關論文大約有22篇,Lidar SLAM相關領域文章大約是23篇,基于雷達傳感器的定位模塊的相關論文就只有9篇左右。由上可見,視覺方向的相關研究相較于激光方向還是更加收科研人員和審稿者青睞,從工業(yè)落地和傳感器性能發(fā)展的角度上分析的話,人們還是希望能將實現該技術所產生的費用降到global min,同時從發(fā)表的論文主題上看,越來越多的優(yōu)秀科研人員已經在視覺和激光傳感器的融合方向上做出了突出的成績,往后展望多傳感器融合的工作還能繼續(xù)挖掘,并且相對來說較容易做出“成果”
最后,籠統的來說,可以先考慮一個絕對安全的前提環(huán)境(也就是感知和決策功能100%無故障運行),自主移動機器人的大規(guī)模落地對SLAM的性能指標方向可以歸納為三類:魯棒性、精度和效率,往下細分一些具體的方向和困難的話,我個人認為還有以下幾個方面可以深入研究和分析:
- 退化場景下給位姿估帶來的挑戰(zhàn)
- 傳感器失效時給融合技術帶來的挑戰(zhàn)
- 動態(tài)場景中作業(yè)給SLAM帶來的難點及其life-long問題落地的挑戰(zhàn)
- Large-Scale SLAM技術落地的挑戰(zhàn)
- SLAM(Localization)技術在低算力處理器上的實時性挑戰(zhàn)
- SLAM技術輸出的“地圖”最終的形態(tài)到底應該是何種表現形式的疑問
以上問題的具體分析可詳見:ICRA 2022 All PaperList | 給SLAM研究帶來的啟發(fā) | SLAM領域研究方向的思考
以上是我個人的拋磚引玉了,上述內容如若存在不嚴謹和錯誤的地方,還望大佬們批評和指正。同時,希望有更多的大佬們來討論這個問題。我是致力于機器人和自動駕駛技術研究的Sky Shaw,樂衷于在知乎上分享前沿技術的分析和個人職業(yè)經驗,歡迎大家點贊和關注支持
殷鵬
這個問題關注的人好少,slam領域還是太冷清了。
可以研究的方向有一堆啊,跟cv結合,跟rl結合,跟gan結合,和nerf綁定,跟決策結合等。問題不在于有什么大方向,而在于什么是slam。
其實SLAM的研究熱點不只是里程計這些算法,它里面所涉及的場景識別和數據耦合在當前大模型+機器人的時代背景下,變得越來越重要,甚至包括跟強化學習的高度耦合。雖然SLAM這個領域已經誕生了幾十年,但是我始終感覺,SLAM的核心熱點才剛剛開始。我在之前的一個帖子里面詳細的展開了一些討論,后面也會和大家多多分享SLAM的最前沿進展。
在機器人/自動駕駛中,強化學習和slam哪個方向更有前景?
不可否認的是,在最近一段時間,SLAM領域灌水的文章確實層出不窮,各種各樣類型的數據融合算法、視覺/激光里程計方法都在講述同一個故事,但是本質上很少有太大的創(chuàng)新性。但是正如在很多腦神經方面的文章分析所得,哺乳動物都存在一個類似的“海馬”模樣的零部件,就叫做海馬回“Hippocampus”。它復雜了智能體的定位和記憶能力,而這種能力又跟智能體自身的行為優(yōu)化(強化學習)密切相關。因此如何把SLAM的基礎技能和智能體的行為優(yōu)化綁定起來,會是以后SLAM領域的一個核心研究熱點。在這個方面上我們也有一些列工作,而且隨著Lifelong Leanring和大模型的進化,這個領域也會變大越來越具備使用價值。
換句話說,SLAM不再是定位+建模這兩件小事情,而是指引智能體進化的核心引擎之一。
具體請參考我在SLAM/RL中的考慮。
solomon-ma
這可多了去了呀拆分SLAM看看,無非是定位和建圖兩大部分。
定位:
- 結合大語言模型定位
- 結合語義地圖定位
- 沒有地圖,邊探索邊定位(未知環(huán)境下如何快速定位)
- 場景圖構建
- 開放場景下定位
建圖:
- 構建稠密地圖(mesh)
- “實時”構建稠密地圖(mesh)
- 多智能體配合建圖(mesh)
- 構建層次化地圖
- 自主建圖(機器人自主判斷下一個視角位置)
把SLAM當成個組件,往上走:
- object navigation
- social navigation
- image navigation
- image arrangement
劉斯坦
代碼是挺多的,就是沒一個能用的。SLAM的框架,隨便哪一個,拉出來就是巨大的一個東西,每個小部分都需要調設置參數。前前后后加起來的設置能有四五十個,互相之間還有邏輯聯系!
給我一個場景,我慢慢調,總能調出能用的那么一組參數。一個視頻某一幀跟丟了,找?guī)讉€閾值調一調,最終總是能連上。但要找到一組參數放心的讓他隨便跑,那是不可能的。
各種SLAM框架的魯棒性還是太差了,不說一組參數跑到底吧,能夠想辦法對場景進行自適應參數調節(jié)那也是不錯的。我覺得這個方向大有可為,至少我在工作的時候,會被迫去實現這個,但似乎沒見過這方面的論文。
格雷伍德斯堪
我認為在學術上面,SLAM仍然有著很大的提升空間,而題主所說的在工業(yè)方面的落地,仍然也有著很長的路要走。
學術上,目前SLAM系統大概是厘米級別的精度,那么如何提升到毫米級別呢?顯然需要更高精度的傳感器,而如果引入新的傳感器的話,那么又會涉及到優(yōu)化的問題,大家都用位姿圖,都用滑窗,那么這其中最底層的數學原理是不是也能夠創(chuàng)新呢?顯然這也是一個待解決的問題,而引入新的傳感器后如何進行時間同步呢?畢竟也不是所有的傳感器都支持硬件觸發(fā)。而且在優(yōu)化的過程中,如果位姿圖規(guī)模過大,SLAM實時性又會出現問題,因此如何能夠權衡SLAM精度和實時性呢?相似的問題還有很多。
除了增加傳感器,再來談一談算法和特征的角度,ORBSLAM只用了特征點,眾所周知,特征點只占了一幅圖像中的很少一部分,也就是說ORBSLAM是稀疏特征點以及匹配的系統,那么剩下的數目巨大的像素點呢,我們是否也可以考慮通過ICP等方法來充分利用呢?而且僅僅基于特征點的話在室內環(huán)境中也會出現特征數量不足的問題,那么我們也可以進一步充分利用圖像中檢測到的特征線以及平面,以及線和面之間都有特殊的幾何關系,比如平行,正交,亦或是一些其他的特殊結構,如果我們能夠將這些引入到整個SLAM或者優(yōu)化系統當中,那么是否能讓系統更加魯棒呢?跑過SLAM的同學都有體會,如果在一些快速轉彎的地方很容易出現追蹤失敗的問題,那么在一些極端條件下,我們是否能通過一些registration的方法來計算出pose從而使系統更加穩(wěn)定呢?
類似的問題還有很多,如果從語義理解以及場景理解來說,SLAM系統仍有很大的提升空間,SLAM+DL, SLAM+RL?
很多方向都可以進行思考至于工業(yè)界落地的話,就要平衡好SLAM的實時性 內存消耗 以及 魯棒性的問題,需要考慮的也有很多。
本人也是SLAM小學生,剛剛學習不到兩年,回答中如有不嚴謹或者錯誤的地方,歡迎大家指正。
IRPN-HKUST(GZ)
本人推薦如下兩個方向:
- 動態(tài)場景下的SLAM(基于神經網絡和/或多視圖幾何約束);
- 三維場景/物體重建及渲染(基于神經網絡,利用幾何先驗和/或語義信息)和SLAM相結合。