想搞懂李飛飛的創(chuàng)業(yè)方向?這里有一份機(jī)器人+3D的論文清單
前段時(shí)間,多家媒體報(bào)道稱 ,著名 AI 學(xué)者、斯坦福大學(xué)教授李飛飛的創(chuàng)業(yè)公司 World Labs 在短短三個(gè)月內(nèi)已經(jīng)完成了兩輪融資,其中最新一輪融資中籌到了約 1 億美元,公司估值已超過 10 億美元,成為新晉獨(dú)角獸。
World Labs 的發(fā)展方向聚焦于「空間智能」,即開發(fā)能夠理解三維物理世界的模型,模擬物體的物理特性、空間位置和功能。李飛飛認(rèn)為「空間智能」是 AI 發(fā)展的關(guān)鍵一環(huán),她的團(tuán)隊(duì)正在斯坦福大學(xué)實(shí)驗(yàn)室里訓(xùn)練計(jì)算機(jī)和機(jī)器人在三維世界中采取行動(dòng),例如使用大型語言模型讓一個(gè)機(jī)械臂根據(jù)口頭指令執(zhí)行開門、做三明治等任務(wù)。(詳情請參見《李飛飛解讀創(chuàng)業(yè)方向「空間智能」,讓 AI 真正理解世界》)
為了解釋「空間智能」這一概念,李飛飛展示了一張貓伸出爪子將玻璃杯推向桌子邊緣的圖片。她表示,在一瞬間,人類大腦可以評估「這個(gè)玻璃杯的幾何形狀,它在三維空間中的位置,它與桌子、貓和所有其他東西的關(guān)系」,然后預(yù)測會(huì)發(fā)生什么,并采取行動(dòng)加以阻止。
其實(shí),除了李飛飛,現(xiàn)在有很多研究團(tuán)隊(duì)都在關(guān)注 3D 視覺 + 機(jī)器人這一方向。這些團(tuán)隊(duì)認(rèn)為,當(dāng)前 AI 存在的很多局限都是因?yàn)槟P腿狈τ?3D 世界的深刻理解。如果要補(bǔ)全這一拼圖,勢必要在 3D 視覺方向投入更多的研究精力。此外,3D 視覺提供了對環(huán)境的深度感知和空間理解能力,這對于機(jī)器人在復(fù)雜三維世界中的導(dǎo)航、操作和決策至關(guān)重要。
那么,有沒有一份系統(tǒng)的研究資料可以供這一方向的研究者參考呢?機(jī)器之心最近就找到了一份:
項(xiàng)目鏈接:https://github.com/zubair-irshad/Awesome-Robotics-3D
這個(gè)名叫「Awesome-Robotics-3D」的 GitHub 存儲(chǔ)庫總共收集了 80 多篇「3D 視覺 + 機(jī)器人」方向的論文,大部分論文都給出了相應(yīng)的論文、項(xiàng)目、代碼鏈接。
這些論文可以分為以下幾個(gè)主題:
- 策略學(xué)習(xí)
- 預(yù)訓(xùn)練
- VLM 和 LLM
- 表示
- 模擬、數(shù)據(jù)集和基準(zhǔn)
這些論文既有 arXiv 預(yù)印本,也有 RSS、ICRA、IROS、CORL 等機(jī)器人學(xué)頂會(huì)以及 CVPR、ICLR、ICML 等計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)領(lǐng)域的頂會(huì)論文,含金量非常高。
每部分的論文列表如下:
1、策略學(xué)習(xí)
2、預(yù)訓(xùn)練
3、VLM 和 LLM
4、表示
5、模擬,數(shù)據(jù)集和基準(zhǔn)
此外,作者還給出了兩篇可以參考的綜述論文:
- 論文 1:When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models
- 論文鏈接:https://arxiv.org/pdf/2405.10255
論文介紹:這篇論文全面概述了使 LLM 能夠處理、理解和生成 3D 數(shù)據(jù)的方法論,并強(qiáng)調(diào)了 LLM 的獨(dú)特優(yōu)勢,例如 in-context learning、step-by-step 推理、開放詞匯能力和廣泛的世界知識,這些優(yōu)勢有望顯著推進(jìn)具身人工智能系統(tǒng)中的空間理解和交互。研究涵蓋了從點(diǎn)云到神經(jīng)輻射場(NeRF)的各種 3D 數(shù)據(jù)表示方法,并考察了它們與 LLM 的集成,用于 3D 場景理解、描述生成、問答和對話,以及基于 LLM 的代理進(jìn)行空間推理、規(guī)劃和導(dǎo)航等任務(wù)。此外,論文還簡要回顧了其他將 3D 和語言進(jìn)行整合的方法。通過對這些研究的元分析,論文揭示了取得的顯著進(jìn)展,并強(qiáng)調(diào)了開發(fā)新方法以充分利用 3D-LLM 潛力的必要性。
為了支持這項(xiàng)調(diào)查,作者建立了一個(gè)項(xiàng)目頁面,整理和列出了與主題相關(guān)的論文:https://github.com/ActiveVisionLab/Awesome-LLM-3D
- 論文 2:A Comprehensive Study of 3-D Vision-Based Robot Manipulation
- 論文鏈接:https://ieeexplore.ieee.org/document/9541299
論文介紹:這篇文章全面分析了 3D 視覺在機(jī)器人操控領(lǐng)域的最新進(jìn)展,特別是在模仿人類智能和賦予機(jī)器人更靈活工作能力方面。文章討論了傳統(tǒng)機(jī)器人操控通常依賴的 2D 視覺系統(tǒng)及其局限性,指出了 3D 視覺系統(tǒng)在開放世界中面臨的挑戰(zhàn),如在雜亂背景下的一般物體識別、遮擋估計(jì)以及類似人類的靈活操控。文章涵蓋了 3D 數(shù)據(jù)獲取與表示、機(jī)器人視覺校準(zhǔn)、3D 物體檢測 / 識別、6 自由度姿態(tài)估計(jì)、抓取估計(jì)和運(yùn)動(dòng)規(guī)劃等關(guān)鍵技術(shù)。此外,還介紹了一些公開數(shù)據(jù)集、評估標(biāo)準(zhǔn)、比較分析以及當(dāng)前面臨的挑戰(zhàn)。最后,文章探討了機(jī)器人操控的相關(guān)應(yīng)用領(lǐng)域,并對未來的研究方向和開放問題進(jìn)行了討論。
感興趣的讀者可以點(diǎn)擊項(xiàng)目鏈接開始學(xué)習(xí)。