自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

想搞懂李飛飛的創(chuàng)業(yè)方向?這里有一份機(jī)器人+3D的論文清單

人工智能 新聞
除了李飛飛,現(xiàn)在有很多研究團(tuán)隊(duì)都在關(guān)注 3D 視覺 + 機(jī)器人這一方向。這些團(tuán)隊(duì)認(rèn)為,當(dāng)前 AI 存在的很多局限都是因?yàn)槟P腿狈τ?3D 世界的深刻理解。

前段時(shí)間,多家媒體報(bào)道稱 ,著名 AI 學(xué)者、斯坦福大學(xué)教授李飛飛的創(chuàng)業(yè)公司 World Labs 在短短三個(gè)月內(nèi)已經(jīng)完成了兩輪融資,其中最新一輪融資中籌到了約 1 億美元,公司估值已超過 10 億美元,成為新晉獨(dú)角獸。

World Labs 的發(fā)展方向聚焦于「空間智能」,即開發(fā)能夠理解三維物理世界的模型,模擬物體的物理特性、空間位置和功能。李飛飛認(rèn)為「空間智能」是 AI 發(fā)展的關(guān)鍵一環(huán),她的團(tuán)隊(duì)正在斯坦福大學(xué)實(shí)驗(yàn)室里訓(xùn)練計(jì)算機(jī)和機(jī)器人在三維世界中采取行動(dòng),例如使用大型語言模型讓一個(gè)機(jī)械臂根據(jù)口頭指令執(zhí)行開門、做三明治等任務(wù)。(詳情請參見《李飛飛解讀創(chuàng)業(yè)方向「空間智能」,讓 AI 真正理解世界》)

圖片

為了解釋「空間智能」這一概念,李飛飛展示了一張貓伸出爪子將玻璃杯推向桌子邊緣的圖片。她表示,在一瞬間,人類大腦可以評估「這個(gè)玻璃杯的幾何形狀,它在三維空間中的位置,它與桌子、貓和所有其他東西的關(guān)系」,然后預(yù)測會(huì)發(fā)生什么,并采取行動(dòng)加以阻止。

其實(shí),除了李飛飛,現(xiàn)在有很多研究團(tuán)隊(duì)都在關(guān)注 3D 視覺 + 機(jī)器人這一方向。這些團(tuán)隊(duì)認(rèn)為,當(dāng)前 AI 存在的很多局限都是因?yàn)槟P腿狈τ?3D 世界的深刻理解。如果要補(bǔ)全這一拼圖,勢必要在 3D 視覺方向投入更多的研究精力。此外,3D 視覺提供了對環(huán)境的深度感知和空間理解能力,這對于機(jī)器人在復(fù)雜三維世界中的導(dǎo)航、操作和決策至關(guān)重要。

那么,有沒有一份系統(tǒng)的研究資料可以供這一方向的研究者參考呢?機(jī)器之心最近就找到了一份:

圖片

項(xiàng)目鏈接:https://github.com/zubair-irshad/Awesome-Robotics-3D

這個(gè)名叫「Awesome-Robotics-3D」的 GitHub 存儲(chǔ)庫總共收集了 80 多篇「3D 視覺 + 機(jī)器人」方向的論文,大部分論文都給出了相應(yīng)的論文、項(xiàng)目、代碼鏈接。

圖片

這些論文可以分為以下幾個(gè)主題:  

  • 策略學(xué)習(xí)
  • 預(yù)訓(xùn)練
  • VLM 和 LLM
  • 表示
  • 模擬、數(shù)據(jù)集和基準(zhǔn)

這些論文既有 arXiv 預(yù)印本,也有 RSS、ICRA、IROS、CORL 等機(jī)器人學(xué)頂會(huì)以及 CVPR、ICLR、ICML 等計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)領(lǐng)域的頂會(huì)論文,含金量非常高。

每部分的論文列表如下:

1、策略學(xué)習(xí)

圖片

圖片

2、預(yù)訓(xùn)練

圖片

3、VLM 和 LLM

圖片

圖片

4、表示

圖片

圖片

5、模擬,數(shù)據(jù)集和基準(zhǔn)

圖片

圖片

此外,作者還給出了兩篇可以參考的綜述論文: 

  • 論文 1:When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models
  • 論文鏈接:https://arxiv.org/pdf/2405.10255

論文介紹:這篇論文全面概述了使 LLM 能夠處理、理解和生成 3D 數(shù)據(jù)的方法論,并強(qiáng)調(diào)了 LLM 的獨(dú)特優(yōu)勢,例如 in-context learning、step-by-step 推理、開放詞匯能力和廣泛的世界知識,這些優(yōu)勢有望顯著推進(jìn)具身人工智能系統(tǒng)中的空間理解和交互。研究涵蓋了從點(diǎn)云到神經(jīng)輻射場(NeRF)的各種 3D 數(shù)據(jù)表示方法,并考察了它們與 LLM 的集成,用于 3D 場景理解、描述生成、問答和對話,以及基于 LLM 的代理進(jìn)行空間推理、規(guī)劃和導(dǎo)航等任務(wù)。此外,論文還簡要回顧了其他將 3D 和語言進(jìn)行整合的方法。通過對這些研究的元分析,論文揭示了取得的顯著進(jìn)展,并強(qiáng)調(diào)了開發(fā)新方法以充分利用 3D-LLM 潛力的必要性。

為了支持這項(xiàng)調(diào)查,作者建立了一個(gè)項(xiàng)目頁面,整理和列出了與主題相關(guān)的論文:https://github.com/ActiveVisionLab/Awesome-LLM-3D

圖片

  • 論文 2:A Comprehensive Study of 3-D Vision-Based Robot Manipulation
  • 論文鏈接:https://ieeexplore.ieee.org/document/9541299

論文介紹:這篇文章全面分析了 3D 視覺在機(jī)器人操控領(lǐng)域的最新進(jìn)展,特別是在模仿人類智能和賦予機(jī)器人更靈活工作能力方面。文章討論了傳統(tǒng)機(jī)器人操控通常依賴的 2D 視覺系統(tǒng)及其局限性,指出了 3D 視覺系統(tǒng)在開放世界中面臨的挑戰(zhàn),如在雜亂背景下的一般物體識別、遮擋估計(jì)以及類似人類的靈活操控。文章涵蓋了 3D 數(shù)據(jù)獲取與表示、機(jī)器人視覺校準(zhǔn)、3D 物體檢測 / 識別、6 自由度姿態(tài)估計(jì)、抓取估計(jì)和運(yùn)動(dòng)規(guī)劃等關(guān)鍵技術(shù)。此外,還介紹了一些公開數(shù)據(jù)集、評估標(biāo)準(zhǔn)、比較分析以及當(dāng)前面臨的挑戰(zhàn)。最后,文章探討了機(jī)器人操控的相關(guān)應(yīng)用領(lǐng)域,并對未來的研究方向和開放問題進(jìn)行了討論。

感興趣的讀者可以點(diǎn)擊項(xiàng)目鏈接開始學(xué)習(xí)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2018-04-19 10:33:39

DevOps開源工具

2018-07-30 09:33:21

2020-03-30 11:32:49

IT技術(shù)面試

2020-11-16 11:10:21

代碼開發(fā)工具

2019-08-16 09:55:22

Pandas編程語言代碼

2018-05-15 08:35:37

AI微軟人工智能

2020-04-22 16:21:57

HTTP3數(shù)據(jù)HTTP2

2020-12-30 10:20:03

數(shù)據(jù)技術(shù)架構(gòu)

2018-04-19 14:42:48

深度學(xué)習(xí)DL數(shù)據(jù)集

2019-04-16 13:13:56

碼農(nóng)程序員開發(fā)

2018-02-08 08:35:23

區(qū)塊鏈食品安全食品供應(yīng)商

2018-01-02 16:42:42

iPhone電池Apple

2022-03-28 13:04:10

機(jī)器學(xué)習(xí)模型計(jì)算機(jī)

2017-08-24 10:24:49

機(jī)器人模式人工智能

2012-12-10 11:32:12

打印機(jī)

2012-12-12 14:01:58

惠普打印

2018-02-08 08:26:54

紅包春節(jié)支付寶

2024-04-01 11:52:46

2019-01-02 07:43:51

機(jī)器學(xué)習(xí)人工智能學(xué)歷
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號