自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="g6weg"><li id="g6weg"><pre id="g6weg"></pre></li></p>

<em id="g6weg"><dfn id="g6weg"><thead id="g6weg"></thead></dfn></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

想搞懂李飛飛的創(chuàng)業(yè)方向？這里有一份機(jī)器人+3D的論文清單

作者：機(jī)器之心 2024-08-16 14:02:00

人工智能新聞

除了李飛飛，現(xiàn)在有很多研究團(tuán)隊(duì)都在關(guān)注 3D 視覺 + 機(jī)器人這一方向。這些團(tuán)隊(duì)認(rèn)為，當(dāng)前 AI 存在的很多局限都是因?yàn)槟Ｐ腿狈τ?3D 世界的深刻理解。

前段時(shí)間，多家媒體報(bào)道稱，著名 AI 學(xué)者、斯坦福大學(xué)教授李飛飛的創(chuàng)業(yè)公司 World Labs 在短短三個(gè)月內(nèi)已經(jīng)完成了兩輪融資，其中最新一輪融資中籌到了約 1 億美元，公司估值已超過 10 億美元，成為新晉獨(dú)角獸。

World Labs 的發(fā)展方向聚焦于「空間智能」，即開發(fā)能夠理解三維物理世界的模型，模擬物體的物理特性、空間位置和功能。李飛飛認(rèn)為「空間智能」是 AI 發(fā)展的關(guān)鍵一環(huán)，她的團(tuán)隊(duì)正在斯坦福大學(xué)實(shí)驗(yàn)室里訓(xùn)練計(jì)算機(jī)和機(jī)器人在三維世界中采取行動(dòng)，例如使用大型語言模型讓一個(gè)機(jī)械臂根據(jù)口頭指令執(zhí)行開門、做三明治等任務(wù)。（詳情請參見《李飛飛解讀創(chuàng)業(yè)方向「空間智能」，讓 AI 真正理解世界》）

為了解釋「空間智能」這一概念，李飛飛展示了一張貓伸出爪子將玻璃杯推向桌子邊緣的圖片。她表示，在一瞬間，人類大腦可以評估「這個(gè)玻璃杯的幾何形狀，它在三維空間中的位置，它與桌子、貓和所有其他東西的關(guān)系」，然后預(yù)測會(huì)發(fā)生什么，并采取行動(dòng)加以阻止。

其實(shí)，除了李飛飛，現(xiàn)在有很多研究團(tuán)隊(duì)都在關(guān)注 3D 視覺 + 機(jī)器人這一方向。這些團(tuán)隊(duì)認(rèn)為，當(dāng)前 AI 存在的很多局限都是因?yàn)槟Ｐ腿狈τ?3D 世界的深刻理解。如果要補(bǔ)全這一拼圖，勢必要在 3D 視覺方向投入更多的研究精力。此外，3D 視覺提供了對環(huán)境的深度感知和空間理解能力，這對于機(jī)器人在復(fù)雜三維世界中的導(dǎo)航、操作和決策至關(guān)重要。

那么，有沒有一份系統(tǒng)的研究資料可以供這一方向的研究者參考呢？機(jī)器之心最近就找到了一份：

項(xiàng)目鏈接：https://github.com/zubair-irshad/Awesome-Robotics-3D

這個(gè)名叫「Awesome-Robotics-3D」的 GitHub 存儲(chǔ)庫總共收集了 80 多篇「3D 視覺 + 機(jī)器人」方向的論文，大部分論文都給出了相應(yīng)的論文、項(xiàng)目、代碼鏈接。

這些論文可以分為以下幾個(gè)主題：

策略學(xué)習(xí)
預(yù)訓(xùn)練
VLM 和 LLM
表示
模擬、數(shù)據(jù)集和基準(zhǔn)

這些論文既有 arXiv 預(yù)印本，也有 RSS、ICRA、IROS、CORL 等機(jī)器人學(xué)頂會(huì)以及 CVPR、ICLR、ICML 等計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)領(lǐng)域的頂會(huì)論文，含金量非常高。

每部分的論文列表如下：

1、策略學(xué)習(xí)

2、預(yù)訓(xùn)練

3、VLM 和 LLM

4、表示

5、模擬，數(shù)據(jù)集和基準(zhǔn)

此外，作者還給出了兩篇可以參考的綜述論文：

論文 1：When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models
論文鏈接：https://arxiv.org/pdf/2405.10255

論文介紹：這篇論文全面概述了使 LLM 能夠處理、理解和生成 3D 數(shù)據(jù)的方法論，并強(qiáng)調(diào)了 LLM 的獨(dú)特優(yōu)勢，例如 in-context learning、step-by-step 推理、開放詞匯能力和廣泛的世界知識，這些優(yōu)勢有望顯著推進(jìn)具身人工智能系統(tǒng)中的空間理解和交互。研究涵蓋了從點(diǎn)云到神經(jīng)輻射場（NeRF）的各種 3D 數(shù)據(jù)表示方法，并考察了它們與 LLM 的集成，用于 3D 場景理解、描述生成、問答和對話，以及基于 LLM 的代理進(jìn)行空間推理、規(guī)劃和導(dǎo)航等任務(wù)。此外，論文還簡要回顧了其他將 3D 和語言進(jìn)行整合的方法。通過對這些研究的元分析，論文揭示了取得的顯著進(jìn)展，并強(qiáng)調(diào)了開發(fā)新方法以充分利用 3D-LLM 潛力的必要性。

為了支持這項(xiàng)調(diào)查，作者建立了一個(gè)項(xiàng)目頁面，整理和列出了與主題相關(guān)的論文：https://github.com/ActiveVisionLab/Awesome-LLM-3D

論文 2：A Comprehensive Study of 3-D Vision-Based Robot Manipulation
論文鏈接：https://ieeexplore.ieee.org/document/9541299

論文介紹：這篇文章全面分析了 3D 視覺在機(jī)器人操控領(lǐng)域的最新進(jìn)展，特別是在模仿人類智能和賦予機(jī)器人更靈活工作能力方面。文章討論了傳統(tǒng)機(jī)器人操控通常依賴的 2D 視覺系統(tǒng)及其局限性，指出了 3D 視覺系統(tǒng)在開放世界中面臨的挑戰(zhàn)，如在雜亂背景下的一般物體識別、遮擋估計(jì)以及類似人類的靈活操控。文章涵蓋了 3D 數(shù)據(jù)獲取與表示、機(jī)器人視覺校準(zhǔn)、3D 物體檢測 / 識別、6 自由度姿態(tài)估計(jì)、抓取估計(jì)和運(yùn)動(dòng)規(guī)劃等關(guān)鍵技術(shù)。此外，還介紹了一些公開數(shù)據(jù)集、評估標(biāo)準(zhǔn)、比較分析以及當(dāng)前面臨的挑戰(zhàn)。最后，文章探討了機(jī)器人操控的相關(guān)應(yīng)用領(lǐng)域，并對未來的研究方向和開放問題進(jìn)行了討論。

感興趣的讀者可以點(diǎn)擊項(xiàng)目鏈接開始學(xué)習(xí)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="im0u1"><p id="im0u1"></p></sub>

^{<blockquote id="im0u1"></blockquote>}