自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

牛津大學(xué)最新 | 近400篇總結(jié)!暢談大語言模型與三維世界最新綜述

人工智能 新聞
通過這篇論文,我們旨在為未來的研究制定一條路線,探索和擴(kuò)展3D LLM在理解復(fù)雜的3D世界和與之互動(dòng)方面的能力。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

隨著大型語言模型(LLM)的發(fā)展,它們與3D空間數(shù)據(jù)(3D LLM)之間的集成取得了快速進(jìn)展,為理解物理空間和與物理空間交互提供了前所未有的能力。本文全面概述了LLM處理、理解和生成3D數(shù)據(jù)的方法。我們強(qiáng)調(diào)了LLM的獨(dú)特優(yōu)勢,如上下文學(xué)習(xí)、逐步推理、開放詞匯能力和廣泛的世界知識(shí),強(qiáng)調(diào)了它們在嵌入式人工智能(AI)系統(tǒng)中顯著推進(jìn)空間理解和互動(dòng)的潛力。我們的研究涵蓋了從點(diǎn)云到神經(jīng)輻射場(NeRF)的各種3D數(shù)據(jù)表示。并分析它們與LLM的集成,用于3D場景理解、字幕、問答和對話等任務(wù),以及用于空間推理、規(guī)劃和導(dǎo)航的基于LLM的代理。本文還簡要回顧了其他將3D和語言相結(jié)合的方法,進(jìn)一步揭示了相關(guān)重大進(jìn)展,但強(qiáng)調(diào)了利用3D LLM的全部潛力的新方法的必要性。因此通過這篇論文,我們旨在為未來的研究制定一條路線,探索和擴(kuò)展3D LLM在理解復(fù)雜的3D世界和與之互動(dòng)方面的能力。

開源鏈接:https://github.com/ActiveVisionLab/Awesome-LLM-3D

相關(guān)背景

本節(jié)提供有關(guān)三維表示、大型語言模型(LLM)、二維視覺語言模型(VLM)和視覺基礎(chǔ)模型(VFM)的基本背景知識(shí)。

3D表示

選擇3D表示來描述、建模和理解我們的世界是一個(gè)至關(guān)重要的主題,有助于理解3D LLM的當(dāng)前進(jìn)展。它也是計(jì)算機(jī)視覺的一個(gè)基礎(chǔ)研究領(lǐng)域。由于深度學(xué)習(xí)、計(jì)算資源和3D數(shù)據(jù)可用性的進(jìn)步,該領(lǐng)域最近出現(xiàn)了大幅增長。我們簡要介紹目前使用的最常見的三維表示。

點(diǎn)云:用空間中的一組數(shù)據(jù)點(diǎn)表示三維形狀,將每個(gè)點(diǎn)的位置存儲(chǔ)在三維笛卡爾坐標(biāo)系中。除了存儲(chǔ)位置之外,還可以存儲(chǔ)每個(gè)點(diǎn)的其他信息(例如顏色、法線)?;邳c(diǎn)云的方法以其低存儲(chǔ)占用空間而聞名,但缺乏表面拓?fù)湫畔ⅰ+@取點(diǎn)云的典型來源包括激光雷達(dá)傳感器、結(jié)構(gòu)光掃描儀、飛行時(shí)間相機(jī)、立體視圖、攝影測量等。

體素網(wǎng)格:由三維空間中的單位立方體組成,類似于二維空間中的像素表示。每個(gè)體素最低限度地編碼占用信息(二進(jìn)制或概率地),但可以附加地編碼到表面的距離,如在有符號(hào)距離函數(shù)(SDF)或截?cái)喾?hào)距離函數(shù)(TSDF)中。然而當(dāng)需要高分辨率的細(xì)節(jié)時(shí),內(nèi)存占用可能會(huì)變得過多。

多邊形網(wǎng)格:表示由頂點(diǎn)和曲面組成,可以緊湊地描述復(fù)雜的三維形狀。然而,它們的非結(jié)構(gòu)化和不可微性質(zhì)在將它們與神經(jīng)網(wǎng)絡(luò)集成以實(shí)現(xiàn)端到端可微管道方面帶來了挑戰(zhàn)。解決這個(gè)問題的一些解決方案,例如基于梯度近似的方法,只能使用手工制作的梯度計(jì)算。其他解決方案,如可微分光柵化器,可能會(huì)導(dǎo)致不精確的渲染結(jié)果,如內(nèi)容模糊。

近年來,神經(jīng)場在3D研究界引起了越來越多的興趣,與依賴于幾何圖元的傳統(tǒng)表示不同。神經(jīng)場是從空間坐標(biāo)到場景屬性(如占用、顏色、輻射等)的映射,但與體素網(wǎng)格不同的是,在神經(jīng)場中,映射是一個(gè)學(xué)習(xí)函數(shù),通常是多層感知器。通過這種方式,神經(jīng)場隱含地學(xué)習(xí)緊湊、連續(xù)和可微分的3D形狀和場景表示。

一組神經(jīng)領(lǐng)域?qū)W⒂陔[式表面表示。占用網(wǎng)絡(luò)在由神經(jīng)網(wǎng)絡(luò)表示的連續(xù)3D占用函數(shù)中對形狀進(jìn)行編碼,使用來自點(diǎn)云、低分辨率體素或圖像的3D點(diǎn)位置和特征來估計(jì)占用概率。同時(shí),深度SDF網(wǎng)絡(luò)使用神經(jīng)網(wǎng)絡(luò)從三維坐標(biāo)和潛在向量估計(jì)SDF。最近的方法,如NeuS和NeuS2,顯著提高了靜態(tài)和動(dòng)態(tài)目標(biāo)的表面重建保真度和效率。

另一組被稱為神經(jīng)輻射場(NeRF)的方法顯示了強(qiáng)大的3D世界真實(shí)感渲染能力。這些方法使用位置編碼技術(shù)對場景細(xì)節(jié)進(jìn)行編碼,并利用MLP來預(yù)測相機(jī)光線的輻射值(顏色和不透明度)。然而,MLP推斷空間中每個(gè)采樣點(diǎn)(包括空空間中的采樣點(diǎn))的顏色和占用細(xì)節(jié)的必要性需要大量的計(jì)算資源。因此,有強(qiáng)烈的動(dòng)機(jī)來減少NeRF的實(shí)時(shí)應(yīng)用程序的計(jì)算開銷。

混合表示試圖將NeRF技術(shù)與傳統(tǒng)的基于體積的方法相結(jié)合,促進(jìn)高質(zhì)量的實(shí)時(shí)渲染。例如,將體素網(wǎng)格或多分辨率哈希網(wǎng)格與神經(jīng)網(wǎng)絡(luò)相結(jié)合,大大減少了NeRF的訓(xùn)練和推理時(shí)間。

3D高斯散射是點(diǎn)云的一種變體,其中每個(gè)點(diǎn)都包含額外的信息,表示該點(diǎn)周圍的空間區(qū)域中發(fā)射的輻射為各向異性的3D高斯“斑點(diǎn)”。這些3D高斯通常是從SfM點(diǎn)云初始化的,并使用可微分渲染進(jìn)行優(yōu)化。3D高斯散射通過利用高效的光柵化而非光線追蹤,以NeRF計(jì)算的一小部分實(shí)現(xiàn)了最先進(jìn)的新型視圖合成。

LLM

傳統(tǒng)的自然語言處理(NLP)包含了廣泛的任務(wù),旨在使系統(tǒng)能夠理解、生成和操作文本。NLP的早期方法依賴于基于規(guī)則的系統(tǒng)、統(tǒng)計(jì)模型和早期的神經(jīng)結(jié)構(gòu)(如遞歸神經(jīng)網(wǎng)絡(luò))等技術(shù)。最近引入的大型語言模型(LLM)采用了transformer架構(gòu)和在大量文本語料庫上進(jìn)行訓(xùn)練,取得了前所未有的性能,并在該領(lǐng)域引發(fā)了新的熱潮。由于本文的重點(diǎn)是三維LLM,我們在這里提供了LLM的相關(guān)背景知識(shí)。為了深入探索LLM,我們參考了該地區(qū)的最新調(diào)查。

LLM結(jié)構(gòu)

在LLM的上下文中,“編碼器-解碼器”和“僅解碼器”架構(gòu)主要用于NLP任務(wù)。

  • Encoder-decoder architectures;
  • Decoder-only architectures;
  • Tokenization:標(biāo)記化是一種將輸入文本分解為標(biāo)記序列的預(yù)處理方法,標(biāo)記序列是語言模型中的基本數(shù)據(jù)單元。令牌的數(shù)量是有限的,每個(gè)令牌可以對應(yīng)一個(gè)單詞、子單詞或單個(gè)字母。在推理過程中,輸入文本被轉(zhuǎn)換為令牌序列,并被饋送到模型,模型預(yù)測輸出令牌,然后將輸出令牌轉(zhuǎn)換回文本。標(biāo)記化對語言模型的性能有很大影響,因?yàn)樗绊懥四P蛯ξ谋镜母兄?。使用了各種標(biāo)記化技術(shù),例如單詞級標(biāo)記化、子單詞標(biāo)記化(例如字節(jié)對編碼、WordPiece、PencePiece)和字符級標(biāo)記化。

LLM Emergent Abilities

LLM和傳統(tǒng)的非LLM方法之間的一個(gè)主要區(qū)別是在大模型中可用但在小模型中不存在的涌現(xiàn)能力。術(shù)語“應(yīng)急能力”是指隨著LLM規(guī)模和復(fù)雜性的擴(kuò)大而產(chǎn)生的新的復(fù)雜能力。這些能力使人們能夠深入理解和生成自然語言,在沒有特定訓(xùn)練的情況下解決各個(gè)領(lǐng)域的問題,并通過情境學(xué)習(xí)適應(yīng)新任務(wù)。在下文中,我們將介紹LLM范圍內(nèi)的幾種常見涌現(xiàn)能力。

上下文學(xué)習(xí)是指LLM根據(jù)提示中提供的上下文理解和響應(yīng)新任務(wù)或查詢的能力,而不需要明確的再培訓(xùn)或微調(diào)。里程碑論文(GPT-2/GPT-3)以多鏡頭的方式展示了上下文學(xué)習(xí),其中向模型提供提示中的幾個(gè)任務(wù)示例,然后要求其在沒有事先明確訓(xùn)練的情況下處理不同的示例。最先進(jìn)的LLM,如GPT-4,表現(xiàn)出非凡的上下文學(xué)習(xí)能力,理解復(fù)雜的指令,并執(zhí)行從簡單翻譯到生成代碼和創(chuàng)造性寫作的廣泛任務(wù),所有這些都基于提示中提供的上下文。

LLM中的推理,通常被稱為“思維鏈”提示,涉及到在處理復(fù)雜問題或問題時(shí)生成中間步驟或推理路徑的模型。這種方法允許LLM將任務(wù)分解為更小、可管理的部分,從而促進(jìn)更結(jié)構(gòu)化和更易于理解的解決方案過程。為了實(shí)現(xiàn)這一點(diǎn),訓(xùn)練涉及數(shù)據(jù)集,其中包括各種解決問題的任務(wù)、邏輯謎題和旨在模擬不確定性下推理的數(shù)據(jù)集。當(dāng)前最先進(jìn)的LLM通常在模型大小大于60B到100B的參數(shù)時(shí)表現(xiàn)出高級推理能力。

指令遵循是指模型理解和執(zhí)行命令的能力,或按照用戶指定的指令執(zhí)行的能力。這包括解析指令,理解其意圖,并生成適當(dāng)?shù)捻憫?yīng)或操作。用于使這種能力適應(yīng)新任務(wù)的方法可能需要來自包含與正確響應(yīng)或動(dòng)作配對的各種指令的數(shù)據(jù)集的指令調(diào)整。監(jiān)督學(xué)習(xí)、來自人類反饋的強(qiáng)化學(xué)習(xí)和互動(dòng)學(xué)習(xí)等技術(shù)可以進(jìn)一步提高績效。

LLM Fine-tuning

在3D LLM的背景下,LLM要么在其預(yù)訓(xùn)練狀態(tài)下直接使用,要么進(jìn)行微調(diào)以適應(yīng)新的多模式任務(wù)。然而,由于涉及大量的參數(shù),對LLM的整個(gè)參數(shù)進(jìn)行微調(diào)會(huì)帶來顯著的計(jì)算和內(nèi)存挑戰(zhàn)。因此,通過僅更新模型參數(shù)的相對較小的子集而不是重新訓(xùn)練整個(gè)模型,參數(shù)有效微調(diào)(PEFT)在使LLM適應(yīng)特定任務(wù)方面變得越來越流行。以下部分列出了LLM中使用的四種常見PEFT方法。

低秩自適應(yīng)(LoRA)和變體通過低秩矩陣更新參數(shù)。從數(shù)學(xué)上講,在微調(diào)期間LoRA的正向通過可以表示為h=W0x+BAx。W0是LLM的凍結(jié)權(quán)重,而BA是由在微調(diào)階段更新的新引入的矩陣a和B參數(shù)化的低秩矩陣。這種方法有幾個(gè)明顯的好處。在微調(diào)過程中,只有B和A被優(yōu)化,顯著減少了與梯度計(jì)算和參數(shù)更新相關(guān)的計(jì)算開銷。一旦微調(diào)結(jié)束并合并權(quán)重,與原始模型相比就沒有額外的推理成本,如方程所示:h=(W0+BA)x。此外,不需要為不同的任務(wù)保存LLM的多個(gè)副本,因?yàn)榭梢员4娑鄠€(gè)LoRA實(shí)例,從而減少存儲(chǔ)占用。

層凍結(jié):凍結(jié)預(yù)訓(xùn)練模型的選定層,同時(shí)在訓(xùn)練期間更新其他層。這通常適用于更接近模型輸入或輸出的層,具體取決于任務(wù)的性質(zhì)和模型架構(gòu)。例如,在3D-LLM方法中,除了輸入和輸出嵌入之外的所有層都可以被凍結(jié),以減輕特定任務(wù)數(shù)據(jù)集的過擬合風(fēng)險(xiǎn),保留預(yù)先訓(xùn)練的一般知識(shí)并減少需要優(yōu)化的參數(shù)。

Prompt Tuning通過在提示中設(shè)置LLM的框架來指導(dǎo)LLM執(zhí)行特定任務(wù),與調(diào)整模型參數(shù)的傳統(tǒng)微調(diào)相比,調(diào)整模型輸入。手動(dòng)提示工程是最直觀的方法,但經(jīng)驗(yàn)豐富的提示調(diào)諧工程師很難找到最佳提示。另一組方法是自動(dòng)提示生成和優(yōu)化。一種流行的方法是搜索精確的最佳輸入提示文本,稱為硬提示,例如?;蛘?,可以使用優(yōu)化方法來優(yōu)化提示(軟提示)的嵌入。

自適應(yīng)微調(diào)通過添加或刪除層或模塊來為特定任務(wù)定制模型體系結(jié)構(gòu)。這可以包括集成新的數(shù)據(jù)模式,如視覺信息和文本數(shù)據(jù)。自適應(yīng)微調(diào)的核心思想是利用插入預(yù)訓(xùn)練模型層之間的小型神經(jīng)網(wǎng)絡(luò)模塊。在自適應(yīng)微調(diào)期間,僅更新這些適配器模塊的參數(shù),而原始模型權(quán)重保持不變。

2D Vision-Language models

視覺語言模型是一系列模型,旨在捕捉和利用文本和圖像/視頻之間的關(guān)系,并能夠執(zhí)行兩種模式之間的交互任務(wù)。大多數(shù)VLM都具有基于Transformer的體系結(jié)構(gòu)。通過利用注意力模塊,視覺和文本內(nèi)容相互制約,從而實(shí)現(xiàn)相互互動(dòng)。在下面的段落中,我們將簡要介紹VLM在判別和生成任務(wù)中的應(yīng)用。

判別任務(wù)包括預(yù)測數(shù)據(jù)的某個(gè)特征。VLM,如CLIP和ALIGN,在圖像分類中對看不見的數(shù)據(jù)的零樣本可傳輸性方面表現(xiàn)出了非凡的性能。這兩個(gè)模型都包括兩個(gè)模塊:視覺編碼器和文本編碼器。給定圖像及其類別,CLIP和ALIGN是通過最大限度地提高句子“{圖像類別}的照片”的圖像嵌入和文本嵌入之間的相似性來訓(xùn)練的。零樣本可轉(zhuǎn)移性是通過在推理過程中用可能的候選者替換“{圖像類別}”并搜索與圖像最匹配的句子來實(shí)現(xiàn)的。這兩部作品啟發(fā)了眾多后續(xù)作品,進(jìn)一步提高了圖像分類的準(zhǔn)確性。這些模型還可以提取學(xué)習(xí)到的知識(shí)用于其他任務(wù),包括目標(biāo)檢測、圖像分割、文檔理解和視頻識(shí)別。

生成任務(wù)利用VLM從輸入數(shù)據(jù)生成文本或圖像。通過利用大規(guī)模訓(xùn)練數(shù)據(jù),單個(gè)VLM通??梢詧?zhí)行多個(gè)圖像到文本的生成任務(wù),如圖像字幕和視覺問答(VQA)。值得注意的例子包括SimVLM、BLIP和OFA等。更強(qiáng)大的VLM,如BLIP-2、Flamingo和LLaVA,能夠處理基于輸入圖像的多回合對話和推理。隨著擴(kuò)散模型的引入,文本到圖像的生成也成為了研究界的焦點(diǎn)。通過對大量的圖像-文本對進(jìn)行訓(xùn)練,擴(kuò)散模型可以基于文本輸入生成高質(zhì)量的圖像。此功能還擴(kuò)展到生成視頻、3D場景和動(dòng)態(tài)3D目標(biāo)。除了生成任務(wù)外,還可以通過文本提示編輯現(xiàn)有圖像。

Vision Foundation Models

視覺基礎(chǔ)模型(VFM)是一種大型神經(jīng)網(wǎng)絡(luò),旨在提取足夠多樣化和富有表現(xiàn)力的圖像表示,以便直接部署在各種下游任務(wù)中,反映預(yù)先訓(xùn)練的LLM在下游NLP任務(wù)中的作用。一個(gè)值得注意的例子是DINO,它使用了一種自我監(jiān)督的師生培訓(xùn)模式。所學(xué)習(xí)的表示在圖像分類和語義圖像匹配方面都取得了良好的效果。DINO中的注意力權(quán)重也可以用作觀察到的場景的語義成分的分割掩碼。iBOT和DINOv2等后續(xù)工作通過引入掩蔽圖像建模(MIM)損失來進(jìn)一步改進(jìn)表示。SAM是一種基于變換器的圖像分割模型,在由11億張具有語義掩碼的圖像組成的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并表現(xiàn)出強(qiáng)大的零樣本傳遞能力。DINO(Zhang等人)——不要與DINO(Caron等人)混淆——采用了類似DETR的架構(gòu)和混合查詢選擇來進(jìn)行目標(biāo)檢測。后續(xù)工作Grounding DINO引入文本監(jiān)督以提高準(zhǔn)確性。Stable Diffusion是一種文本到圖像生成器,它還被用作“真實(shí)”圖像的特征提取器,方法是對干凈或人工噪聲圖像運(yùn)行單個(gè)擴(kuò)散步驟,并提取中間特征或注意力掩碼。這些特征最近被用于分割和圖像匹配任務(wù),這是由于用于擴(kuò)散模型的訓(xùn)練集的大小和多樣性,以及由于觀察到的擴(kuò)散特征的涌現(xiàn)特性,例如圖像之間的零樣本對應(yīng)。

任務(wù)

3D Captioning (3D → Text)

  • Object-Level Captioning
  • Scene-Level Captioning
  • 3D Dense Captioning

3D Grounding (3D + Text → 3D Position)

  • Single-Object Grounding
  • Multi-Object Grounding

3D Conversation (3D + Text → Text)

  • 3D Question Answering (3D-QA)
  • 3D Situated Question Answering (3D-SQA)
  • 3D Dialogue

3.4 3D Embodied Agents (3D + Text → Action)

  • 3D Task Planning
  • 3D Navigation
  • 3D Manipulation

3.5 Text-to-3D Generation (Text → 3D)

  • 3D Object Generation
  • 3D Scene Generation
  • 3D Editing

3D TASKS WITH LLMS

3D場景理解任務(wù)已經(jīng)被廣泛研究。場景理解的核心是識(shí)別和分類指定三維環(huán)境中的所有目標(biāo),這一過程被稱為語義或?qū)嵗壚斫狻_@一階段至關(guān)重要,因?yàn)樗鼧?gòu)成了建立更微妙解釋的基礎(chǔ)。隨后,更高層次的場景理解側(cè)重于空間理解,空間理解是指空間場景圖的構(gòu)建和目標(biāo)關(guān)系的語義。更進(jìn)一步,可以預(yù)測潛在的互動(dòng),例如可供性、場景變化,以及理解場景的更廣泛背景,例如功能和美學(xué)風(fēng)格。3D數(shù)據(jù)還提出了2D中不存在的獨(dú)特挑戰(zhàn),例如獲得和標(biāo)記3D數(shù)據(jù)的相對較高的成本、不均勻密集或與網(wǎng)格對齊的稀疏3D數(shù)據(jù)結(jié)構(gòu),以及需要協(xié)調(diào)相同目標(biāo)的多個(gè)(可能被遮擋的)視點(diǎn)。為此,研究人員利用了語言的力量,可以嵌入3D世界中的語義和關(guān)系。最近在將大型語言模型(LLM)與3D數(shù)據(jù)集成方面的努力表明,利用LLM的內(nèi)在優(yōu)勢,即零樣本學(xué)習(xí)、上下文學(xué)習(xí)、逐步推理和廣泛的世界知識(shí),有望實(shí)現(xiàn)多層次的理解和交互。

How do LLMs process 3D scene information?

傳統(tǒng)的LLM僅限于文本作為輸入和輸出,這使得攝取3D信息的能力成為所有3D-LLM方法的主要關(guān)注點(diǎn)??傮w思路是將3D目標(biāo)或場景信息映射到語言空間中,使LLM能夠理解和處理這些3D輸入。具體而言,這通常涉及兩個(gè)步驟:(i)使用預(yù)先訓(xùn)練的3D編碼器來處理相應(yīng)的3D表示,產(chǎn)生原始3D特征;(ii)采用對齊模塊將這些3D特征轉(zhuǎn)換成LLM可以處理的3D標(biāo)記,類似于所述的標(biāo)記化過程。經(jīng)過預(yù)訓(xùn)練的LLM然后可以在生成輸出時(shí)使用這些對齊的3D標(biāo)記。

如前所述,考慮到3D表示的多樣性,有多種方法可以獲得3D特征。如表1中的“3D幾何”列所示,點(diǎn)云由于其簡單性和與各種預(yù)先訓(xùn)練的3D編碼器的兼容性而最為常見,這使其成為多任務(wù)和多模式學(xué)習(xí)方法的熱門選擇。多視圖圖像也經(jīng)常被使用,因?yàn)閷?D特征提取的研究已經(jīng)成熟,這意味著3D特征提取只需要額外的2D到3D提升方案。使用深度相機(jī)容易獲得的RGB-D數(shù)據(jù)通常用于3D嵌入式代理系統(tǒng)中,以提取與視點(diǎn)相關(guān)的信息用于導(dǎo)航和理解。3D場景圖是一種更抽象的3D表示,擅長對目標(biāo)的存在及其關(guān)系進(jìn)行建模,并捕捉場景的高級信息。它們經(jīng)常用于3D場景分類和規(guī)劃任務(wù)。NeRF目前較少用于3D-LLM方法。我們認(rèn)為這是由于它們的隱式性質(zhì),這使得它們更難標(biāo)記化并與前饋神經(jīng)網(wǎng)絡(luò)集成。

LLMs for Enhancing 3D Task Performance

根據(jù)大量數(shù)據(jù)訓(xùn)練的LLM已被證明可以獲得有關(guān)世界的常識(shí)性知識(shí)。LLM的世界知識(shí)和推理能力的潛力已經(jīng)被探索出來,以增強(qiáng)對3D場景的理解,并重新制定幾個(gè)3D任務(wù)的管道。在本節(jié)中,我們將重點(diǎn)介紹旨在使用LLM來提高現(xiàn)有方法在3D視覺語言任務(wù)中的性能的方法。當(dāng)將LLM應(yīng)用于3D任務(wù)時(shí),我們可以將其使用分為兩組:知識(shí)增強(qiáng)和推理增強(qiáng)方法。知識(shí)增強(qiáng)方法利用LLM中嵌入的廣闊世界知識(shí)來提高3D任務(wù)性能。這可以提供上下文見解,填補(bǔ)知識(shí)空白,或者可以增強(qiáng)對3D環(huán)境的語義理解?;蛘?,增強(qiáng)推理的方法不是依賴于它們的世界知識(shí),而是利用LLM的能力逐步進(jìn)行推理,從而提供更好的泛化能力來應(yīng)對更復(fù)雜的3D挑戰(zhàn)。以下兩部分分別介紹了這些方法。

  • Knowledge-enhanced approaches:有幾種方法可以利用LLM世界知識(shí)。Chen等人使用LLM從RGB-D圖像進(jìn)行3D房間分類。這里,LLM中嵌入的知識(shí)用于基于房間中包含的對象類別信息來確定房間類別。首先,這種方法從Matterport3D數(shù)據(jù)創(chuàng)建場景圖,其中包含區(qū)域和對象的節(jié)點(diǎn),以及鏈接到房間節(jié)點(diǎn)的對象節(jié)點(diǎn)。接下來,選擇關(guān)鍵對象以形成每個(gè)房間類型的查詢。從所選對象中提取的LLM分?jǐn)?shù)描述,最高分?jǐn)?shù)預(yù)測房間標(biāo)簽。還可以提供諸如尺寸或位置之類的空間信息。
  • Reasoning-enhanced approaches:除了世界知識(shí)外,LLM的推理能力還有助于處理其他3D任務(wù),特別是在具有詳細(xì)幾何結(jié)構(gòu)和多個(gè)對象的復(fù)雜3D場景中的視覺基礎(chǔ)。在這種情況下,對象的文本描述應(yīng)該包括它們的外觀以及與周圍項(xiàng)目的空間關(guān)系。由于無法理解詳細(xì)的文本描述,普通的接地方法在這種情況下往往很困難。LLM-Grounder、Transcribe3D和零樣本3DVG通過利用LLM的推理能力來分析文本描述并生成一系列指令來使用現(xiàn)有的接地工具箱來定位對象,從而解決了這個(gè)問題。

LLMs for 3D Multi-Task Learning

許多工作側(cè)重于使用LLM的指令跟隨和上下文學(xué)習(xí)功能,將多個(gè)3D任務(wù)統(tǒng)一到一個(gè)語言空間中。通過使用不同的文本提示來表示不同的任務(wù),這些研究旨在使LLM成為一個(gè)統(tǒng)一的對話界面。使用LLM實(shí)現(xiàn)多任務(wù)學(xué)習(xí)通常涉及幾個(gè)關(guān)鍵步驟,從構(gòu)建3D文本數(shù)據(jù)對開始。這些配對需要以文本形式精心制作任務(wù)指令,并定義每個(gè)不同任務(wù)的輸出。接下來,3D數(shù)據(jù)(通常以點(diǎn)云的形式)被饋送到3D編碼器以提取3D特征。對齊模塊隨后用于(i)在多個(gè)級別(目標(biāo)級別、關(guān)系級別和場景級別)上將3D特征與來自LLM的文本嵌入對齊,以及(ii)將3D特征翻譯成LLM可解釋的標(biāo)記。最后,需要選擇合適的訓(xùn)練策略,例如單階段或多階段的3D語言對齊訓(xùn)練和多任務(wù)指令微調(diào)。

在本節(jié)的剩余部分中,我們將詳細(xì)探討這些方面。我們在表2中還總結(jié)了本節(jié)中審查的每種方法的范圍和能力。

  • Data for Multi-Task Learning:如表2所示,我們將任務(wù)分為四類:字幕、基礎(chǔ)、問答(QA)和具體代理任務(wù)(即計(jì)劃、導(dǎo)航和操作)。因此,每個(gè)任務(wù)的文本輸出都遵循預(yù)定義的格式。對于字幕和QA任務(wù),輸出為純文本,不受特定格式的限制?;A(chǔ)任務(wù)的輸出是一個(gè)三維邊界框,通常是參考對象的中心坐標(biāo)及其三維大小。通常,點(diǎn)和大小的值被歸一化為落在0-255的范圍內(nèi),這限制了LLM需要預(yù)測的令牌的范圍。對于規(guī)劃,模型以文本形式輸出一系列執(zhí)行任務(wù)的步驟,而對于導(dǎo)航,輸出是一系列空間坐標(biāo)。對于操作,輸出是文本形式的動(dòng)作序列?,F(xiàn)有方法遵循這些準(zhǔn)則來構(gòu)建其多任務(wù)指令微調(diào)數(shù)據(jù)集。
  • Training an LLM for multiple 3D tasks:為多個(gè)3D任務(wù)訓(xùn)練LLM的第一步涉及獲得有意義的3D特征,其中提取方法根據(jù)3D場景的類型而變化。對于單個(gè)對象點(diǎn)云,point LLM、Chat-3D和GPT4Point利用point BERT提取3D對象特征。對于室內(nèi)場景,LEO使用PointNet++進(jìn)行特征提取,而Chat-3D v2和3DMIT對場景進(jìn)行分割,并使用Uni-3D為每個(gè)分割部分提取特征。同時(shí),MultiPLY將提取的對象特征集成到場景圖中,以表示整個(gè)場景。3D-LLM和場景LLM將特征從2D多視圖圖像提升到3D表示中。3D-LLM從Mask2Former或SAM中提取2D語義特征。場景LLM遵循ConceptFusion融合全局信息和局部細(xì)節(jié),將逐像素的CLIP特征映射為逐點(diǎn)的3D特征。對于室外3D場景,LiDAR LLM使用VoxelNet來提取3D體素特征。

LLMs as 3D Multi-Modal Interfaces

除了探索3D多任務(wù)學(xué)習(xí)器外,最近的一些研究還結(jié)合了不同模式的信息,以進(jìn)一步提高模型的能力并實(shí)現(xiàn)新的交互。除了文本和3D場景之外,多模式3D LLM還可以包括場景中的2D圖像、音頻或觸摸信息作為輸入。

大多數(shù)作品旨在構(gòu)建跨不同模態(tài)的公共表示空間。由于一些現(xiàn)有作品已經(jīng)提供了將文本、圖像或音頻映射到公共空間的預(yù)訓(xùn)練編碼器,一些作品選擇學(xué)習(xí)將3D嵌入與用于其他模態(tài)的預(yù)訓(xùn)練的編碼器的嵌入空間對齊的3D編碼器。JM3D-LLM學(xué)習(xí)將點(diǎn)云的嵌入空間與SLIP的文本圖像嵌入空間對齊的3D點(diǎn)云編碼器。它渲染點(diǎn)云的圖像序列,并在訓(xùn)練期間構(gòu)建層次文本樹,以實(shí)現(xiàn)詳細(xì)對齊。Point Bind還學(xué)習(xí)了一個(gè)類似的3D編碼器,并將其與ImageBind對齊,以統(tǒng)一圖像、文本、音頻和點(diǎn)云的嵌入空間。這使得能夠使用不同的任務(wù)頭在各種模式之間處理不同的任務(wù),例如檢索、分類和生成。然而,一個(gè)值得注意的限制是,這種方法僅適用于小規(guī)模的目標(biāo)級場景,因?yàn)?D編碼器處理具有數(shù)百萬點(diǎn)的大型場景在計(jì)算上是昂貴的。此外,像CLIP這樣的大多數(shù)預(yù)訓(xùn)練多模式編碼器都是為單目標(biāo)場景設(shè)計(jì)的,不適合具有多個(gè)目標(biāo)和局部細(xì)節(jié)的大型場景。

相反,大型場景需要更細(xì)致的設(shè)計(jì)來融合多種模式。ConceptFusion構(gòu)建了一個(gè)增強(qiáng)的特征圖,該特征圖融合了大型場景的每個(gè)組成圖像的全局信息和局部細(xì)節(jié)。這是通過使用已經(jīng)與包括文本和音頻在內(nèi)的不同模態(tài)對齊的預(yù)先訓(xùn)練的特征提取器來實(shí)現(xiàn)的。然后,它使用傳統(tǒng)的SLAM方法將特征圖映射到場景的點(diǎn)云。MultiPLY采用了與ConceptGraph類似的表示方式。它識(shí)別場景中的所有顯著目標(biāo),獲得每個(gè)目標(biāo)的全局嵌入,并最終構(gòu)建場景圖。所得到的表示是與Llama的嵌入空間對齊的場景嵌入。包括音頻、溫度和觸覺在內(nèi)的其他模態(tài)的嵌入也可以使用線性投影映射到相同的空間。所有嵌入都被標(biāo)記化,并立即發(fā)送到LLM。與目標(biāo)級場景的方法相比,可以處理大型場景的方法通過依賴預(yù)先訓(xùn)練的編碼器來彌補(bǔ)模態(tài)差距,而不是從頭開始學(xué)習(xí)新的編碼器,從而降低了成本。

LLMs for Embodied Agents

可以使用LLM的規(guī)劃、工具使用和決策能力來創(chuàng)建3D具體代理。這些能力使LLM能夠生成智能決策,包括在3D環(huán)境中導(dǎo)航、與目標(biāo)交互以及選擇適當(dāng)?shù)墓ぞ邅韴?zhí)行特定任務(wù)。本節(jié)描述了3D具體代理如何執(zhí)行規(guī)劃、導(dǎo)航和操作任務(wù)。

  • 3D Task Planning:對于具體代理,“任務(wù)規(guī)劃”是指在給定任務(wù)描述和3D環(huán)境的情況下,生成執(zhí)行特定任務(wù)的步驟的能力。任務(wù)規(guī)劃通常是導(dǎo)航和操縱任務(wù)的先決條件,因?yàn)橐?guī)劃的準(zhǔn)確性直接影響后續(xù)任務(wù)的性能。LEO和LLM Planner利用LLM生成逐步計(jì)劃,并根據(jù)環(huán)境感知進(jìn)行動(dòng)態(tài)調(diào)整。LEO強(qiáng)調(diào)基于當(dāng)前場景配置的場景感知規(guī)劃,而LLM Planner采用GPT3將規(guī)劃劃分為高級子目標(biāo)和低級動(dòng)作,并在任務(wù)執(zhí)行過程中代理陷入困境時(shí)進(jìn)行重新規(guī)劃。3D-VLA通過生成的世界模型將3D感知、推理和動(dòng)作相結(jié)合。它專注于通過利用其生成模型來預(yù)測未來的狀態(tài)表示(例如目標(biāo)圖像和點(diǎn)云)來增強(qiáng)規(guī)劃能力。
  • 3D Navigation:3D導(dǎo)航是指嵌入式代理在3D環(huán)境中移動(dòng)和定位自己的能力,通常基于視覺輸入和語言指令。所描述的每種方法——LEO、Agent3D Zero、LLM Planner和NaviLLM——都以不同的方式實(shí)現(xiàn)3D導(dǎo)航。LEO處理以自車為中心的2D圖像和以目標(biāo)為中心的3D點(diǎn)云以及文本指令。
  • 3D Object Manipulation:在3D具體代理的上下文中,操縱是指它們與目標(biāo)進(jìn)行物理交互的能力,從移動(dòng)目標(biāo)到組裝零件或打開門等復(fù)雜序列。用于使LLM能夠執(zhí)行操作任務(wù)的核心思想在于將動(dòng)作序列標(biāo)記化。為了讓LLM輸出特定的動(dòng)作,首先需要定義動(dòng)作令牌,該動(dòng)作令牌允許LLM基于任務(wù)和3D場景上下文生成所述動(dòng)作。隨后,像CLIPort或機(jī)械臂中的運(yùn)動(dòng)規(guī)劃模塊這樣的平臺(tái)將這些標(biāo)記化的動(dòng)作轉(zhuǎn)化為由代理執(zhí)行的物理動(dòng)作。

LLMs for 3D Generation

傳統(tǒng)上,3D建模是一個(gè)復(fù)雜的時(shí)間密集型過程,進(jìn)入門檻很高,需要對幾何體、紋理和照明進(jìn)行詳細(xì)關(guān)注才能獲得逼真的結(jié)果。在本節(jié)中,我們將仔細(xì)研究LLM與3D生成技術(shù)的集成,展示語言如何提供一種在場景中生成上下文化目標(biāo)的方法,并為3D內(nèi)容創(chuàng)建和操作提供創(chuàng)新的解決方案。

  • Object-level Generation:Shape GPT使用特定形狀的3D VQ-VAE將3D形狀量化為離散的“形狀字”標(biāo)記。這使得能夠?qū)⑿螤顢?shù)據(jù)與文本和圖像一起集成到T5語言模型的多模態(tài)輸入中。這種多模態(tài)表示使T5能夠?qū)W習(xí)跨模態(tài)交互,例如文本到形狀的生成和形狀編輯/完成。GPT4Point使用雙流方法-通過point QFormer將點(diǎn)云幾何圖形與文本對齊,然后將其輸入到耦合的LLM和擴(kuò)散路徑中,用于文本理解和符合文本輸入的高保真3D目標(biāo)生成。
  • Scene-scale Generation:Holodeck和GALA-3D采用多級管道將初始粗略的3D場景布局從文本逐步細(xì)化為詳細(xì)逼真的3D環(huán)境。Holodeck采用專門的模塊來制作基本布局,選擇材料,并根據(jù)GPT-4的空間推理和布局/風(fēng)格建議融入門窗等元素。然后,它使用與GPT-4的文本描述相匹配的Ob厭惡資產(chǎn)填充布局。優(yōu)化器根據(jù)從GPT-4獲得的空間關(guān)系約束來排列這些目標(biāo),以鼓勵(lì)真實(shí)的目標(biāo)布局和交互。
  • Procedural Generation and Manipulation:LLMR、3D-GPT和SceneCraft采用具有專門組件/代理的模塊化架構(gòu),用于從自然語言進(jìn)行交互式3D世界創(chuàng)建和代碼生成。LLMR由不同的組件組成,用于生成代碼以在Unity中構(gòu)建場景,了解現(xiàn)有場景目標(biāo)和屬性以進(jìn)行修改,識(shí)別執(zhí)行指令所需的功能,并評估最終代碼質(zhì)量。類似地,3D-GPT具有用于解釋指令和確定所需生成函數(shù)的組件,使用詳細(xì)的建模屬性豐富描述,并將豐富的描述轉(zhuǎn)換為Blender API的Python代碼??偟膩碚f,這些方法展示了LLM組件的任務(wù)分解和專業(yè)化,以處理指令解釋、函數(shù)映射和穩(wěn)健的代碼生成。

3D TASKS WITH VLMS

Open-Vocabulary 3D Scene Understanding

開放詞匯3D場景理解旨在使用自然語言描述而不是預(yù)定義的類別標(biāo)簽來識(shí)別和描述場景元素。OpenScene采用零樣本方法,預(yù)測與CLIP的文本和圖像像素嵌入共同嵌入到共享特征空間中的3D場景點(diǎn)的密集特征,實(shí)現(xiàn)任務(wù)識(shí)別訓(xùn)練和開放詞匯查詢,以識(shí)別目標(biāo)、材料、啟示、活動(dòng)和房間類型。CLIP-FO3D遵循類似的方法,修改CLIP以從投影到點(diǎn)云的3D場景中提取密集的像素特征,然后通過蒸餾訓(xùn)練3D模型以轉(zhuǎn)移CLIP的知識(shí)。語義抽象從CLIP中提取關(guān)聯(lián)圖作為抽象目標(biāo)表示,以推廣到新的語義、詞匯和領(lǐng)域。Open Fusion將SEEM視覺語言模型與TSDF 3D映射相結(jié)合,利用基于區(qū)域的嵌入和置信度圖進(jìn)行實(shí)時(shí)開放詞匯場景創(chuàng)建和查詢。

Text-Driven 3D Generation

在這里,我們調(diào)查了利用2D VLM和使用可微分渲染的文本到圖像擴(kuò)散模型的指導(dǎo)的文本到3D生成方法。DreamFields、CLIP-Mesh、CLIP-Forge和Text2Mesh等早期作品探索了CLIP指導(dǎo)的零樣本3D生成。

DreamFusion引入了Score Distriction Sampling(SDS),其中3D表示的參數(shù)通過使其從任意角度的渲染看起來高度逼真來進(jìn)行優(yōu)化,如通過預(yù)先訓(xùn)練的2D擴(kuò)散模型進(jìn)行評估。它使用文本到圖像的Imagen模型來通過SDS優(yōu)化NeRF表示。Magic3D提出了一個(gè)兩階段框架:生成具有低分辨率擴(kuò)散先驗(yàn)和稀疏3D哈希網(wǎng)格的粗略模型,然后使用高效的可微分渲染器和高分辨率潛在擴(kuò)散模型優(yōu)化紋理3D網(wǎng)格模型。Fantasia3D使用混合DMET表示和空間變化的BRDF,將幾何圖形和外觀解開。ProlificDreamer引入了變分分?jǐn)?shù)蒸餾(VSD),這是一種基于粒子的框架,將3D參數(shù)視為隨機(jī)變量,以提高保真度和多樣性。Dream3D利用明確的3D形狀先驗(yàn)和文本到圖像的擴(kuò)散模型來增強(qiáng)文本引導(dǎo)的3D合成。MVDream采用了可在少量鏡頭數(shù)據(jù)上訓(xùn)練的多視圖一致擴(kuò)散模型,用于個(gè)性化生成。Text2NeRF將NeRF表示與預(yù)先訓(xùn)練的文本到圖像擴(kuò)散模型相結(jié)合,以根據(jù)語言生成不同的室內(nèi)/室外3D場景。除了同時(shí)生成幾何圖形和外觀外,一些研究還探索了僅基于給定幾何圖形合成紋理的可能性。

End-to-End Architectures for 3D Vision & Language

在大型3D文本數(shù)據(jù)集上預(yù)先訓(xùn)練的Transformer模型學(xué)習(xí)強(qiáng)大的聯(lián)合表示,將視覺和語言模態(tài)連接起來。3D VisTA是一種Transformer模型,它利用自注意力對3D視覺和文本數(shù)據(jù)進(jìn)行聯(lián)合建模,實(shí)現(xiàn)對掩蔽語言/目標(biāo)建模和場景文本匹配等目標(biāo)的有效預(yù)訓(xùn)練。UniT3D采用統(tǒng)一的Transformer方法,結(jié)合PointGroup 3D檢測主干、BERT文本編碼器和多模式融合模塊,對合成的3D語言數(shù)據(jù)進(jìn)行聯(lián)合預(yù)訓(xùn)練。SpatialVLM采用了不同的策略,在大型合成三維空間推理數(shù)據(jù)集上共同訓(xùn)練VLM,提高了三維空間視覺問答任務(wù)的性能,并支持機(jī)器人的思想鏈推理等應(yīng)用。Multi CLIP預(yù)訓(xùn)練3D場景編碼器,使場景特征與CLIP的文本和圖像嵌入對齊,旨在傳遞CLIP的知識(shí),以提高對視覺問答等任務(wù)的3D理解。

數(shù)據(jù)集

挑戰(zhàn)和未來機(jī)遇

盡管LLM與3D數(shù)據(jù)的集成取得了進(jìn)展,但在數(shù)據(jù)表示、計(jì)算效率和基準(zhǔn)方面仍然存在挑戰(zhàn),需要?jiǎng)?chuàng)新的解決方案。

表示選擇對三維視覺語言模型的性能有很大影響。目前,點(diǎn)云由于其簡單性和神經(jīng)網(wǎng)絡(luò)兼容性,主要用于表示室內(nèi)(例如網(wǎng)格的頂點(diǎn))和室外(例如激光雷達(dá)點(diǎn)云)環(huán)境。然而,他們很難捕捉到對準(zhǔn)確、豐富的空間模型至關(guān)重要的細(xì)節(jié)。開發(fā)新的3D場景表示,更有效地彌合空間信息和語言之間的差距,可以開啟新的理解和互動(dòng)水平。通過找到在3D表示中編碼語言和語義信息的創(chuàng)新方法,例如使用提取的語言和語義嵌入,可以幫助彌合這兩種模式之間的差距。

3D數(shù)據(jù)處理和LLM的計(jì)算需求都帶來了重大挑戰(zhàn)。隨著3D環(huán)境的復(fù)雜性和語言模型的大小的增加,可擴(kuò)展性仍然是一個(gè)令人擔(dān)憂的問題。為自適應(yīng)性和計(jì)算效率而設(shè)計(jì)的LLM架構(gòu)的進(jìn)步可以顯著拓寬其改進(jìn)基準(zhǔn)對于全面評估和提高3D任務(wù)中多模態(tài)LLM的能力至關(guān)重要。目前的基準(zhǔn)范圍有限,特別是在三維推理方面,阻礙了空間推理技能的評估以及三維決策/交互系統(tǒng)的開發(fā)。此外,目前使用的指標(biāo)還不能全面捕捉LLM在3D環(huán)境中的功能。制定特定任務(wù)的指標(biāo),更準(zhǔn)確地衡量不同3D任務(wù)的性能至關(guān)重要。最后,當(dāng)前場景理解基準(zhǔn)的粒度過于簡單,限制了對復(fù)雜3D環(huán)境理解的深入了解。需要一系列更加多樣化的任務(wù)。

改進(jìn)基準(zhǔn)對于全面評估和提高多模態(tài)LLM在3D任務(wù)中的能力至關(guān)重要。目前的基準(zhǔn)范圍有限,特別是在三維推理方面,阻礙了空間推理技能的評估以及三維決策/交互系統(tǒng)的開發(fā)。此外,目前使用的指標(biāo)還不能全面捕捉LLM在3D環(huán)境中的功能。制定特定任務(wù)的指標(biāo),更準(zhǔn)確地衡量不同3D任務(wù)的性能至關(guān)重要。最后,當(dāng)前場景理解基準(zhǔn)的粒度過于簡單,限制了對復(fù)雜3D環(huán)境理解的深入了解。需要一系列更加多樣化的任務(wù)。

在使用LLM進(jìn)行3D理解時(shí),必須考慮安全和道德影響。LLM可能產(chǎn)生幻覺并輸出不準(zhǔn)確、不安全的信息,從而導(dǎo)致關(guān)鍵3D應(yīng)用程序中的錯(cuò)誤決策。此外,LLM往往以不可預(yù)測和難以解釋的方式失敗。他們還可能繼承訓(xùn)練數(shù)據(jù)中存在的社會(huì)偏見,在現(xiàn)實(shí)世界的3D場景中進(jìn)行預(yù)測時(shí),對某些群體不利。至關(guān)重要的是,在3D環(huán)境中謹(jǐn)慎使用LLM,采用策略創(chuàng)建更具包容性的數(shù)據(jù)集、用于偏見檢測和糾正的強(qiáng)大評估框架,以及最大限度地減少幻覺的機(jī)制,確保負(fù)責(zé)任和公平的結(jié)果。

結(jié)論

本文對LLM與3D數(shù)據(jù)的集成進(jìn)行了深入的探索。該調(diào)查系統(tǒng)地回顧了LLM在處理、理解和生成3D數(shù)據(jù)方面的方法、應(yīng)用和涌現(xiàn)能力,強(qiáng)調(diào)了LLM跨一系列3D任務(wù)的變革潛力。從增強(qiáng)三維環(huán)境中的空間理解和交互,到推動(dòng)嵌入式人工智能系統(tǒng)的能力,LLM在推進(jìn)該領(lǐng)域中發(fā)揮著關(guān)鍵作用。

關(guān)鍵發(fā)現(xiàn)包括識(shí)別LLM的獨(dú)特優(yōu)勢,如零樣本學(xué)習(xí)、高級推理和廣泛的世界知識(shí),這些優(yōu)勢有助于彌合文本信息和空間解釋之間的差距。該論文展示了LLM與3D數(shù)據(jù)集成的廣泛任務(wù)。與LLM一起探索其他3D視覺語言方法,揭示了旨在加深我們對3D世界理解的豐富研究前景。

此外,該調(diào)查強(qiáng)調(diào)了數(shù)據(jù)表示、模型可擴(kuò)展性和計(jì)算效率等重大挑戰(zhàn),表明克服這些障礙對于充分實(shí)現(xiàn)LLM在3D應(yīng)用中的潛力至關(guān)重要。總之,這項(xiàng)調(diào)查不僅全面概述了使用LLM的3D任務(wù)的現(xiàn)狀,而且為未來的研究方向奠定了基礎(chǔ)。它呼吁開展合作,探索和擴(kuò)展LLM在理解復(fù)雜的3D世界和與之互動(dòng)方面的能力,為空間智能領(lǐng)域的進(jìn)一步進(jìn)步鋪平道路。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-11-29 18:37:07

2022-04-11 11:37:13

AI研究NLP

2022-09-30 11:55:36

AI算力

2024-04-23 09:30:07

3D模型

2024-02-20 09:46:00

模型技術(shù)

2024-07-10 13:20:45

2024-03-11 09:37:01

模型圖片編輯

2024-09-02 09:12:00

場景管理

2020-04-02 14:43:34

Python 程序算法

2022-02-10 15:15:41

人工智能強(qiáng)化學(xué)習(xí)谷歌

2024-03-11 10:08:12

駕駛模型

2020-12-03 10:15:09

人工智能深度學(xué)習(xí)

2024-07-23 09:48:59

2021-11-10 15:03:17

深度學(xué)習(xí)算法人工智能

2024-12-25 09:50:00

2021-03-23 13:49:21

人工智能機(jī)器學(xué)習(xí)

2023-07-22 13:30:02

模型視覺

2021-12-22 10:04:11

模型人工智能3D

2025-04-01 09:10:00

2024-09-05 13:11:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)