自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="3oew4"><p id="3oew4"></p></sub>

<sub id="3oew4"></sub>

<sub id="3oew4"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA! 精華

發(fā)布于 2024-4-16 10:26

瀏覽

0收藏

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2404.07178

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

擴散模型生成的圖像質(zhì)量達到了前所未有的水平，但我們?nèi)绾巫杂芍匦屡帕袌D像布局呢？最近的研究通過學習空間解耦的潛在編碼生成可控場景，但由于擴散模型的固定前向過程，這些方法并不適用。

在這項工作中，本文提出了SceneDiffusion，在擴散采樣過程中優(yōu)化分層場景表示。本文的關(guān)鍵洞察是，通過聯(lián)合去噪不同空間布局的場景渲染，可以獲得空間解耦。生成的場景支持各種空間編輯操作，包括移動、調(diào)整大小、克隆和分層外觀編輯操作，包括對象重塑和替換。此外，可以根據(jù)參考圖像生成場景，從而實現(xiàn)對自然場景圖像進行對象移動。值得注意的是，這種方法無需訓練，與一般的文本到圖像擴散模型兼容，并且在不到一秒的時間內(nèi)響應(yīng)。

更多生成可控場景結(jié)果

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

介紹

可控場景生成，即生成具有可重新排列布局的圖像，是生成建模的重要課題，其應(yīng)用范圍從社交媒體平臺的內(nèi)容生成和編輯到互動室內(nèi)設(shè)計和視頻游戲。在GAN時代，潛在空間被設(shè)計為在生成的場景中提供mid-level控制。這些潛在空間被優(yōu)化以在無監(jiān)督的情況下提供場景布局和外觀之間的解耦。

例如，BlobGAN使用一組splattering blobs進行2D布局控制，而GIRAFFE使用組合神經(jīng)場進行3D布局控制。雖然這些方法提供了對場景布局的良好控制，但在生成的圖像質(zhì)量方面仍然存在局限性。另一方面，擴散模型最近在文本到圖像（T2I）生成任務(wù)上展現(xiàn)了前所未有的性能。然而，由于缺乏mid-level表示，它們無法提供精細的空間控制，這是由于其固定的前向噪聲處理過程引起的。

本文提出了一個框架來填補這一差距，允許使用通用預(yù)訓練的T2I擴散模型進行可控場景生成。本文的方法SceneDiffusion，基于這樣一個核心觀察：在擴散采樣過程中，通過在每個去噪步驟中去噪多個場景布局，可以實現(xiàn)空間內(nèi)容的解耦。

更具體地，在每個擴散步驟t中，通過首先隨機采樣幾個場景布局，同時在每個布局上運行局部條件去噪，然后在下一個擴散步驟t-1中對表示進行解析優(yōu)化，以最小化其與每個去噪結(jié)果之間的距離。采用了分層場景表示，其中每個層表示一個對象，其形狀由mask控制，內(nèi)容由文本描述控制，從而能夠使用深度排序來計算對象的遮擋。分層表示的渲染是通過運行一個短時間表的圖像擴散完成的，通常在一秒內(nèi)完成。

總的來說，SceneDiffusion生成可重新排列的場景，無需對配對數(shù)據(jù)進行微調(diào)、特定mask的訓練或測試時間優(yōu)化，并且不受去噪器架構(gòu)設(shè)計的影響。

此外，為了實現(xiàn)自然場景圖像編輯，提出使用參考圖像的采樣軌跡作為SceneDiffusion中的anchor。在同時去噪多個布局時，增加了參考布局在噪聲更新中的權(quán)重，以保持場景對參考內(nèi)容的忠實度。通過解耦內(nèi)容的空間位置和視覺外觀，本文的方法在減少幻覺和保留整體內(nèi)容方面比基線更好。為了量化性能，還建立了一個評估基準，創(chuàng)建了一個包含1,000個文本提示和與圖像描述、局部描述和mask標注相關(guān)聯(lián)的圖像的數(shù)據(jù)集。在這個數(shù)據(jù)集上評估了本文提出的方法，并展示了它在可控場景生成和圖像編輯任務(wù)的圖像質(zhì)量和布局一致性指標上均明顯優(yōu)于先前的工作。

本文貢獻如下：

提出了一種新穎的采樣策略，SceneDiffusion，用于生成具有圖像擴散模型的分層場景。
展示了分層場景表示支持靈活的布局重新排列，實現(xiàn)了交互式場景操作和自然場景圖像編輯。
建立了一個評估基準，并觀察到本文的方法在場景生成和圖像編輯任務(wù)的性能上在數(shù)量上達到了最先進水平。

相關(guān)工作

可控場景生成

生成可控場景在生成建模中一直是一個重要的課題，并且在GAN的背景下得到了廣泛研究。各種方法已經(jīng)被開發(fā)用于包括可控圖像生成、3D感知圖像生成和可控視頻生成等應(yīng)用。通常，mid-level控制是通過構(gòu)建空間解耦的潛在空間以無監(jiān)督的方式獲得的。然而，這些技術(shù)并不直接適用于T2I擴散模型。擴散模型采用了固定的前向過程，這限制了學習空間解耦mid-level表示的靈活性。在這項工作中，通過在擴散采樣過程中優(yōu)化分層場景表示來解決這個問題。值得注意的是，最近的研究使擴散模型能夠根據(jù)給定的布局生成圖像。然而，它們并不關(guān)注空間解耦，并且不能保證在重新排列布局后內(nèi)容相似。

?

基于擴散的圖像編輯

現(xiàn)成的T2I擴散模型可以是強大的圖像編輯工具。在倒置和以主題為中心的微調(diào)的幫助下，已經(jīng)提出了各種方法來實現(xiàn)圖像到圖像的轉(zhuǎn)換，包括概念替換和重塑。然而，這些方法局限于就地編輯，并且很少探索對象的空間位置編輯。此外，許多方法利用了與最終圖像的注意力對應(yīng)或特征對應(yīng)，使得方法依賴于特定的去噪器架構(gòu)。與使用自我引導(dǎo)和特征跟蹤的擴散模型的空間圖像編輯的并發(fā)工作相比，本文的方法有所不同：

生成保留不同空間編輯中內(nèi)容的場景
使用明確的分層表示，提供直觀和精確的控制
通過一個簡短的圖像擴散時間表來渲染一個新的布局，而基于引導(dǎo)的方法需要一個長的采樣時間表，而特征跟蹤則需要針對每次編輯進行基于梯度的優(yōu)化。

方法

框架概述?？蚣芨攀鋈缦聢D2所示。先簡要介紹了擴散模型和局部條件擴散的初步工作。然后，介紹了如何使用SceneDiffusion獲得空間解耦的分層場景。最后，討論了SceneDiffusion如何實現(xiàn)對自然場景圖像的空間編輯。

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

初步工作

擴散模型。擴散模型是一種生成模型，它學習從隨機輸入噪聲生成數(shù)據(jù)。更具體地說，給定來自數(shù)據(jù)分布的圖像，一個固定的前向噪聲處理過程逐漸向數(shù)據(jù)添加隨機高斯噪聲，從而創(chuàng)建了一個隨機潛變量的馬爾可夫鏈，如下所示：

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

其中ββ是與所選噪聲時間表相對應(yīng)的常數(shù)，選取得足夠高的擴散步數(shù)后，假定是一個標準高斯分布。然后，訓練了一個去噪器θ來學習反向過程，即如何從帶噪聲的輸入中去除噪聲。在推斷時，我們可以通過從隨機標準高斯噪聲開始，并按照馬爾可夫鏈迭代去噪圖像，即通過連續(xù)地從θ中采樣，直到得到：

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

其中，σ是噪聲尺度。

局部條件擴散。已經(jīng)提出了各種方法[1, 33]，利用預(yù)訓練的T2I擴散模型基于局部文本提示生成部分圖像內(nèi)容。對于K個局部提示和二進制不重疊mask ，局部條件擴散首先使用無分類器指導(dǎo)為每個局部提示預(yù)測一個完整的圖像噪聲εθ，然后將其分配給由 mask的相應(yīng)區(qū)域：

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

其中⊙表示逐元素乘法。

可控場景生成

給定一個有序的對象mask列表及其相應(yīng)的文本提示，我們希望生成一個場景，其中對象的位置可以在空間維度上改變，同時保持圖像內(nèi)容一致性和高質(zhì)量。我們利用一個預(yù)訓練的T2I擴散模型θ，該模型在圖像空間（或潛在空間）生成圖像，其中c是通道數(shù)，w和h分別是圖像的寬度和高度。為了實現(xiàn)可控場景生成，引入了一個分層場景表示進行mid-level控制，并提出了一種新的采樣策略。

分層場景表示

將可控場景分解為K個層次，按對象深度排序。每個層lk具有：

一個固定的以對象為中心的二進制mask （例如，邊界框或分割mask），用于顯示對象的幾何屬性；
一個兩元素偏移量，μν，表示其空間位置，其中μ和ν定義了水平和垂直移動范圍；
一個特征圖，表示其在擴散步驟t的視覺外觀。

場景布局由mask及其關(guān)聯(lián)的偏移量定義。每個層的偏移量可以從移動范圍 μν 中采樣以形成新的布局。特別地，我們將最后一個層設(shè)為背景，使和。給定一個布局，分層表示可以渲染為圖像，將該圖像稱為一個視圖。類似于可控場景生成和視頻編輯中的先前工作，我們在渲染過程中使用α混合來合成所有的層。更具體地，視圖可以計算為：

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

每個元素α表示第k個潛在特征圖中該位置的可見性，而函數(shù) 表示我們通過o空間移動特征圖f或mask m的值。渲染過程可以應(yīng)用于分層場景的任何擴散步驟，得到具有一定噪聲水平的視圖。

對于擴散步驟T的初始化，初始特征圖是從標準高斯噪聲獨立采樣得到的，每個層都有一個?？梢宰C明，由于 α 是二進制的且 α，從初始分層場景渲染的視圖仍然遵循標準高斯分布。這使得我們可以直接使用預(yù)訓練的擴散模型對視圖進行去噪。再討論如何在順序去噪過程中更新。

使用SceneDiffusion生成場景

本文提出了SceneDiffusion來優(yōu)化從高斯噪聲中的分層場景中的特征圖。每個SceneDiffusion步驟包括：

從隨機采樣的布局中渲染多個視圖
從視圖中估計噪聲
更新特征圖。

具體來說，SceneDiffusion采樣N組偏移，其中每個偏移量是在移動范圍 μν 內(nèi)的一個元素。這導(dǎo)致了N個布局變體。更多的布局有助于去噪器定位更好的模式，但也增加了計算成本。從K個潛在特征圖中，我們將布局渲染為N個視圖：

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

然后，在每個SceneDiffusion步驟中，堆疊所有視圖，并使用局部條件擴散（在方程3中描述）來預(yù)測噪聲ε：

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

其中，m 是對象mask，y 是每個層的局部文本提示。由于可以并行運行多個布局的去噪過程，計算 ε 幾乎不會帶來額外的時間開銷，但會增加與 N 成比例的額外內(nèi)存消耗。然后，使用方程2從估計的噪聲 ε 更新視圖，得到。由于每個視圖對應(yīng)于不同的布局并且獨立進行去噪，因此在重疊的mask區(qū)域可能會發(fā)生沖突。因此，需要優(yōu)化每個特征圖，以使從方程5渲染的視圖與去噪后的視圖接近。

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

這個最小二乘問題有以下閉式解：

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

其中，表示 x 中的值向 o 的反方向平移。這個解的推導(dǎo)與Bar-Tal等人的討論類似。解本質(zhì)上將設(shè)置為裁剪去噪視圖的加權(quán)平均值。

圖像擴散的神經(jīng)渲染

在運行了 τ 步的 SceneDiffusion 后，切換到普通的圖像擴散進行 τ 步。由于層mask m （如邊界框）僅作為粗略的mid-level表示，而不是準確的幾何表示，這個圖像擴散階段可以被視為將mid-level控制映射到圖像空間的神經(jīng)渲染器。 τ 的值權(quán)衡了圖像質(zhì)量和對層mask的忠實度。 τ 的值在總擴散步驟的 25% 到 50% 之間通常取得最佳平衡，使用一個流行的 50 步 DDIM 調(diào)度器通常耗時不到一秒。用于圖像擴散階段的全局提示可以單獨設(shè)置。在這項工作中，我們主要將全局提示設(shè)置為按深度順序連接的局部提示，并且在大多數(shù)情況下，發(fā)現(xiàn)這種簡單策略足夠了。

層外觀編輯

可以通過修改局部提示來單獨編輯每個層的外觀。通過將局部提示更改為新的值，然后使用相同的特征圖初始化執(zhí)行 SceneDiffusion，可以對對象進行重新設(shè)計或替換。

圖像編輯應(yīng)用

SceneDiffusion 可以根據(jù)參考圖像進行條件化，方法是使用其采樣軌跡作為anchor，從而允許改變現(xiàn)有圖像的布局。具體而言，當給定參考圖像以及現(xiàn)有布局時，將參考圖像設(shè)置為最終擴散步驟的優(yōu)化目標，即一個被表示為的anchor視圖。然后，我們在不同的擴散噪聲水平上向該視圖添加高斯噪聲，從而創(chuàng)建不同去噪步驟下的一系列anchor視圖的軌跡。

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

在每個擴散步驟中，我們使用相應(yīng)的anchor視圖進一步約束，這導(dǎo)致在方程 7 中出現(xiàn)額外的加權(quán)項：

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

其中，n ∈ {1,··· ,N}∪{a}，w 控制著的重要性。足夠大的 w 會使得生成的圖像與參考圖像更加一致，我們在這項工作中設(shè)置 w = 104。這個方程的閉式解與方程 8 類似，可以在補充資料中找到。

實驗

實驗設(shè)置

對我們的方法進行定性和定量評估。對于定量研究，需要一個包含數(shù)千個圖像的數(shù)據(jù)集才能有效地測量諸如 FID 等指標。然而，在多對象場景中生成語義上有意義的空間編輯對是具有挑戰(zhàn)性的，特別是當考慮到對象之間的遮擋時。因此，我們將定量實驗限制在單對象場景中。有關(guān)多對象場景的定性結(jié)果，請參閱定性結(jié)果部分。

數(shù)據(jù)集。精心策劃了一個高質(zhì)量、以主題為中心的圖像數(shù)據(jù)集，與圖像描述和局部描述相關(guān)聯(lián)。使用 GroundedSAM 自動標注了對象mask。首先從 1000 個圖像描述生成了 20,000 張圖像，然后應(yīng)用基于規(guī)則的篩選器來刪除低質(zhì)量的圖像，總共得到了 5,092 張圖像。對象mask和局部描述隨后被自動標注。

指標。用于可控場景生成的主要指標包括 Mask IoU、Consistency、Visual Consistency、LPIPS 和 SSIM。Mask IoU 衡量了目標布局與生成圖像之間的對齊程度。其他指標比較了同一場景中多個生成視圖，并評估它們的相似性：Consistency 表示mask一致性，Visual Consistency 表示前景外觀一致性，LPIPS 表示感知相似性，SSIM 表示結(jié)構(gòu)變化。此外，在圖像編輯實驗中，我們報告了 FID 來量化編輯后的圖像與原始圖像的相似性，以衡量圖像質(zhì)量。

實現(xiàn)。在我們的實驗中，默認設(shè)置 N = 8。對于定量研究，所有實驗都是在 5 個隨機種子上平均的。有關(guān)我們的數(shù)據(jù)集構(gòu)建、指標選擇、實驗標準偏差和實現(xiàn)細節(jié)的更多信息，請參閱我們的補充文檔。

可控場景生成

設(shè)置。隨機放置一個對象mask到不同的位置，形成隨機的目標布局。圖像應(yīng)該在目標布局和局部提示的條件下生成，期望內(nèi)容在不同的布局中保持一致。對象mask來自前述策劃的數(shù)據(jù)集。為了減少對象移出畫布的可能性，我們將mask位置限制在一個以原始位置為中心的正方形內(nèi)，其邊長為圖像寬度的 40%。在下圖 9 中可以找到一個視覺示例。

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

基線。將本文的方法與 MultiDiffusion 進行比較，它是一種無需訓練的方法，可以生成根據(jù)mask和局部描述的圖像。我們使用了他們協(xié)議中的 20% 純色引導(dǎo)策略。前景和背景噪聲在同一場景中是固定的，以提高一致性。

結(jié)果。在下表 1 中呈現(xiàn)了定量結(jié)果，顯示了 SceneDiffusion 在所有指標上優(yōu)于 MultiDiffusion。對于定性研究，在下圖 3 中展示了我們生成的場景的順序操作結(jié)果。

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

圖像編輯中的對象移動

設(shè)置。給定一個參考圖像、一個對象mask和一個隨機的目標位置，目標是生成一幅圖像，其中對象已經(jīng)移動到目標位置，同時保持其余內(nèi)容相似。前述的范圍用于防止將對象移出畫布。

基線。與基于修補的方法進行比較。我們首先從參考圖像中裁剪出對象，將其粘貼到目標位置，然后修補空白區(qū)域。我們將對象的邊緣膨脹了 30 個像素，以更好地與背景融合。將我們的方法與兩種修補模型進行比較：使用 RePaint 技術(shù)的標準 T2I 擴散模型，以及經(jīng)過mask訓練的專用修補模型。將我們方法中的所有局部層提示設(shè)置為全局圖像描述，以進行公平比較。

結(jié)果。在下表 2 中報告了定量結(jié)果。本文的方法在所有指標上都明顯優(yōu)于基于修補的基線方法。對象移動的定性結(jié)果如下圖 4 所示。

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

層外觀編輯

下圖 5 中展示了對象重新設(shè)計的結(jié)果，并在圖 6 中展示了對象替換的結(jié)果。我們觀察到變化主要局限在選定的層中，而其他層略微調(diào)整以使場景更加自然。此外，通過直接從一個場景復(fù)制一個層到另一個場景，可以將層外觀傳輸?shù)讲煌膱鼍爸?，如圖 7 所示。

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

消融研究

在下表 3 中，對所有組件進行了消融。還按照[1]的方法額外衡量了 CLIP-美學（CLIP-a），以量化圖像質(zhì)量。如果沒有聯(lián)合去噪多個布局，所有指標都會急劇下降。采用確定性布局采樣時，圖像質(zhì)量會下降。如果沒有圖像擴散階段，盡管一致性指標略微提高，但圖像質(zhì)量會顯著下降。

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

在下表 4 中，我們分析了視圖數(shù)量和圖像擴散步數(shù)的影響。觀察到，擁有更多的視圖和更多的 SceneDiffusion 步驟會導(dǎo)致對象和背景之間的解耦更好，如更高的 Mask IoU 和一致性所示。定性比較見下圖 8。還呈現(xiàn)了限制為單個 32GB GPU 時的準確性與速度的權(quán)衡。較大的 N 增加了優(yōu)化時間。較大的 τ 增加了推理時間。對于所有消融實驗，使用了一個隨機選擇的 10% 子集以便更容易實現(xiàn)。

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

結(jié)論

本文提出了SceneDiffusion，利用圖像擴散模型實現(xiàn)了可控場景生成。SceneDiffusion 在擴散采樣過程中優(yōu)化了分層場景表示。由于分層表示，空間和外觀信息被解耦，從而允許廣泛的空間編輯操作。利用參考圖像的采樣軌跡作為anchor，SceneDiffusion 可以在自然場景圖像上移動對象。與基線相比，我們的方法在生成質(zhì)量、跨布局一致性和運行速度方面均取得了更好的效果。局限性。 在最終渲染的圖像中，對象的外觀可能不會與mask緊密匹配。此外，我們的方法需要大量內(nèi)存以同時去噪多個布局，從而限制了在資源有限的用戶案例中的應(yīng)用。

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來，作者：Jiawei Ren等

原文鏈接:??https://mp.weixin.qq.com/s/crnavJrxcC3acGQEmiWp0A??

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

CVPR 2024 | 和馬賽克說拜拜！華為、清華等提出基于認知的萬物超分大模型

zhangyannni ? 2907瀏覽 ? 0回復(fù)
CVPR 2024 | 長時舞蹈生成：數(shù)秒鐘可生成極長的3D舞蹈

爛漫樹林 ? 4254瀏覽 ? 0回復(fù)
CVPR 2024 Oral：生命之樹大模型

AIGC最前線 ? 3727瀏覽 ? 0回復(fù)
CVPR 2024 | 僅需文本或圖像提示，新框架CustomNeRF精準編輯3D場景

輕薄滴假象 ? 2000瀏覽 ? 0回復(fù)
CVPR 2024 | 擅長處理復(fù)雜場景和語言表達，清華&博世提出全新實例分割網(wǎng)絡(luò)架構(gòu)MagNet

輕薄滴假象 ? 2638瀏覽 ? 0回復(fù)
字節(jié)發(fā)布視覺基礎(chǔ)模型ViTamin，多項任務(wù)實現(xiàn)SOTA，入選CVPR2024

Crystalcxt ? 2343瀏覽 ? 0回復(fù)
CVPR 2024 Highlight | 基于單曝光壓縮成像，不依賴生成模型也能從單張圖像中重建三維場景

輕薄滴假象 ? 2378瀏覽 ? 0回復(fù)
用GPT-3.5生成數(shù)據(jù)集！北大天工等團隊圖像編輯新SOTA，可精準模擬物理世界場景

Crystalcxt ? 2715瀏覽 ? 0回復(fù)
CVPR 2024 視頻場景解析挑戰(zhàn)賽第一名方案詳解

angel ? 3147瀏覽 ? 0回復(fù)
CVPR 2024｜讓圖像擴散模型生成高質(zhì)量360度場景，只需要一個語言模型

輕薄滴假象 ? 2984瀏覽 ? 0回復(fù)
CVPR 2024最佳論文獎公布！生成式AI成最大贏家

angel ? 5993瀏覽 ? 0回復(fù)
超越CVPR 2024方法，DynRefer在區(qū)域級多模態(tài)識別任務(wù)上，多項SOTA

輕薄滴假象 ? 2117瀏覽 ? 0回復(fù)
SEED-Bench：基于生成理解的多模態(tài)大語言模型基準測試（CVPR2024）

AIRoobt ? 5294瀏覽 ? 0回復(fù)
ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝！ReCorD:交互場景生成最新SOTA！

angel ? 2565瀏覽 ? 0回復(fù)
復(fù)旦提出EAFormer：最新場景文本分割新SOTA！(ECCV`24)

angel ? 2308瀏覽 ? 0回復(fù)
勇奪三項SOTA！北航&愛詩科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo！

angel ? 2210瀏覽 ? 0回復(fù)
ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝！ReCorD:交互場景生成最新SOTA！

angel ? 2333瀏覽 ? 0回復(fù)
精準可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter

angel ? 2438瀏覽 ? 0回復(fù)
只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等

angel ? 789瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：無性能損失！讓SAM加速近50倍！EfficientViT-SAM來了！

下一篇：單GPU實現(xiàn)LLM多LoRA微調(diào)

社區(qū)精華內(nèi)容

目錄

<sub id="ji0qs"></sub>

<blockquote id="ji0qs"><p id="ji0qs"><th id="ji0qs"></th></p></blockquote>

<legend id="ji0qs"><li id="ji0qs"><menuitem id="ji0qs"></menuitem></li></legend>