自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<table id="cs6l5"></table>

<u id="cs6l5"></u>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等精華

發(fā)布于 2025-4-24 09:51

瀏覽

0收藏

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2504.15009
開源地址：https://song-wensong.github.io/insert-anything/

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

亮點直擊

發(fā)布了AnyInsertion數(shù)據(jù)集，這是一個包含120K提示-圖像對的大規(guī)模數(shù)據(jù)集，涵蓋了廣泛的插入任務(wù)，例如人物、物體和服裝插入。
提出了Insert Anything框架，這是一個統(tǒng)一框架，通過單一模型無縫處理多種插入任務(wù)（人物、物體和服裝）。
首個利用DiT（Diffusion Transformer）進行圖像插入的研究，充分發(fā)揮了其在不同控制模式下的獨特能力。
開發(fā)了上下文編輯技術(shù)，采用雙聯(lián)畫（diptych）和三聯(lián)畫（triptych）提示策略，將參考元素無縫整合到目標場景中，同時保持身份特征。

商業(yè)廣告和流行文化領(lǐng)域有大應(yīng)用

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

總結(jié)速覽

解決的問題

任務(wù)局限性：現(xiàn)有方法僅針對特定任務(wù)（如人物插入、服裝插入），缺乏通用性。
控制模式單一：依賴固定控制方式（僅掩碼或僅文本引導(dǎo)），靈活性不足。
視覺-參考不協(xié)調(diào)：插入內(nèi)容與目標場景風格不一致，或丟失參考圖像的細節(jié)特征。

提出的方案

AnyInsertion 數(shù)據(jù)集：

a.包含 120K 提示-圖像對，覆蓋人物、物體、服裝插入等多樣化任務(wù)。

b.支持多控制模式（58K mask-提示對 + 101K 文本-提示對）。

統(tǒng)一框架 Insert Anything：

a.掩碼提示雙聯(lián)畫（Mask-prompt diptych）：左參考圖 + 右掩碼目標圖。

b.文本提示三聯(lián)畫（Text-prompt triptych）：左參考圖 + 中源圖 + 右文本生成結(jié)果。

c.基于 Diffusion Transformer (DiT) 的多模態(tài)注意力機制，聯(lián)合建模文本、掩碼與圖像關(guān)系。

d.上下文編輯機制：將參考圖像作為上下文，通過兩種提示策略實現(xiàn)自適應(yīng)融合：

應(yīng)用的技術(shù)

擴散Transformer(DiT)：利用其多模態(tài)注意力機制，支持掩碼和文本雙引導(dǎo)編輯。
上下文學(xué)習：通過參考圖像與目標場景的隱式交互，保持特征一致性。
多樣化提示策略：適配不同控制模式，確保插入內(nèi)容的自然融合。

達到的效果

通用性強：單一模型支持多任務(wù)（人物、物體、服裝插入等），無需針對任務(wù)單獨訓(xùn)練。
靈活控制：同時支持掩碼引導(dǎo)和文本引導(dǎo)編輯，滿足多樣化需求。
高質(zhì)量生成：

a.在 AnyInsertion、DreamBooth 和 VTON-HD 基準測試中優(yōu)于現(xiàn)有方法。

b.保留參考圖像細節(jié)特征，同時實現(xiàn)與目標場景的顏色、紋理和諧融合。

應(yīng)用廣泛：適用于創(chuàng)意內(nèi)容生成、虛擬試衣、場景合成等實際場景。

AnyInsertion數(shù)據(jù)集

為了實現(xiàn)多樣化的圖像插入任務(wù)，提出了一個新的大規(guī)模數(shù)據(jù)集AnyInsertion。首先與現(xiàn)有數(shù)據(jù)集進行比較，隨后詳細描述數(shù)據(jù)集構(gòu)建過程，最后提供詳細的數(shù)據(jù)集統(tǒng)計信息。

與現(xiàn)有數(shù)據(jù)集的比較

現(xiàn)有數(shù)據(jù)集存在以下局限性：

數(shù)據(jù)類別有限：FreeEdit數(shù)據(jù)集主要關(guān)注動植物，VITON-HD數(shù)據(jù)集專攻服裝領(lǐng)域。即使AnyDoor和MimicBrush包含大規(guī)模數(shù)據(jù)，它們也僅涉及極少量的人物插入樣本。
提示類型受限：FreeEdit僅提供文本提示數(shù)據(jù)，而VITON-HD僅支持掩碼提示數(shù)據(jù)。
圖像質(zhì)量不足：AnyDoor和MimicBrush使用了大量視頻數(shù)據(jù)，這些視頻數(shù)據(jù)集常存在低分辨率和運動模糊問題。

為解決這些問題，本文構(gòu)建了AnyInsertion數(shù)據(jù)集。如下表1所示，與現(xiàn)有數(shù)據(jù)集[5,11]相比，AnyInsertion涵蓋多樣類別，提供更高分辨率圖像，同時支持掩碼和文本提示，并包含更多樣本。

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

數(shù)據(jù)構(gòu)建

數(shù)據(jù)收集

圖像插入需要成對數(shù)據(jù)：包含待插入元素的參考圖像，以及插入操作的目標圖像。如下圖2a所示，采用圖像匹配技術(shù)創(chuàng)建目標-參考圖像對，并從互聯(lián)網(wǎng)來源收集對應(yīng)標簽，利用大量展示配飾及佩戴者的圖像。對于物體相關(guān)數(shù)據(jù)，我們從MVImgNet中選擇多視角常見物體圖像作為參考-目標對。對于人物插入，我們應(yīng)用頭部姿態(tài)估計從HumanVid數(shù)據(jù)集中篩選頭部姿態(tài)相似但身體姿態(tài)不同的高分辨率真實場景視頻幀，并通過模糊檢測過濾過度運動模糊的幀，獲得高質(zhì)量人物插入數(shù)據(jù)。

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

數(shù)據(jù)生成

本文的框架支持兩種控制模式：掩碼提示和文本提示。

掩碼提示編輯：需要掩碼指定目標圖像的插入?yún)^(qū)域，使用參考圖像元素填充目標圖像的掩碼區(qū)域。每個數(shù)據(jù)樣本表示為元組：（參考圖像，參考掩碼，目標圖像，目標掩碼）。具體使用Grounded-DINO和Segment Anything（SAM）從輸入圖像和標簽生成參考與目標掩碼。
文本提示編輯：需要文本描述參考圖像元素如何插入源圖像以形成目標圖像。每個數(shù)據(jù)樣本表示為元組：（參考圖像，參考掩碼，目標圖像，源圖像，文本）。源圖像、文本描述和參考掩碼按以下方式生成：

a.源圖像生成：通過對目標圖像應(yīng)用替換或移除操作生成。替換操作使用類別特定指令模板（如“將[source]替換為[reference]”）和基于文本的編輯模型生成初始編輯。為保持圖像協(xié)調(diào)性，采用FLUX.1 Fill[dev]保留未編輯區(qū)域，僅修改掩碼區(qū)域。移除操作則使用DesignEdit模型結(jié)合目標掩碼獲得結(jié)果。

b.文本生成：替換操作適配指令模板（如“將[source]替換為[reference]”），添加操作使用格式“添加[label]”描述變換。

c.參考掩碼提取：方法與掩碼提示編輯相同。

數(shù)據(jù)集概覽

AnyInsertion數(shù)據(jù)集包含訓(xùn)練和測試子集。訓(xùn)練集共159,908個樣本，分為兩類提示：

58,188個掩碼提示圖像對（參考圖像、參考掩碼、目標圖像、目標掩碼）
101,720個文本提示圖像對（參考圖像、參考掩碼、源圖像、目標圖像、文本）

如前面圖2b所示，數(shù)據(jù)集覆蓋人類主體、日用品、服裝、家具和各類物體等多樣類別，支持人物插入、物體插入和服裝插入等多種任務(wù)，適用于廣泛的實際應(yīng)用。評估使用的測試集包含158對數(shù)據(jù)：120對掩碼提示和38對文本提示。掩碼提示子集包括40對物體插入、30對服裝插入和60對人物插入（30對簡單場景和30對復(fù)雜場景）。

Insert Anything 模型

概述

圖像插入任務(wù)需要三個關(guān)鍵輸入：

包含待插入元素的參考圖像
提供背景環(huán)境的源圖像
指導(dǎo)插入過程的控制提示（掩碼或文本）

目標是生成一個目標圖像，將參考圖像中的元素（以下簡稱“參考元素”）無縫整合到源圖像中，同時滿足：

保持參考元素的身份特征（定義該元素的視覺特征）
嚴格遵循提示的規(guī)范

如下圖3所示，本文的方法包含三個核心組件：

多聯(lián)畫上下文格式：通過組織輸入數(shù)據(jù)利用上下文關(guān)系
語義引導(dǎo)機制：從文本提示或參考圖像中提取高層信息
基于DiT的架構(gòu)：通過多模態(tài)注意力融合上述元素

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

這些組件共同實現(xiàn)了靈活控制，同時確保插入元素與周圍環(huán)境的視覺協(xié)調(diào)性。

上下文編輯

上下文編輯的核心是將參考元素整合到源圖像中，同時維持它們之間的上下文關(guān)系。具體步驟如下：

背景移除

首先通過背景移除步驟隔離參考元素：

采用Grounded-DINO和SAM的分割流程移除參考圖像背景，僅保留待插入對象

獲得參考元素后，根據(jù)提示類型采用兩種編輯策略：

掩碼提示雙聯(lián)畫（Mask-Prompt Diptych）適用于掩碼引導(dǎo)編輯，采用雙面板結(jié)構(gòu)：

左面板：處理后的參考圖像（已移除背景）
右面板：部分掩碼覆蓋的源圖像

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

文本提示三聯(lián)畫（Text-Prompt Triptych）

對于文本提示編輯，我們采用三面板結(jié)構(gòu)（三聯(lián)畫），包含：

處理后的參考圖像
未修改的源圖像
待填充的完全掩碼區(qū)域

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

其中每個組件的尺寸與其對應(yīng)面板相同。

多控制模式

本文的框架支持兩種圖像插入控制模式：

掩碼提示：通過手動標注掩碼指定插入?yún)^(qū)域
文本提示：通過文字描述控制插入過程

這兩種模式通過以下架構(gòu)實現(xiàn)靈活整合：

多模態(tài)注意力機制

基于DiT的多模態(tài)注意力機制，采用雙分支結(jié)構(gòu)：

圖像分支：處理視覺輸入（參考圖像/源圖像/對應(yīng)掩碼）

a.將輸入編碼為特征表示

b.沿通道維度與噪聲拼接以準備生成

文本分支：編碼文本描述以提取語義引導(dǎo)

特征融合

通過多模態(tài)注意力實現(xiàn)跨模態(tài)特征融合：

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

[; ]代表拼接操作，Q、K、V分別是注意力機制中的查詢（query）、鍵（key）和值（value）組件。以下說明兩種控制模式下注意力機制的運行方式：

掩碼提示（Mask-Prompt）

在掩碼提示編輯中，源圖像的插入?yún)^(qū)域通過二進制掩碼指定。該掩碼與經(jīng)過VAE處理的雙聯(lián)畫沿通道維度拼接后，與噪聲一起輸入DiT模型的圖像分支。同時，通過CLIP圖像編碼器提取參考圖像的語義特征并傳入文本分支，以提供上下文引導(dǎo)。

文本提示（Text-Prompt）

在文本提示編輯中，插入操作由文本描述引導(dǎo)。參考圖像指示預(yù)期修改內(nèi)容，而文本提示具體說明變更要求。源圖像將根據(jù)文本描述進行相應(yīng)調(diào)整。為此我們設(shè)計專用提示模板："一幅由三張并置圖像組成的三聯(lián)畫。左側(cè)是[label]的照片；右側(cè)場景與中部完全相同，但左側(cè)需[instruction]。" 該結(jié)構(gòu)化提示提供語義上下文——[label]標識參考元素類型，[instruction]指定修改要求。輸入經(jīng)文本編碼器處理后引導(dǎo)DiT文本分支，三聯(lián)畫結(jié)構(gòu)經(jīng)VAE處理輸入圖像分支，文本標記與圖像特征拼接以實現(xiàn)分支間的聯(lián)合注意力。

實驗

實驗設(shè)置

實現(xiàn)細節(jié)

本文的方法基于FLUX.1 Fill [dev]——一種采用DiT架構(gòu)的圖像修復(fù)模型。框架整合了T5文本編碼器與SigLIP圖像編碼器，并使用秩為256的LoRA進行微調(diào)。訓(xùn)練時，掩碼提示的批大小為8，文本提示為6，所有圖像統(tǒng)一處理為768×768像素分辨率。采用Prodigy優(yōu)化器，啟用安全預(yù)熱（safeguard warmup）和偏置校正（bias correction），權(quán)重衰減設(shè)為0.01。實驗在4塊NVIDIA A800 GPU（每塊80GB）集群上完成。訓(xùn)練數(shù)據(jù)主要來自自建的AnyInsertion數(shù)據(jù)集，針對兩種提示類型（掩碼與文本）各訓(xùn)練5000步。采樣階段執(zhí)行50次去噪迭代，訓(xùn)練損失函數(shù)遵循流匹配（flow matching）方法。

測試數(shù)據(jù)集

在三個多樣化數(shù)據(jù)集上評估方法性能：

Insert Anything：從自建的Insert Anything數(shù)據(jù)集中選取40個樣本用于物體插入評估，30個用于服裝插入，30個用于人物插入（簡單場景）；
DreamBooth：構(gòu)建含30組圖像的測試集，每組包含一張參考圖像和一張目標圖像；
VTON-HD：作為虛擬試穿與服裝插入任務(wù)的標準基準。

定量結(jié)果

物體插入性能

如下表2和表3所示，Insert Anything在掩碼提示和文本提示的物體插入任務(wù)中，所有指標均超越現(xiàn)有方法。掩碼提示插入任務(wù)中，本方法將AnyInsertion數(shù)據(jù)集的SSIM從0.7648提升至0.8791，DreamBooth數(shù)據(jù)集從0.6039提升至0.7820；文本提示插入任務(wù)中LPIPS從0.3473降至0.2011，表明感知質(zhì)量顯著提升。這些改進證明了模型在保持物體身份特征的同時，能與目標場景實現(xiàn)完美融合的卓越能力。

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

服裝插入性能

如下表4所示，Insert Anything在兩個評估數(shù)據(jù)集上全面超越統(tǒng)一框架和專用服裝插入方法。在廣泛使用的VTON-HD基準測試中，LPIPS從0.0513優(yōu)化至0.0484，同時PSNR（26.10 vs. 25.64）和SSIM（0.9161 vs. 0.8903）均有顯著提升。與ACE++等統(tǒng)一框架相比優(yōu)勢更為明顯，印證了本方法在專用任務(wù)質(zhì)量與統(tǒng)一架構(gòu)結(jié)合方面的有效性。

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

人物插入性能

如下表5所示，在AnyInsertion數(shù)據(jù)集的人物插入任務(wù)中，本方法所有指標均顯著領(lǐng)先。相比原有最佳結(jié)果，結(jié)構(gòu)相似性（SSIM: 0.8457 vs. 0.7654）和感知質(zhì)量（FID: 52.77 vs. 66.84）提升尤為突出，這在需要保持人物身份特征的復(fù)雜插入場景中具有重要意義。

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

定性分析

下圖4展示了三類任務(wù)的視覺對比結(jié)果，凸顯Insert Anything的三大優(yōu)勢：

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

物體插入：在物體-人物/物體-物體交互的復(fù)雜場景中，能完美保持參考物體細節(jié)特征并實現(xiàn)自然融合；
服裝插入：對服裝logo/文字保留和褲裙轉(zhuǎn)換等形狀變化任務(wù)，細節(jié)保持和自然貼合度均優(yōu)于專用方法；
人物插入：在人物-人物/人物-動物/人物-物體交互場景中，身份特征保持與場景融合效果最佳。

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

消融實驗

針對掩碼提示插入任務(wù)進行消融研究（下表6為加權(quán)平均結(jié)果，權(quán)重比=物體:服裝:人物=4:3:3）：

上下文編輯：移除該模塊會導(dǎo)致紋理等高頻細節(jié)丟失（下圖6），PSNR/SSIM/LPIPS指標顯著下降；
語義引導(dǎo)：取消參考圖像語義引導(dǎo)時，生成圖像會丟失顏色等高階特征（圖6）；
AnyInsertion數(shù)據(jù)集：僅使用免訓(xùn)練模型推理時，人物面部細節(jié)保持能力明顯退化（圖6），所有指標同步下降。

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時代｜浙大&哈佛等-AI.x社區(qū)

結(jié)論

本文提出統(tǒng)一框架Insert Anything，通過支持掩碼/文本雙引導(dǎo)模式突破專用方法局限?；?2萬提示-圖像對的AnyInsertion數(shù)據(jù)集和DiT架構(gòu)，創(chuàng)新性地采用雙聯(lián)畫/三聯(lián)畫提示策略實現(xiàn)上下文編輯機制，在保持身份特征的同時確保視覺協(xié)調(diào)性。三大基準測試表明，本方法在人物/物體/服裝插入任務(wù)中全面超越現(xiàn)有技術(shù)，為基于參考的圖像編輯樹立新標桿，為實際創(chuàng)意應(yīng)用提供通用解決方案。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/aT-wC1DclgRKmR0_wpESdQ??

標簽

數(shù)據(jù)

已于2025-4-24 09:57:48修改

贊

收藏

回復(fù)

舉報

社區(qū)頭條

熱門內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

華為、清華等提出基于認知的萬物超分大模型

zhangyannni ? 2911瀏覽 ? 0回復(fù)
CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!

angel ? 5315瀏覽 ? 0回復(fù)
一張照片+音頻即可生成數(shù)字人

duhorse ? 2053瀏覽 ? 0回復(fù)
AI Agent LangGraph：LangChain - AI新時代的構(gòu)建者

AIGC觀察者 ? 3508瀏覽 ? 0回復(fù)
一張圖片是否勝過千言萬語？微軟發(fā)表的深入探討視覺語言模型的空間推理能力

sbf_2000 ? 2939瀏覽 ? 0回復(fù)
一張圖生成繪畫全過程，兩天狂攬1.4k Star

輕薄滴假象 ? 2706瀏覽 ? 0回復(fù)
只要一張圖就能「還原」繪畫過程，這篇論文比爆火的Paints-UNDO實現(xiàn)得更早

輕薄滴假象 ? 2414瀏覽 ? 0回復(fù)
只需單張參考圖，完美仿寫各種手寫內(nèi)容！華南理工等開源One-DM

angel ? 2048瀏覽 ? 0回復(fù)
只需一張圖片！實現(xiàn)任意3D/4D場景生成！港科大&清華&生數(shù)發(fā)布DimensionX

angel ? 3911瀏覽 ? 0回復(fù)
李飛飛的“空間魔術(shù)”：一張圖生成可探索的3D世界

云原生AI百寶箱 ? 3332瀏覽 ? 0回復(fù)
Cohere AI 推出 Rerank 3.5：搜索技術(shù)的新時代

Halo咯咯 ? 1785瀏覽 ? 0回復(fù)
微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了

Aceryt ? 1599瀏覽 ? 0回復(fù)
一張圖生成舞蹈視頻！字節(jié)等發(fā)布黑科技X-Dancer：零樣本音樂驅(qū)動，真實感碾壓3D方案

angel ? 1683瀏覽 ? 0回復(fù)
"一鍵消除"與"無縫融入"超絲滑！CycleFlow+擴散先驗讓OmniPaint引領(lǐng)圖像編輯新時代

angel ? 1345瀏覽 ? 0回復(fù)
DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）

angel ? 1121瀏覽 ? 0回復(fù)
即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆

angel ? 1022瀏覽 ? 0回復(fù)
Llama 4開源王者歸來！推理、編碼打平DeepSeek V3但參數(shù)減一半，一張H100就能跑，還有巨獸2萬億參數(shù)模型！

51CTO技術(shù)棧 ? 1152瀏覽 ? 0回復(fù)
一張照片，開口說話！阿里等最新音視頻對齊技術(shù)FantasyTalking：打造超寫實可控數(shù)字人!

angel ? 1434瀏覽 ? 0回復(fù)
11張圖全面總結(jié) MCP、A2A、Function Calling 架構(gòu)設(shè)計間關(guān)系

玄姐聊AGI ? 2614瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：顛覆影視圈！全球首個開源「無限時長」電影生成模型炸場：昆侖萬維把視頻生成卷到新時代

下一篇： "縫合怪"終結(jié)者！字節(jié)&北大發(fā)布DreamO:一個模型搞定換臉換裝換背景，多任務(wù)自由組合！

社區(qū)精華內(nèi)容

目錄

<dfn id="ukukj"></dfn>

<center id="ukukj"></center>

<form id="ukukj"><optgroup id="ukukj"></optgroup></form>