統(tǒng)一圖像編輯框架,達(dá)到閉源一流水平;高分辨率自回歸圖像生成;高低層次特征聯(lián)合的圖像生成;視頻試穿框架
Step1X-Edit: A Practical Framework for General Image Editing
2025-04-24|StepFun, |??55
???http://arxiv.org/abs/2504.17761v1????
????https://huggingface.co/papers/2504.17761????
????https://github.com/stepfun-ai/Step1X-Edit???
研究背景與意義
- 領(lǐng)域現(xiàn)狀與挑戰(zhàn)近年來(lái),圖像編輯技術(shù)迅速發(fā)展,尤其是在多模態(tài)大模型(如GPT-4o、Gemini2 Flash)推動(dòng)下,實(shí)現(xiàn)了基于自然語(yǔ)言的高質(zhì)量圖像編輯。這些閉源模型在理解復(fù)雜編輯指令和保持圖像一致性方面表現(xiàn)優(yōu)異,但其封閉性限制了學(xué)術(shù)界和開(kāi)源社區(qū)的研究與應(yīng)用推廣。相較之下,現(xiàn)有開(kāi)源圖像編輯算法在泛化能力、編輯準(zhǔn)確度和生成圖像質(zhì)量上仍存在顯著差距。
- 研究目標(biāo)本論文旨在縮小開(kāi)源與閉源圖像編輯模型間的性能差距,提出一個(gè)開(kāi)源的通用圖像編輯框架Step1X-Edit,兼具閉源模型的高性能和開(kāi)源模型的透明性。為此,作者構(gòu)建了大規(guī)模、高質(zhì)量的圖像編輯數(shù)據(jù)集,并設(shè)計(jì)了一個(gè)融合多模態(tài)大語(yǔ)言模型(MLLM)與擴(kuò)散模型的統(tǒng)一編輯架構(gòu),同時(shí)推出了真實(shí)用戶驅(qū)動(dòng)的評(píng)測(cè)基準(zhǔn)GEdit-Bench,推動(dòng)圖像編輯技術(shù)向?qū)嵱没~進(jìn)。
研究方法與創(chuàng)新
- 數(shù)據(jù)生成與標(biāo)注創(chuàng)新論文提出了覆蓋11大類編輯任務(wù)的規(guī)?;瘮?shù)據(jù)生成管線,利用多模態(tài)大語(yǔ)言模型和自動(dòng)化工具結(jié)合人工審核,構(gòu)建了超過(guò)1百萬(wàn)高質(zhì)量圖像-指令-目標(biāo)三元組數(shù)據(jù)集,顯著超越現(xiàn)有開(kāi)源數(shù)據(jù)集規(guī)模與多樣性。數(shù)據(jù)標(biāo)注采用多輪遞歸增強(qiáng)策略,結(jié)合中英雙語(yǔ)注釋,提升語(yǔ)義一致性和跨語(yǔ)言適用性。
- 模型架構(gòu)設(shè)計(jì)Step1X-Edit將多模態(tài)大語(yǔ)言模型(如Qwen-VL)與基于Transformer的擴(kuò)散模型(DiT)深度集成。編輯指令與參考圖像首先由MLLM解析,生成語(yǔ)義豐富的編輯嵌入;接著通過(guò)輕量級(jí)連接模塊精煉特征,替代傳統(tǒng)文本編碼器的嵌入,作為擴(kuò)散模型的條件輸入。訓(xùn)練時(shí),模型采用目標(biāo)圖像與參考圖像的融合視覺(jué)特征,優(yōu)化編輯準(zhǔn)確度和圖像質(zhì)量,實(shí)現(xiàn)語(yǔ)義理解與視覺(jué)生成的緊密耦合。
- 創(chuàng)新點(diǎn)與優(yōu)勢(shì)
- 統(tǒng)一框架:打破傳統(tǒng)模塊化設(shè)計(jì),緊密結(jié)合語(yǔ)言理解與圖像生成,支持多輪交互和細(xì)粒度編輯。
- 語(yǔ)義引導(dǎo)的視覺(jué)條件:利用MLLM強(qiáng)大的語(yǔ)義推理能力,提升編輯指令的準(zhǔn)確執(zhí)行,尤其對(duì)復(fù)雜、組合性編輯表現(xiàn)優(yōu)異。
- 大規(guī)模高質(zhì)量數(shù)據(jù)支撐:數(shù)據(jù)多樣性和規(guī)模保障模型泛化能力,推動(dòng)實(shí)際應(yīng)用。
- 跨語(yǔ)言支持:支持中英文編輯指令,拓寬應(yīng)用場(chǎng)景。
- 訓(xùn)練策略:采用預(yù)訓(xùn)練權(quán)重初始化,穩(wěn)定且高效地提升模型性能。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
- 實(shí)驗(yàn)設(shè)置
- 構(gòu)建了真實(shí)用戶編輯指令驅(qū)動(dòng)的GEdit-Bench評(píng)測(cè)集,包含606個(gè)多樣化編輯任務(wù),涵蓋11大類編輯場(chǎng)景,確保評(píng)測(cè)的真實(shí)性和全面性。
- 對(duì)比對(duì)象涵蓋多個(gè)開(kāi)源模型(Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen)及閉源頂尖模型(GPT-4o、Gemini2 Flash、Doubao)。
- 采用自動(dòng)化多指標(biāo)評(píng)價(jià)(語(yǔ)義一致性SQ、感知質(zhì)量PQ、整體評(píng)分O)和主觀用戶偏好測(cè)試,保證評(píng)測(cè)的客觀與主觀雙重維度。
- 結(jié)果表現(xiàn)
- Step1X-Edit在GEdit-Bench上全面超越所有開(kāi)源基線,提升幅度顯著,接近甚至部分任務(wù)超越閉源模型。特別在風(fēng)格轉(zhuǎn)換、顏色調(diào)整等細(xì)節(jié)編輯上表現(xiàn)優(yōu)異。
- 在中文編輯指令評(píng)測(cè)中,Step1X-Edit同樣表現(xiàn)穩(wěn)定,超過(guò)Gemini2和Doubao,顯示出強(qiáng)大的跨語(yǔ)言適應(yīng)能力。
- 用戶研究表明,Step1X-Edit編輯結(jié)果在視覺(jué)質(zhì)量和符合用戶意圖方面獲得較高認(rèn)可,主觀評(píng)分與閉源模型相當(dāng),體現(xiàn)了良好的用戶體驗(yàn)。
- 多場(chǎng)景驗(yàn)證
- 論文展示了豐富的編輯示例,涵蓋從物體添加、替換、移除,到材質(zhì)修改、風(fēng)格遷移、文本編輯等多種任務(wù),驗(yàn)證模型的通用性和實(shí)用性。
- 對(duì)比圖示清晰展示了Step1X-Edit在細(xì)節(jié)保留、語(yǔ)義理解和圖像美學(xué)上的優(yōu)勢(shì)。
結(jié)論與展望
- 總結(jié)貢獻(xiàn)
- Step1X-Edit作為首個(gè)開(kāi)源且性能接近閉源頂尖水平的通用圖像編輯模型,填補(bǔ)了開(kāi)源社區(qū)與工業(yè)閉源模型之間的空白。
- 數(shù)據(jù)生成管線和GEdit-Bench基準(zhǔn)的開(kāi)放,為后續(xù)研究提供了寶貴資源和評(píng)價(jià)標(biāo)準(zhǔn)。
- 模型架構(gòu)創(chuàng)新實(shí)現(xiàn)了多模態(tài)語(yǔ)義理解與擴(kuò)散生成的深度融合,推動(dòng)圖像編輯技術(shù)向更智能、更交互的方向發(fā)展。
- 局限性分析
- 盡管性能優(yōu)異,某些復(fù)雜多輪交互和極端細(xì)節(jié)編輯仍有提升空間。
- 模型訓(xùn)練和推理成本較高,對(duì)硬件資源要求較大,限制了部分應(yīng)用場(chǎng)景。
- 安全策略導(dǎo)致部分編輯指令被拒絕響應(yīng),影響模型的開(kāi)放性和靈活性。
- 未來(lái)展望
- 進(jìn)一步優(yōu)化模型架構(gòu),提升多輪交互和細(xì)節(jié)編輯能力,實(shí)現(xiàn)更自然的用戶反饋循環(huán)。
- 探索輕量化和加速推理技術(shù),降低模型部署門(mén)檻,擴(kuò)大實(shí)際應(yīng)用范圍。
- 拓展多語(yǔ)言、多文化背景下的編輯能力,增強(qiáng)模型的全球適用性。
- 深化隱私保護(hù)和安全策略,兼顧開(kāi)放性與合規(guī)性,促進(jìn)模型的廣泛應(yīng)用。
總體而言,Step1X-Edit開(kāi)創(chuàng)了開(kāi)源圖像編輯模型的新紀(jì)元,其高質(zhì)量數(shù)據(jù)、創(chuàng)新模型設(shè)計(jì)和嚴(yán)謹(jǐn)評(píng)測(cè)體系,為圖像編輯領(lǐng)域的研究與應(yīng)用提供了堅(jiān)實(shí)基礎(chǔ)和廣闊前景。
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
2025-04-24|NEU, Meta GenAI, Meta FAIR, NUS, CUHK, U Washington|??8
???http://arxiv.org/abs/2504.17789v1????
????https://huggingface.co/papers/2504.17789???
研究背景與意義
- 研究背景自然語(yǔ)言處理領(lǐng)域中,自回歸(Autoregressive, AR)模型通過(guò)預(yù)測(cè)序列中下一個(gè)token取得了巨大成功。近年來(lái),AR模型逐漸被應(yīng)用于圖像生成,尤其是在多模態(tài)大語(yǔ)言模型(Multimodal Large Language Models, MLLMs)中。然而,AR模型在圖像生成中面臨的主要瓶頸是需要大量的視覺(jué)token,導(dǎo)致訓(xùn)練和推理效率低下,且限制了生成圖像的分辨率。
- 研究意義現(xiàn)有AR模型難以高效生成高分辨率圖像(如2048×2048),而擴(kuò)展視覺(jué)token數(shù)量則帶來(lái)計(jì)算成本的指數(shù)級(jí)增長(zhǎng)。相比之下,擴(kuò)散模型雖然在高分辨率生成上表現(xiàn)優(yōu)異,但AR模型具有統(tǒng)一的多模態(tài)生成潛力。解決AR模型中視覺(jué)token數(shù)量過(guò)多的問(wèn)題,有助于提升AR模型在高分辨率圖像生成中的實(shí)用性和性能,推動(dòng)多模態(tài)生成技術(shù)的發(fā)展。
- 挑戰(zhàn)與目標(biāo)
- 挑戰(zhàn):視覺(jué)token數(shù)量龐大,Transformer計(jì)算復(fù)雜度呈二次方增長(zhǎng),限制了分辨率提升。
- 目標(biāo):設(shè)計(jì)簡(jiǎn)潔有效的方法減少視覺(jué)token數(shù)量,提升計(jì)算效率,同時(shí)保持甚至提升生成圖像的質(zhì)量和分辨率,實(shí)現(xiàn)AR模型高效高分辨率圖像生成。
研究方法與創(chuàng)新
- 核心方法——Token-Shuffle本文提出了Token-Shuffle,一種利用視覺(jué)詞匯表維度冗余的輕量級(jí)操作。該方法通過(guò)將空間鄰近的視覺(jué)token在通道維度上融合(token-shuffle),顯著減少輸入Transformer的token數(shù)量;隨后通過(guò)token-unshuffle操作恢復(fù)空間結(jié)構(gòu),保證輸出圖像的空間一致性。
- 維度冗余的發(fā)現(xiàn)與利用視覺(jué)編碼器生成的低維視覺(jué)token被直接映射到高維語(yǔ)言詞匯空間,導(dǎo)致維度冗余。實(shí)驗(yàn)表明,視覺(jué)詞匯的維度可以壓縮8倍而不顯著影響生成質(zhì)量。Token-Shuffle正是借助這一冗余,將多個(gè)空間token融合為一個(gè)復(fù)合token,減少計(jì)算量。
- 技術(shù)細(xì)節(jié)
- 融合與解耦機(jī)制:融合操作通過(guò)MLP壓縮維度并合并s×s鄰域token,解耦操作則逆向恢復(fù)。
- 訓(xùn)練與推理一致性:Token-Shuffle不改變?cè)械淖曰貧w預(yù)測(cè)范式,而是將下一token預(yù)測(cè)擴(kuò)展為下一組復(fù)合token預(yù)測(cè),提升效率。
- 無(wú)須額外預(yù)訓(xùn)練文本編碼器,直接聯(lián)合訓(xùn)練文本和視覺(jué)token,實(shí)現(xiàn)統(tǒng)一的多模態(tài)生成框架。
- 創(chuàng)新優(yōu)勢(shì)
- 顯著減少視覺(jué)token數(shù)量,降低Transformer計(jì)算復(fù)雜度,提升訓(xùn)練和推理速度。
- 支持最高2048×2048分辨率的文本到圖像生成,打破AR模型生成分辨率瓶頸。
- 保持甚至提升生成圖像質(zhì)量和文本對(duì)齊度,超越現(xiàn)有AR模型及部分?jǐn)U散模型。
- 與現(xiàn)有方法對(duì)比傳統(tǒng)方法或通過(guò)壓縮視覺(jué)token,或犧牲分辨率與質(zhì)量,Token-Shuffle則通過(guò)融合鄰域token利用維度冗余,兼顧效率與質(zhì)量,避免復(fù)雜架構(gòu)改動(dòng),易于集成。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
- 實(shí)驗(yàn)設(shè)計(jì)
- 模型基礎(chǔ):基于2.7B參數(shù)的LLaMA自回歸Transformer。
- 訓(xùn)練策略:分三階段訓(xùn)練,分辨率從512×512逐步提升至2048×2048,后兩階段引入Token-Shuffle。
- 數(shù)據(jù)與優(yōu)化:使用授權(quán)數(shù)據(jù)集,長(zhǎng)文本提示重寫(xiě)以提升細(xì)節(jié)表達(dá),采用z-loss穩(wěn)定高分辨率訓(xùn)練。
- 評(píng)測(cè)指標(biāo):自動(dòng)評(píng)測(cè)采用GenAI-Bench的VQA Score和GenEval,人工評(píng)測(cè)關(guān)注文本對(duì)齊、視覺(jué)缺陷和美觀度。
- 主要實(shí)驗(yàn)結(jié)果
- 自動(dòng)評(píng)測(cè):Token-Shuffle模型在GenAI-Bench“hard”提示上整體得分0.77,較LlamaGen提高0.18,超越DALL-E 3等擴(kuò)散模型。
- 人工評(píng)測(cè):在文本對(duì)齊、視覺(jué)缺陷和美觀度三項(xiàng)指標(biāo)上均優(yōu)于主流AR模型和部分?jǐn)U散模型,體現(xiàn)了優(yōu)越的生成質(zhì)量。
- 效率提升:Token-Shuffle通過(guò)減少約75%的視覺(jué)token,訓(xùn)練和推理計(jì)算量顯著降低,實(shí)現(xiàn)高分辨率圖像生成的同時(shí)保持高效。
- 消融實(shí)驗(yàn)
- Token-Shuffle設(shè)計(jì)選擇:增加MLP層數(shù)、添加位置編碼等改動(dòng)未顯著提升性能,證明默認(rèn)設(shè)計(jì)合理。
- 不同融合窗口大小:窗口越大,計(jì)算效率越高,但生成質(zhì)量略有下降,窗口大小為2時(shí)取得較好平衡。
- 與其他融合方法對(duì)比:Token-Shuffle優(yōu)于簡(jiǎn)單線性融合和改良Re-sampler,顯示其設(shè)計(jì)的有效性。
結(jié)論與展望
- 研究貢獻(xiàn)總結(jié)本文提出的Token-Shuffle方法創(chuàng)新性地利用視覺(jué)詞匯維度冗余,通過(guò)空間token融合與解耦操作,顯著減少視覺(jué)token數(shù)量,提升自回歸Transformer在圖像生成中的計(jì)算效率。該方法首次實(shí)現(xiàn)了2048×2048高分辨率文本到圖像生成,且在生成質(zhì)量和文本對(duì)齊度上超越現(xiàn)有主流AR模型及部分?jǐn)U散模型,推動(dòng)了AR模型在多模態(tài)生成領(lǐng)域的邊界。
- 局限性分析
- Token-Shuffle在極大融合窗口下生成質(zhì)量有所下降,存在效率與質(zhì)量的權(quán)衡問(wèn)題。
- 相較于擴(kuò)散模型,視覺(jué)缺陷指標(biāo)稍遜,提示進(jìn)一步優(yōu)化空間。
- 訓(xùn)練高分辨率模型仍需穩(wěn)定性改進(jìn),如z-loss的引入表明訓(xùn)練過(guò)程仍存在挑戰(zhàn)。
- 未來(lái)展望
- 探索更優(yōu)的token融合策略,減小質(zhì)量損失,提升更大窗口融合的可行性。
- 結(jié)合擴(kuò)散模型優(yōu)勢(shì),探索混合模型架構(gòu),改善視覺(jué)缺陷表現(xiàn)。
- 擴(kuò)展Token-Shuffle至更多模態(tài)和任務(wù),推動(dòng)統(tǒng)一高效的多模態(tài)大語(yǔ)言模型發(fā)展。
- 優(yōu)化訓(xùn)練穩(wěn)定性和推理效率,推動(dòng)工業(yè)級(jí)高分辨率多模態(tài)生成應(yīng)用。
綜上,Token-Shuffle為高效、高分辨率自回歸圖像生成提供了創(chuàng)新思路和實(shí)踐路徑,具備廣泛應(yīng)用前景和研究?jī)r(jià)值。
Boosting Generative Image Modeling via Joint Image-Feature Synthesis
2025-04-22|Archimedes,AthenaRC, NTUA, valeo.ai, IIT,NCSR"Demokritos", UoC, IACM-Forth|??5
???http://arxiv.org/abs/2504.16064v1????
????https://huggingface.co/papers/2504.16064????
????https://github.com/zelaki/ReDi???
研究背景與意義
- 研究背景:高質(zhì)量圖像生成領(lǐng)域,潛變量擴(kuò)散模型(LDMs)已成為主流,其通過(guò)變分自編碼器(VAE)將圖像壓縮為潛在表示,再用擴(kuò)散模型學(xué)習(xí)這些潛變量的分布,取得了顯著成果。然而,現(xiàn)有LDMs在融合低層次圖像細(xì)節(jié)與高層次語(yǔ)義特征方面存在挑戰(zhàn),尤其是在同時(shí)保持精細(xì)重建和語(yǔ)義表達(dá)的平衡上表現(xiàn)不足。
- 研究意義:本研究針對(duì)如何有效結(jié)合表示學(xué)習(xí)與生成建模提出新方案,通過(guò)聯(lián)合建模低層圖像潛變量與高層語(yǔ)義特征,旨在提升圖像生成質(zhì)量和訓(xùn)練效率,推動(dòng)生成模型在語(yǔ)義感知方面的能力,填補(bǔ)了現(xiàn)有方法在這一領(lǐng)域的空白。
研究方法與創(chuàng)新
- 技術(shù)描述:提出ReDi框架,利用擴(kuò)散模型同時(shí)對(duì)VAE潛變量和預(yù)訓(xùn)練自監(jiān)督編碼器(如DINOv2)提取的語(yǔ)義特征進(jìn)行聯(lián)合建模。具體通過(guò)將兩種表示在擴(kuò)散過(guò)程中進(jìn)行噪聲添加與聯(lián)合去噪,模型學(xué)習(xí)兩者的聯(lián)合分布,實(shí)現(xiàn)圖像與語(yǔ)義特征的同步生成。
- 創(chuàng)新點(diǎn):
- 聯(lián)合擴(kuò)散過(guò)程:區(qū)別于先前通過(guò)蒸餾對(duì)齊特征的間接方式,ReDi直接在擴(kuò)散模型中聯(lián)合建模兩個(gè)模態(tài),簡(jiǎn)化訓(xùn)練流程,避免額外蒸餾目標(biāo)。
- 輕量架構(gòu)改動(dòng):僅對(duì)現(xiàn)有Diffusion Transformer架構(gòu)做最小改動(dòng),采用兩種token融合策略(通道合并與序列拼接),兼顧表達(dá)能力與計(jì)算效率。
- Representation Guidance推理策略:利用訓(xùn)練得到的語(yǔ)義特征引導(dǎo)推理過(guò)程,通過(guò)調(diào)整噪聲預(yù)測(cè)引導(dǎo)圖像生成更符合語(yǔ)義特征,顯著提升生成效果。
- 理論基礎(chǔ)對(duì)比:相較于REPA等方法通過(guò)蒸餾提升語(yǔ)義質(zhì)量,ReDi的聯(lián)合建模更直接且高效,理論上能夠更好地捕獲圖像與語(yǔ)義特征間的復(fù)雜依賴關(guān)系。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
- 實(shí)驗(yàn)設(shè)計(jì):在ImageNet 256×256數(shù)據(jù)集上,采用DiT和SiT兩種擴(kuò)散框架,訓(xùn)練不同規(guī)模模型,比較ReDi與基線(含REPA)在有無(wú)條件生成、分類條件生成下的性能差異。對(duì)比指標(biāo)包括FID、sFID、IS、Precision和Recall,采樣步驟固定為250。
- 結(jié)果分析:
- ReDi顯著提升生成質(zhì)量,DiT-XL/2模型400k步訓(xùn)練即可達(dá)到8.7 FID,遠(yuǎn)優(yōu)于7M步基線模型,體現(xiàn)出極大加速收斂能力(最高23倍快于DiT基線)。
- 在與REPA比較中,ReDi在相同或更少訓(xùn)練迭代下均取得更優(yōu)FID分?jǐn)?shù),證明聯(lián)合建模策略優(yōu)于蒸餾對(duì)齊。
- Representation Guidance進(jìn)一步提升性能,特別是在無(wú)條件生成中,F(xiàn)ID從51.7降至22.6,縮小無(wú)條件與條件生成的性能差距。
- 維度壓縮(PCA)對(duì)視覺(jué)特征有效,8個(gè)主成分為性能與模型容量的最佳平衡點(diǎn)。
- 兩種token融合策略均有效,但通道合并方式在保持性能的同時(shí)顯著降低計(jì)算成本。
- Classifier-Free Guidance更適合僅對(duì)VAE潛變量應(yīng)用,避免對(duì)語(yǔ)義特征的過(guò)度引導(dǎo),提高生成穩(wěn)定性。
結(jié)論與展望
- 貢獻(xiàn)總結(jié):本文提出的ReDi方法通過(guò)聯(lián)合擴(kuò)散模型同時(shí)生成圖像潛變量與高層語(yǔ)義特征,顯著提升了生成圖像的質(zhì)量和訓(xùn)練效率。Representation Guidance的引入為推理階段提供了語(yǔ)義引導(dǎo),進(jìn)一步增強(qiáng)了生成效果。實(shí)驗(yàn)證明該方法在多個(gè)模型架構(gòu)和條件設(shè)置下均表現(xiàn)優(yōu)異,且訓(xùn)練更為簡(jiǎn)潔高效。
- 局限分析:當(dāng)前方法依賴于預(yù)訓(xùn)練的語(yǔ)義編碼器(如DINOv2),其性能受限于編碼器的表達(dá)能力和維度壓縮策略。融合方式雖已優(yōu)化,但在更大規(guī)模模型或更復(fù)雜多模態(tài)任務(wù)中的擴(kuò)展性仍需驗(yàn)證。
- 未來(lái)展望:未來(lái)工作可探索更豐富的語(yǔ)義特征集成策略,結(jié)合多模態(tài)數(shù)據(jù)(如文本、視頻)擴(kuò)展聯(lián)合建??蚣?;進(jìn)一步優(yōu)化推理引導(dǎo)機(jī)制,提升生成多樣性與細(xì)節(jié)表現(xiàn);以及研究聯(lián)合訓(xùn)練中語(yǔ)義特征與潛變量的動(dòng)態(tài)權(quán)重調(diào)節(jié),以實(shí)現(xiàn)更靈活高效的生成模型。
3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models
2025-04-24|Alibaba DAMO, Alibaba Group, Hupan Lab, ZJU|??4
???http://arxiv.org/abs/2504.17414v1????
????https://huggingface.co/papers/2504.17414????
????https://2y7c3.github.io/3DV-TON/???
研究背景與意義
- 問(wèn)題定義與現(xiàn)狀視頻試穿技術(shù)旨在將視頻中人物所穿服裝替換為目標(biāo)服裝,實(shí)現(xiàn)虛擬試衣。傳統(tǒng)方法多依賴基于流的變形技術(shù),雖然能對(duì)服裝幾何進(jìn)行形變適配,但在復(fù)雜姿態(tài)、遮擋及多樣服裝紋理場(chǎng)景下,往往產(chǎn)生時(shí)間一致性差、細(xì)節(jié)丟失和偽影等問(wèn)題。近年來(lái),基于擴(kuò)散模型的生成方法提升了視覺(jué)質(zhì)量,但依然難以兼顧紋理細(xì)節(jié)與動(dòng)態(tài)一致性。
- 挑戰(zhàn)現(xiàn)有視頻試穿模型過(guò)度關(guān)注外觀還原,忽視運(yùn)動(dòng)連貫性,導(dǎo)致動(dòng)態(tài)視頻中服裝紋理與人體動(dòng)作不匹配,產(chǎn)生運(yùn)動(dòng)偽影和紋理漂移。缺乏有效的時(shí)空一致性引導(dǎo)是主要瓶頸。
- 研究目標(biāo)本文旨在提出一種新穎的基于擴(kuò)散模型的視頻試穿框架3DV-TON,通過(guò)引入帶紋理的可動(dòng)畫(huà)3D人體網(wǎng)格作為顯式的幀級(jí)引導(dǎo),解決動(dòng)態(tài)服裝紋理一致性問(wèn)題,實(shí)現(xiàn)高保真且時(shí)間連貫的視頻試穿效果。
研究方法與創(chuàng)新
- 技術(shù)描述3DV-TON框架核心創(chuàng)新在于采用生成的可動(dòng)畫(huà)紋理3D人體網(wǎng)格作為時(shí)空一致性的顯式引導(dǎo)。具體流程包括:
- 自適應(yīng)選擇關(guān)鍵幀進(jìn)行2D圖像試穿,生成初始試穿圖像。
- 基于人體姿態(tài)重建與紋理映射,構(gòu)建與視頻人體動(dòng)作同步的紋理3D網(wǎng)格。
- 利用該3D網(wǎng)格動(dòng)畫(huà)序列提供穩(wěn)定的服裝紋理運(yùn)動(dòng)參考,指導(dǎo)擴(kuò)散模型生成視頻幀,確保紋理與動(dòng)作一致。
- 創(chuàng)新點(diǎn)詳解
- 紋理3D引導(dǎo)的提出:區(qū)別于僅用幾何信息的傳統(tǒng)SMPL模型,本文引入帶紋理的3D人體網(wǎng)格,顯式建模服裝紋理隨人體動(dòng)作的時(shí)空變化,有效緩解了傳統(tǒng)模型在動(dòng)態(tài)場(chǎng)景中的紋理漂移和運(yùn)動(dòng)偽影。
- 擴(kuò)散模型與3D引導(dǎo)融合:設(shè)計(jì)了融合服裝圖像、試穿圖像和紋理3D引導(dǎo)的多通道輸入,通過(guò)空間自注意力機(jī)制實(shí)現(xiàn)紋理感知的特征融合,提升細(xì)節(jié)還原與時(shí)序一致性。
- 動(dòng)態(tài)矩形掩碼策略:創(chuàng)新掩碼方法防止人體動(dòng)作導(dǎo)致的服裝信息泄露,確保試穿區(qū)域的準(zhǔn)確性和視覺(jué)連貫性,提升模型魯棒性。
- 無(wú)需額外訓(xùn)練的3D引導(dǎo)生成:通過(guò)單幀圖像重建和視頻姿態(tài)同步,動(dòng)態(tài)生成紋理3D引導(dǎo),無(wú)需針對(duì)新數(shù)據(jù)集額外訓(xùn)練,增強(qiáng)方法泛化能力。
- 理論基礎(chǔ)與優(yōu)勢(shì)基于SMPL及SMPL-X參數(shù)化人體模型,結(jié)合單圖像3D人體重建技術(shù),確保人體網(wǎng)格與視頻中人體姿態(tài)高度一致。紋理映射與動(dòng)畫(huà)保證了服裝紋理在三維空間的連續(xù)性,擴(kuò)散模型借助這一顯式引導(dǎo)克服了像素級(jí)重建目標(biāo)對(duì)時(shí)間一致性的限制,實(shí)現(xiàn)了視覺(jué)質(zhì)量與運(yùn)動(dòng)連貫性的平衡。
- 與現(xiàn)有方法對(duì)比傳統(tǒng)基于流的試穿方法受限于變形模塊,難以處理復(fù)雜服裝形變和遮擋。純擴(kuò)散模型雖提升圖像質(zhì)量,但缺乏有效時(shí)空引導(dǎo),導(dǎo)致動(dòng)態(tài)不連貫。3DV-TON通過(guò)紋理3D引導(dǎo)顯著提升了動(dòng)態(tài)紋理一致性和細(xì)節(jié)表達(dá),獲得更自然真實(shí)的試穿視頻。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
- 實(shí)驗(yàn)設(shè)計(jì)
- 數(shù)據(jù)集:訓(xùn)練采用多種高分辨率圖像和視頻數(shù)據(jù)集,包括VITON-HD、DressCode及ViViD,測(cè)試時(shí)引入新建的高分辨率視頻試穿基準(zhǔn)HR-VVT,涵蓋多樣服裝類型和復(fù)雜動(dòng)作場(chǎng)景。
- 對(duì)比方法:選取當(dāng)前最先進(jìn)的ViViD、CatV2TON等公開(kāi)代碼方法進(jìn)行定量和定性比較。
- 評(píng)估指標(biāo):采用SSIM、LPIPS衡量圖像質(zhì)量,視頻Frechet Inception Distance(VFID)衡量視頻生成的真實(shí)性和時(shí)序一致性,同時(shí)進(jìn)行用戶主觀偏好測(cè)試。
- 消融實(shí)驗(yàn):驗(yàn)證紋理3D引導(dǎo)、SMPL幾何引導(dǎo)和掩碼策略對(duì)性能的貢獻(xiàn)。
- 結(jié)果分析
- 定性表現(xiàn):3DV-TON在復(fù)雜動(dòng)作和多視角場(chǎng)景下,能準(zhǔn)確還原服裝紋理細(xì)節(jié),保持紋理運(yùn)動(dòng)連貫,避免了其他方法常見(jiàn)的模糊、偽影和紋理漂移。
- 定量指標(biāo):在所有關(guān)鍵指標(biāo)上,3DV-TON均優(yōu)于對(duì)比方法,特別在VFID指標(biāo)上顯著領(lǐng)先,說(shuō)明生成視頻的時(shí)序一致性和視覺(jué)真實(shí)性得到大幅提升。
- 消融驗(yàn)證:紋理3D引導(dǎo)對(duì)提升紋理一致性和細(xì)節(jié)恢復(fù)貢獻(xiàn)最大,SMPL幾何引導(dǎo)輔助人體結(jié)構(gòu)準(zhǔn)確,掩碼策略有效防止服裝信息泄露,保障了試穿區(qū)域的視覺(jué)真實(shí)性。
- 用戶研究:主觀評(píng)價(jià)顯示用戶對(duì)3DV-TON生成視頻的視覺(jué)質(zhì)量和動(dòng)態(tài)連貫性更為滿意,偏好率明顯高于現(xiàn)有方法。
- 運(yùn)行效率優(yōu)化后的SMPL擬合過(guò)程約需30秒,32幀視頻生成耗時(shí)約35秒,具備實(shí)用性。
結(jié)論與展望
- 研究貢獻(xiàn)總結(jié)本文提出了基于紋理3D人體網(wǎng)格引導(dǎo)的擴(kuò)散模型視頻試穿框架3DV-TON,成功解決了傳統(tǒng)視頻試穿中服裝紋理動(dòng)態(tài)不一致的問(wèn)題。通過(guò)融合幾何與紋理顯式引導(dǎo),實(shí)現(xiàn)了高保真、時(shí)序連貫的試穿視頻生成,并構(gòu)建了高分辨率多樣化視頻試穿基準(zhǔn)HR-VVT,推動(dòng)了該領(lǐng)域的評(píng)測(cè)標(biāo)準(zhǔn)建設(shè)。
- 局限性分析當(dāng)前方法在極端復(fù)雜遮擋和超大范圍服裝變形場(chǎng)景下,3D重建與動(dòng)畫(huà)仍存在一定誤差,可能影響最終試穿效果的自然度。此外,模型推理時(shí)間仍需進(jìn)一步優(yōu)化以滿足實(shí)時(shí)應(yīng)用需求。
- 未來(lái)展望
未來(lái)可探索結(jié)合物理仿真與動(dòng)態(tài)紋理建模,進(jìn)一步提升服裝運(yùn)動(dòng)的真實(shí)感和細(xì)節(jié)表現(xiàn);同時(shí),優(yōu)化3D重建與動(dòng)畫(huà)算法,縮短推理時(shí)間,實(shí)現(xiàn)更高效的視頻試穿系統(tǒng);此外,擴(kuò)展至多人物、復(fù)雜交互場(chǎng)景的試穿應(yīng)用,將拓展該技術(shù)的實(shí)用邊界。
本文轉(zhuǎn)載自???AI研究前瞻???,作者:胡耀淇
