自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法

發(fā)布于 2024-8-22 09:16
瀏覽
0收藏

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2408.11001
項(xiàng)目鏈接:https://haoningwu3639.github.io/MegaFusion/

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

亮點(diǎn)直擊

  • 提出了一種無(wú)需調(diào)優(yōu)的方法——MegaFusion,通過(guò)截?cái)嗯c傳遞策略,以粗到細(xì)的方式高效生成百萬(wàn)像素的高質(zhì)量、高分辨率圖像;
  • 結(jié)合了膨脹卷積和噪聲重新調(diào)度技術(shù),進(jìn)一步優(yōu)化了預(yù)訓(xùn)練擴(kuò)散模型對(duì)高分辨率的適應(yīng)性;
  • 證明了該方法在潛空間和像素空間擴(kuò)散模型及其擴(kuò)展模型中的適用性,使其能夠在大約原始計(jì)算成本的40%下生成具有多種縱橫比的高分辨率圖像;
  • 大量實(shí)驗(yàn)驗(yàn)證了本文所提方法在效率、圖像質(zhì)量和語(yǔ)義準(zhǔn)確性方面的有效性和優(yōu)越性;


擴(kuò)散模型憑借其卓越的能力,已成為文本生成圖像領(lǐng)域的領(lǐng)先者。然而,由于訓(xùn)練過(guò)程中圖像分辨率的固定性,導(dǎo)致其在生成高分辨率圖像時(shí)面臨諸如語(yǔ)義不準(zhǔn)確和物體復(fù)制等挑戰(zhàn)。本文介紹了一種名為MegaFusion的全新方法,該方法在無(wú)需額外微調(diào)或額外適配的情況下,擴(kuò)展了現(xiàn)有基于擴(kuò)散的文本生成圖像模型,實(shí)現(xiàn)了高效的高分辨率生成。具體而言,采用了一種創(chuàng)新的截?cái)嗯c傳遞策略,跨不同分辨率連接去噪過(guò)程,從而以粗到細(xì)的方式生成高分辨率圖像。此外,通過(guò)集成膨脹卷積和噪聲重新調(diào)度,進(jìn)一步調(diào)整了模型的先驗(yàn)知識(shí),以適應(yīng)更高的分辨率。MegaFusion的通用性和高效性使其可以普遍應(yīng)用于潛空間和像素空間的擴(kuò)散模型以及其他衍生模型。大量實(shí)驗(yàn)結(jié)果證實(shí),MegaFusion在僅需原始計(jì)算成本約40%的情況下,顯著提升了現(xiàn)有模型生成百萬(wàn)像素及不同縱橫比圖像的能力。

方法

本節(jié)首先詳細(xì)闡述了無(wú)需調(diào)優(yōu)的MegaFusion方法中的截?cái)嗯c傳遞策略。接著,結(jié)合膨脹卷積和噪聲重新調(diào)度,以進(jìn)一步調(diào)整模型的先驗(yàn)知識(shí),以實(shí)現(xiàn)更高的分辨率。最后,詳細(xì)說(shuō)明了該方法在潛空間和像素空間擴(kuò)散模型及其擴(kuò)展模型中的應(yīng)用。

截?cái)嗯c傳遞策略

為了清晰起見(jiàn),將以潛空間擴(kuò)散模型為例來(lái)解釋本文的方法。對(duì)于像素空間的擴(kuò)散模型,本文的方法可以更直接和方便地應(yīng)用。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

MegaFusion++

基于截?cái)嗯c傳遞策略的MegaFusion,可以進(jìn)一步與現(xiàn)有技術(shù),如膨脹卷積和噪聲重新調(diào)度,進(jìn)行正交結(jié)合,以使模型的先驗(yàn)知識(shí)適應(yīng)更高的分辨率。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

其背后的見(jiàn)解是:希望在瓶頸處擴(kuò)大感受野以聚合全局信息,同時(shí)在更高分辨率下保留原有先驗(yàn),采樣附近特征以增強(qiáng)細(xì)節(jié)。


噪聲重新調(diào)度。類(lèi)似于在簡(jiǎn)單擴(kuò)散和傳遞擴(kuò)散中的發(fā)現(xiàn),觀察到相同的噪聲水平在不同分辨率下對(duì)圖像的影響不同,如前面圖2(c)所示,這導(dǎo)致在相同時(shí)間步長(zhǎng)下不同的信噪比 (SNR)。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

在其他模型上的進(jìn)一步應(yīng)用

像素空間擴(kuò)散模型。與潛空間模型類(lèi)似,MegaFusion同樣適用于像素空間擴(kuò)散模型,例如Floyd。主要區(qū)別在于直接在像素空間執(zhí)行截?cái)嗪蛡鬟f操作。這意味著方程2、3和4可以調(diào)整為如下形式:

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

實(shí)驗(yàn)

本節(jié)首先概述了實(shí)驗(yàn)設(shè)置。隨后,通過(guò)定量指標(biāo)和人工評(píng)估對(duì)現(xiàn)有模型進(jìn)行比較。接著,展示了應(yīng)用我們方法到各種擴(kuò)散模型的定性結(jié)果。最后呈現(xiàn)了消融研究,以驗(yàn)證我們提出的組件的有效性。

實(shí)驗(yàn)設(shè)置

實(shí)現(xiàn)細(xì)節(jié)。在潛空間(SDM 1.5 和 SDXL)和像素空間(Floyd)中評(píng)估文本生成圖像擴(kuò)散模型。除非另有明確說(shuō)明,所有模型使用DDIM 進(jìn)行50步的采樣。由于SDM是在固定分辨率512 × 512下訓(xùn)練的,選擇生成1024 × 1024的高分辨率圖像以進(jìn)行定量比較。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

評(píng)估數(shù)據(jù)集。在MS-COCO數(shù)據(jù)集上評(píng)估了本文的方法和基準(zhǔn)模型,該數(shù)據(jù)集總共有大約12萬(wàn)張圖像,每張圖像配有5個(gè)字幕。由于高分辨率生成的計(jì)算成本,從MS-COCO中隨機(jī)抽取了1萬(wàn)張圖像,并為每張圖像分配了固定的字幕作為輸入。為了確保比較的一致性,對(duì)不同方法中的每張圖像使用相同的隨機(jī)種子,從而消除隨機(jī)性。對(duì)于定性人工評(píng)估,使用來(lái)自互聯(lián)網(wǎng)的常用提示作為文本條件,并使用原始代碼庫(kù)提供的條件圖像作為IP-Adapter和ControlNet的額外輸入。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

為了評(píng)估生成內(nèi)容的語(yǔ)義準(zhǔn)確性,采用MiniGPT-v2 對(duì)圖像進(jìn)行字幕生成,并計(jì)算這些字幕與原始輸入文本之間的幾個(gè)語(yǔ)言學(xué)指標(biāo)。具體而言,報(bào)告了常用的CIDEr、Meteor 和ROUGE 。此外,還詳細(xì)介紹了在單個(gè)A40 GPU上測(cè)量的GFlops和推理時(shí)間,以進(jìn)行效率比較。

定量結(jié)果

客觀指標(biāo)。在MS-COCO數(shù)據(jù)集上比較了通過(guò)MegaFusion提升的潛空間和像素空間擴(kuò)散模型的性能與其基線(xiàn)模型。這里,[model-MegaFusion] 指代采用截?cái)嗪蛡鬟f策略以跨多分辨率生成圖像的模型,而 [model-MegaFusion++] 則表示結(jié)合了膨脹卷積和噪聲重新調(diào)度的高級(jí)模型。還與幾種現(xiàn)有的最先進(jìn)方法進(jìn)行了比較,如帶有StableSR的SDM、ScaleCrafter 和DemoFusion,這些方法僅限于特定的潛空間模型且效率較低。


下表1的結(jié)果顯示,MegaFusion在所有指標(biāo)上均顯著提升,包括圖像質(zhì)量、語(yǔ)義準(zhǔn)確性,特別是計(jì)算效率。這表明MegaFusion有效地?cái)U(kuò)展了現(xiàn)有擴(kuò)散模型的生成能力,使其能夠合成具有正確語(yǔ)義和細(xì)節(jié)的高分辨率圖像,同時(shí)計(jì)算成本僅為原來(lái)的40%左右。此外,結(jié)合膨脹卷積和噪聲重新調(diào)度進(jìn)一步提升了如FID_r、KID_r、CLIP-T和ROUGE等指標(biāo)的性能,反映了生成多樣性和與真實(shí)圖像及文本條件的一致性有了改進(jìn)。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

人工評(píng)估。為了補(bǔ)充客觀分析,進(jìn)行了一項(xiàng)以人為中心的評(píng)估,重點(diǎn)關(guān)注圖像質(zhì)量和語(yǔ)義完整性。具體而言,利用相同的文本和隨機(jī)種子作為輸入,通過(guò)標(biāo)準(zhǔn)模型(SDM和Floyd)和其MegaFusion增強(qiáng)版本合成高分辨率圖像。參與者被要求根據(jù)圖像質(zhì)量和語(yǔ)義準(zhǔn)確性為輸出打分,范圍從1到5(分?jǐn)?shù)越高表示越好)。此外,他們還需要從選項(xiàng)中選擇他們最喜歡的圖像進(jìn)行偏好評(píng)分。


下表2的結(jié)果確認(rèn)了我們的MegaFusion顯著提高了高分辨率圖像生成的圖像質(zhì)量和語(yǔ)義準(zhǔn)確性。此外,高級(jí)MegaFusion++顯示出更大改進(jìn)的潛力。這些證據(jù)突顯了MegaFusion提升預(yù)訓(xùn)練模型的能力,使其能夠生成質(zhì)量更高且語(yǔ)義準(zhǔn)確的高分辨率圖像。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

定性結(jié)果

文本到圖像基礎(chǔ)模型的比較。下圖3展示了在潛空間和像素空間中高分辨率圖像生成的可視化結(jié)果。這些結(jié)果確認(rèn),MegaFusion可以與現(xiàn)有的擴(kuò)散模型無(wú)縫集成,生成具有準(zhǔn)確語(yǔ)義的百萬(wàn)像素圖像,而以前的基線(xiàn)模型未能做到這一點(diǎn)。此外,結(jié)合膨脹卷積和噪聲重新調(diào)度進(jìn)一步提升了圖像細(xì)節(jié)。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

具有額外條件的模型比較。進(jìn)一步將MegaFusion應(yīng)用于配有額外輸入條件的擴(kuò)散模型,如IP-Adapter和ControlNet,如下圖4所示。MegaFusion展現(xiàn)了普遍適用性,顯著擴(kuò)展了各種擴(kuò)散模型合成高質(zhì)量高分辨率圖像的能力,這些圖像不僅符合輸入條件,還保持了語(yǔ)義完整性。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

消融研究

提出的策略與模塊。為了評(píng)估本文提出的策略和組件的有效性,在潛空間和像素空間中評(píng)估了幾種模型變體。在這里,“T&R”、“D”和“R”分別表示截?cái)嗪蛡鬟f策略、膨脹卷積和噪聲重新調(diào)度。下表3的結(jié)果顯示,本文的策略和模塊顯著提升了基礎(chǔ)生成模型如SDM(1024 × 1024)和Floyd(128 × 128)生成內(nèi)容的質(zhì)量和多樣性,特別是改善了與真實(shí)圖像的質(zhì)量和一致性。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

結(jié)論

本文介紹了MegaFusion,這是一種無(wú)調(diào)優(yōu)的方法,旨在解決合成高分辨率圖像所面臨的挑戰(zhàn),有效地解決了語(yǔ)義不準(zhǔn)確和物體復(fù)制的問(wèn)題。我們的方法采用了一種創(chuàng)新的截?cái)嗪蛡鬟f策略,優(yōu)雅地連接了不同分辨率之間的生成過(guò)程,以高效的粗到細(xì)方式合成高質(zhì)量的高分辨率圖像,適用于各種長(zhǎng)寬比。通過(guò)結(jié)合正交的膨脹卷積和噪聲重新調(diào)度,進(jìn)一步將模型先驗(yàn)適應(yīng)到更高的分辨率。MegaFusion的多功能性和有效性使其能夠普遍適用于潛空間和像素空間的擴(kuò)散模型及其帶有額外條件的擴(kuò)展。大量實(shí)驗(yàn)驗(yàn)證了MegaFusion的優(yōu)越性,展示了它能夠在僅使用原始計(jì)算成本約40%的情況下生成高分辨率圖像的能力。

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

全面提升!上海交大等聯(lián)合發(fā)布MegaFusion:無(wú)須微調(diào)的高效高分辨率圖像生成方法-AI.x社區(qū)

本文轉(zhuǎn)自AI生成未來(lái) ,作者:Haoning Wu等


原文鏈接:??https://mp.weixin.qq.com/s/u8q4t2FAZFJX-wq5D5918w??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄