自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="drrng"><rt id="drrng"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！精華

發(fā)布于 2024-12-16 13:41

瀏覽

0收藏

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2412.09626
項目鏈接：http://haonanqiu.com/projects/FreeScale.html

亮點直擊

提出了FreeScale，一種無需微調(diào)的推理范式，通過融合不同尺度的信息，使預(yù)訓(xùn)練的擴散模型能夠生成生動的高分辨率結(jié)果。
在文本生成圖像模型和文本生成視頻模型上對該方法進行了實證評估，證明了其有效性。
首次實現(xiàn)了8K分辨率圖像的生成。與其他最新的無需微調(diào)方法相比，F(xiàn)reeScale 以更少的推理時間獲得了更高質(zhì)量的視覺效果。

總結(jié)速覽

解決的問題

當(dāng)前的視覺擴散模型由于高分辨率數(shù)據(jù)缺乏和計算資源限制，僅能在有限分辨率下訓(xùn)練，難以生成高保真圖像或視頻。在生成高于訓(xùn)練分辨率的內(nèi)容時，模型容易引入高頻信息，導(dǎo)致重復(fù)模式和低質(zhì)量內(nèi)容。

提出的方案

FreeScale 是一種無需微調(diào)（tuning-free）的推理范式，通過尺度融合（scale fusion）實現(xiàn)高分辨率視覺內(nèi)容生成。它通過處理不同感受野尺度的信息，并提取所需的頻率成分進行融合，從而克服高頻信息引發(fā)的重復(fù)模式問題。

應(yīng)用的技術(shù)

多尺度信息處理：對不同感受的尺度信息進行提取和處理。
頻率成分提取與融合：提取并融合目標(biāo)頻率成分，優(yōu)化高分辨率生成質(zhì)量。

達到的效果

在圖像和視頻生成任務(wù)中顯著擴展了高分辨率生成的能力。
首次實現(xiàn)了8K分辨率圖像的生成，相較于現(xiàn)有最優(yōu)方法表現(xiàn)更優(yōu)。
通過無調(diào)參方式解決了高分辨率生成中的重復(fù)模式問題，提升了生成內(nèi)容的質(zhì)量與保真度。

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

8K效果

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

方法

定制化的自級聯(lián)超分辨率

直接生成高分辨率結(jié)果容易導(dǎo)致重復(fù)對象的出現(xiàn)，破壞原本良好的視覺結(jié)構(gòu)。為了解決這一問題，采用了來自先前研究[13, 14]的自級聯(lián)超分辨率框架，該框架通過逐步增加生成結(jié)果的分辨率來實現(xiàn)高質(zhì)量的視覺輸出。

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

細節(jié)級別的靈活控制

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

受約束的膨脹卷積

ScaleCrafter 發(fā)現(xiàn)，導(dǎo)致對象重復(fù)問題的主要原因是卷積感受野的限制，并提出使用膨脹卷積來解決該問題。

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

為了避免災(zāi)難性的質(zhì)量下降，ScaleCrafter僅將膨脹卷積應(yīng)用于 UNet 的部分層，仍保留了多個上采樣塊（up-blocks）。然而，在上采樣塊的層中使用膨脹卷積會導(dǎo)致生成許多混亂的紋理。因此，與以往的工作不同，僅在下采樣塊（down-blocks）和中間塊（mid-blocks）的層中應(yīng)用膨脹卷積。此外，在最后幾個時間步中，結(jié)果的細節(jié)被渲染，而視覺結(jié)構(gòu)幾乎固定。因此，在最后幾個時間步中使用原始卷積。

尺度融合

雖然定制化的自級聯(lián)超分辨率和受約束的膨脹卷積能夠保持粗略的視覺結(jié)構(gòu)，并有效生成4X分辨率的圖像，但生成16X分辨率的圖像仍會出現(xiàn)偽影，例如局部重復(fù)（如額外的眼睛或鼻子）。這一問題的根源在于膨脹卷積削弱了對局部特征的關(guān)注。DemoFusion通過使用局部塊操作增強局部關(guān)注解決了這個問題。然而，盡管局部塊操作緩解了局部重復(fù)問題，卻在全局范圍內(nèi)引入了小對象的重復(fù)。

為結(jié)合兩種策略的優(yōu)勢，本文設(shè)計了尺度融合（Scale Fusion），通過融合不同感受野尺度的信息，實現(xiàn)局部和全局細節(jié)的平衡增強。

對于全局信息的提取，采用了全局自注意力特征。原因在于，自注意力層基于相似性增強了塊信息，使后續(xù)的交叉注意力層更容易將語義聚合成完整的對象。這可以表述為：

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

關(guān)于局部信息的提取

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

實驗

實驗設(shè)置

實驗條件

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

在 LAION-5B 數(shù)據(jù)集中隨機抽取 1024 條描述語句來評估圖像生成性能。為了更貼近人類的審美偏好，我們從 LAION-Aesthetics-V2-6.5plus 數(shù)據(jù)集中隨機選擇提示語進行圖像生成評估。LAION-Aesthetics-V2-6.5plus 是 LAION-5B 的一個子集，包含高視覺質(zhì)量的圖像，這些圖像在美學(xué)預(yù)測模型中的評分達到 6.5 或更高。
在視頻生成評估中，從 WebVid-10M 數(shù)據(jù)集中隨機抽取 512 條描述語句。

評價指標(biāo)
由于高分辨率推理方法旨在保持原始分辨率輸出的質(zhì)量，我們計算了原始低分辨率圖像/視頻與對應(yīng)高分辨率輸出之間的所有指標(biāo)。

圖像質(zhì)量評估：我們報告了 **Frechet Image Distance (FID)**和 **Kernel Image Distance (KID)**。FID 和 KID 在比較之前需要將圖像調(diào)整到299x299的尺寸，這一操作可能會導(dǎo)致高分辨率圖像的質(zhì)量損失。因此，受前人研究 [8] 啟發(fā)，我們使用裁剪的局部區(qū)域計算這些指標(biāo)，稱為FIDc和KIDc。
視頻質(zhì)量評估：我們使用Frechet Video Distance (FVD)來評估視頻生成的質(zhì)量。
動態(tài)性和美學(xué)質(zhì)量：從VBench中測試了動態(tài)程度和美學(xué)質(zhì)量，用以評估視頻的動態(tài)性和視覺吸引力。

高分辨率圖像生成

將 FreeScale 與其他高分辨率圖像生成方法進行了對比，包括：

SDXL直接推理 (SDXL-DI)
ScaleCrafter
DemoFusion
FouriScale

若兼容，采用 FreeU 作為后處理方法。

定性比較

定性比較結(jié)果如下圖 3 所示。觀察到以下現(xiàn)象：

直接生成（SDXL-DI）通常會導(dǎo)致多個重復(fù)對象，并且原始視覺結(jié)構(gòu)丟失。
ScaleCrafter容易產(chǎn)生局部重復(fù)現(xiàn)象。
DemoFusion生成的畫面中常伴有孤立的小物體。
FouriScale對于某些描述，會大幅改變生成圖像的風(fēng)格。

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

相比之下，FreeScale 能夠生成高質(zhì)量圖像，避免任何意外的重復(fù)現(xiàn)象。

定量比較

定量結(jié)果進一步證實了 FreeScale 的優(yōu)越性。如下表 1 所示：

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

SDXL-DI在FIDc和KIDc指標(biāo)上表現(xiàn)最佳。這是因為 SDXL-DI 傾向于生成多個重復(fù)對象，并且裁剪區(qū)域可能更接近參考圖像。然而，這種行為會犧牲視覺結(jié)構(gòu)的完整性，因此在分辨率為的場景下，SDXL-DI 在FID和KID指標(biāo)上表現(xiàn)最差。
總體上，FreeScale在所有與質(zhì)量相關(guān)的指標(biāo)上都取得了最佳或次優(yōu)成績，并且額外的時間成本可以忽略不計。

靈活細節(jié)控制

此外，FreeScale 提供了對生成結(jié)果中細節(jié)級別的靈活控制。下圖 4 展示了對不同語義區(qū)域調(diào)整細節(jié)級別的示例。

在獲得放大后的 1× 結(jié)果后，我們可以輕松計算語義mask，并在公式 4 中為每個區(qū)域分配不同的值。如下圖 4 所示，在 Griffons 區(qū)域增加權(quán)重系數(shù)，而在其他區(qū)域降低權(quán)重系數(shù)時，生成結(jié)果會更加優(yōu)異。

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

高分辨率視頻生成

將 FreeScale 與其他無需調(diào)優(yōu)的高分辨率視頻生成方法進行了對比，包括：

VideoCrafter2直接推理 (VC2-DI)
ScaleCrafter
DemoFusion

由于 FouriScale 結(jié)合的 FreeU 在視頻生成中表現(xiàn)不佳，因此未進行評估。

如下圖 5 所示，VC2-DI 和 ScaleCrafter 的行為與它們在圖像生成中的表現(xiàn)相似，分別傾向于生成重復(fù)的完整對象和局部部分。然而，DemoFusion 在視頻生成中表現(xiàn)完全不可預(yù)期。其 Dilated Sampling 機制導(dǎo)致所有幀中出現(xiàn)奇怪的圖案，而 Skip Residual 操作則使整個視頻模糊不清。相比之下，FreeScale 能有效生成高分辨率的視頻，且保真度高。下表 3 顯示，我們的方法在推理時間較短的情況下取得了最佳的 FVD 分數(shù)。更多定量評估可以參考補充材料。

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

消融實驗

FreeScale 主要由三個組件組成：

定制自級聯(lián)上采樣
限制性膨脹卷積
尺度融合

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！-AI.x社區(qū)

結(jié)論

FreeScale，一種無需調(diào)優(yōu)的推理范式，旨在增強預(yù)訓(xùn)練擴散模型在高分辨率生成中的能力。通過利用多尺度融合和選擇性頻率提取，FreeScale 有效解決了高分辨率生成中常見的問題，如重復(fù)模式和質(zhì)量退化。實驗結(jié)果表明，FreeScale 在圖像和視頻生成中都表現(xiàn)出色，超越了現(xiàn)有方法的視覺質(zhì)量，同時在推理時間上也具有顯著優(yōu)勢。與以前的方法相比，FreeScale 不僅消除了各種形式的視覺重復(fù)，而且確保了生成圖像中的細節(jié)清晰和結(jié)構(gòu)一致性。最終，FreeScale 實現(xiàn)了前所未有的8k 分辨率圖像生成。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/s6bI7joHzfECP14fRsueNQ??

標(biāo)簽

贊 1

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

無需訓(xùn)練，這個新方法實現(xiàn)了生成圖像尺寸、分辨率自由

輕薄滴假象 ? 2347瀏覽 ? 0回復(fù)
超10秒高分辨率，北大Open Sora視頻生成更強了，還支持華為芯片

輕薄滴假象 ? 2415瀏覽 ? 0回復(fù)
K8s和大模型真的搭嗎？

51CTO技術(shù)棧 ? 2822瀏覽 ? 0回復(fù)
8倍于SOTA模型發(fā)布，超分辨率細節(jié)還原度逆天，終于可以看清楚蜘蛛網(wǎng)絲了！

51CTO技術(shù)棧 ? 3577瀏覽 ? 0回復(fù)
高分辨率圖像生成擴散外推方法CutDiffusion發(fā)布！

angel ? 3939瀏覽 ? 0回復(fù)
Adobe推出超分辨率，細節(jié)豐富視頻模型VideoGigaGAN

Aceryt ? 2365瀏覽 ? 0回復(fù)
CVPR 2024｜讓圖像擴散模型生成高質(zhì)量360度場景，只需要一個語言模型

輕薄滴假象 ? 2994瀏覽 ? 0回復(fù)
在圖像生成領(lǐng)域，自回歸可以打敗擴散模型嗎？

angel ? 3485瀏覽 ? 0回復(fù)
4K4D:實時4K分辨率4D視圖合成

angel ? 2462瀏覽 ? 0回復(fù)
上海交大等聯(lián)合發(fā)布MegaFusion：無須微調(diào)的高效高分辨率圖像生成方法

angel ? 2442瀏覽 ? 0回復(fù)
ACM MM24 | Hi3D: 3D生成領(lǐng)域再突破！新視角生成和高分辨率生成雙SOTA(復(fù)旦&智象等)

angel ? 2361瀏覽 ? 0回復(fù)
蘋果開源高清擴散模型MDM，能在多個分辨率下同時去噪

Aceryt ? 2052瀏覽 ? 0回復(fù)
蘋果重磅開源俄羅斯套娃擴散模型！MDM：多任務(wù)高分辨率生成又快又好！

angel ? 1940瀏覽 ? 0回復(fù)
首次超越擴散模型和非自回歸Transformer模型！字節(jié)開源RAR：自回歸生成最新SOTA！

angel ? 2121瀏覽 ? 0回復(fù)
從低清到4K的魔法：FlashVideo突破高分辨率視頻生成計算瓶頸(港大&港中文&字節(jié))

angel ? 1668瀏覽 ? 0回復(fù)
高分辨率3D人生成超簡單!Pippo:Meta最新工作首次完成1K分辨率一致多視角人物圖像生成

angel ? 1965瀏覽 ? 0回復(fù)
何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現(xiàn)高分辨率逐像素生成

Crystalcxt ? 1486瀏覽 ? 0回復(fù)
長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效

AIPaperDaily ? 970瀏覽 ? 0回復(fù)
統(tǒng)一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯(lián)合的圖像生成；視頻試穿框架

AI研究前瞻 ? 214瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：擊敗擴散和非擴散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動說話者頭像生成模型

下一篇：圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit：BrushNet進階版來了

社區(qū)精華內(nèi)容

目錄

<p id="2qnta"><li id="2qnta"><pre id="2qnta"></pre></li></p>

^{<blockquote id="2qnta"></blockquote>}

<blockquote id="2qnta"><i id="2qnta"></i></blockquote>