自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

蘋果開源高清擴(kuò)散模型MDM,能在多個分辨率下同時去噪

發(fā)布于 2024-10-8 10:15
瀏覽
0收藏

擴(kuò)散模型已經(jīng)成為文本生成圖像、視頻的主要框架之一,其基本原理是通過逐步引入噪聲并在反向過程中去除噪聲來生成數(shù)據(jù)。但在生成2K、4K高分辨率時,面臨巨大的算力需求和時間消耗。


為了解決這一難題,蘋果的研究人員開源了高清擴(kuò)散模型Matryoshka Diffusion Models(簡稱“MDM”), 通過引入一種特殊的擴(kuò)散過程可在多個分辨率下同時進(jìn)行去噪,并使用NestedUNet架構(gòu),將小尺度輸入的特征和參數(shù)嵌套在大尺度的結(jié)構(gòu)中,允許模型在不同分辨率間共享信息,從而提高訓(xùn)練效率和生成質(zhì)量。

開源地址:https://github.com/apple/ml-mdm?tab=readme-ov-file

蘋果開源高清擴(kuò)散模型MDM,能在多個分辨率下同時去噪-AI.x社區(qū)

傳統(tǒng)的擴(kuò)散模型通常在單一分辨率下進(jìn)行去噪操作,而MDM引入了多分辨率擴(kuò)散過程,將不同分辨率的潛在變量聯(lián)合起來進(jìn)行處理。


例如,當(dāng)生成一張圖像時,MDM不僅考慮最終的高分辨率輸出,還同時關(guān)注中間的低分辨率信息。這就好比在制作一幅精美的刺繡作品時,不僅要關(guān)注整體的圖案設(shè)計(jì),還要注重每一針每一線的細(xì)節(jié),而低分辨率信息就像是刺繡中的底層線條,為高分辨率的呈現(xiàn)提供了基礎(chǔ)。


在這個擴(kuò)展空間中,MDM為數(shù)據(jù)點(diǎn)定義了時間相關(guān)的潛在變量,包含了多個不同分辨率的潛在變量。每個都有其特定的分布,并且與其他分辨率的潛在變量相互關(guān)聯(lián)。


這種多分辨率的聯(lián)合處理使得模型能夠更好地捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和特征,豐富了模型對數(shù)據(jù)分布的建模能力。由于在推理過程中關(guān)注了多個分辨率的信息,MDM可以將中間分辨率視為額外的隱藏變量,這些隱藏變量有助于模型更好地理解和生成高分辨率的輸出

蘋果開源高清擴(kuò)散模型MDM,能在多個分辨率下同時去噪-AI.x社區(qū)

MDM使用的NestedUNet架構(gòu)類似于傳統(tǒng)的UNet架構(gòu),但在處理多分辨率輸入時有一些區(qū)別。傳統(tǒng)的UNet架構(gòu)通過跳過連接和計(jì)算塊來保留細(xì)粒度輸入信息,而NestedUNet架構(gòu)在此基礎(chǔ)上,進(jìn)一步將所有分辨率的潛在變量分組在一個去噪函數(shù)中形成嵌套結(jié)構(gòu)。

蘋果開源高清擴(kuò)散模型MDM,能在多個分辨率下同時去噪-AI.x社區(qū)

這種嵌套結(jié)構(gòu)使得低分辨率潛在變量的計(jì)算能夠自然地為高分辨率潛在變量的計(jì)算提供有益的信息,就像套娃游戲一樣,小的套娃嵌套在大的套娃中,彼此相互關(guān)聯(lián)共同構(gòu)成一個完整的整體。

蘋果開源高清擴(kuò)散模型MDM,能在多個分辨率下同時去噪-AI.x社區(qū)

在圖像生成任務(wù)中,當(dāng)模型處理不同分辨率的圖像時,NestedUNet架構(gòu)能夠有效地整合這些信息。低分辨率的圖像特征會被逐漸傳遞到高分辨率的部分,為高分辨率圖像的生成提供重要的線索和指導(dǎo)。


例如,我們想生成一幅“海灘日落”的高分辨率圖像。在MDM生成過程中會從一幅低分辨率的草圖開始。這幅草圖捕捉了海灘日落的基本元素,如天空、海面和太陽的大致輪廓。


隨后,模型會在這一草圖的基礎(chǔ)上逐步增加細(xì)節(jié),比如太陽的光輝、海浪的波紋和沙灘上的紋理。在每一級分辨率的提升過程中,模型都會利用NestedUNet架構(gòu)中的特征共享機(jī)制,確保生成的圖像在細(xì)節(jié)上的連貫性和一致性。

蘋果開源高清擴(kuò)散模型MDM,能在多個分辨率下同時去噪-AI.x社區(qū)

漸進(jìn)式多階段訓(xùn)練是MDM的另外一大優(yōu)勢。在傳統(tǒng)的訓(xùn)練方法中,模型往往需要一次性處理所有分辨率的數(shù)據(jù),這在高分辨率情況下會導(dǎo)致巨大的計(jì)算負(fù)擔(dān)。


MDM則通過漸進(jìn)式訓(xùn)練,先從低分辨率開始訓(xùn)練,逐步增加分辨率,直至達(dá)到所需的高分辨率輸出。

蘋果開源高清擴(kuò)散模型MDM,能在多個分辨率下同時去噪-AI.x社區(qū)

這種方法不僅減輕了訓(xùn)練初期的計(jì)算壓力,還有助于模型更好地學(xué)習(xí)到不同分辨率之間的關(guān)聯(lián)和轉(zhuǎn)換規(guī)則。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/Gt2ihbtIhFEtzo8qAmv33g??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦