自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華朱軍團隊開源首個基于Transformer的多模態(tài)擴散大模型,文圖互生、改寫全拿下

人工智能 新聞
該論文提出了一個為多模態(tài)設(shè)計的概率建??蚣?UniDiffuser,除了單向的文生圖,還能實現(xiàn)圖生文、圖文聯(lián)合生成、無條件圖文生成、圖文改寫等多種功能。

據(jù)悉 GPT-4 將于本周發(fā)布,多模態(tài)將成為其一大亮點。當(dāng)前的大語言模型正在成為理解各種模態(tài)的通用接口,能夠根據(jù)不同模態(tài)信息來給出回復(fù)文本,但大語言模型生成的內(nèi)容也僅僅局限于文本。另一方面,當(dāng)前的擴散模型 DALL?E 2、Imagen、Stable Diffusion 等在視覺創(chuàng)作上掀起一場革命,但這些模型僅僅支持文到圖的單一跨模態(tài)功能,離通用式生成模型還有一定距離。而多模態(tài)大模型將能夠打通各種模態(tài)能力,實現(xiàn)任意模態(tài)之間轉(zhuǎn)化,被認為是通用式生成模型的未來發(fā)展方向。

清華大學(xué)計算機系朱軍教授帶領(lǐng)的 TSAIL 團隊近期公開的一篇論文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》,率先發(fā)布了對多模態(tài)生成式模型的一些探索工作,實現(xiàn)了任意模態(tài)之間的相互轉(zhuǎn)化。

圖片


論文鏈接:https://ml.cs.tsinghua.edu.cn/diffusion/unidiffuser.pdf

開源代碼:https://github.com/thu-ml/unidiffuser

該論文提出了一個為多模態(tài)設(shè)計的概率建??蚣?UniDiffuser,并采用該團隊提出的基于 transformer 的網(wǎng)絡(luò)架構(gòu) U-ViT,在開源的大規(guī)模圖文數(shù)據(jù)集 LAION-5B 上訓(xùn)練了一個十億參數(shù)量的模型,使得一個底層模型能夠高質(zhì)量地完成多種生成任務(wù)(圖 1)。簡單來講,除了單向的文生圖,還能實現(xiàn)圖生文、圖文聯(lián)合生成、無條件圖文生成、圖文改寫等多種功能,大幅提升文圖內(nèi)容的生產(chǎn)效率,也進一步提升了生成式模型的應(yīng)用想象力。

該論文一作鮑凡目前博士在讀,是此前 Analytic-DPM 的提出者,憑借在擴散模型方面的優(yōu)秀工作榮獲 ICLR 2022 的 outstanding paper award(目前唯一一篇大陸單位獨立完成的獲獎?wù)撐模?/span>

此外,機器之心之前還報道過 TSAIL 團隊提出的 DPM-Solver 快速算法,目前仍是擴散模型最快的生成算法。多模態(tài)大模型正是該團隊在深度概率模型的算法和原理方面上長期深入積累的一個集中展示。該工作的合作者包括人民大學(xué)高瓴人工智能學(xué)院的李崇軒、北京智源研究院的曹越等。

圖片

值得注意的是,該項目的論文和代碼均已開源。

效果展示

如下的圖 8 展示了 UniDiffuser 在圖文聯(lián)合生成的效果:

圖片

如下的圖 9 展示了 UniDiffuser 在文到圖上的效果:

圖片

如下的圖 10 展示了 UniDiffuser 在圖到文上的效果:

圖片

如下的圖 11 展示了 UniDiffuser 在無條件圖像生成上的效果:

圖片

如下的圖 12 展示了 UniDiffuser 在圖像改寫上的效果:

圖片

如下的圖 15 展示了 UniDiffuser 能夠?qū)崿F(xiàn)在圖文兩個模態(tài)之間的來回跳躍 :

圖片

如下圖 16 展示了 UniDiffuser 能對真實的兩張圖像進行插值:

方法概覽

研究團隊將針對通用生成式模型的設(shè)計劃分成了兩個子問題:

  • 概率建??蚣埽菏欠衲軐ふ业揭粋€概率建模框架,能同時建模出模態(tài)之間所有的分布,例如圖文之間的邊緣分布、條件分布、聯(lián)合分布等?
  • 網(wǎng)絡(luò)架構(gòu):是否能設(shè)計出一個統(tǒng)一的網(wǎng)絡(luò)架構(gòu),來支持各種不同模態(tài)的輸入?

概率建??蚣?/strong>

針對概率建??蚣?,研究團隊提出 UniDiffuser,一個基于擴散模型的概率建??蚣?。UniDiffuser 能夠顯示地建模多模態(tài)數(shù)據(jù)中包括邊緣分布、條件分布、聯(lián)合分布在內(nèi)的所有分布。研究團隊發(fā)現(xiàn),關(guān)于不同分布的擴散模型學(xué)習(xí)都可以統(tǒng)一成一個視角:首先向兩個模態(tài)的數(shù)據(jù)分別加入某種大小的噪聲,然后再預(yù)測兩個模態(tài)數(shù)據(jù)上的噪聲。其中兩個模態(tài)數(shù)據(jù)上的噪聲大小決定了具體的分布。例如,將文本的噪聲大小設(shè)置為 0,則對應(yīng)了文生圖的條件分布;將文本噪聲大小設(shè)置為最大值,則對應(yīng)了無條件圖像生成的分布;將圖文噪聲大小設(shè)置為相同,則對應(yīng)了圖文的聯(lián)合分布。根據(jù)該統(tǒng)一的視角,UniDiffuser 只需要將原始擴散模型的訓(xùn)練算法做少許的修改,便能同時學(xué)習(xí)上述的所有分布 — 如下圖所示,UniDiffuser 同時向所有模態(tài)加噪而非單個模態(tài),輸入所有模態(tài)對應(yīng)的噪聲大小,以及預(yù)測所有模態(tài)上的噪聲。

圖片

以雙模態(tài)為例子,最終的訓(xùn)練目標函數(shù)如下所示:

圖片

其中

圖片

代表數(shù)據(jù),

圖片

代表加入到兩個模態(tài)中的標準高斯噪聲,

圖片

代表兩個模態(tài)加入噪聲的大?。磿r間),兩者獨立的從 {1,2,…,T} 中采樣,

圖片

為噪聲預(yù)測網(wǎng)絡(luò),同時預(yù)測兩個模態(tài)上的噪聲。

在訓(xùn)練后,通過向噪聲預(yù)測網(wǎng)絡(luò)設(shè)置兩個模態(tài)合適的時間,UniDiffuser 能夠?qū)崿F(xiàn)無條件、條件以及聯(lián)合生成。例如將文本的時間設(shè)置為 0,可以實現(xiàn)文到圖生成;將文本的時間設(shè)置為最大值,可以實現(xiàn)無條件圖像生成;將圖文時間設(shè)置為相同值,可以實現(xiàn)圖文聯(lián)合生成。

下面羅列了 UniDiffuser 的訓(xùn)練和采樣算法,可見這些算法相對原始的擴散模型均只做了微小的改動,易于實現(xiàn)。

圖片

此外,由于 UniDiffuser 同時建模了條件分布和無條件分布,因此 UniDiffuser 天然地支持 classifier-free guidance。下面的圖 3 展示了 UniDiffuser 的條件生成和聯(lián)合生成在不同的 guidance scale 下的效果:

圖片

網(wǎng)絡(luò)架構(gòu)

針對網(wǎng)絡(luò)架構(gòu),研究團隊提出使用基于 transformer 的架構(gòu)來參數(shù)化噪聲預(yù)測網(wǎng)絡(luò)。具體地,研究團隊采用了最近提出的 U-ViT 架構(gòu)。U-ViT 將所有的輸入都視作 token,并在 transformer 塊之間加入了 U 型連接。研究團隊也采用了 Stable Diffusion 的策略,將不同模態(tài)的數(shù)據(jù)都轉(zhuǎn)換到了隱空間再進行擴散模型的建模。值得注意的是,U-ViT 架構(gòu)同樣來自該研究團隊,并且已被開源在 https://github.com/baofff/U-ViT。

圖片

實驗結(jié)果

UniDiffuser 首先和 Versatile Diffusion 進行了比較。Versatile Diffusion 是過去的一個基于多任務(wù)框架的多模態(tài)擴散模型。首先 UniDiffuser 和 Versatile Diffusion 進行了文到圖上的效果比較。如下面的圖 5 所示,在不同的 classifier-free guidance scale 下,UniDiffuser 在 CLIP Score 和 FID 指標上均要好于 Versatile Diffusion。

圖片

然后 UniDiffuser 和 Versatile Diffusion 進行了圖到文上的效果比較。如下面的圖 6 所示,UniDiffuser 在圖到文上有更好的 CLIP Score。

圖片

UniDiffuser 也和專用的文到圖模型在 MS-COCO 上進行了 zero-shot FID 的比較。如下面的表 1 所示,UniDiffuser 可以和專用的文到圖模型取得可比的效果。

圖片

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-12-23 23:08:21

語音數(shù)據(jù)

2024-09-23 08:20:00

模型訓(xùn)練

2024-03-25 12:30:18

AI訓(xùn)練開源

2023-07-03 16:27:24

模型AI

2023-10-17 12:34:04

2024-11-13 09:39:13

2023-07-03 09:41:12

算法AI

2025-02-18 09:10:00

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-01-08 08:21:16

2024-10-14 14:10:00

大模型AI開源

2024-10-25 14:30:00

模型AI

2024-07-01 10:19:22

2025-03-12 09:05:02

2024-07-23 10:34:57

2022-08-26 14:44:32

強化學(xué)習(xí)AI

2024-11-13 15:00:00

模型數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號