自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Lumina-T2X: 一款集成圖像、視頻、音頻和3D生成的多模態(tài)擴散模型

發(fā)布于 2024-8-28 14:57
瀏覽
0收藏

近年來,隨著擴散模型在生成任務(wù)中的廣泛應(yīng)用,它們已經(jīng)成為了生成式人工智能領(lǐng)域的重要組成部分。從Stable Diffusion到Sora,這些模型在生成真實圖像和視頻方面取得了顯著成功,標志著從經(jīng)典U-Net架構(gòu)向基于Transformer的擴散主干架構(gòu)的轉(zhuǎn)變。最新的進展是Lumina-T2X系列模型,它通過基于流的大型擴散Transformer(Flag-DiT),實現(xiàn)了圖像、視頻、音頻和3D對象的生成。

一、背景與挑戰(zhàn)

雖然諸如Sora和Stable Diffusion這樣的模型已經(jīng)證明了它們在生成高質(zhì)量圖像和視頻方面的潛力,但它們通常專注于單一模態(tài)的任務(wù),且缺乏詳細的實現(xiàn)說明和預訓練模型,這限制了它們在社區(qū)中的廣泛使用。此外,這些模型往往缺乏跨模態(tài)的適應(yīng)性,難以處理多種模態(tài)的數(shù)據(jù)。

二、Lumina-T2X與Flag-DiT

為了解決上述問題,上海AI Lab、香港中文大學和英偉達的研究人員聯(lián)合推出了Lumina-T2X系列模型,其中包括一個擁有70億參數(shù)的大型擴散Transformer——Flag-DiT,以及一個包含130億參數(shù)的多模態(tài)大語言模型SPHINX。

Flag-DiT架構(gòu)

Flag-DiT基于Diffusion Transformer(DiT)進行了改進,具有出色的穩(wěn)定性、靈活性和可擴展性。它通過替換LayerNorm為RMSNorm和引入鍵查詢歸一化(KQ-Norm),提高了訓練的穩(wěn)定性。此外,F(xiàn)lag-DiT還采用了相對位置編碼(RoPE)以支持任意分辨率的圖像生成。

Lumina-T2X的整體流程

Lumina-T2X在訓練過程中主要由四個組件組成:不同模態(tài)的逐幀編碼、多種文本編碼器進行文本編碼、輸入和目標構(gòu)建,以及網(wǎng)絡(luò)架構(gòu)和損失函數(shù)的定義。這些組件協(xié)同工作,確保模型能夠有效地處理和生成不同模態(tài)的數(shù)據(jù)。

三、模型能力展示

Lumina-T2X系列模型能夠生成高質(zhì)量的圖像、視頻、3D對象和語音,實現(xiàn)了真正的“大一統(tǒng)”。例如,Lumina-T2I模型不僅可以生成高質(zhì)量的圖像,還支持分辨率外推、高分辨率編輯、構(gòu)圖生成等功能。

Lumina-T2I的高級應(yīng)用

Lumina-T2I支持多種高級功能,包括:

  • 分辨率外推:能夠生成域外分辨率的圖像,最高可達2K分辨率。
  • 風格一致性生成:能夠保持生成圖像的風格一致性。
  • 構(gòu)圖生成:能夠根據(jù)文本信息生成復雜的圖像布局。
  • 高分辨率編輯:能夠在高分辨率圖像上進行精確編輯。

實驗結(jié)果

在ImageNet上的實驗顯示,F(xiàn)lag-DiT在不使用無分類指導的情況下,F(xiàn)ID分數(shù)顯著降低,證明了增加模型參數(shù)可以顯著提高樣本質(zhì)量。此外,F(xiàn)lag-DiT的訓練效率也得到了提升,每秒可處理更多圖像。

四、結(jié)論

Lumina-T2X系列模型及其核心組成部分Flag-DiT代表了擴散模型領(lǐng)域的一項重要進展。通過集成圖像、視頻、音頻和3D對象的生成能力,這些模型為研究人員和開發(fā)者提供了一個強大的工具箱,用于創(chuàng)建跨模態(tài)的生成式應(yīng)用。

本文轉(zhuǎn)載自 ??跨模態(tài) AGI??,作者: AGI


已于2024-8-28 14:58:19修改
收藏
回復
舉報
回復
相關(guān)推薦