自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Stable Diffusion 3技術報告流出,Sora構架再立大功!生圖圈開源暴打Midjourney和DALL·E 3?

人工智能 新聞
通過人類評價測試,Stable Diffusion 3在字體設計和對提示的精準響應方面,超過了DALL·E 3、Midjourney v6和Ideogram v1。

Stability AI在發(fā)布了Stable Diffusion 3之后,今天公布了詳細的技術報告。

論文深入分析了Stable Diffusion 3的核心技術——改進版的Diffusion模型和一個基于DiT的文生圖全新架構!

報告地址:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

通過人類評價測試,Stable Diffusion 3在字體設計和對提示的精準響應方面,超過了DALL·E 3、Midjourney v6和Ideogram v1。

Stability AI新開發(fā)的多模態(tài)擴散Transformer(MMDiT)架構,采用了分別針對圖像和語言表示的獨立權重集,與SD 3的早期版本相比,顯著提升了對文本的理解和文字的拼寫能力。

性能評估

在人類反饋的基礎之上,技術報告將SD 3于大量開源模型SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α,以及閉源模型DALL·E 3、Midjourney v6 和 Ideogram v1進行了詳細的對比評估。

評估員根據(jù)與給定提示的一致性、文本的清晰度以及圖像的整體美觀度選擇了每個模型的最佳輸出:

測試結果顯示,無論是在遵循提示的準確性、文本的清晰呈現(xiàn)還是圖像的視覺美感方面,Stable Diffusion 3都達到或超過了當前文生圖生成技術的最高水平。

完全沒有針對硬件進行過優(yōu)化的SD 3模型具有8B參數(shù),能夠在24GB顯存的RTX 4090消費級GPU上運行,并且在使用50個采樣步驟的情況下,生成1024x1024分辨率的圖像需耗時34秒。

此外,Stable Diffusion 3在發(fā)布時將提供多個版本,參數(shù)范圍從8億到80億,從而能以進一步降低使用的硬件門檻。

架構細節(jié)曝光

在文生圖的過程中,模型需同時處理文本和圖像這兩種不同的信息。所以作者將這個新框架稱之為MMDiT。

在文本到圖像生成的過程中,模型需同時處理文本和圖像這兩種不同的信息類型。這就是作者將這種新技術稱為MMDiT(多模態(tài)Diffusion Transformer的簡稱)的原因。

與Stable Diffusion之前的版本一樣,SD 3采用了預訓練模型來提取適合的文本和圖像的表達形式。

具體而言,他們利用了三種不同的文本編碼器——兩個CLIP模型和一個T5 ——來處理文本信息,同時使用了一個更為先進的自編碼模型來處理圖像信息。

SD 3的架構是在Diffusion Transformer(DiT)的基礎上建立的。由于文本和圖像信息的差異,SD 3為這兩種信息各自設置了獨立的權重。

這種設計相當于為每種信息類型配備了兩個獨立的Transformer,但在執(zhí)行注意力機制時,會將兩種信息的數(shù)據(jù)序列合并,這樣就可以在各自的領域內(nèi)獨立工作的同時,能保持夠相互參考和融合。

通過這種獨特的構架,圖像和文本信息之間可以相互流動和交互,從而在生成的結果中提高對內(nèi)容的整體理解和視覺表現(xiàn)。

而且,這種架構未來還可以輕松擴展到其他包括視頻在內(nèi)的多種模態(tài)。

得益于SD 3在遵循提示方面的進步,模型能夠精確生成集中于多種不同主題和特性的圖像,同時在圖像風格上也保持了極高的靈活性。

通過重賦權法改進Rectified Flow

除了推出的全新Diffusion Transformer構架之外,SD 3對于Diffusion模型也進行了重大的改進。

SD 3采用了Rectified Flow(RF)策略,將訓練數(shù)據(jù)和噪聲沿著直線軌跡連接起來。

這種方法讓模型的推理路徑更加直接,因此可以通過更少的步驟完成樣本的生成。

作者在訓練流程中引入了一種創(chuàng)新的軌跡采樣計劃,特別增加了對軌跡中間部分的權重,這些部分的預測任務更具挑戰(zhàn)性。

通過與其他60種擴散軌跡(例如 LDM、EDM 和 ADM)進行比較,作者發(fā)現(xiàn)盡管之前的RF方法在少步驟采樣中表現(xiàn)更佳,但隨著采樣步驟增多,性能會慢慢下降。

為了避免這種情況的出現(xiàn),作者提出的加權RF方法,就能夠持續(xù)提升模型性能。

擴展RF Transformer模型

Stability AI訓練了多個不同規(guī)模的模型,從 15 個模塊、450M參數(shù)到38個模塊、8B參數(shù),發(fā)現(xiàn)模型大小和訓練步驟都能平滑地降低驗證損失。

為了驗證這是否意味著模型輸出有實質(zhì)性的改進,他們還評估了自動圖像對齊指標和人類偏好評分。

結果表明,這些評估指標與驗證損失強相關,說明驗證損失是衡量模型整體性能的有效指標。

此外,這種擴展趨勢沒有達到飽和點,讓我們對未來能夠進一步提升模型性能持樂觀態(tài)度。

作者在256 *256像素分辨率下,在4096的批大小下,用不同參數(shù)數(shù)對模型進行了500k步訓練。

上圖說明了長時間訓練較大模型對樣本質(zhì)量的影響。

上表顯示了GenEval的結果。當使用作者提出的訓練方法并提高訓練圖像的分辨率時,最大的模型在大多數(shù)類別中都表現(xiàn)出色,在總分上超過了 DALL·E 3。

根據(jù)作者對不同構架模型的測試對比,MMDiT效果非常好,超過了DiT,Cross DiT,UViT,MM-DiT。

靈活的文本編碼器

通過在推理階段去除占用大量內(nèi)存的4.7B參數(shù)的T5文本編碼器,SD 3的內(nèi)存需求得到了大幅降低,而性能損失微乎其微。

去除這個文本編碼器不會影響圖像的視覺美感(不使用T5的勝率為 50%),只會略微降低文本的準確遵循能力(勝率為46%)。

然而,為了充分發(fā)揮SD 3在生成文字的能力,作者還是建議使用T5編碼器。

因為作者發(fā)現(xiàn)在沒有它的情況下,排版生成文字的性能會有更大的下降(勝率為 38%)。

網(wǎng)友熱議

網(wǎng)友們對Stability AI不斷撩撥用戶但是不讓用的行為顯得有些不耐煩了,紛紛催促趕快上線讓大家使用。

看了技術報考后,網(wǎng)友說看來現(xiàn)在生圖圈子要成第一個開源碾壓閉源的賽道了!

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-14 12:46:54

訓練數(shù)據(jù)

2024-03-06 23:23:36

2024-03-01 13:31:06

2024-03-07 08:12:31

2025-02-07 11:00:00

模型開源AI

2023-10-09 12:44:19

2023-10-30 14:43:32

2023-10-04 18:30:52

MetaAI

2024-06-12 13:58:00

2023-11-13 07:03:13

OpenAI一致性解碼器

2024-02-23 11:09:44

AI模型

2023-05-26 15:53:48

MidjourneyAI圖像

2024-06-13 17:45:16

2023-09-21 10:31:06

人工智能模型

2024-03-06 13:12:21

AI技術論文

2023-11-28 09:42:07

OpenAIWindows 11

2023-12-20 07:22:03

DALL-E 3微軟鍵盤

2024-12-06 10:21:04

2024-01-07 13:09:42

Midjourney文本渲染DALL·E 3

2024-02-23 07:10:13

文字渲染Sora人工智能
點贊
收藏

51CTO技術棧公眾號