Stable Diffusion 3技術報告流出,Sora構架再立大功!生圖圈開源暴打Midjourney和DALL·E 3?
Stability AI在發(fā)布了Stable Diffusion 3之后,今天公布了詳細的技術報告。
論文深入分析了Stable Diffusion 3的核心技術——改進版的Diffusion模型和一個基于DiT的文生圖全新架構!
報告地址:
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
通過人類評價測試,Stable Diffusion 3在字體設計和對提示的精準響應方面,超過了DALL·E 3、Midjourney v6和Ideogram v1。
Stability AI新開發(fā)的多模態(tài)擴散Transformer(MMDiT)架構,采用了分別針對圖像和語言表示的獨立權重集,與SD 3的早期版本相比,顯著提升了對文本的理解和文字的拼寫能力。
性能評估
在人類反饋的基礎之上,技術報告將SD 3于大量開源模型SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α,以及閉源模型DALL·E 3、Midjourney v6 和 Ideogram v1進行了詳細的對比評估。
評估員根據(jù)與給定提示的一致性、文本的清晰度以及圖像的整體美觀度選擇了每個模型的最佳輸出:
測試結果顯示,無論是在遵循提示的準確性、文本的清晰呈現(xiàn)還是圖像的視覺美感方面,Stable Diffusion 3都達到或超過了當前文生圖生成技術的最高水平。
完全沒有針對硬件進行過優(yōu)化的SD 3模型具有8B參數(shù),能夠在24GB顯存的RTX 4090消費級GPU上運行,并且在使用50個采樣步驟的情況下,生成1024x1024分辨率的圖像需耗時34秒。
此外,Stable Diffusion 3在發(fā)布時將提供多個版本,參數(shù)范圍從8億到80億,從而能以進一步降低使用的硬件門檻。
架構細節(jié)曝光
在文生圖的過程中,模型需同時處理文本和圖像這兩種不同的信息。所以作者將這個新框架稱之為MMDiT。
在文本到圖像生成的過程中,模型需同時處理文本和圖像這兩種不同的信息類型。這就是作者將這種新技術稱為MMDiT(多模態(tài)Diffusion Transformer的簡稱)的原因。
與Stable Diffusion之前的版本一樣,SD 3采用了預訓練模型來提取適合的文本和圖像的表達形式。
具體而言,他們利用了三種不同的文本編碼器——兩個CLIP模型和一個T5 ——來處理文本信息,同時使用了一個更為先進的自編碼模型來處理圖像信息。
SD 3的架構是在Diffusion Transformer(DiT)的基礎上建立的。由于文本和圖像信息的差異,SD 3為這兩種信息各自設置了獨立的權重。
這種設計相當于為每種信息類型配備了兩個獨立的Transformer,但在執(zhí)行注意力機制時,會將兩種信息的數(shù)據(jù)序列合并,這樣就可以在各自的領域內(nèi)獨立工作的同時,能保持夠相互參考和融合。
通過這種獨特的構架,圖像和文本信息之間可以相互流動和交互,從而在生成的結果中提高對內(nèi)容的整體理解和視覺表現(xiàn)。
而且,這種架構未來還可以輕松擴展到其他包括視頻在內(nèi)的多種模態(tài)。
得益于SD 3在遵循提示方面的進步,模型能夠精確生成集中于多種不同主題和特性的圖像,同時在圖像風格上也保持了極高的靈活性。
通過重賦權法改進Rectified Flow
除了推出的全新Diffusion Transformer構架之外,SD 3對于Diffusion模型也進行了重大的改進。
SD 3采用了Rectified Flow(RF)策略,將訓練數(shù)據(jù)和噪聲沿著直線軌跡連接起來。
這種方法讓模型的推理路徑更加直接,因此可以通過更少的步驟完成樣本的生成。
作者在訓練流程中引入了一種創(chuàng)新的軌跡采樣計劃,特別增加了對軌跡中間部分的權重,這些部分的預測任務更具挑戰(zhàn)性。
通過與其他60種擴散軌跡(例如 LDM、EDM 和 ADM)進行比較,作者發(fā)現(xiàn)盡管之前的RF方法在少步驟采樣中表現(xiàn)更佳,但隨著采樣步驟增多,性能會慢慢下降。
為了避免這種情況的出現(xiàn),作者提出的加權RF方法,就能夠持續(xù)提升模型性能。
擴展RF Transformer模型
Stability AI訓練了多個不同規(guī)模的模型,從 15 個模塊、450M參數(shù)到38個模塊、8B參數(shù),發(fā)現(xiàn)模型大小和訓練步驟都能平滑地降低驗證損失。
為了驗證這是否意味著模型輸出有實質(zhì)性的改進,他們還評估了自動圖像對齊指標和人類偏好評分。
結果表明,這些評估指標與驗證損失強相關,說明驗證損失是衡量模型整體性能的有效指標。
此外,這種擴展趨勢沒有達到飽和點,讓我們對未來能夠進一步提升模型性能持樂觀態(tài)度。
作者在256 *256像素分辨率下,在4096的批大小下,用不同參數(shù)數(shù)對模型進行了500k步訓練。
上圖說明了長時間訓練較大模型對樣本質(zhì)量的影響。
上表顯示了GenEval的結果。當使用作者提出的訓練方法并提高訓練圖像的分辨率時,最大的模型在大多數(shù)類別中都表現(xiàn)出色,在總分上超過了 DALL·E 3。
根據(jù)作者對不同構架模型的測試對比,MMDiT效果非常好,超過了DiT,Cross DiT,UViT,MM-DiT。
靈活的文本編碼器
通過在推理階段去除占用大量內(nèi)存的4.7B參數(shù)的T5文本編碼器,SD 3的內(nèi)存需求得到了大幅降低,而性能損失微乎其微。
去除這個文本編碼器不會影響圖像的視覺美感(不使用T5的勝率為 50%),只會略微降低文本的準確遵循能力(勝率為46%)。
然而,為了充分發(fā)揮SD 3在生成文字的能力,作者還是建議使用T5編碼器。
因為作者發(fā)現(xiàn)在沒有它的情況下,排版生成文字的性能會有更大的下降(勝率為 38%)。
網(wǎng)友熱議
網(wǎng)友們對Stability AI不斷撩撥用戶但是不讓用的行為顯得有些不耐煩了,紛紛催促趕快上線讓大家使用。
看了技術報考后,網(wǎng)友說看來現(xiàn)在生圖圈子要成第一個開源碾壓閉源的賽道了!