出圈的Sora帶火DiT,連登GitHub熱榜,已進化出新版本SiT
雖然已經發(fā)布近一周時間,OpenAI 視頻生成大模型 Sora 的影響仍在繼續(xù)!
其中,Sora 研發(fā)負責人之一 Bill Peebles 與紐約大學助理教授謝賽寧撰寫的 DiT(擴散 Transformer)論文《Scalable Diffusion Models with Transformers》被認為是此次 Sora 背后的重要技術基礎之一。該論文被 ICCV 2023 接收。
- 論文地址:https://arxiv.org/pdf/2212.09748v2.pdf
- GitHub 地址:https://github.com/facebookresearch/DiT
這兩天,DiT 論文和 GitHub 項目的熱度水漲船高,重新收獲大量關注。
論文出現在 PapersWithCode 的 Trending Research 榜單上,星標數量已近 2700;還登上了 GitHub Trending 榜單,星標數量每日數百增長,Star 總量已超 3000。
來源:https://paperswithcode.com/
來源:https://github.com/facebookresearch/DiT
這篇論文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。當時,擴散模型在圖像生成方面取得了驚人的成果,幾乎所有這些模型都使用卷積 U-Net 作為主干。
因此,論文的目的是探究擴散模型中架構選擇的意義,并為未來的生成模型研究提供經驗基線。該研究表明,U-Net 歸納偏置對擴散模型的性能不是至關重要的,并且可以很容易地用標準設計(如 transformer)取代。
具體來說,研究者提出了一種基于 transformer 架構的新型擴散模型 DiT,并訓練了潛在擴散模型,用對潛在 patch 進行操作的 Transformer 替換常用的 U-Net 主干網絡。他們通過以 Gflops 衡量的前向傳遞復雜度來分析擴散 Transformer (DiT) 的可擴展性。
研究者嘗試了四種因模型深度和寬度而異的配置:DiT-S、DiT-B、DiT-L 和 DiT-XL。
他們發(fā)現,通過增加 Transformer 深度 / 寬度或增加輸入 token 數量,具有較高 Gflops 的 DiT 始終具有較低的 FID。
除了良好的可擴展性之外,DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基準上的性能優(yōu)于所有先前的擴散模型,在后者上實現了 2.27 的 FID SOTA 數據。
質量、速度、靈活性更好的 SiT
此外,DiT 還在今年 1 月迎來了升級!謝賽寧及團隊推出了 SiT(Scalable Interpolant Transformer,可擴展插值 Tranformer),相同的骨干實現了更好的質量、速度和靈活性。
謝賽寧表示,SiT 超越了標準擴散并通過插值來探索更廣闊的設計空間。
該論文標題為《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。
- 論文地址:https://arxiv.org/pdf/2401.08740.pdf
- GitHub 地址:https://github.com/willisma/SiT
簡單來講,SiT 將靈活的插值框架集成到了 DiT 中,從而能夠對圖像生成中的動態(tài)傳輸進行細微的探索。SiT 在 ImageNet 256 的 FID 為 2.06,將基于插值的模型推向了新的高度。
論文一作、紐約大學本科生 Nanye Ma 對這篇論文進行了解讀。本文認為,隨機插值為擴散和流提供了統(tǒng)一的框架。但又注意到, 基于 DDPM(去噪擴散概率模型)的 DiT 與較新的基于插值的模型之間存在性能差異。因此,研究者想要探究性能提升的來源是什么?
他們通過設計空間中的一系列正交步驟,逐漸地從 DiT 模型過渡到 SiT 模型來解答這一問題。同時仔細評估了每個遠離擴散模型的舉措對性能的影響。
研究者發(fā)現,插值和采樣器對性能的影響最大。當將插值(即分布路徑)從方差保留切換到線性以及將采樣器從確定性切換到隨機性時,他們觀察到了巨大的改進。
對于隨機采樣,研究者表明擴散系數不需要在訓練和采樣之間綁定,在推理時間方面可以有很多選擇。同時確定性和隨機采樣器在不同的計算預算下各有其優(yōu)勢。
最后,研究者將 SiT 描述為連續(xù)、速度可預測、線性可調度和 SDE 采樣的模型。與擴散模型一樣,SiT 可以實現性能提升,并且優(yōu)于 DiT。
更多關于 DiT 和 SiT 的內容請參閱原始論文。