自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

出圈的Sora帶火DiT,連登GitHub熱榜,已進化出新版本SiT

人工智能 新聞
Sora 研發(fā)負責人之一 Bill Peebles 與紐約大學助理教授謝賽寧撰寫的 DiT(擴散 Transformer)論文《Scalable Diffusion Models with Transformers》被認為是此次 Sora 背后的重要技術基礎之一。

雖然已經發(fā)布近一周時間,OpenAI 視頻生成大模型 Sora 的影響仍在繼續(xù)!

其中,Sora 研發(fā)負責人之一 Bill Peebles 與紐約大學助理教授謝賽寧撰寫的 DiT(擴散 Transformer)論文《Scalable Diffusion Models with Transformers》被認為是此次 Sora 背后的重要技術基礎之一。該論文被 ICCV 2023 接收。


  • 論文地址:https://arxiv.org/pdf/2212.09748v2.pdf
  • GitHub 地址:https://github.com/facebookresearch/DiT

這兩天,DiT 論文和 GitHub 項目的熱度水漲船高,重新收獲大量關注。

論文出現在 PapersWithCode 的 Trending Research 榜單上,星標數量已近 2700;還登上了 GitHub Trending 榜單,星標數量每日數百增長,Star 總量已超 3000。

來源:https://paperswithcode.com/

來源:https://github.com/facebookresearch/DiT

這篇論文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。當時,擴散模型在圖像生成方面取得了驚人的成果,幾乎所有這些模型都使用卷積 U-Net 作為主干。

因此,論文的目的是探究擴散模型中架構選擇的意義,并為未來的生成模型研究提供經驗基線。該研究表明,U-Net 歸納偏置對擴散模型的性能不是至關重要的,并且可以很容易地用標準設計(如 transformer)取代。

具體來說,研究者提出了一種基于 transformer 架構的新型擴散模型 DiT,并訓練了潛在擴散模型,用對潛在 patch 進行操作的 Transformer 替換常用的 U-Net 主干網絡。他們通過以 Gflops 衡量的前向傳遞復雜度來分析擴散 Transformer (DiT) 的可擴展性。

研究者嘗試了四種因模型深度和寬度而異的配置:DiT-S、DiT-B、DiT-L 和 DiT-XL。

他們發(fā)現,通過增加 Transformer 深度 / 寬度或增加輸入 token 數量,具有較高 Gflops 的 DiT 始終具有較低的 FID。

除了良好的可擴展性之外,DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基準上的性能優(yōu)于所有先前的擴散模型,在后者上實現了 2.27 的 FID SOTA 數據。

質量、速度、靈活性更好的 SiT

此外,DiT 還在今年 1 月迎來了升級!謝賽寧及團隊推出了 SiT(Scalable Interpolant Transformer,可擴展插值 Tranformer),相同的骨干實現了更好的質量、速度和靈活性。

謝賽寧表示,SiT 超越了標準擴散并通過插值來探索更廣闊的設計空間。

該論文標題為《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。


  • 論文地址:https://arxiv.org/pdf/2401.08740.pdf
  • GitHub 地址:https://github.com/willisma/SiT

簡單來講,SiT 將靈活的插值框架集成到了 DiT 中,從而能夠對圖像生成中的動態(tài)傳輸進行細微的探索。SiT 在 ImageNet 256 的 FID 為 2.06,將基于插值的模型推向了新的高度。

論文一作、紐約大學本科生 Nanye Ma 對這篇論文進行了解讀。本文認為,隨機插值為擴散和流提供了統(tǒng)一的框架。但又注意到, 基于 DDPM(去噪擴散概率模型)的 DiT 與較新的基于插值的模型之間存在性能差異。因此,研究者想要探究性能提升的來源是什么?

他們通過設計空間中的一系列正交步驟,逐漸地從 DiT 模型過渡到 SiT 模型來解答這一問題。同時仔細評估了每個遠離擴散模型的舉措對性能的影響。

研究者發(fā)現,插值和采樣器對性能的影響最大。當將插值(即分布路徑)從方差保留切換到線性以及將采樣器從確定性切換到隨機性時,他們觀察到了巨大的改進。

對于隨機采樣,研究者表明擴散系數不需要在訓練和采樣之間綁定,在推理時間方面可以有很多選擇。同時確定性和隨機采樣器在不同的計算預算下各有其優(yōu)勢。

最后,研究者將 SiT 描述為連續(xù)、速度可預測、線性可調度和 SDE 采樣的模型。與擴散模型一樣,SiT 可以實現性能提升,并且優(yōu)于 DiT。

更多關于 DiT 和 SiT 的內容請參閱原始論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-31 15:10:31

2019-12-04 15:00:04

GitHub 技術開源

2013-12-10 16:00:46

金和移動OA

2022-09-20 15:24:09

程序員項目

2020-12-10 15:07:56

Windows 10Windows微軟

2011-08-01 15:35:51

GlassFishJava 7

2023-12-21 14:18:42

統(tǒng)信UOS操作系統(tǒng)

2023-10-20 12:45:00

AI數據

2023-02-22 15:02:52

GitHub指南

2010-02-23 17:44:48

Python 3.0

2009-06-17 09:24:34

學習strutsStruts新版本

2023-10-10 07:19:07

Github開源庫系統(tǒng)

2011-03-21 13:51:28

FirefoxMozilla進度

2023-04-19 08:14:24

2015-03-13 11:26:57

兩會云計算云概念

2015-02-05 16:59:36

平安WiFiiOS

2015-07-22 16:29:06

2024-01-04 14:46:10

AI開發(fā)者GPT

2015-10-13 16:02:49

升級Windows 10微軟

2019-12-26 15:31:17

騰訊框架開源
點贊
收藏

51CTO技術棧公眾號