自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025|質(zhì)量無損,算力砍半!達摩院開源視覺生成新架構(gòu),出道即SOTA

人工智能 新聞
達摩院 在ICLR 2025上拋出的DyDiT架構(gòu):通過時間步長與空間區(qū)域的智能資源分配,將DiT模型的推理算力削減51%,生成速度提升1.73倍,而FID指標幾乎無損!

算力砍半,視覺生成任務(wù)依然SOTA!

達摩院在ICLR 2025上拋出的DyDiT架構(gòu):通過時間步長與空間區(qū)域的智能資源分配,將DiT模型的推理算力削減51%,生成速度提升1.73倍,而FID指標幾乎無損!

更驚人的是,這一突破僅需3%的微調(diào)成本。

該方法通過引入動態(tài)化調(diào)整機制,可精準削減視覺生成任務(wù)中50%的推理算力,有效緩解傳統(tǒng)擴散模型的計算冗余問題,相關(guān)工作已開源。

圖片

算力砍半效果依然SOTA

DiT架構(gòu)作為當前主流的生成模型框架,有效實現(xiàn)了圖像與視頻的可控生成,推動生成式AI走向應(yīng)用爆發(fā)。

然而,DiT架構(gòu)的多步生成策略存在推理效率低、算力冗余等問題,在執(zhí)行視覺生成任務(wù)容易造成極高的算力消耗,限制其往更廣泛的場景落地。

業(yè)內(nèi)提出高效采樣、特征緩存、模型壓縮剪枝等方法嘗試解決這一問題,但這些方法均針對靜態(tài)不變模型,又衍生出潛在的冗余浪費問題。

達摩院(湖畔實驗室)、新加坡國立大學(xué)、清華大學(xué)等聯(lián)合研究團隊在論文《Dynamic Diffusion Transformer》提出了動態(tài)架構(gòu)DyDiT,能夠根據(jù)時間步長和空間區(qū)域自適應(yīng)調(diào)整計算分配,有效緩解視覺生成任務(wù)中的算力消耗問題。

具體而言,DyDiT能在簡單的時間步長使用較窄的模型寬度,減少計算資源;在空間維度上優(yōu)先處理含有詳細信息的主要對象,減少對背景區(qū)域的計算資源分配,提升推理效率與減少計算冗余的同時,保持生成質(zhì)量。

使用者更可根據(jù)自身的資源限制或者部署要求,靈活調(diào)整目標的計算量,DyDiT將自動適配模型參數(shù),實現(xiàn)效果與效率的最佳平衡。

圖片

實驗結(jié)果表明,DyDiT在多個數(shù)據(jù)集和生成模型下均表現(xiàn)出高穩(wěn)定性。

僅用不到3%的微調(diào)成本,將DiT-XL的浮點運算次數(shù)(FLOPs)減少了51%,生成速度提高了1.73倍,在ImageNet測得的FID得分與原模型幾乎相當(2.27vs2.07)。

據(jù)透露,DyDiT相關(guān)訓(xùn)練與推理代碼已開源,并計劃適配到更多的文生圖、文生視頻模型上,目前基于知名文生圖模型FLUX調(diào)試的Dy-FLUX也在開源項目上架。

據(jù)悉,達摩院今年共有13篇論文被ICLR 2025錄用,涵蓋了視頻生成、自然語言處理、醫(yī)療AI、基因智能等領(lǐng)域,其中3篇被選為Spotlight。

論文鏈接:https://arxiv.org/abs/2410.03456

技術(shù)解讀:https://mp.weixin.qq.com/s/yqYg272vIztflZ6NfX5zJw

開源鏈接:https://github.com/alibaba-damo-academy/DyDiT

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-02-01 13:29:46

機器學(xué)習(xí)

2023-03-06 14:07:31

系統(tǒng)訓(xùn)練

2021-08-13 14:54:16

開源技術(shù) 開發(fā)

2025-04-03 09:27:44

2021-12-02 13:43:42

達摩院AliceMind人工智能

2022-05-05 15:02:26

機器學(xué)習(xí)人工智能開源

2022-12-09 14:07:11

框架開源

2023-06-21 13:20:14

系統(tǒng)模型

2025-04-28 12:28:27

2025-03-11 13:13:28

2022-07-12 14:45:54

達摩院模型

2025-03-18 09:23:22

2025-03-21 10:32:49

2022-04-22 11:22:47

達摩院阿里巴巴

2023-03-15 15:56:09

新華三

2023-09-07 16:18:50

網(wǎng)絡(luò)方案

2020-09-17 13:17:04

QA機器人物流

2018-06-07 16:00:28

阿里巴巴語音識別開源

2022-06-16 09:22:28

圖數(shù)據(jù)庫圖數(shù)據(jù)數(shù)據(jù)庫
點贊
收藏

51CTO技術(shù)棧公眾號