自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

炒菜、雕刻、繪畫、汽車人變形!MakeAnything用擴散Transformer解鎖多任務過程生成

人工智能 新聞
MakeAnything 標志著 AI 從 “生成結果” 邁向 “生成過程” 的關鍵一步。

宋亦仁,NUS Show Lab 博士生,研究方向是生成式 AI,及生成式 AI 的安全性。曾在網(wǎng)易游戲互娛 AI lab 實習,研發(fā)服務游戲美術場景的圖像生成模型;前小紅書智能創(chuàng)作組算法工程師,在 AIGC 與創(chuàng)意設計結合領域有豐富經驗。

劉成,NUS 重慶研究院四年級本科生, 研究方向是生成式 AI,負責 MakeAnything 數(shù)據(jù)集構建和模型調優(yōu)。

人類智慧的一大特征是能夠分步驟創(chuàng)造復雜作品,例如繪畫、手工藝和烹飪等,這些過程體現(xiàn)了邏輯與美學的融合。然而,讓 AI 學會生成這樣的 “步驟教程” 面臨三大挑戰(zhàn):多任務數(shù)據(jù)稀缺、步驟間邏輯連貫性不足,以及跨領域泛化能力有限。來自新加坡國立大學的最新研究 MakeAnything,通過 Diffusion Transformer(DiT)與非對稱 LoRA 技術的結合,首次實現(xiàn)了高質量、跨領域的程序化序列生成,在 21 類任務中取得優(yōu)異表現(xiàn),同時展現(xiàn)出在新任務上出色的泛化能力。本文將深入解析這一技術的方案設計與實驗結果。

一、從「生成結果」到「生成過程」

擴散模型擅長單張圖像合成,通過設計提示詞和 In-Context LoRA 訓練,先進的 DiT 模型可以生成多個子圖的拼圖,具有一致性的外觀。但生成多步驟序列時,往往面臨以下問題:

1. 邏輯斷層:步驟間缺乏因果關聯(lián),如繪畫中 “先畫輪廓后上色” 的常識易被忽略;

2. 外觀漂移:前后幀的生成結果可能外觀不一致;

3. 數(shù)據(jù)瓶頸:現(xiàn)有的步驟數(shù)據(jù)集規(guī)模小、領域單一,難以支持復雜任務訓練。

MakeAnything 的解決思路直擊核心:

  • 構建最大規(guī)模多領域數(shù)據(jù)集:涵蓋各類繪畫、手工藝、樂高組裝、Zbrush 建模、變形金剛變形、烹飪等 21 類任務,包含超過 24,000 條標注序列,首次實現(xiàn)從 “單一生成” 到 “步驟邏輯” 的數(shù)據(jù)支撐;
  • 激活 DiT 的上下文能力:通過低秩微調激活 Flux 的上下文能力, 確保生成結果邏輯連貫性和外觀一致性;
  • 非對稱 LoRA 設計:平衡通用知識與領域特性,顯著提升跨任務泛化能力。

圖片

二、技術詳解:如何讓 AI 學會「分步創(chuàng)作」?

1. 蛇形拼圖,利用擴散 Transformer(DiT)的空間注意力機制

之前的過程生成方法(如 ProcessPainter, PaintsUndo)使用 U-Net 架構和 Animatediff 時序模塊,對于前后幀外觀變化大、具有復雜邏輯性的過程生成表現(xiàn)不佳。而 MakeAnything 采用擴散 Transformer(DiT)作為基礎模型,通過拼圖將所有幀排版在一張圖上,利用空間注意力機制捕捉步驟間依賴關系。具體來說,MakeAnything 提出蛇形序列布局,將多步驟幀排列為蛇形排列的網(wǎng)格,確保時間相鄰的步驟在空間上也相鄰(見下圖),強化模型對步驟順序的感知。

圖片

2. 非對稱 LoRA:兼顧通用知識與特定任務

在不同任務序列上混訓 LoRA 模型會導致任務沖突,而分任務單獨訓練則面臨過擬合問題 。一些任務 (如特定畫師的肖像作品)只有 50 個數(shù)據(jù)序列,且類別單一,微調模型后僅能生成肖像。受大語言模型領域 HydraLoRA 啟發(fā),我們將非對稱 LoRA 引入圖像生成,為了兼顧通用知識學習和特定任務效果。在 LoRA 中,A 矩陣和 B 矩陣是關鍵組成部分,用于替換傳統(tǒng)線性變換中的權重矩陣。A 矩陣通常是一個小尺寸的矩陣,用于將高維空間下采樣到低維空間。B 矩陣負責將低維空間重新投影回原始高維空間。

非對稱 LoRA 訓練時,在所有訓練數(shù)據(jù)集上,微調共享矩陣 A,從大規(guī)模預訓練中提取通用知識和分步驟邏輯;對不同任務微調單獨矩陣 B 以適配具體任務特性,如油畫筆觸、樂高拼接規(guī)則。推理時按權重融合不同的 B 矩陣,在保持泛化能力的同時,精準適配不同領域需求。

下圖展示了水墨畫、素描、油畫、風景插畫過程的生成結果,前后視覺一致性好,過程十分合理。

圖片

下圖展示了生成粘土玩具、陶藝、毛線玩具、石雕的結果,生成手工藝品的創(chuàng)建過程也不在話下。

圖片

下圖展示了更詳細的 9 幀步驟,分別是沙畫和變形金剛的變形過程。

圖片

3. ReCraft 模型:從「成品圖」反推創(chuàng)作過程

除了生成過程教程,本文還開發(fā)了 “ReCraft 模型”,為過程生成引入圖像條件。ReCraft 模型利用了變分自編碼器(VAE)來編碼目標圖像中的特征,這些 tokens 隨后與去噪 token 連接,用于指導 DIT 的去噪過程,以確保生成的中間幀在視覺上與目標圖像保持一致。我們將 Text2Sequence LoRA 與基礎模型融合,作為 ReCraft 模型訓練的基礎模型。通過復用預訓練的 Flux 模型結構,對于單一任務,僅需在 50 + 序列上微調 LoRA 即可實現(xiàn)圖像條件生成。

ReCraft 模型特別適合需要從已有作品中逆向工程或者從簡單圖像中創(chuàng)造詳細教程的應用場景。如下圖所示,預測繪畫、雕刻等手工藝步驟,樂高模型拼搭過程。

圖片

4. 新任務泛化

MakeAnything 還能在沒見過的任務上有一定泛化性能。下圖展示了將 MakeAnything 的過程 LoRA 和 Civitai, LibLib 社區(qū)的風格化 LoRA 結合使用的結果。盡管 MakeAnything 訓練是沒見過冰雕、浮雕、衍紙畫和水彩畫,仍能取得相當不錯的泛化結果。我們認為不同任務之間是相通的,比如各類雕刻和不同繪畫題材。

圖片

三、實驗結果 & 評估

圖片

1. 評估指標

一個好的教程需要是連貫的、合邏輯的并且有用的。MakeAnything 采用 CLIP Score 來評估生成結果的文本 - 圖像對齊,用 GPT4-o 和人類評估來評價生成結果的連貫性和有用性。通過精心設計了 GPT4-o 的輸入提示和評分規(guī)則,以符合人類的偏好。在對比實驗中,我們將不同基準的結果與我們的結果進行拼接,一次性輸入 GPT4-o,并讓其選擇在不同評價維度上最好的結果。

2. 對比試驗

在 Text2Sequence 任務中, MakeAnything 和最先進的 baseline 方法對比,分別是 ProcessPainter,F(xiàn)lux 1.0, 商業(yè) API Ideogram。在 Image2Sequence 任務中,MakeAnything 對比了 Inverse Painting 和 PaintsUndo 兩種繪畫過程生成方法。

圖片

實驗結果顯示,MakeAnything 的結果在圖文一致性, 邏輯連貫性、有用性上取得領先。

3. 消融實驗

我們對不對稱 LoRA 進行了消融實驗,下圖對比了肖像生成和草圖生成的結果。前者在 50 張肖像繪畫序列上訓練, 后者在 300 張卡通角色草圖序列上訓練。我們對比了基礎模型的結果、標準 LoRA 的結果,以及采用對不對稱 LoRA 的結果。從結果可以看出,盡管基礎無法生成合理的分步驟結果,但是圖文一致性整體不錯。采用標準 LoRA 在類別分布不均勻的小數(shù)據(jù)上訓練導致了嚴重的過擬合,雖然分步驟的過程合理,圖文一致性顯著變差。而采用不對稱 LoRA 結果很好的兼顧過程合理性和圖文一致性。我們認為在海量過程數(shù)據(jù)上訓練的 A 矩陣學習到了更多通用的知識,有利于緩解過擬合。

圖片

表 2 展示了在更多任務上的定量實驗結果,進一步證實結論。

圖片

結語

MakeAnything 標志著 AI 從 “生成結果” 邁向 “生成過程” 的關鍵一步。更多細節(jié)見原文:https://arxiv.org/abs/2502.01572 其代碼、模型與數(shù)據(jù)集已開源 GitHub: https://github.com/showlab/MakeAnything,期待更多開發(fā)者共同探索過程生成的無限可能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2012-07-13 13:42:40

2010-02-26 17:47:07

2024-04-17 13:22:55

人工智能

2024-04-22 15:08:35

擴散模型自動駕駛

2014-05-09 12:59:26

iOS移動互聯(lián)網(wǎng)

2013-08-13 14:39:29

多任務下載

2023-12-13 13:49:00

模型訓練

2015-08-04 09:22:37

2011-07-18 14:23:40

iPhone 多任務

2022-09-28 15:34:06

機器學習語音識別Pytorch

2015-06-17 10:41:50

2021-10-13 09:33:26

Python 多任務進程

2024-10-08 14:20:21

2022-02-08 15:43:08

AITransforme模型

2011-05-31 13:29:40

Android 多線程

2023-11-07 07:13:31

推薦系統(tǒng)多任務學習

2009-07-15 16:29:41

Swing繪畫

2012-05-18 13:26:11

HTC

2010-10-29 09:01:01

Windows Pho

2013-12-12 16:44:25

Lua協(xié)程
點贊
收藏

51CTO技術棧公眾號