自回歸扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到圖像生成框架
文章鏈接:https://arxiv.org/pdf/2407.07614
github鏈接:https://github.com/fusiming3/MARS
亮點直擊
- MARS,一個從自回歸預(yù)訓(xùn)練LLM中改編而來的創(chuàng)新框架,專用于文本到圖像(T2I)生成任務(wù)。
- 為了確保保留NLP能力,同時為模型配備先進的視覺生成和理解能力,設(shè)計了一個名為SemVIE的模塊,該模塊在預(yù)訓(xùn)練LLM的注意力塊中添加了并行的視覺專家。
- MARS放大了自回歸方法在T2I生成和聯(lián)合圖像-文本合成中的靈活性,并具有擴展到任何任務(wù)的潛力。
- 提出了一種多階段的細化訓(xùn)練策略,大大增強了MARS的指令跟隨能力及其生成高質(zhì)量細節(jié)豐富圖像的能力。
- MARS在提示理解和跟隨方面表現(xiàn)出色,例如能夠處理長而復(fù)雜的自然語言輸入。此外,它具有遵循英文和中文提示的雙語能力。
- 該框架的性能通過一系列評估指標得到驗證,即MS-COCO基準測試、T2I-CompBench和人類評估。
自回歸模型在語言生成領(lǐng)域取得了顯著進展,但在圖像合成領(lǐng)域的表現(xiàn)卻不如擴散模型。本文介紹了MARS,一種用于文本到圖像生成的新框架,該框架結(jié)合了專門設(shè)計的語義視覺語言集成專家(Semantic Vision-Language Integration Expert, SemVIE)。它通過獨立處理語言和視覺信息來整合預(yù)訓(xùn)練的LLM——凍結(jié)文本組件,同時微調(diào)視覺組件。這種方法保留了LLM的自然語言處理能力,同時賦予其卓越的視覺理解能力。基于強大的預(yù)訓(xùn)練模型Qwen-7B,MARS在生成能力上脫穎而出,能夠處理對應(yīng)英文和中文語言提示的生成任務(wù),并具備聯(lián)合圖像和文本生成的能力。
這一框架的靈活性使其能夠遷移到任何任務(wù)的適應(yīng)性。此外,MARS采用了多階段訓(xùn)練策略,首先通過互補的雙向任務(wù)建立強大的圖文對齊,然后專注于精細化文本到圖像的生成過程,顯著提高了文本和圖像的同步性和圖像細節(jié)的細膩程度。值得注意的是,MARS僅需SD1.5所需GPU天數(shù)的9%,卻在各種基準測試中取得了顯著成果,展示了訓(xùn)練效率和在各種應(yīng)用中快速部署的潛力。
方法
總體框架
MARS,一個將大語言模型(LLM)與視覺生成能力結(jié)合在統(tǒng)一框架內(nèi)的創(chuàng)新系統(tǒng)。MARS體現(xiàn)了一種平衡的多模態(tài)架構(gòu),包含了獨特但協(xié)調(diào)一致的視覺和語言專家模型,如下圖3所示。
跨模態(tài)的一致性通過兩種模塊中的并行結(jié)構(gòu)設(shè)計得以維持。語言模塊利用預(yù)訓(xùn)練的LLM(如Qwen-7B)的能力,而視覺模塊與語言模型同時初始化。在訓(xùn)練階段,語言組件保持靜止,優(yōu)化僅限于視覺領(lǐng)域內(nèi)的選定權(quán)重,這些權(quán)重專門為圖像合成任務(wù)校準。該架構(gòu)的有效性進一步通過豐富的視覺詞匯和SemVIE的引入得到增強,SemVIE融合了LLM復(fù)雜的語言解釋能力與視覺感知能力。這種結(jié)合不僅利用了LLM固有的強大自然語言處理能力,還通過大量成對的圖像-文本示例,增強了模態(tài)間的一致性,促進了連貫視覺內(nèi)容的生成。
語義視覺語言集成專家
分詞
在本研究中,預(yù)訓(xùn)練的LLM Qwen-7B 作為基礎(chǔ)語言框架,利用其分詞器將文本數(shù)據(jù)拆解為一系列代表性tokens,記作 。同時,在視覺模態(tài)中,使用受VQ-GAN架構(gòu)啟發(fā)的編碼器將圖像 轉(zhuǎn)換為特征圖 ,其中 ,P預(yù)定義為量化參數(shù)16,D表示特征維度。特征圖 隨后使用視覺碼本 VQ-GAN 進行量化,將其映射為一系列離散的代碼索引 。這個過程有效地將256×256像素的圖像重構(gòu)為一系列256個token,其中每個token代表16×16像素的圖像段。值得注意的是,視覺碼本由8192個唯一編碼組成。這些視覺token在框架中被token為 。
在MARS的詞匯表中,這些視覺組件與傳統(tǒng)的文本token交織在一起,形成一個綜合的多模態(tài)詞匯表。語言LLM的原始詞匯表包含151,936個條目,結(jié)合視覺碼本和6個專門設(shè)計用于表示圖像序列開始和結(jié)束的特殊token后,形成了一個160,136大小的多模態(tài)詞匯表。在MARS的架構(gòu)中,由VQ-GAN范式合成的視覺token與文本token享有同等地位。視覺詞匯的初始嵌入是從預(yù)訓(xùn)練文本token的聚合均值嵌入中得出的,建立了跨模態(tài)集成的基礎(chǔ)。
語義視覺語言集成專家
MARS架構(gòu)包含L層SemVIE,這是一個專門設(shè)計的多模態(tài)專家混合體(mm-MoE),能夠熟練處理視覺和語義token。SemVIE的核心是Attention-MoE和Feed-Forward Network(FFN)-MoE模塊。在每個Transformer模塊的層歸一化步驟之后,專門的路由模塊被戰(zhàn)略性地放置。這一路由機制旨在將每個輸入token分配給最適合其處理的專家模型。共享架構(gòu)框架的一個顯著方面是因果多頭注意力和層歸一化模塊在語言和視覺模態(tài)中的普遍應(yīng)用,體現(xiàn)了一種統(tǒng)一的方法論來并行處理多模態(tài)數(shù)據(jù)。Attention-MoE的過程如下:
其中,C表示連接操作,、 和 是從預(yù)訓(xùn)練的LLM中凍結(jié)并加載的參數(shù)。、 和 是可訓(xùn)練的,并以預(yù)訓(xùn)練的語義LLM進行初始化。然后,MoE-FFN模塊進一步處理多模態(tài)token:
其中,表示連接操作,和共享相同的架構(gòu),是可訓(xùn)練的。SemVIE模塊作為MARS的基石,受益于Attention-MoE和FFN-MoE模塊的協(xié)同集成,實現(xiàn)了多模態(tài)數(shù)據(jù)流的有效融合。此集成利用了預(yù)訓(xùn)練LLM所提供的深刻語言見解,從而借助高級語言理解能力來豐富視覺理解。為了使模型能夠同時預(yù)測視覺token和文本token,除了使用原始的LLM模型頭(稱為文本頭)之外,還在模型中添加了一個視覺頭。值得注意的是,文本token和視覺token分別通過文本頭和視覺頭處理,以獲得logits,分別記為和。然后,logits在最后一個維度上連接,并通過softmax層以獲得每個token的詞匯概率分布。
多階段細化
階段I:文本到圖像對齊的預(yù)訓(xùn)練
首先通過兩個不同的任務(wù)來優(yōu)化MARS:文本到圖像生成和圖像描述。這個細化過程利用了一種自回歸的方法來進行NTP。該過程涉及一個大約2億對文本-圖像對的數(shù)據(jù)集,每個圖像的分辨率為256×256像素。
階段II:高質(zhì)量數(shù)據(jù)對齊
為了提高圖像合成的保真度,這個階段繼續(xù)使用NTP從文本描述生成圖像。與階段I不同,階段II使用的數(shù)據(jù)集包括5000萬對文本和相應(yīng)的圖像,每對數(shù)據(jù)都經(jīng)過美學(xué)評估模型的精心挑選。與這些圖像配對的描述性標題來自CogVLM,根據(jù)明確的指令生成。為了減輕由于圖像裁剪導(dǎo)致的視覺內(nèi)容和文本描述之間的潛在差異,實施了一種標準化程序,將每張圖像的短邊調(diào)整為256像素。在保持原始縱橫比的同時,這一措施確保了完整圖像內(nèi)容的保留。然而,這導(dǎo)致圖像序列長度的變化。為了解決這個問題,在標題中包含了分辨率信息,以指定生成圖像的期望序列長度。
階段III:高分辨率細化
受SD-XL和DeepFloyd方法的啟發(fā),利用級聯(lián)超分辨率策略進一步增強MARS。低分辨率生成的圖像及其對應(yīng)的標題作為超分辨率模型的輸入。超分辨率模型在基礎(chǔ)模型訓(xùn)練完成后進行訓(xùn)練。在這個階段,采用下一個Ktoken預(yù)測(NTKP)方法來預(yù)測更高分辨率的圖像。輸出圖像的長邊為1024像素,同時保持原始縱橫比。為了控制生成圖像的分辨率,采用與階段II相同的策略。使用了一千萬組(低分辨率圖像、標題、高分辨率圖像)樣本來訓(xùn)練級聯(lián)超分辨率模型。
數(shù)據(jù)集構(gòu)建
研究中包含的開源英文數(shù)據(jù)集有LAION-400M、CC3M、CC12M、LAION-COCO、COYO和Datacomp。研究者們啟動了一個過濾過程,以排除分辨率低于256像素或長寬比大于2的圖像。隨后,根據(jù)它們的CLIP評分和美學(xué)評估來選擇圖像。這個方法產(chǎn)生了一個包含1.5億對圖像-文本的龐大語料庫。此外,還利用了5000萬內(nèi)部數(shù)據(jù),這些數(shù)據(jù)主要包括帶有中文標題的圖像-文本對,總計約2億對。
粗粒度的圖像-文本數(shù)據(jù)表現(xiàn)出顯著的噪聲,明顯體現(xiàn)在圖像和文本之間的不對齊、描述內(nèi)容不足、不相關(guān)的標題以及圖像質(zhì)量低下。在后續(xù)的文本到圖像(T2I)指令跟隨訓(xùn)練階段中,為了解決這些問題,通過標題重寫策略增強了文本的相關(guān)性和信息密度。具體來說,部署了一個預(yù)訓(xùn)練的多模態(tài)標題模型CogVLM,為精選的圖像重新生成細粒度的標題。這些新生成的標題詳細描述了圖像的各個方面,包括物體的位置、屬性、背景和風(fēng)格元素,平均長度約為110個單詞。下圖4展示了一個示例。這種方法為5000萬張圖像生成了細粒度的標題。
實驗
實驗細節(jié)
實現(xiàn)細節(jié)
采用AdamW作為優(yōu)化器,beta參數(shù)設(shè)置為0.95,權(quán)重衰減設(shè)置為0.1。峰值學(xué)習(xí)率設(shè)定為,并采用了0.01的預(yù)熱策略。對于分辨率為256×256像素的圖像,每個GPU的批量大小設(shè)置為64,而對于512×512像素的圖像,批量大小設(shè)置為24,導(dǎo)致總批量大小分別為4096和1536。訓(xùn)練使用了DeepSpeed的ZeRO-3優(yōu)化。模型的第一階段、第二階段和第三階段的訓(xùn)練輪數(shù)分別配置為1、2和1輪。
評估基準
選擇了三個基準進行比較,包括:
- MSCOCO數(shù)據(jù)集。參考之前的工作,使用從MSCOCO 2014評估數(shù)據(jù)集中抽取的標題生成了30,000張圖像,并評估生成圖像的樣本質(zhì)量和圖像-文本對齊情況。具體來說,沒有對生成輸出的圖像進行選擇性策劃。評估使用了Frechet Inception Distance (FID)和CLIP Score。
- T2I-CompBench。使用各種組合提示來評估文本屬性,包括顏色、形狀和紋理等方面,以及屬性綁定。
- 用戶研究。隨機選擇了100個提示進行評估,隨后邀請了30名參與者進行用戶研究。
性能比較與分析
MSCOCO基準
使用Frechet Inception Distance (FID)來評估合成圖像的質(zhì)量。如下表1所示,提出的MARS僅用7B可訓(xùn)練參數(shù)在FID上得分6.92,取得了顯著成就。與自回歸模型Parti相比,使用了更少的參數(shù)(14B vs 20B)和更小的數(shù)據(jù)規(guī)模(0.2B vs 4.8B),取得了具有競爭力的性能(6.92 vs 7.22)。相對于擴散模型SDv1.5,在訓(xùn)練預(yù)算較少(587 vs 6250 A100 GPU天)的情況下,取得了更優(yōu)的性能(6.92 vs 9.22)。這些結(jié)果突顯了本文混合自回歸模型的效率。
此外,利用CLIP-Score來評估文本條件與相應(yīng)生成圖像的對齊情況。當選擇生成圖像時,MARS在CLIP評分最高時取得了33.10的CLIP評分和3.51的FID,表明其在生成與文本提示語義內(nèi)容高度一致的視覺上具有顯著效果。
T2I CompBench性能
在T2I-CompBench的評估中,選擇了一些當代的文本生成圖像模型進行嚴格評估。這些模型包括Composable Diffusion、Structured Diffusion、Attn-Exct v2、GORS、DALLE 2、PixArt-α、SD1.5和SD-XL。下表2中呈現(xiàn)的實證數(shù)據(jù)展示了MARS在T2I-CompBench基準測試中的卓越表現(xiàn),突出其在屬性綁定、物體關(guān)系描述和復(fù)雜組合的合成方面的熟練度。值得注意的是,MARS在顏色和紋理表示的保真度方面顯示出顯著的改進,分別比DALLE 2提高了11.63%和7.49%。與DALLE 2相比,MARS在空間和非空間度量上也有顯著提升,分別提高了6.41%和1.67%。此外,與最近集成了T5-XL文本編碼器的PixArt-α模型相比,MARS在多個維度上表現(xiàn)更佳。具體而言,MARS在顏色(69.13%)和紋理(71.23%)準確性方面取得了最高分,超過了PixArt-α的68.86%和70.44%。這些結(jié)果表明,在自回歸框架中結(jié)合LLM表示和視覺token可以顯著提高生成圖像的質(zhì)量以及視覺內(nèi)容與相應(yīng)文本敘述之間的對齊度。
用戶研究
研究者們進行了一項用戶研究,評估現(xiàn)有方法和MARS的各種組合。每個組合基于樣本質(zhì)量和圖像-文本對齊兩個標準進行評估。60名用戶被要求評估具有相同文本的圖像的美學(xué)吸引力和語義準確性,確定哪個圖像在這些標準上表現(xiàn)更佳。隨后,計算每個模型的百分比分數(shù),如下圖5所示。結(jié)果表明,MARS在質(zhì)量和對齊方面相比PixelArt-α分別獲得了66.7%和63.3%的更高投票偏好。此外,與LAVIT和UIO-2相比,MARS顯示出具有競爭力的表現(xiàn)。
視覺分析
下圖6展示了MARS框架的高級圖像合成能力,能夠生成具有顯著細節(jié)和符合文本描述的視覺效果。這種能力可能歸因于從大語言模型(LLMs)中提取的高級文本表示,當與結(jié)構(gòu)化的多層次訓(xùn)練策略相結(jié)合時,顯著提高了模型的精度和文本與圖像之間的對齊度。MARS的多階段訓(xùn)練策略逐步優(yōu)化了文本提示與視覺輸出之間的相關(guān)性,使得生成的圖像不僅反映了文本的意圖,還展示了類似于真實照片的深度細節(jié)。借助LLMs的深層語義理解,MARS能夠熟練地將復(fù)雜的文本描述轉(zhuǎn)換為連貫且富有上下文的視覺敘述,從而展示了一個結(jié)合技術(shù)效率與藝術(shù)表現(xiàn)的生成模型。
多語言生成
語言模型核心是Qwen架構(gòu),其本質(zhì)上設(shè)計支持多語言并包含了一個綜合的中英雙語數(shù)據(jù)集。在訓(xùn)練階段,刻意包括了少量但顯著比例的中文內(nèi)部數(shù)據(jù)。正如下圖7所示,盡管中文語料庫相對稀缺,本文的模型在中文文本到圖像合成方面表現(xiàn)出色。這表明MARS已有效掌握了跨語言邊界解釋概念的能力,確保圖像和文本在單一表示空間內(nèi)融合,這是由新穎的混合機制促成的。
消融研究
對上述關(guān)鍵部分進行了消融研究,包括模型設(shè)計和多階段訓(xùn)練。
SemVIE的效果
下表3中呈現(xiàn)的結(jié)果是在Stage-I階段獲得的。沒有視覺專家的配置(w/o Visual Expert),即在視覺和語言專家之間共享權(quán)重,導(dǎo)致結(jié)果顯著惡化,F(xiàn)ID下降了1.89。這一顯著的下降突顯了利用專門視覺專家的好處。對齊視覺和語言模態(tài)的挑戰(zhàn)強調(diào)了需要專門的架構(gòu)來處理這些數(shù)據(jù)類型之間的內(nèi)在差異。
多階段訓(xùn)練的效果
下表4進一步探討了不同訓(xùn)練階段的效果。
結(jié)果表明,每個階段的訓(xùn)練都對模型有積極影響。在MS-COCO基準測試中,Stage II相比Stage I提高了1.22的FID,而Stage III相比Stage II進一步提高了0.10。不同階段的可視化結(jié)果如圖8所示。觀察到,Stage I和Stage II階段生成的圖像缺乏細節(jié),而Stage III階段的圖像質(zhì)量最佳。
進一步分析
圖像和文本聯(lián)合生成能力。MARS不僅限于文本到圖像的生成,還支持同時生成文本和圖像,例如從文本和圖像輸入生成多個文本和圖像輸出,重點關(guān)注兩種模態(tài)之間的相關(guān)性、一致性和連貫性。由于在MARS的預(yù)訓(xùn)練階段保留了LLM的完整性,系統(tǒng)在涉及同時創(chuàng)建文本和圖像的任務(wù)時處于有利位置。例如,在食譜生成領(lǐng)域,利用文本-圖像預(yù)訓(xùn)練模型,用一個包含1萬個食譜的數(shù)據(jù)集對其進行微調(diào)。這使得模型能夠生成包括逐步說明和相應(yīng)插圖的全面烹飪教程。如下圖9所示,在接收到需要圖像的食譜標題和相關(guān)說明時,模型同時生成詳細的文本內(nèi)容(如成分清單和操作步驟)以及每個階段的視覺表現(xiàn)。值得注意的是,MARS將文本和圖像無縫融合成連貫輸出的能力不僅限于食譜生成,還可以推廣到其他需要聯(lián)合文本和圖像生成任務(wù)的領(lǐng)域。
結(jié)論
本研究介紹了MARS,這是一個創(chuàng)新的自回歸框架,既保留了預(yù)訓(xùn)練大語言模型(LLM)的能力,又融入了頂級的文本到圖像(T2I)生成技能。MARS經(jīng)過訓(xùn)練,在T2I任務(wù)中表現(xiàn)出色。引入了Semantic Vision-Language Integration Expert(SemVIE)模塊,它是MARS的關(guān)鍵,優(yōu)化了文本和視覺token空間的融合,并為多模態(tài)學(xué)習(xí)帶來了新的見解。MARS在多個基準評估中展示了卓越的性能,如MSCOCO基準測試、T2I-CompBench和人類評估。預(yù)訓(xùn)練的Qwen模型使MARS能夠生成中英雙語圖像,無縫地融合中文和英文。此外,MARS能夠熟練處理聯(lián)合圖像-文本生成任務(wù),顯示了其在任意-任意范式應(yīng)用中的潛力。
本文轉(zhuǎn)自 AI生成未來 ,作者:Wanggui He等
