自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的? 精華

發(fā)布于 2024-6-25 10:18
瀏覽
0收藏

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

文章地址:https://arxiv.org/pdf/2406.11831

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

今天和大家一起學(xué)習(xí)的這個工作展示的效果非常好,對提示的理解能力達(dá)到了新的高度。

僅基于解碼器的 Transformer 的大語言模型(LLMs)與 CLIP 和 T5 系列模型相比,已經(jīng)展示出卓越的文本理解能力。然而,在文本到圖像擴(kuò)散模型中利用當(dāng)前先進(jìn)的大語言模型的范例仍有待探索。本文觀察到一個不尋常的現(xiàn)象:直接使用大語言模型作為提示編碼器會顯著降低圖像生成中遵循提示的能力。本文發(fā)現(xiàn)了這個問題背后的兩個主要障礙:一個是大語言模型中下一token預(yù)測訓(xùn)練與擴(kuò)散模型中對有區(qū)別性的提示特征的要求之間的不一致;另一個是僅解碼器架構(gòu)引入的內(nèi)在位置偏差。為了解決這個問題,本文提出了一個新穎的框架來充分利用大語言模型的能力。通過精心設(shè)計的使用指南,有效地增強了用于提示編碼的文本表示能力,并消除了其內(nèi)在的位置偏差。這使得能夠靈活地將最先進(jìn)的大語言模型集成到文本到圖像生成模型中。


此外,本文還提供了一種將多個大語言模型融合到框架中的有效方式。 考慮到transformer架構(gòu)所展示出的出色性能和擴(kuò)展能力,本文進(jìn)一步基于該框架設(shè)計了一個注入大語言模型的擴(kuò)散Transformer(LI-DiT)。本文進(jìn)行了廣泛的實驗,以在模型大小和數(shù)據(jù)大小方面驗證 LI-DiT。得益于大語言模型的固有能力和本文的創(chuàng)新設(shè)計,LI-DiT 的提示理解性能輕松超越了最先進(jìn)的開源模型以及包括 Stable Diffusion 3、DALL-E 3 和 Midjourney V6 在內(nèi)的主流閉源商業(yè)模型。強大的 LI-DiT-10B 將在進(jìn)一步優(yōu)化和安全檢查后可用。

介紹

擴(kuò)散概率模型在高質(zhì)量圖像合成方面帶來了顯著的改進(jìn)。在諸如 CLIP 文本編碼器和 T5 系列等強大的提示編碼器的協(xié)助下,DALL-E 3 和 Stable Diffusion 3極大地增強了文本到圖像擴(kuò)散模型中的提示理解能力。受 GPT 成功的鼓舞,一系列僅解碼器的大語言模型(LLM)出現(xiàn)了,并且與 CLIP 和 T5 系列模型相比展示出了卓越的文本理解能力,例如 LLaMA。然而,在擴(kuò)散模型中有效利用這些強大的 LLM 的方法仍有待探索。


為了更好地理解 LLM 在擴(kuò)散模型中的固有特性,本文首先使用基于transformer的擴(kuò)散模型(DiT)進(jìn)行實驗,并在 T2I-CompBench 基準(zhǔn)上進(jìn)行評估。遵循 DiT 和 PixArt-α 的設(shè)計,通過交叉注意力層將來自 LLM 最后一層的文本條件信息注入到擴(kuò)散Transformer中。如下圖 2 所示,盡管 LLaMA3-8B 表現(xiàn)出更強的語言理解能力,但它在圖像到文本對齊基準(zhǔn)上仍然未能趕上較小模型 T5-XL 的性能。同時,較大的變體 T5-XXL 相對于 T5-XL 取得了顯著的優(yōu)勢。LLM 在文本理解和邏輯推理方面的強大能力在這種情況下尚未得到展示。基于這種異?,F(xiàn)象,本文旨在探索 LLM 在提示編碼中的作用。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

本文首先分析類T5的編解碼器模型和類GPT 的僅解碼器模型在優(yōu)化目標(biāo)和模型架構(gòu)上的差異。masked語言模型優(yōu)化和編解碼器架構(gòu)設(shè)計賦予了 T5 編碼器內(nèi)在的有效信息理解能力。然而,僅解碼器的大語言模型的優(yōu)化目標(biāo)側(cè)重于根據(jù)訓(xùn)練數(shù)據(jù)分布預(yù)測具有最高概率的下一個token。


如下圖 4 所示,預(yù)訓(xùn)練的大語言模型對給定的圖像提示提供了無意義的延續(xù)。這意味著大語言模型不關(guān)注給定圖像描述中的基本元素,并且大語言模型提取的文本表示不適合總結(jié)給定圖像的語義信息,導(dǎo)致與擴(kuò)散模型的需求不一致。同時,本文發(fā)現(xiàn)大語言模型在理解提示后半部分提到的對象或?qū)傩詴r通常會導(dǎo)致錯誤或遺漏。


這一觀察通過定量評估得到了進(jìn)一步驗證。本文將此問題歸因于僅解碼器的大語言模型的因果注意力機制。在因果注意力層中,每個token只能關(guān)注自身和其他先前的token,而無法捕獲后面token的信息。這種結(jié)構(gòu)性的信息不平衡挑戰(zhàn)了擴(kuò)散模型理解復(fù)雜提示的能力。因此,這種不一致和位置偏差極大地阻礙了大語言模型成為擴(kuò)散模型有效的文本編碼器。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

為了解決這些問題,本文提出了一個新穎的框架,即融入大語言模型的擴(kuò)散器(LLM-infused Diffuser),以充分利用強大的大語言模型來促進(jìn)擴(kuò)散模型在文本理解及后續(xù)方面的表現(xiàn)。首先,本文在提示之前明確插入一個指令,以減輕信息不一致的情況?;诖笳Z言模型的指令遵循能力,本文利用人類指令來鼓勵語言模型關(guān)注與圖像生成相關(guān)的概念,包括對象、屬性和空間關(guān)系。此外,本文提出了一個語言token精煉器來解決位置偏差問題。這樣的設(shè)計通過雙向注意力機制促進(jìn)了有效的全局表示建模。最后,協(xié)作精煉器合并并精煉來自多個大語言模型的文本表示,以進(jìn)一步提升文本理解能力。這些有針對性的設(shè)計提供了一種在擴(kuò)散模型中利用大語言模型能力的有效方式。


本文的融入大語言模型的擴(kuò)散器可以輕松且靈活地整合到擴(kuò)散模型中??紤]到Transformer架構(gòu)的出色性能和擴(kuò)展能力,本文進(jìn)一步設(shè)計了一個融入大語言模型的擴(kuò)散Transformer(LI-DiT)。本文進(jìn)行了廣泛的實驗,以在不同的模型大小和數(shù)據(jù)大小上驗證 LI-DiT。得益于大語言模型的固有能力和本文的創(chuàng)新設(shè)計,LI-DiT 的提示理解性能輕松超越了最先進(jìn)的開源模型以及包括 Stable Diffusion 3、DALL-E 3 和 Midjourney V6 在內(nèi)的主流閉源商業(yè)模型。如上圖 1 所示,本文展示了一些由 LI-DiT-10B 生成的隨機抽樣案例。

使用語言模型進(jìn)行提示編碼

如上一節(jié)所述,本文觀察到僅解碼器的大語言模型和編解碼器模型之間有兩個差異:優(yōu)化目標(biāo)和模型架構(gòu)。具體來說,僅解碼器的大語言模型通常使用下一個token預(yù)測任務(wù)進(jìn)行優(yōu)化,而編解碼器模型則通過掩蔽語言建模任務(wù)進(jìn)行訓(xùn)練。此外,在僅解碼器的大語言模型中,序列中的前一個token不能關(guān)注后一個token,而在編解碼器模型中,序列中的每個token都可以相互關(guān)注?;谶@些觀察結(jié)果,本文進(jìn)行了精心的實驗,以研究這些差異如何影響大語言模型的提示編碼能力。

探索保留提示信息的能力

在 T5 模型的預(yù)訓(xùn)練期間,輸入序列用mask進(jìn)行格式化,模型通過預(yù)測被mask的內(nèi)容從大量語言數(shù)據(jù)中學(xué)習(xí)。在這個過程中,編碼器負(fù)責(zé)從當(dāng)前token序列中的所有token中提取信息。然而,僅解碼器的語言模型更側(cè)重于預(yù)測未來信息,而不是表示當(dāng)前文本表示,這與擴(kuò)散模型的使用不一致。為了更好地理解語言模型如何編碼提示的特征,本文將一個圖像提示輸入到 LLaMA3-8B 和 T5-XXL 中,以分析它們的輸出。如上 4 所示,T5-XXL 的輸出是輸入提示的重復(fù),而 LLaMA3-8B 生成了一個不相關(guān)的擴(kuò)展。這種現(xiàn)象進(jìn)一步驗證了本文的假設(shè)。因此,盡管大語言模型具有更強的文本理解和推理能力,但這種限制損害了它們編碼提示的能力。

僅解碼器大語言模型的位置偏差

本文構(gòu)建了一個基準(zhǔn)來評估圖像提示中不同位置的所有形容詞-名詞組合的圖像-文本對齊情況。遵循傳統(tǒng)的文本到圖像生成基準(zhǔn),提取所有形容詞-名詞組合,并獲得它們在每個圖像提示中的相對位置。這些形容詞-名詞組合可以很容易地轉(zhuǎn)換為問題。然后,本文將生成的圖像和問題輸入到一個視覺問答模型中以獲得其對齊分?jǐn)?shù)。請參考補充材料以獲取關(guān)于構(gòu)建測試集的更多細(xì)節(jié)。如下圖 3 所示,本文計算每個形容詞-名詞組合在提示內(nèi)的平均對齊分?jǐn)?shù)和相對位置??梢杂^察到帶有 T5 編碼器的擴(kuò)散模型對位置變化表現(xiàn)出很強的穩(wěn)健性,而帶有僅解碼器大語言模型的模型在后面的位置表現(xiàn)不佳。這種固有的位置偏差顯著損害了僅解碼器大語言模型的提示編碼能力。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

LLM-infused Diffuser

整合大語言模型和擴(kuò)散模型

為了彌合預(yù)訓(xùn)練優(yōu)化和提示編碼之間的差距,本文利用大語言模型的指令跟隨能力,以鼓勵它關(guān)注給定標(biāo)題中的圖像內(nèi)容。此外,本文還提出了精煉器模塊來減輕大語言模型文本embedding的固有位置偏差。通過結(jié)合這些設(shè)計,開發(fā)了一個名為“ LLM-infused Diffuser”的框架,它可以靈活地注入當(dāng)前最先進(jìn)的大語言模型,以釋放其強大的文本理解能力。


如下圖 5 所示,LLM-infused Diffuser的流程包括四個部分:

  • 在圖像提示之前插入系統(tǒng)提示和指令,以鼓勵大語言模型關(guān)注圖像內(nèi)容并突出其屬性。
  • 帶有指令的圖像提示可以由多個凍結(jié)的大語言模型分別編碼。
  • 采用不同的語言token精煉器模塊來消除這些大語言模型的文本embedding的位置偏差。
  • 借助協(xié)作精煉器,來自大語言模型的文本特征被協(xié)同精煉,從而產(chǎn)生更穩(wěn)健的表示。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

輸入提示。受到大語言模型強大的指令跟隨能力的啟發(fā),本文旨在利用這種能力迫使大語言模型關(guān)注提示中的關(guān)鍵圖像內(nèi)容,并促進(jìn)文本表示與文本到圖像合成任務(wù)之間的對齊。具體來說,本文提議在傳統(tǒng)的圖像描述之前插入自定義指令。這樣的指令提示大語言模型關(guān)注關(guān)鍵圖像內(nèi)容,例如圖像中物體的屬性以及物體之間的空間關(guān)系。在本文的實驗中,采用了一個簡單的指令:通過詳細(xì)描述物體的顏色、形狀、大小、紋理、數(shù)量、文字和空間關(guān)系來描述圖像。如上圖 4 所示,如果不提供明確的指令,大語言模型往往會生成與圖像上下文無關(guān)的內(nèi)容。當(dāng)向大語言模型提供指令和圖像提示時,它將遵循指令專注于與圖像相關(guān)的概念,以詳細(xì)描述圖像,并根據(jù)給定的提示提供對齊的表示。大語言模型的輸出embedding將由后續(xù)的精煉器模塊進(jìn)一步處理。


語言token精煉器。在大語言模型的因果注意力層中,當(dāng)前token只能關(guān)注到之前的token,因此這極大地?fù)p害了全局文本表示建模。例如,文本token序列中的最后一個token只能被其自身關(guān)注。為了減輕僅解碼器大語言模型的這種位置偏差,本文插入一個語言token精煉器模塊來精煉每個大語言模型有偏差的輸出表示。如上圖 5 所示,每個精煉器模塊包含一堆Transformer塊,它由一個自注意力層、一個前饋層(FFN)和一個自適應(yīng)門控模塊組成。對于自注意力層,直接丟棄大語言模型的因果mask來執(zhí)行全注意力,這使得后面的token的表示可以被前面的token關(guān)注。每層的輸出特征由自適應(yīng)門控網(wǎng)絡(luò)控制,其權(quán)重初始化為零以獲得更好的訓(xùn)練穩(wěn)定性。具體來說,本文首先對大語言模型表示進(jìn)行平均池化,然后將池化后的表示與時間步 t 的embedding通過元素級求和進(jìn)行合并。門控網(wǎng)絡(luò)將這種時間步感知和上下文感知的表示作為輸入來執(zhí)行精確的信息注入。精煉器的最終輸出表示將共同被饋送到協(xié)作精煉器中進(jìn)行增強。


協(xié)作精煉器。為了進(jìn)一步提高文本理解能力,本文采用多個大語言模型和語言token精煉器進(jìn)行提示編碼,并通過所提出的協(xié)作精煉器協(xié)同精煉這些表示。來自多個語言token精煉器的表示由多個平行分支分別處理,并且一個分支中的每個塊都包含一個交叉注意力和前饋神經(jīng)網(wǎng)絡(luò)層。此外,本文使用一種調(diào)制機制,根據(jù)時間步和文本上下文來調(diào)節(jié)協(xié)作精煉器的每一層。這種調(diào)制采用與語言token精煉器中上述門控網(wǎng)絡(luò)相同的輸入。該模塊中的分支通過多個平行的交叉注意力層連接,在這里文本表示可以進(jìn)行協(xié)同精煉。具體來說,交叉注意力層將當(dāng)前分支的特征作為查詢,將其他分支的特征作為鍵和值來精煉當(dāng)前特征。最后截斷輸出的token序列,丟棄指令token,并通過連接混合這兩種表示。這種混合并精煉后的表示可以靈活地集成到擴(kuò)散模型中,以提供有區(qū)分度的文本條件信息。

LLM-infused Diffuser Transformer

本文提出的注入大語言模型的 Transformer可以靈活地集成到當(dāng)前的擴(kuò)散模型中??紤]到擴(kuò)散 Transformer 顯著的擴(kuò)展能力,本文開發(fā)了一個名為注入大語言模型的擴(kuò)散 Transformer(LI-DiT)的擴(kuò)散模型。


遵循 DiT 的范例,LI-DiT 將來自變分自動編碼器(VAE)潛在空間的有噪表示作為輸入,并將空間輸入轉(zhuǎn)換為token序列。LI-DiT 的每個Transformer塊包含一個自注意力層、一個交叉注意力層、一個前饋神經(jīng)網(wǎng)絡(luò)層和調(diào)制模塊。交叉注意力層可以將注入大語言模型的擴(kuò)散器提取的文本條件信息注入token序列中。調(diào)制模塊接收時間步embedding和文本表示以提供額外的條件信息。與之前工作中的二維位置embedding設(shè)計不同,本文采用基于卷積的位置embedding。在擴(kuò)散Transformer中的補丁化層之后,直接采用一個 ResBlock 作為位置embedding模塊。卷積算子的平移不變性可以有效地為Transformer算子引入位置信息。因此,LI-DiT 可以支持任意分辨率的圖像生成,而無需額外的設(shè)計修改。


大規(guī)模的 Transformer 模型通常會遭受不穩(wěn)定的梯度和數(shù)值精度問題,導(dǎo)致在訓(xùn)練過程中損失發(fā)散。為了解決訓(xùn)練不穩(wěn)定的問題,本文納入了在大規(guī)模視覺或語言模型訓(xùn)練中采用的若干策略。首先,在自注意力層和交叉注意力層中都引入了 QK 歸一化。RMSNorm 層將在點積計算注意力分?jǐn)?shù)之前對查詢和關(guān)鍵token進(jìn)行歸一化。這樣的操作確保了注意力分?jǐn)?shù)的數(shù)值穩(wěn)定性,并避免了來自分布外值的不穩(wěn)定梯度。此外,考慮到 bfloat16 更廣泛的數(shù)值表示范圍,本文最終采用了 bfloat16 混合精度訓(xùn)練策略。

實驗

實現(xiàn)細(xì)節(jié)

模型架構(gòu)。本文的實驗?zāi)J(rèn)在較小的模型 LI-DiT-1B 上進(jìn)行。采用 LLaMA3-8B 和 Qwen1.5-7B并結(jié)合多模態(tài)指令微調(diào) 作為 LI-DiT-1B 和 LI-DiT-10B 的雙文本編碼器。對于消融研究基線,本文只保留 LLaMA3-8B 以降低訓(xùn)練成本。本文在語言token精煉器中采用 2 個塊,在協(xié)作精煉器中采用 1 個塊。在實驗中, 本文將來自倒數(shù)第三個Transfomer 塊的文本embedding作為每個大語言模型的輸出。關(guān)于 LI-DiT-1B 和 LI-DiT-10B 的詳細(xì)架構(gòu),請參考補充材料。


訓(xùn)練數(shù)據(jù)。所有的探索和消融實驗都在 ImageNet 數(shù)據(jù)集和 CC12M 數(shù)據(jù)集的一個子集上進(jìn)行訓(xùn)練。本文為 ImageNet 的每個樣本分配“一張{class}的照片”的文本提示,并從 CC12M 中隨機選擇 130 萬圖像-文本對。遵循之前的工作,本文混合了原始描述和由CogVLM生成的合成描述。將 LI-DiT 與其他領(lǐng)先的模型進(jìn)行比較時,本文使用了一個具有十億級圖像-文本對的大規(guī)模訓(xùn)練數(shù)據(jù)集,包括 LAION-5B和其他包含英語和中文的內(nèi)部數(shù)據(jù)集,這使 LI-DiT 具有雙語理解能力。遵循Stable Diffusion,當(dāng)來自 LAION 的圖像-文本對的美學(xué)評分低于 4.7 時,本文將其移除。低分辨率圖像和包括網(wǎng)址和標(biāo)簽的低質(zhì)量提示也被移除。具體來說,本文僅從這個大規(guī)模數(shù)據(jù)集中抽樣 3000 萬圖像-文本對來訓(xùn)練 LI-DiT-1B,并使用所有十億級對來訓(xùn)練 LI-DiT-10B。


訓(xùn)練細(xì)節(jié)。遵循潛在擴(kuò)散模型(LDM)的范例,本文利用一個變分自編碼器(VAE)編碼器將圖像表示投影到潛在空間。本文訓(xùn)練一個具有 8 倍下采樣率和 16 個通道的變分自編碼器以獲得更好的圖像生成效果。本文不使用任何數(shù)據(jù)增強策略。遵循 RAPHEL中的多尺度訓(xùn)練,根據(jù)圖像的縱橫比將圖像分組。只有具有相似縱橫比的圖像才會構(gòu)成一個批次。對于在 300 萬圖像-文本對上進(jìn)行的消融實驗,本文以 256 的分辨率用 256 的batch大小和  的學(xué)習(xí)率訓(xùn)練模型 30 萬次迭代。對于 LI-DiT-1B 的訓(xùn)練,本文將批次大小增加到 2048 并將迭代次數(shù)增加到 50 萬。在訓(xùn)練 LI-DiT-10B 時,批次大小是 4096,迭代次數(shù)超過 100 萬。本文在訓(xùn)練期間直接采用 512 的分辨率,然后用高質(zhì)量數(shù)據(jù)將其微調(diào)至 1024 分辨率以進(jìn)一步提高美學(xué)質(zhì)量。


評估指標(biāo)。對于定量評估,本文主要考慮 T2I-CompBench、DPG-Bench和 GenEval 基準(zhǔn)。本文還引入了人類評估以更好地理解藝術(shù)和美學(xué)質(zhì)量。請注意,消融研究中的“T2I-平均”是指 T2I-CompBench 屬性指標(biāo)的平均得分。

性能比較

定量評估。在定量評估中,本文專注于生成圖像與輸入提示之間的一致性。如下表 1 所示,本文選擇 T2I-CompBench、DPG-Bench 和 GenEval 基準(zhǔn)來評估 LI-DiT-1B 和 LI-DiT-10B 的生成能力。T2I-CompBench 和 GenEval 基準(zhǔn)由簡短提示組成,側(cè)重于組合評估。DPG-Bench 是用復(fù)雜密集的提示構(gòu)建的。與像 SDXL 和 PixArt-α這樣的開源學(xué)術(shù)作品相比,LI-DiT-1B 在所有基準(zhǔn)上都大幅優(yōu)于它們。本文還將 LI-DiT-10B 與 DALL-E 3 和Stable Diffusion 3(8B)這兩個主流的閉源商業(yè)模型進(jìn)行比較。這一顯著的改進(jìn)進(jìn)一步驗證了本文的大語言模型融合擴(kuò)散器的有效性。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

人類評估。定量評估指標(biāo)不能直接衡量藝術(shù)和美學(xué)質(zhì)量。遵循先前的工作,本文也進(jìn)行人類評估,以令人信服地將 LI-DiT-10B 與Stable Diffusion 3、DALL-E 3 和Midjourney V6 進(jìn)行比較。本文的評估數(shù)據(jù)集包含 200 個具有不同風(fēng)格和場景的提示。來自 LI-DiT-10B 的圖像和來自競爭對手的圖像將構(gòu)成一個評估對。人類評估者將從圖像質(zhì)量和圖像-文本對齊的角度比較圖像對。下圖 6 中的結(jié)果表明,LI-DiT-10B 在圖像-文本對齊和圖像質(zhì)量方面都可以超過 DALLE-3 和Stable Diffusion 3。與最受歡迎的商業(yè)模型Midjourney V6 相比,LI-DiT-10B 在圖像-文本對齊方面表現(xiàn)出領(lǐng)先的能力,同時具有類似的圖像-文本質(zhì)量表現(xiàn)。在下圖 7 中,本文展示了一些隨機抽樣的案例以進(jìn)行清晰比較。此外還在圖 8 和圖 9 中提供了一些高質(zhì)量圖像。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

消融研究

組件級消融研究。如下表 2 所示,本文進(jìn)行組件級消融研究。本文采用預(yù)訓(xùn)練的 LLaMA3-8B 的 DiT 作為基線設(shè)置。首先,觀察到在將指令引入輸入提示或把語言token精煉器合并到基線后性能有一致的提升。當(dāng)同時利用這兩種設(shè)計時,在兩個基準(zhǔn)上的圖像-文本對齊性能繼續(xù)提高。此外,本文引入一個額外強大的大語言模型,Qwen1.5-7B,并進(jìn)行多模態(tài)微調(diào)以驗證協(xié)同精煉器的有效性。大語言模型融合策略進(jìn)一步增強了擴(kuò)散模型對提示的理解能力。這些結(jié)果清楚地驗證了每個提出組件的有效性。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

因果Mask的影響。在這個實驗中本文研究因果Mask對提示編碼的影響。如下表 3 所示,在大語言模型之后插入具有完全注意力的語言token精煉器顯著提高了性能。然而,這個精煉器未能提高具有雙向注意力的 T5 編碼器的性能。如果將大語言模型的因果Mask引入到精煉器中,在 LLaMA3-8B 和 Qwen1.5-7B 中都會出現(xiàn)嚴(yán)重的性能下降。這些結(jié)果表明因果Mask是損害大語言模型提示編碼能力的一個核心因素,而本文提出的精煉器可以消除這種位置偏差。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

指令的效果。為了驗證指令的有效性,本文在下表 4 中進(jìn)行了一項消融實驗。首先,本文發(fā)現(xiàn)提示指令對于使用沒有指令微調(diào)的基礎(chǔ) LLaMA3-8B 模型未能帶來增益。如果將基礎(chǔ)模型改為多模態(tài)指令微調(diào)變體,對齊分?jǐn)?shù)可以顯著提高。由于指令微調(diào)帶來的強大遵循指令能力,插入指令可以進(jìn)一步提升性能。這個結(jié)果表明多模態(tài)指令微調(diào)數(shù)據(jù)有助于大語言模型更好地描述圖像并突出圖像內(nèi)的關(guān)鍵元素。此外,指令能夠鼓勵大語言模型關(guān)注給定提示中的圖像內(nèi)容。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

語言token精煉器設(shè)計。如下表 5 所示,本文對語言token精煉器的設(shè)計進(jìn)行實驗。首先,將本文的模型與精煉器中具有不同塊數(shù)的其他變體進(jìn)行比較。觀察到當(dāng)精煉器中的塊數(shù)增加時性能有一致的提升。然而,當(dāng)語言token精煉器中有 2 個塊時這種提升并不顯著。因此,本文在token精煉器中采用 2 個塊來實現(xiàn)復(fù)雜性和性能之間的最佳平衡。此外,本文還消融了精煉器中門控網(wǎng)絡(luò)的效果。當(dāng)移除門控網(wǎng)絡(luò)時,在兩個基準(zhǔn)上的性能都下降了。這表明時間和文本上下文的條件信息有助于更好的圖像-文本對齊。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

協(xié)同精煉器的效果。如下表 6 所示,本文觀察到具有簡單融合技術(shù)的模型可以優(yōu)于具有單個大語言模型的其他對應(yīng)模型。此外,協(xié)同精煉器可以在這種拼接融合的基礎(chǔ)上進(jìn)一步提升性能。這樣的結(jié)果表明一種有效的表示融合方法可以進(jìn)一步增強大語言模型的能力。

拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的?-AI.x社區(qū)

結(jié)論

針對在采用僅解碼器的大語言模型來編碼提示時在文本到圖像生成任務(wù)中表現(xiàn)不佳的情況,本文探索了大語言模型在擴(kuò)散模型提示編碼中的作用。通過實驗和分析,本文確定了限制僅解碼器的大語言模型作為擴(kuò)散模型的有效文本編碼器的核心因素,即下一個token預(yù)測訓(xùn)練與擴(kuò)散模型中對判別性提示特征的要求之間的不一致,以及僅解碼器架構(gòu)引入的內(nèi)在位置偏差。為了處理這些問題,提出了一個新穎的框架來充分利用大語言模型的能力。本文還基于該框架進(jìn)一步設(shè)計了一個注入大語言模型的擴(kuò)散 Transformer(LI-DiT)。LI-DiT 超越了最先進(jìn)的開源模型以及包括 Stable Diffusion 3、DALLE-3 和 Midjourney V6 在內(nèi)的主流閉源商業(yè)模型。

限制和潛在的社會負(fù)面影響

由于計算資源有限,本文對具有 70 億參數(shù)的大語言模型進(jìn)行實驗。在未來的工作中,本文將在具有 130 億或 700 億參數(shù)的更大的大語言模型中進(jìn)一步驗證注入大語言模型的擴(kuò)散的有效性。潛在的負(fù)面社會影響是圖像可能包含有誤導(dǎo)性或虛假信息。本文將在數(shù)據(jù)處理方面進(jìn)行廣泛的努力來處理這個問題。


本文轉(zhuǎn)自 AI生成未來 ,作者:Bingqi Ma等


原文鏈接:??https://mp.weixin.qq.com/s/LW4Uf1z7uKDS3AX1Lkhxyg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦