統(tǒng)一圖像和文字生成的MiniGPT-5來了：Token變Voken，模型不僅能續(xù)寫，還會自動配圖了

作者：機器之心 2023-10-09 13:06:11

OpenAI 的 GPT-5 大模型似乎還遙遙無期，但已經(jīng)有研究者率先推出了創(chuàng)新視覺與語言交叉生成的模型 MiniGPT-5。這對于生成具有連貫文本描述的圖像具有重要意義。

大模型正在實現(xiàn)語言和視覺的跨越，有望無縫地理解和生成文本和圖像內(nèi)容。在最近的一系列研究中，多模態(tài)特征集成不僅是一種不斷發(fā)展的趨勢，而且已經(jīng)帶來了從多模態(tài)對話到內(nèi)容創(chuàng)建工具等關(guān)鍵進步。大型語言模型在文本理解和生成方面已經(jīng)展現(xiàn)出無與倫比的能力。然而，同時生成具有連貫文本敘述的圖像仍然是一個有待發(fā)展的領(lǐng)域。

近日，加州大學(xué)圣克魯茲分校的研究團隊提出了 MiniGPT-5，這是一種以「生成式 voken」概念為基礎(chǔ)的創(chuàng)新型交錯視覺語言生成技術(shù)。

論文地址：https://browse.arxiv.org/pdf/2310.02239v1.pdf
項目地址：https://github.com/eric-ai-lab/MiniGPT-5

通過特殊的視覺 token「生成式 voken」，將 Stable Diffusion 機制與 LLM 相結(jié)合， MiniGPT-5 為熟練的多模態(tài)生成預(yù)示了一種新模式。同時，本文提出的兩階段訓(xùn)練方法強調(diào)了無描述基礎(chǔ)階段的重要性，使模型在數(shù)據(jù)稀缺的情況下也能「茁壯成長」。該方法的通用階段不需要特定領(lǐng)域的注釋，這使得本文解決方案與現(xiàn)有的方法截然不同。為了確保生成的文本和圖像和諧一致，本文的雙損失策略開始發(fā)揮作用，生成式 voken 方法和分類方法進一步增強了這一效果。

在這些技術(shù)的基礎(chǔ)上，這項工作標(biāo)志著一種變革性的方法。通過使用 ViT（Vision Transformer）和 Qformer 以及大型語言模型，研究團隊將多模態(tài)輸入轉(zhuǎn)換為生成式 voken，并與高分辨率的 Stable Diffusion2.1 無縫配對，以實現(xiàn)上下文感知圖像生成。本文將圖像作為輔助輸入與指令調(diào)整方法相結(jié)合，并率先采用文本和圖像生成損失，從而擴大了文本和視覺之間的協(xié)同作用。

MiniGPT-5 與 CLIP 約束等模型相匹配，巧妙地將擴散模型與 MiniGPT-4 融合在一起，在不依賴特定領(lǐng)域注釋的情況下實現(xiàn)了較好的多模態(tài)結(jié)果。最重要的是，本文的策略可以利用多模態(tài)視覺語言基礎(chǔ)模型的進步，為增強多模態(tài)生成能力提供新藍圖。

如下圖所示，除了原有的多模態(tài)理解和文本生成能力外，MiniGPT5 還能提供合理、連貫的多模態(tài)輸出：

本文貢獻體現(xiàn)在三個方面：

建議使用多模態(tài)編碼器，它代表了一種新穎的通用技術(shù)，并已被證明比 LLM 和反轉(zhuǎn)生成式 vokens 更有效，并將其與 Stable Diffusion 相結(jié)合，生成交錯的視覺和語言輸出（可進行多模態(tài)生成的多模態(tài)語言模型）。
重點介紹了一種新的兩階段訓(xùn)練策略，用于無描述多模態(tài)生成。單模態(tài)對齊階段從大量文本圖像對中獲取高質(zhì)量的文本對齊視覺特征。多模態(tài)學(xué)習(xí)階段包括一項新穎的訓(xùn)練任務(wù)，即 prompt 語境生成，確保視覺和文本 prompt 能夠很好地協(xié)調(diào)生成。在訓(xùn)練階段加入無分類器指導(dǎo)，進一步提高了生成質(zhì)量。
與其他多模態(tài)生成模型相比， MiniGPT-5 在 CC3M 數(shù)據(jù)集上取得了最先進的性能。MiniGPT-5 還在 VIST 和 MMDialog 等著名數(shù)據(jù)集上建立了新的基準(zhǔn)。

接下來，我們一起來看看該研究的細(xì)節(jié)。

方法概覽

為了使大型語言模型具備多模態(tài)生成能力，研究者引入了一個結(jié)構(gòu)化框架，將預(yù)訓(xùn)練好的多模態(tài)大型語言模型和文本到圖像生成模型整合在一起。為了解決不同模型領(lǐng)域之間的差異，他們引入了特殊的視覺符號「生成式 voken」（generative vokens），能夠直接在原始圖像上進行訓(xùn)練。此外，還推進了一種兩階段訓(xùn)練方法，并結(jié)合無分類器引導(dǎo)策略，以進一步提高生成質(zhì)量。

多模態(tài)輸入階段

多模態(tài)大模型（如 MiniGPT-4）的最新進展主要集中在多模態(tài)理解方面，能夠處理作為連續(xù)輸入的圖像。為了將其功能擴展到多模態(tài)生成，研究者引入了專為輸出視覺特征而設(shè)計的生成式 vokens。此外，他們還在大語言模型（LLM）框架內(nèi)采用了參數(shù)效率高的微調(diào)技術(shù)，用于多模態(tài)輸出學(xué)習(xí)。

多模態(tài)輸出生成

為了使生成式 token 與生成模型精確對齊，研究者制定了一個用于維度匹配的緊湊型映射模塊，并納入了若干監(jiān)督損失，包括文本空間損失和潛在擴散模型損失。文本空間損失有助于模型學(xué)習(xí) token 的正確定位，而潛在擴散損失則直接將 token 與適當(dāng)?shù)囊曈X特征對齊。由于生成式符號的特征直接由圖像引導(dǎo)，因此該方法不需要全面的圖像描述，從而實現(xiàn)了無描述學(xué)習(xí)。

訓(xùn)練策略

鑒于文本域和圖像域之間存在不可忽略的領(lǐng)域偏移，研究者發(fā)現(xiàn)直接在有限的文本和圖像交錯數(shù)據(jù)集上進行訓(xùn)練可能會導(dǎo)致錯位和圖像質(zhì)量下降。

因此，他們采用了兩種不同的訓(xùn)練策略來緩解這一問題。第一種策略包括采用無分類器引導(dǎo)技術(shù)，在整個擴散過程中提高生成 token 的有效性；第二種策略分兩個階段展開：最初的預(yù)訓(xùn)練階段側(cè)重于粗略的特征對齊，隨后的微調(diào)階段致力于復(fù)雜的特征學(xué)習(xí)。

實驗及結(jié)果

為了評估模型功效，研究者選擇了多個基準(zhǔn)進行了一系列評估。實驗旨在解決幾個關(guān)鍵問題：

MiniGPT-5 能否生成可信的圖像和合理的文本？
在單輪和多輪交錯視覺語言生成任務(wù)中，MiniGPT-5 與其他 SOTA 模型相比性能如何？
每個模塊的設(shè)計對整體性能有什么影響？

為了評估模型在不同訓(xùn)練階段的不同基準(zhǔn)上的性能，MiniGPT-5 的定量分析樣本如下圖 3 所示：

此處的評估橫跨視覺（圖像相關(guān)指標(biāo)）和語言（文本指標(biāo)）兩個領(lǐng)域，以展示所提模型的通用性和穩(wěn)健性。

VIST Final-Step 評估

第一組實驗涉及單步評估，即根據(jù)最后一步的 prompt 模型生成相應(yīng)的圖像，結(jié)果如表 1 所示。

在所有三種設(shè)置中，MiniGPT-5 的性能都優(yōu)于微調(diào)后的 SD 2。值得注意的是，MiniGPT-5（LoRA）模型的 CLIP 得分在多種 prompt 類型中始終優(yōu)于其他變體，尤其是在結(jié)合圖像和文本 prompt 時。另一方面，F(xiàn)ID 分?jǐn)?shù)凸顯了 MiniGPT-5（前綴）模型的競爭力，表明圖像嵌入質(zhì)量（由 CLIP 分?jǐn)?shù)反映）與圖像的多樣性和真實性（由 FID 分?jǐn)?shù)反映）之間可能存在權(quán)衡。與直接在 VIST 上進行訓(xùn)練而不包含單模態(tài)配準(zhǔn)階段的模型（MiniGPT-5 w/o UAS）相比，雖然該模型保留了生成有意義圖像的能力，但圖像質(zhì)量和一致性明顯下降。這一觀察結(jié)果凸顯了兩階段訓(xùn)練策略的重要性。

VIST Multi-Step 評估

在更詳細(xì)全面的評估中，研究者系統(tǒng)地為模型提供了先前的歷史背景，并隨后在每個步驟中對生成的圖像和敘述進行評估。

表 2 和表 3 概述了這些實驗的結(jié)果，分別概括了圖像和語言指標(biāo)的性能。實驗結(jié)果表明，MiniGPT-5 能夠在所有數(shù)據(jù)中利用 long-horizontal 多模態(tài)輸入 prompt 生成連貫、高質(zhì)量的圖像，而不會影響原始模型的多模態(tài)理解能力。這凸顯了 MiniGPT-5 在不同環(huán)境中的功效。

VIST 人類評估

如表 4 所示，MiniGPT-5 在 57.18% 的情況下生成了更貼切的文本敘述，在 52.06% 的情況下提供了更出色的圖像質(zhì)量，在 57.62% 的場景中生成了更連貫的多模態(tài)輸出。與采用文本到圖像 prompt 敘述而不包含虛擬語氣的兩階段基線相比，這些數(shù)據(jù)明顯展示了其更強的多模態(tài)生成能力。

MMDialog 多輪評估

結(jié)果如表 5 所示，MiniGPT-5 在生成更準(zhǔn)確的文本回復(fù)方面優(yōu)于基線模型 Divter。雖然生成的圖像質(zhì)量相似，但與基準(zhǔn)模型相比，MiniGPT-5 在 MM 相關(guān)性方面更勝一籌，表明其可以更好地學(xué)習(xí)如何適當(dāng)定位圖像生成，并生成高度一致的多模態(tài)響應(yīng)。

效果如何呢？我們來看一下 MiniGPT-5 的輸出結(jié)果。下圖 7 為 MiniGPT-5 與 CC3M 驗證集上的基線模型比較。

下圖 8 為 MiniGPT-5 與 VIST 驗證集上基線模型的比較。

下圖 9 為 MiniGPT-5 與 MMDialog 測試集上基線模型的比較。

更多研究細(xì)節(jié)，可參考原論文。

責(zé)任編輯：張燕妮來源：機器之心

研究數(shù)據(jù)

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

統(tǒng)一圖像和文字生成的MiniGPT-5來了：Token變Voken，模型不僅能續(xù)寫，還會自動配圖了

方法概覽

實驗及結(jié)果