自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型 原創(chuàng)

發(fā)布于 2024-10-15 14:06
瀏覽
0收藏

?從OmniGen的訓(xùn)練數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型。

今天詳細(xì)講講多模態(tài)大模型OmniGen~之前有總結(jié)過一篇多模態(tài)大模型的研究趨勢(shì),

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

感興趣的小伙伴也可以具體看一下這篇介紹多模態(tài)大模型的文。?

OmniGen就屬于統(tǒng)一視覺模型這個(gè)方向中,將多個(gè)特定任務(wù)轉(zhuǎn)化為具備通用能力的圖像生成統(tǒng)一模型;本篇來具體介紹OmniGen的細(xì)節(jié),以及未來前瞻技術(shù)研究可能值得借鑒的部分。

下面是一個(gè)快捷目錄。

一、OmniGen簡介

二、X2I數(shù)據(jù)集

三、OmniGen模型設(shè)計(jì)

四、OmniGen訓(xùn)練策略

五、一些啟發(fā)

一、OmniGen簡介

1. 簡介

OmniGen,是用于統(tǒng)一圖像生成的新擴(kuò)散模型,并且不需要額外的模塊(如ControlNet或IP-Adapter)來處理多樣化的控制條件。

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

2. 特點(diǎn)

  • 統(tǒng)一性:從文本到圖像,內(nèi)在統(tǒng)一支持多種圖像編輯、主題驅(qū)動(dòng)的生成和視覺條件下的生成,另外把邊緣檢測(cè)和人體姿態(tài)識(shí)別也轉(zhuǎn)換成了圖像生成任務(wù)。
  • 簡潔性:架構(gòu)高度簡化,可以通過指令完成復(fù)雜任務(wù),除去了額外文本編碼器,無需額外的預(yù)處理步驟。
  • 知識(shí)遷移:OmniGen有效地在不同的任務(wù)之間轉(zhuǎn)移知識(shí),管理未見過的任務(wù)和領(lǐng)域。

另外,此模型也存在一些推理能力和鏈?zhǔn)剿季S機(jī)制的潛在應(yīng)用,但這塊不夠成熟。

二、X2I數(shù)據(jù)集

OmniGen的訓(xùn)練數(shù)據(jù)集整個(gè)構(gòu)造思路是非常值得借鑒的,個(gè)人感覺這塊甚至比模型本身更有學(xué)習(xí)意義,所以放在前面說,整個(gè)X2I數(shù)據(jù)集包含大約1億張圖像。

1. 文本到圖像

輸入為純文本,輸出為圖像。

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

1)開源數(shù)據(jù)

數(shù)據(jù)來源主要是一些開源數(shù)據(jù)集和合成數(shù)據(jù):

開源數(shù)據(jù)包括Recap-DataComp(5600萬張圖像的子集)、SAM-LLaVA 、ShareGPT4V 、LAION-Aesthetic (400萬張圖像的子集)、ALLaVA-4V 、DOCCI、DenseFusion 和 JourneyDB。

2)合成數(shù)據(jù)

合成數(shù)據(jù)主要使用InternVL2 為內(nèi)部數(shù)據(jù)和LAION-Aesthetic創(chuàng)建合成注釋。

3)數(shù)據(jù)使用技巧

在訓(xùn)練初期,主要使用“文本到圖像”數(shù)據(jù)集來學(xué)習(xí)廣泛的圖像-文本匹配關(guān)系和多樣化知識(shí);經(jīng)過第三階段后,需要利用內(nèi)部收集的1600萬張高質(zhì)量圖像來提升生成圖像的美學(xué)質(zhì)量。

2. 多模態(tài)到圖像

1)常見混合模態(tài)提示

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

任務(wù)類型包括圖像編輯(SEED-Data-Edit 、MagicBrush 和 InstructPix2Pix )、人體運(yùn)動(dòng)(Something-Something )、虛擬試穿(HR-VITON 和 FashionTryon)和風(fēng)格遷移(stylebooth )

數(shù)據(jù)構(gòu)造形式:輸入為任意交錯(cuò)的文本和圖像,輸出為符合文本和圖像條件的新圖像。

另外使用MultiGen數(shù)據(jù)集來學(xué)習(xí)利用額外的視覺條件進(jìn)行細(xì)粒度空間控制,選擇六種代表性視覺條件:Canny、HED、Depth、Skeleton、Bounding Box 和分割

數(shù)據(jù)構(gòu)造形式:輸入為文本提示和特定的視覺條件(如分割圖和人體姿態(tài)圖);輸出為符合文本和圖像條件的新圖像。

2)主題驅(qū)動(dòng)的圖像生成

數(shù)據(jù)任務(wù)與來源也包括兩大類,一個(gè)大規(guī)?;A(chǔ)數(shù)據(jù)集(GRIT-Entity數(shù)據(jù)集)和一個(gè)高質(zhì)量高級(jí)數(shù)據(jù)集(Web Images數(shù)據(jù)集)。

  • GRIT-Entity數(shù)據(jù)集

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

基于GRIT數(shù)據(jù)集中圖像物體名稱標(biāo)注,應(yīng)用Grounding DINO模型進(jìn)行文本到邊界框的對(duì)齊?;谶吔缈蚴褂肧AM分割裁剪后的圖像,獲得物體掩碼。進(jìn)一步使用MS-Diffusion模型重新繪制物體圖像,提升數(shù)據(jù)質(zhì)量。構(gòu)造了600萬對(duì)數(shù)據(jù)。

  • Web Images數(shù)據(jù)集

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

基于構(gòu)造的GRIT-Entity數(shù)據(jù)集由于直接提取原始圖像中的輸入數(shù)據(jù),導(dǎo)致模型陷入簡單的復(fù)制粘貼模式。因此Web Images數(shù)據(jù)集使用知名人物的自然圖像構(gòu)建。

  • 首先,從Datacomp數(shù)據(jù)集中抽取了2000萬個(gè)Alt-text條目,并使用spaCy進(jìn)行命名實(shí)體識(shí)別;
  • 選擇了出現(xiàn)頻率最高的名字,并使用GPT-4o篩選出真實(shí)且知名的人物,最終得到2000個(gè)名字;
  • 進(jìn)一步擴(kuò)展這2000個(gè)名字,包括密切相關(guān)的個(gè)體,得到了約10000個(gè)名字對(duì)。然后從搜索引擎中抓取這些個(gè)體和名字對(duì)的圖像;
  • 使用交叉驗(yàn)證策略,使用InternVL過濾單人和群體圖像,保留的單人和群體圖像隨后被標(biāo)注了詳細(xì)的服飾和動(dòng)作信息。

構(gòu)建了包含533,000對(duì)圖像的數(shù)據(jù)集。

3. 計(jì)算機(jī)視覺任務(wù)

輸入是源圖像和自然語言表達(dá),輸出是突出顯示相應(yīng)對(duì)象的圖像。

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

這里的目的是為了增強(qiáng)模型的圖像生成能力;把從傳統(tǒng)計(jì)算機(jī)視覺任務(wù)中獲得的知識(shí)轉(zhuǎn)移到圖像生成任務(wù)中,從而實(shí)現(xiàn)更復(fù)雜的圖像生成能力。

  • 對(duì)于低級(jí)視覺任務(wù):

低級(jí)任務(wù)包括低光圖像增強(qiáng)、去雨、去模糊、修復(fù)、外推和著色,其中注釋本身就是圖像;并從GPT-4o生成的指令中隨機(jī)抽取文本指令添加進(jìn)去。

  • 對(duì)于高級(jí)視覺任務(wù):

將所有注釋表示為圖像。

使用LAION作為源圖像,并選取注釋作為目標(biāo)來構(gòu)建圖像對(duì)(如源圖像及其人體姿態(tài)映射)。注釋內(nèi)容包括人體姿態(tài)、深度映射、Canny和分割。

此外引入圖像分割的數(shù)據(jù)集,包括RefCOCO 、ADE20k 和ReasonSeg。

4. 小樣本到圖像

隨機(jī)選擇了一些示例,并將原始輸入與這些示例結(jié)合形成新的輸入。

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

三、OmniGen模型設(shè)計(jì)

1. 設(shè)計(jì)原則

1)通用性:接受任何形式的圖像和文本輸入以用于各種任務(wù);

2) 簡潔性,避免過于復(fù)雜的結(jié)構(gòu)設(shè)計(jì)和眾多的額外組件。

2. 網(wǎng)絡(luò)架構(gòu)

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

OmniGen的框架主要是VAE + 預(yù)訓(xùn)練大規(guī)模transformer。

輸入文本被標(biāo)記化為token,輸入圖像通過VAE轉(zhuǎn)換為嵌入。OmniGen可以接受自由形式的多模態(tài)提示,并通過修正流方法生成圖像。

1)VAE

這里用的架構(gòu)是SDXL,在訓(xùn)練中會(huì)先凍結(jié)。

Stable Diffusion XL是一個(gè)二階段的級(jí)聯(lián)擴(kuò)散模型,包括Base模型和Refiner模型:

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

  • Base模型:主要工作和Stable Diffusion一致,具備文生圖,圖生圖,圖像inpainting等能力。(由U-Net,VAE,CLIP Text Encoder(兩個(gè))三個(gè)模塊組成)
  • Refiner模型:對(duì)Base模型生成的圖像Latent特征進(jìn)行精細(xì)化,其本質(zhì)上是在做圖生圖的工作。(由U-Net,VAE,CLIP Text Encoder(一個(gè))三個(gè)模塊組成)

SDXL和之前的版本也是基于latent diffusion架構(gòu),對(duì)于latent diffusion,首先會(huì)采用一個(gè)auto encoder模型來圖像壓縮為latent,然后擴(kuò)散模型用來生成latent,生成的latent可以通過auto encoder的decoder來重建出圖像。

2)Transformer

文中主要是基于Phi-3初始化。

Phi-3是微軟研究院推出的一系列小型語言模型(SLM),包括phi-3-mini、phi-3-small和phi-3-medium三個(gè)不同規(guī)模的版本,分別適合不同的應(yīng)用場景和需求。具體模型結(jié)構(gòu)可以見下圖。

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

圖引用自“2024最新大模型詳查之:微軟Phi-3系列”(https://zhuanlan.zhihu.com/p/695257957)

3. 輸入格式

模型的輸入是自由形式的多模態(tài)交錯(cuò)文本和圖像。

1)文本:

利用Phi-3的分詞器處理文本,無需任何修改。

2)圖像:

  • 特征提取:使用帶有簡單線性層的VAE來提取潛在表示。然后,通過線性嵌入潛在空間中的每個(gè)patch,將它們展平為一系列視覺token。
  • 對(duì)不同寬高比圖像的處理:對(duì)輸入的視覺token應(yīng)用標(biāo)準(zhǔn)的基于頻率的位置嵌入,并使用與SD3 相同的方法處理具有不同寬高比的圖像。

3)文本和圖像拼接

在將每個(gè)圖像序列插入到文本令牌序列之前,用兩個(gè)特殊令牌:“<img>”和“<\img>”封裝,另外還在輸入序列的末尾添加了時(shí)間步嵌入。

4. 注意力機(jī)制

注意力機(jī)制這里,把圖像應(yīng)該作為一個(gè)整體來建模。

相對(duì)于LLM中的注意力機(jī)制,論文中修改了LLM中常見的因果注意力機(jī)制,對(duì)序列中的每個(gè)元素應(yīng)用因果注意力,但在每個(gè)圖像序列內(nèi)部應(yīng)用雙向注意力。

目的是每個(gè)patch關(guān)注同一圖像內(nèi)的其他patch,同時(shí)確保每個(gè)圖像只能關(guān)注之前出現(xiàn)過的其他圖像或文本序列。

5. 推理

推理過程中,隨機(jī)采樣一個(gè)高斯噪聲,然后應(yīng)用流匹配方法來預(yù)測(cè)目標(biāo)速度,通過多次迭代獲得最終的潛在表示。

最后,使用VAE將潛在表示解碼為預(yù)測(cè)圖像。默認(rèn)的推理步數(shù)設(shè)置為50。

另外,由于注意力機(jī)制的存在,OmniGen可以通過使用kv緩存像LLMs一樣加速推理;存儲(chǔ)輸入的之前時(shí)間步和當(dāng)前時(shí)間步的鍵值狀態(tài)在GPU上來計(jì)算注意力機(jī)制,而不需要冗余計(jì)算。?

四、OmniGen訓(xùn)練策略

1. 訓(xùn)練目標(biāo)

使用修正流來優(yōu)化模型的參數(shù),流匹配通過在線性插值噪聲和數(shù)據(jù)之間進(jìn)行前向過程。在步驟t, xt 定義為

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

其中 x 是原始數(shù)據(jù),?~N(0,1) 是高斯噪聲。模型被訓(xùn)練以直接回歸給定的噪聲數(shù)據(jù) xt 、時(shí)間步 t 和條件信息 c 的目標(biāo)速度。具體而言,目標(biāo)是最小化均方誤差損失:

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

這里, vθ  表示模型預(yù)測(cè)的目標(biāo)速度,θ 是模型參數(shù)。通過最小化上述損失函數(shù),模型能夠?qū)W習(xí)如何從噪聲中恢復(fù)原始數(shù)據(jù),進(jìn)而實(shí)現(xiàn)圖像生成任務(wù)。

這種修正流方法在處理復(fù)雜的多模態(tài)數(shù)據(jù)時(shí)提供了一種有效的方式來訓(xùn)練擴(kuò)散模型,不僅提高了模型的效率,而且通過減少訓(xùn)練時(shí)間和資源消耗,使模型更加易于優(yōu)化。

對(duì)于圖像編輯任務(wù),目標(biāo)是在保持其他區(qū)域不變的同時(shí)修改輸入圖像的特定區(qū)域。

OmniGen會(huì)在圖像發(fā)生變化的區(qū)域放大損失,來避免直接將輸入圖像復(fù)制為輸出的情況,具體是根據(jù)輸入圖像 x′和目標(biāo)圖像 x的潛在表示來計(jì)算每個(gè)區(qū)域的損失權(quán)重:

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

2. 訓(xùn)練流程

在訓(xùn)練過程中需要逐漸增加圖像分辨率。低分辨率在數(shù)據(jù)效率方面表現(xiàn)良好,而高分辨率可以提高生成圖像的美學(xué)質(zhì)量。

五、一些啟發(fā)

1. 多模態(tài)模型中多任務(wù)數(shù)據(jù)非常重要

論文對(duì)比了跟SD3的效果,

從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型-AI.x社區(qū)

  • OmniGen模型只有38億參數(shù),而SD3模型總共有127億參數(shù)(超過三倍);
  • OmniGen模型無額外文本編碼器,而SD3模型采用Enc-Dec架構(gòu)外,還使用了額外的大參數(shù)量Encoder來編碼文本;
  • OmniGen訓(xùn)練數(shù)據(jù)只有1億張圖像數(shù)據(jù),SD3使用了超過10億張圖像。

這確實(shí)說明了多任務(wù)數(shù)據(jù)X2I在提升文本到圖像能力方面的作用,以及多任務(wù)學(xué)習(xí)使模型能夠展現(xiàn)出新興能力。

2. 多模態(tài)統(tǒng)一模型已經(jīng)具備In-context learning能力

當(dāng)提供一個(gè)示例后,OmniGen能夠做出準(zhǔn)確的預(yù)測(cè),這表明上下文學(xué)習(xí)可以增強(qiáng)模型在不同領(lǐng)域的泛化能力。因此也可以嘗試用思維鏈來探索多模態(tài)統(tǒng)一大模型了。

3. 現(xiàn)階段的多模態(tài)大模型還比較脆弱,針對(duì)這些點(diǎn)還有很大的探索和發(fā)論文的空間

主要體現(xiàn)在下面的點(diǎn):

  • 對(duì)文本提示非常敏感:描述的文本也有技巧,越詳細(xì)圖像生成質(zhì)量也會(huì)越高
  • 對(duì)序列長度敏感:目前只能處理短文本段落,受限于算力資源,長圖片序列的處理和生成也有問題
  • 圖像生成的幻覺問題:比如生成細(xì)節(jié)不可控,生成了不合常識(shí)的圖片等
  • 泛化性較差:無法處理沒有見過的圖像類型

其實(shí)多模態(tài)大模型如何通過數(shù)據(jù)集、模型設(shè)計(jì)和訓(xùn)練策略來實(shí)現(xiàn)統(tǒng)一任務(wù)指令對(duì)齊這塊還有很大的研究空間,OmniGen確實(shí)是個(gè)很值得參考和學(xué)習(xí)的例子;還有其他的一些可以發(fā)論文的思路大家也可以一起討論~

參考文獻(xiàn):

[1] OmniGen: Unified Image Generation(https://export.arxiv.org/pdf/2409.11340

[2] https://zhuanlan.zhihu.com/p/721471869

[3]https://blog.csdn.net/weixin_47748259/article/details/135541372

?

本文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/LTfeaKcRLNHXLlv73JKcNQ???

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦