自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

統(tǒng)一Transformer與Diffusion!Meta融合新方法劍指下一代多模態(tài)王者

人工智能 新聞
本文引入了 Transfusion,這是一種可以在離散和連續(xù)數(shù)據(jù)上訓(xùn)練多模態(tài)模型的方法。

一般來(lái)說(shuō),多模態(tài)生成模型需要能夠感知、處理和生成離散元素(如文本或代碼)和連續(xù)元素(如圖像、音頻和視頻數(shù)據(jù))。

在離散模態(tài)領(lǐng)域,以預(yù)測(cè)下一個(gè)詞為目標(biāo)的語(yǔ)言模型占據(jù)主導(dǎo)地位,而在生成連續(xù)模態(tài)方面,擴(kuò)散模型及其泛化形式則是當(dāng)前最先進(jìn)技術(shù)。

研究者一直試圖將語(yǔ)言模型與擴(kuò)散模型結(jié)合,一種方法是直接擴(kuò)展語(yǔ)言模型,使其能夠利用擴(kuò)散模型作為一個(gè)工具,或者將一個(gè)預(yù)訓(xùn)練的擴(kuò)散模型嫁接到語(yǔ)言模型上。另一種替代方案是對(duì)連續(xù)模態(tài)進(jìn)行量化處理,然后在離散的 token 上訓(xùn)練一個(gè)標(biāo)準(zhǔn)的語(yǔ)言模型,這種方法雖然簡(jiǎn)化了模型架構(gòu),但也會(huì)造成信息的丟失。

在這項(xiàng)工作中,來(lái)自 Meta 、 Waymo 等機(jī)構(gòu)的研究者展示了通過(guò)訓(xùn)練單個(gè)模型來(lái)預(yù)測(cè)離散文本 token 和擴(kuò)散連續(xù)圖像,從而實(shí)現(xiàn)兩種模態(tài)的完全集成,且不會(huì)丟失任何信息。

具體而言,本文引入了一個(gè)訓(xùn)練模型的新方法 Transfusion,能夠無(wú)縫地生成離散和連續(xù)的模態(tài)。Transfusion 將語(yǔ)言模型損失函數(shù)與擴(kuò)散相結(jié)合,在混合模態(tài)序列上訓(xùn)練單個(gè) transformer。

該研究還在文本和圖像數(shù)據(jù)混合基礎(chǔ)上從頭開始預(yù)訓(xùn)練多個(gè) Transfusion 模型,最多可達(dá)到 7B 參數(shù)量,并針對(duì)各種單模態(tài)和跨模態(tài)基準(zhǔn)建立擴(kuò)展定律。

圖片

  • 論文地址:https://arxiv.org/pdf/2408.11039
  • 論文標(biāo)題:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

實(shí)驗(yàn)表明,Transfusion 的擴(kuò)展能力顯著優(yōu)于將圖像量化并在離散圖像 token 上訓(xùn)練語(yǔ)言模型的方法。通過(guò)引入特定于模態(tài)的編碼和解碼層,該研究證明可以進(jìn)一步提高 Transfusion 模型的性能,并且甚至可以將每張圖像壓縮到僅 16 個(gè) patch。

最后將 Transfusion 方法擴(kuò)展到 70 億參數(shù)和 2 萬(wàn)億多模態(tài) token,能夠生成與相似規(guī)模的擴(kuò)散模型和語(yǔ)言模型相媲美的圖像和文本,從而獲得兩個(gè)領(lǐng)域的優(yōu)勢(shì)。這意味著 Transfusion 模型不僅能夠處理圖像和文本的生成,還能在這兩種類型的生成上達(dá)到領(lǐng)先水平,有效地結(jié)合了圖像和文本生成的優(yōu)點(diǎn)。 

在 GenEval 基準(zhǔn)測(cè)試中,本文模型(7B)優(yōu)于其他流行模型,例如 DALL-E 2 和 SDXL;與那些圖像生成模型不同,它可以生成文本,在文本基準(zhǔn)測(cè)試中達(dá)到與 Llama 1 相同的性能水平。因此,Transfusion 是一種很有前途的訓(xùn)練真正多模態(tài)模型的方法。

Transfusion 介紹

Transfusion 是一種訓(xùn)練單一統(tǒng)一模型來(lái)理解和生成離散和連續(xù)模態(tài)的方法。本文的主要?jiǎng)?chuàng)新是證明了可以在共享數(shù)據(jù)和參數(shù)上對(duì)不同模態(tài)使用單獨(dú)的損失(針對(duì)文本使用語(yǔ)言建模,針對(duì)圖像使用擴(kuò)散)。圖 1 說(shuō)明了 Transfusion。

圖片

模型架構(gòu):模型中的大部分參數(shù)來(lái)自單個(gè) transformer,用來(lái)處理每一個(gè)序列,不論其模態(tài)如何。Transformer 接收一系列高維向量作為輸入,并產(chǎn)生相似的向量作為輸出。研究者為了將數(shù)據(jù)轉(zhuǎn)換成這種空間,他們使用了具有非共享參數(shù)的輕量級(jí)特定于模態(tài)的組件。

對(duì)于文本,這些是嵌入矩陣,Transformer 將每個(gè)輸入的整數(shù)轉(zhuǎn)換成向量空間,每個(gè)輸出向量轉(zhuǎn)換成一個(gè)關(guān)于詞匯表的離散分布。

對(duì)于圖像,研究者嘗試了兩種方法來(lái)壓縮 k×k patch 向量的局部窗口到一個(gè)單一 transformer 向量(以及反向操作):(1)一個(gè)簡(jiǎn)單的線性層;(2)U-Net 的 up 和 down 塊。圖 3 展示了整體架構(gòu)。 

圖片

Transfusion 注意力:語(yǔ)言模型通常使用因果掩碼來(lái)有效地計(jì)算單個(gè)前向 - 后向傳播中整個(gè)序列的損失和梯度,而不會(huì)泄露未來(lái) token 的信息。雖然文本是自然連續(xù)的,但圖像不是,并且通常使用不受限制的(雙向)注意力進(jìn)行建模。

Transfusion 通過(guò)將因果注意力應(yīng)用于序列中的每個(gè)元素,并將雙向注意力應(yīng)用于每個(gè)單獨(dú)圖像的元素中,從而結(jié)合了兩種注意力模式。這使得每個(gè)圖像 patch 能夠關(guān)注同一圖像中的每一個(gè)其他 patch,但只限于關(guān)注序列中之前出現(xiàn)的文本或其他圖像的 patch 。這種設(shè)計(jì)允許圖像內(nèi)部的高效信息交流,同時(shí)限制了與序列前面內(nèi)容的交互,有助于模型在處理復(fù)雜數(shù)據(jù)序列時(shí),更好地聚焦和整合相關(guān)信息。圖 4 顯示了 Transfusion 注意力掩碼的示例。

圖片

訓(xùn)練目標(biāo):為了訓(xùn)練模型,研究者將語(yǔ)言建模目標(biāo)圖片應(yīng)用于文本 token 的預(yù)測(cè);將擴(kuò)散目標(biāo)圖片應(yīng)用于圖像 patch 的預(yù)測(cè)??倱p失可以表示為如下形式:

圖片

實(shí)驗(yàn)結(jié)果

該研究通過(guò)實(shí)驗(yàn)證明了 Transfusion 是一種可行、可擴(kuò)展的統(tǒng)一多模態(tài)模型訓(xùn)練方法。研究者在一系列標(biāo)準(zhǔn)的單模態(tài)和跨模態(tài)基準(zhǔn)上評(píng)估模型性能,如表 1 所示。

圖片

圖 5 直觀顯示了擴(kuò)展趨勢(shì)。在每個(gè)基準(zhǔn)測(cè)試中,Transfusion 始終表現(xiàn)出比 Chameleon 更好的擴(kuò)展規(guī)律。雖然線條接近平行,但 Transfusion 的優(yōu)勢(shì)更明顯。

圖片

圖片

該研究在 2T token 的數(shù)據(jù)集上訓(xùn)練了一個(gè) 7B 參數(shù)模型,生成的圖像如下所示:

圖片

表 9 顯示,Transfusion 實(shí)現(xiàn)了與 DeepFloyd 等高性能圖像生成模型類似的性能,同時(shí)超越了之前發(fā)布的模型,包括 SDXL。

圖片

圖像編輯。經(jīng)過(guò)微調(diào)的 Transfusion 模型可以按照指示執(zhí)行圖像編輯,比如將紙杯蛋糕從盤子中移除。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2013-07-27 21:28:44

2025-01-03 09:24:10

模型架構(gòu)論文

2024-08-26 07:40:00

AI訓(xùn)練

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語(yǔ)言

2013-06-28 14:20:53

網(wǎng)絡(luò)安全

2013-07-27 21:41:14

APT攻擊下一代威脅

2012-10-29 12:23:44

BYODIT

2011-12-13 09:44:50

下一代防火墻NGFW UTM統(tǒng)一威脅管理

2013-06-27 11:21:17

2012-07-16 09:27:19

BYOD下一代IT

2012-07-16 10:08:31

下一代ITBYOD

2013-05-21 13:04:45

云計(jì)算網(wǎng)絡(luò)融合

2009-01-08 09:51:00

IMS多媒體子系統(tǒng)網(wǎng)絡(luò)融合

2013-08-20 12:26:41

FusionCube融合一體機(jī)華為

2020-09-27 17:27:58

邊緣計(jì)算云計(jì)算技術(shù)

2020-09-16 10:28:54

邊緣計(jì)算云計(jì)算數(shù)據(jù)中心

2016-01-26 11:58:12

2013-09-09 16:28:36

2009-07-12 14:03:31

2021-05-25 14:02:40

人工智能商業(yè)智能軟件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)