自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

把圖像視為外語,快手、北大多模態(tài)大模型媲美DALLE-3

人工智能 新聞
動態(tài)視覺分詞統(tǒng)一圖文表示,快手與北大合作提出基座模型 LaVIT 刷榜多模態(tài)理解與生成任務。

當前的大型語言模型如 GPT、LLaMA 等在自然語言處理領域取得了顯著進展,能夠理解和生成復雜的文本內(nèi)容。但你是否想過,如果能夠?qū)⒋笳Z言模型這強大的理解和生成能力遷移到多模態(tài)數(shù)據(jù)上,就可以輕松理解海量的圖像與視頻,并輔助創(chuàng)作圖文并茂的內(nèi)容。近期,來自快手和北大合作的最新多模態(tài)大模型 LaVIT, 正在讓這個想法逐步變?yōu)楝F(xiàn)實。

圖片


  • 論文標題:Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
  • 論文地址:https://arxiv.org/abs/2309.04669
  • 代碼模型地址:https://github.com/jy0205/LaVIT

模型總覽

LaVIT 作為一個新型的通用多模態(tài)基礎模型,可以像語言模型那樣,既能夠理解也能生成視覺內(nèi)容。LaVIT 繼承了大語言模型成功的訓練范式,即以自回歸的方式預測下一個圖像或文本 token。在訓練完成后,其可以充當一個多模態(tài)通用接口,無需進一步的微調(diào),就可以執(zhí)行多模態(tài)理解和生成任務。例如,LaVIT 具有以下的能力:

實現(xiàn)高質(zhì)量文本到圖像的生成:LaVIT 能夠根據(jù)給定的文本提示生成高質(zhì)量、多種縱橫比和高美感的圖像。其圖像生成能力與最先進的圖像生成模型(如 Parti、SDXL 和 DALLE-3)相媲美。

根據(jù)多模態(tài)提示進行圖像生成:由于在 LaVIT 中,圖像和文本都被統(tǒng)一表示為離散化的 token,因此其可以接受多種模態(tài)組合(例如文本、圖像 + 文本、圖像 + 圖像)作為提示,生成相應的圖像,而無需進行任何微調(diào)。

理解圖像內(nèi)容并回答問題:在給定輸入圖像的情況下,LaVIT 能夠閱讀圖像內(nèi)容并理解其語義。例如,模型可以為輸入的圖像提供 caption 并回答相應的問題。

圖片

方法概覽

LaVIT 的模型結構如下圖所示,其整個優(yōu)化過程包括兩個階段:

圖:LaVIT 模型的整體架構

階段 1: 動態(tài)視覺分詞器

為了能夠像自然語言一樣理解和生成視覺內(nèi)容,LaVIT 引入了一個設計良好的視覺分詞器,用于將視覺內(nèi)容(連續(xù)信號)轉換為像文本一樣的 token 序列,就像 LLM 能夠理解的外語一樣。作者認為,為了實現(xiàn)統(tǒng)一視覺和語言的建模,該視覺分詞器 (Tokenizer) 應該具有以下兩個特性:

  1. 離散化:視覺 token 應該被表示為像文本一樣的離散化形式。這樣對于兩種模態(tài)采用統(tǒng)一的表示形式,有利于 LaVIT 在一個統(tǒng)一的自回歸生成式訓練框架下,使用相同的分類損失進行多模態(tài)建模優(yōu)化。
  2. 動態(tài):與文本 token 不同的是,圖像 patch 之間有著顯著的相互依賴性,這使得從其他圖像 patch 中推斷另一個 patch 相對簡單。因此,這種依賴性會降低原本 LLM 的 next-token prediction 優(yōu)化目標的有效性。LaVIT 提出通過使用 token merging 來降低視覺 patch 之間的冗余性,其根據(jù)不同圖像語義復雜度的不同,編碼出動態(tài)的視覺 token 數(shù)量。這樣對于復雜程度不同的圖像,采用動態(tài)的 token 編碼也進一步提高了預訓練的效率,避免了冗余的 token 計算。

下圖是 LaVIT 所提出的視覺分詞器結構:

圖片

圖:(a) 動態(tài)視覺 token 生成器 (b) token 合并器

該動態(tài)視覺分詞器包括 token 選擇器和 token 合并器。如圖所示, token 選擇器用來選擇最具信息的圖像區(qū)塊,而 token 合并器則將那些 uninformative 的視覺塊的信息壓縮到保留下的 token 上,實現(xiàn)對冗余 token 的 merging。整個動態(tài)視覺分詞器則通過最大限度地重構輸入圖像的語義進行訓練。

Token 選擇器

Token 選擇器接收 N 個圖像區(qū)塊級的特征作為輸入,其目標是評估每個圖像區(qū)塊的重要性并選擇信息量最高的區(qū)塊,以充分代表整個圖像的語義。為實現(xiàn)這一目標,采用輕量級模塊,由多個 MLP 層組成,用于預測分布 π。通過從分布 π 中采樣,生成一個二進制決策 mask,用于指示是否保留相應的圖像區(qū)塊。

Token 合并器

Token 合并器據(jù)生成的決策掩碼,將 N 個圖像區(qū)塊劃分為保留 X_r 和舍棄 X_d 兩組。與直接丟棄 X_d 不同,token 合并器可以最大限度地保留輸入圖像的詳細語義。token 合并器由 L 個堆疊的塊組成,每個塊包括因果自注意力層、交叉注意力層和前饋層。因果自注意力層中, X_r 中的每個 token 只關注其前面的 token,以確保與 LLM 中的文本 token 形式一致。與雙向自注意相比,這種策略表現(xiàn)更好。交叉注意力層將保留的 token X_r 作為 query,并根據(jù)它們在語義上的相似性合并 X_d 中的 token。

階段 2: 統(tǒng)一的生成式預訓練

經(jīng)過視覺分詞器處理后的視覺 token 與文本 token 相連接形成多模態(tài)序列作為訓練時的輸入。為了區(qū)分兩種模態(tài),作者在圖像 token 序列的開頭和結尾插入了特殊 token :[IMG] 和 [/IMG],用于表示視覺內(nèi)容的開始和結束。為了能夠生成文本和圖像,LaVIT 采用兩種圖文連接形式:[image, text] 和 [text; image]。

對于這些多模態(tài)輸入序列,LaVIT 采用統(tǒng)一的、自回歸方式來直接最大化每個多模態(tài)序列的似然性進行預訓練。這樣在表示空間和訓練方式上的完全統(tǒng)一,有助于 LLM 更好地學習多模態(tài)交互和對齊。在預訓練完成后,LaVIT 具有感知圖像的能力,可以像處理文本一樣理解和生成圖像。

實驗

零樣本多模態(tài)理解

LaVIT 在圖像字幕生成(NoCaps、Flickr30k)和視覺問答(VQAv2、OKVQA、GQA、VizWiz)等零樣本多模態(tài)理解任務上取得了領先的性能。

圖片

表 1 零樣本的多模態(tài)理解任務評估

零樣本多模態(tài)生成

在這個實驗中,由于所提出的視覺 tokenizer 能夠?qū)D像表示為離散化 token,LaVIT 具有通過自回歸生成類似文本的視覺 token 來合成圖像的能力。作者對模型進行了零樣本文本條件下的圖像合成性能的定量評估,比較結果如表 2 所示。

圖片

表 2 不同模型的零樣本文本到圖像生成性能

從表中可以看出,LaVIT 的表現(xiàn)優(yōu)于所有其他多模態(tài)語言模型。與 Emu 相比,LaVIT 在更小的 LLM 模型上取得了進一步改進,展現(xiàn)了出色的視覺 - 語言對齊能力。此外,LaVIT 在使用更少的訓練數(shù)據(jù)的情況下,實現(xiàn)了與最先進的文本到圖像專家 Parti 可比的性能。

多模態(tài)提示圖像生成

LaVIT 能夠在無需進行任何微調(diào)的情況下,無縫地接受多種模態(tài)組合作為提示,生成相應的圖像,而無需進行任何微調(diào)。LaVIT 生成的圖像能夠準確反映給定多模態(tài)提示的風格和語義。而且它可以通過輸入的多模態(tài)提示修改原始輸入圖像。在沒有額外微調(diào)的下游數(shù)據(jù)的情況下,傳統(tǒng)的圖像生成模型如 Stable Diffusion 無法達到這種能力。

圖片

多模態(tài)圖像生成結果的示例

定性分析

如下圖所示,LaVIT 的動態(tài)分詞器可以根據(jù)圖像內(nèi)容動態(tài)選擇最具信息量的圖像塊,學習到的代碼本可以產(chǎn)生具有高層語義的視覺編碼。

圖片

動態(tài)視覺分詞器(左)和學習到的 codebook(右)的可視化

總結

LaVIT 的出現(xiàn)為多模態(tài)任務的處理又提供了一種創(chuàng)新范式,通過使用動態(tài)視覺分詞器將視覺和語言表示為統(tǒng)一的離散 token 表示,繼承了 LLM 成功的自回歸生成學習范式。通過在統(tǒng)一生成目標下進行優(yōu)化,LaVIT 可以將圖像視為一種外語,像文本一樣理解和生成它們。這一方法的成功為未來多模態(tài)研究的發(fā)展方向提供了新的啟示,利用 LLM 強大的推理能力,實現(xiàn)更智能、更全面的多模態(tài)理解和生成打開新的可能性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-20 13:18:46

模型多模態(tài)體系

2023-11-29 15:00:00

數(shù)據(jù)訓練

2025-02-18 09:10:00

2025-01-08 08:21:16

2024-07-16 13:18:36

2024-10-24 23:37:33

2024-08-13 15:00:00

大模型提示學習

2021-01-18 15:28:13

加密貨幣比特幣貨幣

2025-02-07 11:00:00

模型開源AI

2025-04-10 06:30:00

2023-10-16 12:31:17

人工智能數(shù)據(jù)

2024-12-30 00:01:00

多模態(tài)大模型Python

2023-09-28 07:24:13

KOSMOS模型文檔

2023-09-12 13:59:41

OpenAI數(shù)據(jù)集

2024-07-29 08:52:00

模型數(shù)據(jù)

2024-09-25 14:53:00

2025-02-26 13:00:00

2024-11-13 09:39:13

點贊
收藏

51CTO技術棧公眾號