自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="0qjtc"></cite>

<table id="0qjtc"><strong id="0qjtc"></strong></table>

<rt id="0qjtc"></rt>

<sub id="0qjtc"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

把圖像視為外語，快手、北大多模態(tài)大模型媲美DALLE-3

作者：機器之心 2024-01-30 13:17:00

人工智能新聞

動態(tài)視覺分詞統(tǒng)一圖文表示，快手與北大合作提出基座模型 LaVIT 刷榜多模態(tài)理解與生成任務。

當前的大型語言模型如 GPT、LLaMA 等在自然語言處理領域取得了顯著進展，能夠理解和生成復雜的文本內(nèi)容。但你是否想過，如果能夠?qū)⒋笳Z言模型這強大的理解和生成能力遷移到多模態(tài)數(shù)據(jù)上，就可以輕松理解海量的圖像與視頻，并輔助創(chuàng)作圖文并茂的內(nèi)容。近期，來自快手和北大合作的最新多模態(tài)大模型 LaVIT, 正在讓這個想法逐步變?yōu)楝F(xiàn)實。

論文標題：Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
論文地址：https://arxiv.org/abs/2309.04669
代碼模型地址：https://github.com/jy0205/LaVIT

模型總覽

LaVIT 作為一個新型的通用多模態(tài)基礎模型，可以像語言模型那樣，既能夠理解也能生成視覺內(nèi)容。LaVIT 繼承了大語言模型成功的訓練范式，即以自回歸的方式預測下一個圖像或文本 token。在訓練完成后，其可以充當一個多模態(tài)通用接口，無需進一步的微調(diào)，就可以執(zhí)行多模態(tài)理解和生成任務。例如，LaVIT 具有以下的能力：

實現(xiàn)高質(zhì)量文本到圖像的生成：LaVIT 能夠根據(jù)給定的文本提示生成高質(zhì)量、多種縱橫比和高美感的圖像。其圖像生成能力與最先進的圖像生成模型（如 Parti、SDXL 和 DALLE-3）相媲美。

根據(jù)多模態(tài)提示進行圖像生成：由于在 LaVIT 中，圖像和文本都被統(tǒng)一表示為離散化的 token，因此其可以接受多種模態(tài)組合（例如文本、圖像 + 文本、圖像 + 圖像）作為提示，生成相應的圖像，而無需進行任何微調(diào)。

理解圖像內(nèi)容并回答問題：在給定輸入圖像的情況下，LaVIT 能夠閱讀圖像內(nèi)容并理解其語義。例如，模型可以為輸入的圖像提供 caption 并回答相應的問題。

方法概覽

LaVIT 的模型結構如下圖所示，其整個優(yōu)化過程包括兩個階段：

圖：LaVIT 模型的整體架構

階段 1: 動態(tài)視覺分詞器

為了能夠像自然語言一樣理解和生成視覺內(nèi)容，LaVIT 引入了一個設計良好的視覺分詞器，用于將視覺內(nèi)容（連續(xù)信號）轉換為像文本一樣的 token 序列，就像 LLM 能夠理解的外語一樣。作者認為，為了實現(xiàn)統(tǒng)一視覺和語言的建模，該視覺分詞器 (Tokenizer) 應該具有以下兩個特性：

離散化：視覺 token 應該被表示為像文本一樣的離散化形式。這樣對于兩種模態(tài)采用統(tǒng)一的表示形式，有利于 LaVIT 在一個統(tǒng)一的自回歸生成式訓練框架下，使用相同的分類損失進行多模態(tài)建模優(yōu)化。
動態(tài)化：與文本 token 不同的是，圖像 patch 之間有著顯著的相互依賴性，這使得從其他圖像 patch 中推斷另一個 patch 相對簡單。因此，這種依賴性會降低原本 LLM 的 next-token prediction 優(yōu)化目標的有效性。LaVIT 提出通過使用 token merging 來降低視覺 patch 之間的冗余性，其根據(jù)不同圖像語義復雜度的不同，編碼出動態(tài)的視覺 token 數(shù)量。這樣對于復雜程度不同的圖像，采用動態(tài)的 token 編碼也進一步提高了預訓練的效率，避免了冗余的 token 計算。

下圖是 LaVIT 所提出的視覺分詞器結構：

圖：(a) 動態(tài)視覺 token 生成器 (b) token 合并器

該動態(tài)視覺分詞器包括 token 選擇器和 token 合并器。如圖所示， token 選擇器用來選擇最具信息的圖像區(qū)塊，而 token 合并器則將那些 uninformative 的視覺塊的信息壓縮到保留下的 token 上，實現(xiàn)對冗余 token 的 merging。整個動態(tài)視覺分詞器則通過最大限度地重構輸入圖像的語義進行訓練。

Token 選擇器

Token 選擇器接收 N 個圖像區(qū)塊級的特征作為輸入，其目標是評估每個圖像區(qū)塊的重要性并選擇信息量最高的區(qū)塊，以充分代表整個圖像的語義。為實現(xiàn)這一目標，采用輕量級模塊，由多個 MLP 層組成，用于預測分布 π。通過從分布 π 中采樣，生成一個二進制決策 mask，用于指示是否保留相應的圖像區(qū)塊。

Token 合并器

Token 合并器據(jù)生成的決策掩碼，將 N 個圖像區(qū)塊劃分為保留 X_r 和舍棄 X_d 兩組。與直接丟棄 X_d 不同，token 合并器可以最大限度地保留輸入圖像的詳細語義。token 合并器由 L 個堆疊的塊組成，每個塊包括因果自注意力層、交叉注意力層和前饋層。因果自注意力層中， X_r 中的每個 token 只關注其前面的 token，以確保與 LLM 中的文本 token 形式一致。與雙向自注意相比，這種策略表現(xiàn)更好。交叉注意力層將保留的 token X_r 作為 query，并根據(jù)它們在語義上的相似性合并 X_d 中的 token。

階段 2: 統(tǒng)一的生成式預訓練

經(jīng)過視覺分詞器處理后的視覺 token 與文本 token 相連接形成多模態(tài)序列作為訓練時的輸入。為了區(qū)分兩種模態(tài)，作者在圖像 token 序列的開頭和結尾插入了特殊 token ：[IMG] 和 [/IMG]，用于表示視覺內(nèi)容的開始和結束。為了能夠生成文本和圖像，LaVIT 采用兩種圖文連接形式：[image, text] 和 [text; image]。

對于這些多模態(tài)輸入序列，LaVIT 采用統(tǒng)一的、自回歸方式來直接最大化每個多模態(tài)序列的似然性進行預訓練。這樣在表示空間和訓練方式上的完全統(tǒng)一，有助于 LLM 更好地學習多模態(tài)交互和對齊。在預訓練完成后，LaVIT 具有感知圖像的能力，可以像處理文本一樣理解和生成圖像。

實驗

零樣本多模態(tài)理解

LaVIT 在圖像字幕生成（NoCaps、Flickr30k）和視覺問答（VQAv2、OKVQA、GQA、VizWiz）等零樣本多模態(tài)理解任務上取得了領先的性能。

表 1 零樣本的多模態(tài)理解任務評估

零樣本多模態(tài)生成

在這個實驗中，由于所提出的視覺 tokenizer 能夠?qū)D像表示為離散化 token，LaVIT 具有通過自回歸生成類似文本的視覺 token 來合成圖像的能力。作者對模型進行了零樣本文本條件下的圖像合成性能的定量評估，比較結果如表 2 所示。

表 2 不同模型的零樣本文本到圖像生成性能

從表中可以看出，LaVIT 的表現(xiàn)優(yōu)于所有其他多模態(tài)語言模型。與 Emu 相比，LaVIT 在更小的 LLM 模型上取得了進一步改進，展現(xiàn)了出色的視覺 - 語言對齊能力。此外，LaVIT 在使用更少的訓練數(shù)據(jù)的情況下，實現(xiàn)了與最先進的文本到圖像專家 Parti 可比的性能。

多模態(tài)提示圖像生成

LaVIT 能夠在無需進行任何微調(diào)的情況下，無縫地接受多種模態(tài)組合作為提示，生成相應的圖像，而無需進行任何微調(diào)。LaVIT 生成的圖像能夠準確反映給定多模態(tài)提示的風格和語義。而且它可以通過輸入的多模態(tài)提示修改原始輸入圖像。在沒有額外微調(diào)的下游數(shù)據(jù)的情況下，傳統(tǒng)的圖像生成模型如 Stable Diffusion 無法達到這種能力。

多模態(tài)圖像生成結果的示例

定性分析

如下圖所示，LaVIT 的動態(tài)分詞器可以根據(jù)圖像內(nèi)容動態(tài)選擇最具信息量的圖像塊，學習到的代碼本可以產(chǎn)生具有高層語義的視覺編碼。

動態(tài)視覺分詞器（左）和學習到的 codebook（右）的可視化

總結

LaVIT 的出現(xiàn)為多模態(tài)任務的處理又提供了一種創(chuàng)新范式，通過使用動態(tài)視覺分詞器將視覺和語言表示為統(tǒng)一的離散 token 表示，繼承了 LLM 成功的自回歸生成學習范式。通過在統(tǒng)一生成目標下進行優(yōu)化，LaVIT 可以將圖像視為一種外語，像文本一樣理解和生成它們。這一方法的成功為未來多模態(tài)研究的發(fā)展方向提供了新的啟示，利用 LLM 強大的推理能力，實現(xiàn)更智能、更全面的多模態(tài)理解和生成打開新的可能性。

責任編輯：張燕妮來源：機器之心

AI 數(shù)據(jù)

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<xmp id="uc9qw"><cite id="uc9qw"><rp id="uc9qw"></rp></cite></xmp>