自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

在圖像、視頻生成上,語言模型首次擊敗擴(kuò)散模型,tokenizer是關(guān)鍵

人工智能 新聞
為什么語言模型在視覺生成方面落后于擴(kuò)散模型?來自谷歌、CMU 的研究表明,tokenizer 是關(guān)鍵。

大型語言模型(LLM 或 LM)一開始是用來生成語言的,但隨著時(shí)間的推移,它們已經(jīng)能夠生成多種模態(tài)的內(nèi)容,并在音頻、語音、代碼生成、醫(yī)療應(yīng)用、機(jī)器人學(xué)等領(lǐng)域開始占據(jù)主導(dǎo)地位。

當(dāng)然,LM 也能生成圖像和視頻。在此過程中,圖像像素會(huì)被視覺 tokenizer 映射為一系列離散的 token。然后,這些 token 被送入 LM transformer,就像詞匯一樣被用于生成建模。盡管 LM 在視覺生成方面取得了顯著進(jìn)步,但 LM 的表現(xiàn)仍然不如擴(kuò)散模型。例如,在圖像生成的金標(biāo)基準(zhǔn) —ImageNet 數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),最佳語言模型的表現(xiàn)比擴(kuò)散模型差了 48% 之多(以 256?256 分辨率生成圖像時(shí),F(xiàn)ID 為 3.41 對(duì) 1.79)。

為什么語言模型在視覺生成方面落后于擴(kuò)散模型?來自谷歌、CMU 的研究者認(rèn)為,主要原因是缺乏一個(gè)良好的視覺表示,類似于我們的自然語言系統(tǒng),以有效地建模視覺世界。為了證實(shí)這一假設(shè),他們進(jìn)行了一項(xiàng)研究。

論文鏈接:https://arxiv.org/pdf/2310.05737.pdf

這項(xiàng)研究表明,在相同的訓(xùn)練數(shù)據(jù)、可比模型大小和訓(xùn)練預(yù)算條件下,利用良好的視覺 tokenizer,掩碼語言模型在圖像和視頻基準(zhǔn)的生成保真度和效率方面都超過了 SOTA 擴(kuò)散模型。這是語言模型在標(biāo)志性的 ImageNet 基準(zhǔn)上擊敗擴(kuò)散模型的首個(gè)證據(jù)。

需要強(qiáng)調(diào)的是,研究者的目的不是斷言語言模型是否優(yōu)于其他模型,而是促進(jìn) LLM 視覺 tokenization 方法的探索。LLM 與其他模型(如擴(kuò)散模型)的根本區(qū)別在于,LLM 使用離散的潛在格式,即從可視化 tokenizer 獲得的 token。這項(xiàng)研究表明,這些離散的視覺 token 的價(jià)值不應(yīng)該被忽視,因?yàn)樗鼈兇嬖谝韵聝?yōu)勢(shì): 

1、與 LLM 的兼容性。token 表示的主要優(yōu)點(diǎn)是它與語言 token 共享相同的形式,從而可以直接利用社區(qū)多年來為開發(fā) LLM 所做的優(yōu)化,包括更快的訓(xùn)練和推理速度、模型基礎(chǔ)設(shè)施的進(jìn)步、擴(kuò)展模型的方法以及 GPU/TPU 優(yōu)化等創(chuàng)新。通過相同的 token 空間統(tǒng)一視覺和語言可以為真正的多模態(tài) LLM 奠定基礎(chǔ),后者可以在我們的視覺環(huán)境中理解、生成和推理。

2、壓縮表示。離散 token 可以為視頻壓縮提供一個(gè)新的視角。可視化 token 可以作為一種新的視頻壓縮格式,以減少數(shù)據(jù)在互聯(lián)網(wǎng)傳輸過程中占用的磁盤存儲(chǔ)和帶寬。與壓縮的 RGB 像素不同,這些 token 可以直接輸入生成模型,繞過傳統(tǒng)的解壓縮和潛在編碼步驟。這可以加快生成視頻應(yīng)用的處理速度,在邊緣計(jì)算情況下尤其有益。

3、視覺理解優(yōu)勢(shì)。先前的研究表明,離散 token 在自監(jiān)督表示學(xué)習(xí)中作為預(yù)訓(xùn)練目標(biāo)是有價(jià)值的,如 BEiT 和 BEVT 中所討論的那樣。此外,研究發(fā)現(xiàn),使用 token 作為模型輸入提高了魯棒性和泛化性。

在這篇論文中,研究者提出了一個(gè)名為 MAGVIT-v2 的視頻 tokenizer,旨在將視頻(和圖像)映射為緊湊的離散 token。

該模型建立在 VQ-VAE 框架內(nèi)的 SOTA 視頻 tokenizer——MAGVIT 基礎(chǔ)上?;诖耍芯空咛岢隽藘煞N新技術(shù):1)一種新穎的無查找(lookup-free)量化方法,使得大量詞匯的學(xué)習(xí)成為可能,以提高語言模型的生成質(zhì)量;2)通過廣泛的實(shí)證分析,他們確定了對(duì) MAGVIT 的修改方案,不僅提高了生成質(zhì)量,而且還允許使用共享詞匯表對(duì)圖像和視頻進(jìn)行 token 化。

實(shí)驗(yàn)結(jié)果表明,新模型在三個(gè)關(guān)鍵領(lǐng)域優(yōu)于先前表現(xiàn)最好的視頻 tokenizer——MAGVIT。首先,新模型顯著提高了 MAGVIT 的生成質(zhì)量,在常見的圖像和視頻基準(zhǔn)上刷新了 SOTA。其次,用戶研究表明,其壓縮質(zhì)量超過了 MAGVIT 和當(dāng)前的視頻壓縮標(biāo)準(zhǔn) HEVC。此外,它與下一代視頻編解碼器 VVC 相當(dāng)。最后,研究者表明,與 MAGVIT 相比,他們的新 token 在兩個(gè)設(shè)置和三個(gè)數(shù)據(jù)集的視頻理解任務(wù)中表現(xiàn)更強(qiáng)。

方法介紹

本文引入了一種新的視頻 tokenizer,旨在將視覺場(chǎng)景中的時(shí)間 - 空間動(dòng)態(tài)映射為適合語言模型的緊湊離散 token。此外,該方法建立在 MAGVIT 的基礎(chǔ)上。

隨后,該研究重點(diǎn)介紹了兩種新穎的設(shè)計(jì):無查找量化(Lookup-Free Quantization ,LFQ)和 tokenizer 模型的增強(qiáng)功能。

無查找量化

最近一段時(shí)間,VQ-VAE 模型取得巨大進(jìn)展,但該方法存在一個(gè)缺點(diǎn),即重建質(zhì)量的改進(jìn)與后續(xù)生成質(zhì)量之間的關(guān)系不明確。很多人誤以為改進(jìn)重建就等于改進(jìn)語言模型的生成,例如,擴(kuò)大詞匯量可以提高重建質(zhì)量。然而,這種改進(jìn)僅適用于詞匯量較小時(shí)的生成,而詞匯量非常大時(shí)會(huì)損害語言模型的性能。

本文將 VQ-VAE codebook 嵌入維度縮減到 0 ,即 Codebook 圖片被替換為一個(gè)整數(shù)集圖片,其中圖片。

與 VQ-VAE 模型不同的是,這種新設(shè)計(jì)完全消除了對(duì)嵌入查找的需要,因此將其稱為 LFQ。本文發(fā)現(xiàn) LFQ 可以通過增加詞匯量,提高語言模型的生成質(zhì)量。如圖 1 中的藍(lán)色曲線所示,隨著詞匯量的增加,重建和生成都不斷改進(jìn) —— 這是當(dāng)前 VQ-VAE 方法中未觀察到的特性。

到目前為止,可用的 LFQ 方法很多,但本文討論了一種簡(jiǎn)單的變體。具體來說,LFQ 的潛在空間被分解為單維變量的笛卡爾積,即 圖片。假定給定一個(gè)特征向量圖片,量化表示  q (z) 的每個(gè)維度從以下獲得:

圖片

對(duì)于 LFQ ,q (z) 的 token 索引為:

圖片

除此以外,本文在訓(xùn)練過程中還增加了熵懲罰:

視覺 tokenizer 模型的改進(jìn)

聯(lián)合圖像 - 視頻 tokenization。為了構(gòu)建聯(lián)合圖像 - 視頻 tokenizer,需要一種新的設(shè)計(jì)。本文發(fā)現(xiàn) 3D CNN 的性能比空間 transformer 更好。

本文探索了兩種可行的設(shè)計(jì)方案,如圖 2b 將 C-ViViT 與 MAGVIT 進(jìn)行結(jié)合;圖 2c 使用時(shí)間因果 3D 卷積來代替常規(guī) 3D CNN。 

表 5a 對(duì)圖 2 中的設(shè)計(jì)進(jìn)行了經(jīng)驗(yàn)比較,發(fā)現(xiàn)因果 3D CNN 表現(xiàn)最好。

除了使用因果 3D CNN 層之外,本文還進(jìn)行了其他架構(gòu)的修改,以提高 MAGVIT 性能,比如本文將編碼器下采樣器從平均池化更改為跨步卷積;又比如在解碼器中每個(gè)分辨率的殘差塊之前添加一個(gè)自適應(yīng)組歸一化層等。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)從三個(gè)部分驗(yàn)證了本文提出的 tokenizer 的性能:視頻和圖像生成、視頻壓縮,動(dòng)作識(shí)別。圖 3 直觀地比較了 tokenizer 與先前研究的結(jié)果對(duì)比。

視頻生成。表 1 顯示了本文模型在兩個(gè)基準(zhǔn)測(cè)試中都超越了所有現(xiàn)有技術(shù),證明了良好的視覺 tokenizer 在使 LM 生成高質(zhì)量視頻方面發(fā)揮著重要作用。

圖片

圖 4 顯示了模型的定性樣本。

圖片

圖像生成。本文在標(biāo)準(zhǔn) ImageNet 類條件設(shè)置下對(duì) MAGVIT-v2 的圖像生成結(jié)果進(jìn)行了評(píng)估。結(jié)果表明本文模型在采樣質(zhì)量(ID 和 IS)和推理時(shí)間效率(采樣步驟)方面都超過了表現(xiàn)最好的擴(kuò)散模型。

圖片

圖 5 為可視化結(jié)果。

圖片

視頻壓縮。結(jié)果如表 3 所示,本文模型在所有指標(biāo)上都優(yōu)于 MAGVIT,并且在 LPIPS 上優(yōu)于所有方法。

視頻理解。如表 4 所示,MAGVIT-v2 在這些評(píng)估中優(yōu)于之前最好的 MAGVIT。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-16 12:31:17

人工智能數(shù)據(jù)

2022-10-19 14:17:32

圖像模型

2024-09-24 15:51:02

2024-12-26 11:48:27

2024-05-10 07:58:03

2024-03-20 00:00:00

StabilityAI開源人工智能

2025-04-09 13:11:27

2023-12-20 14:54:29

谷歌Gen-2視頻

2024-12-04 11:07:09

2024-09-10 11:21:30

2025-04-22 09:17:00

模型生成開源

2023-04-03 10:04:44

開源模型

2024-11-25 08:20:00

2025-04-16 09:20:00

虛擬模型數(shù)字

2025-04-28 09:35:00

2024-11-12 13:10:49

2025-03-17 11:35:36

LLaDALLM大型語言模型

2023-10-23 12:43:05

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)