自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="rhcoq"></cite>

<sub id="rhcoq"></sub>

<sup id="rhcoq"><rt id="rhcoq"></rt></sup>

<cite id="rhcoq"><rp id="rhcoq"><form id="rhcoq"></form></rp></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI沒說的秘密，Meta全揭了？華人一作GPT-4o同款技術(shù)，爆打擴散王者

作者：新智元 2025-04-28 09:10:00

人工智能新聞

自回歸模型，首次生成2048×2048分辨率圖像！來自Meta、西北大學(xué)、新加坡國立大學(xué)等機構(gòu)的研究人員，專門為多模態(tài)大語言模型（MLLMs）設(shè)計的TokenShuffle，顯著減少了計算中的視覺Token數(shù)量，提升效率并支持高分辨率圖像合成。

GPT-4o生成的第一視角機器人打字圖

這次，來自Meta等機構(gòu)的研究者，發(fā)現(xiàn)在多模態(tài)大語言模型（MLLMs）中，視覺詞表存在維度冗余：視覺編碼器輸出的低維視覺特征，被直接映射到高維語言詞表空間。

研究者提出了一種簡單而新穎的Transformer圖像token壓縮方法：Token-Shuffle。

他們設(shè)計了兩項關(guān)鍵操作：

token混洗（token-shuffle）：沿通道維度合并空間局部token，用來減少輸入token數(shù)；
token解混（token-unshuffle）：在Transformer塊后解構(gòu)推斷token，用來恢復(fù)輸出空間結(jié)構(gòu)。

在輸入準備階段，通過一個MLP模塊將空間上相鄰的token進行融合，形成一個壓縮后的token，同時保留局部的關(guān)鍵信息。

對于打亂窗口大小為s的情況，token數(shù)量會按s的平方減少，從而大幅降低Transformer的運算量。

圖3：視覺詞匯維度冗余的示意圖。左側(cè)：通過兩個MLP操作將視覺token的秩降低r倍。右側(cè)：不同r值下的預(yù)訓(xùn)練損失（對數(shù)刻度困惑度）

在經(jīng)過Transformer層處理后，token-unshuffle操作重新還原出原本的空間排列過程。這一階段同樣借助了輕量級的MLP模塊。

本質(zhì)上，新方法在訓(xùn)練和推理過程中并未真正減少序列長度，而是在Transformer計算過程中，有效減少了token數(shù)量，從而加速計算。

圖4直觀地展示了新方法在效率上的提升。

圖4：Token-Shuffle能夠?qū)崿F(xiàn)計算效率的二次提升

通過在Transformer計算期間壓縮token序列，Token-Shuffle實現(xiàn)了高效的高分辨率圖像生成，包括支持2048×2048分辨率的圖像。

重要的是，這種方法無需對Transformer架構(gòu)本身進行修改，也不引入輔助損失函數(shù)或需要額外預(yù)訓(xùn)練的編碼器。

此外，該方法還集成了一個針對自回歸生成專門調(diào)整的無分類器引導(dǎo)（Classifier-Free Guidance，CFG）調(diào)度器。

不同于傳統(tǒng)的固定引導(dǎo)強度，新的CFG調(diào)度器在推理過程中逐步調(diào)整引導(dǎo)力度，減少早期token生成的偽影問題，并進一步提升文本與圖像的對齊效果。

研究者探索了幾種CFG調(diào)度策略，相關(guān)結(jié)果展示在圖5中。

根據(jù)視覺質(zhì)量和人類評估的反饋，默認采用「半線性」（half-linear）調(diào)度器，以獲得更好的生成效果。

圖5：不同CFG調(diào)度器的比較，CFG尺度從1單調(diào)增加到7.5

右側(cè)結(jié)果顯示，相較于在所有視覺token上使用固定7.5的CFG值，采用CFG調(diào)度器能夠同時提升圖像的美學(xué)質(zhì)量和文本對齊效果。

不同無分類器引導(dǎo)（CFG）尺度下的生成圖像示例

自回歸的歷史性突破

該方法通過與文本提示聯(lián)合訓(xùn)練，無需額外預(yù)訓(xùn)練文本編碼器，就能讓MLLMs在下一個token預(yù)測框架下，支持超高分辨率圖像合成，同時保持高效訓(xùn)練推理。

這是自回歸模型首次實現(xiàn)2048×2048分辨率的文生圖。

在GenAI基準測試中，27億參數(shù)Llama模型在困難提示下取得0.77綜合得分，較AR模型LlamaGen提升0.18，超越擴散模型LDM達0.15。

大規(guī)模人工評估也證實新方法在文本對齊度、視覺缺陷率和美學(xué)質(zhì)量上的全面優(yōu)勢。

在MLLMs高效生成高分辨率圖像領(lǐng)域，Token-Shuffle有望成為基準設(shè)計方案。

消融實驗等更多內(nèi)容和細節(jié)，參閱原論文。

模型訓(xùn)練：3步曲

實驗使用2.7B Llama模型，維度為3072，由20個自回歸Transformer模塊組成。

模型的預(yù)訓(xùn)練被分為3個階段，從低分辨率到高分辨率圖像生成。

首先，研究者使用512×512分辨率的圖像進行訓(xùn)練，在此階段不使用Token-Shuffle操作，因為此時視覺token的數(shù)量并不大。在這一階段，他們訓(xùn)練了約50億個token，使用4K的序列長度、512的全局批量大小和總共211K步。

接下來，研究者將圖像分辨率提升到1024×1024，并引入Token-Shuffle操作，減少視覺token數(shù)量，提高計算效率。在這一階段，他們將訓(xùn)練token數(shù)量擴展到2TB。

最后，研究者使用之前訓(xùn)練的checkpoint，將分辨率進一步提升至2048×2048，訓(xùn)練約300億個token，初始學(xué)習(xí)率設(shè)為4e?5。

他們引入了z-loss，用于穩(wěn)定高分辨率圖像生成的訓(xùn)練。

原文圖11：在2048×2048分辨率下訓(xùn)練時的平均損失（左）和梯度范數(shù)（右）。在大約20K次迭代后出現(xiàn)訓(xùn)練不穩(wěn)定現(xiàn)象

在不同階段，研究者對所有模型進行了微調(diào)，學(xué)習(xí)率為4e?6，使用1500張精選的高美學(xué)質(zhì)量圖像進行展示。

默認情況下，除非另有說明，可視化和評估是基于1024×1024分辨率和2大小的token-shuffle窗口的微調(diào)結(jié)果。

量化評估：又快又好

表1中的結(jié)果突顯了Token-Shuffle的強大性能。

與其他自回歸模型相比，新方法在「基本」(basic)提示上整體得分超越LlamaGen 0.14分，在「高難度」（hard）提示上超越0.18分。

與擴散基準相比，新方法在「高難度」提示上超越DALL-E 3 0.7分。

表1：在GenAI-Bench上的圖像生成VQAScore評估?！?」表示圖像是通過Llama3重寫提示生成的，保證訓(xùn)練與推理的一致性

除了表1中報告的VQAScore結(jié)果外，研究者還進行了額外的自動評估GenEval，并在表2中報告了詳細的評估結(jié)果。

實驗結(jié)果表明，除了高分辨率外，Token-Shuffle作為一個純自回歸模型，能夠呈現(xiàn)出令人滿意的生成質(zhì)量。

表2：在GenEval基準測試上的評估。

人類評估

盡管自動化評估指標提供了無偏的評估，但最近的研究所指出它們可能并不能完全捕捉到人類偏好。

為此，研究者還在GenAI-Bench提示集上進行了大規(guī)模的人類評估，將新模型Token-Shuffle與LlamaGen、LuminamGPT和LDM進行了比較，分別代表了自回歸模型、MLLM和擴散模型。

在人類評估中，重點關(guān)注三個關(guān)鍵指標：

文本對齊，評估圖像與文本提示的匹配準確度；
視覺缺陷，檢查邏輯一致性，避免出現(xiàn)不完整的身體或多余的肢體等問題；
視覺外觀，評估圖像的美學(xué)質(zhì)量。

存在視覺缺陷與結(jié)構(gòu)錯誤的生成圖像示例（紅色圓圈標記處）

圖6展示了結(jié)果，新模型在所有評估方面始終優(yōu)于基于自回歸的模型LlamaGen和LuminamGPT。

這表明，即使在大幅減少token數(shù)量以提高效率的情況下，Token-Shuffle也能有效地保留美學(xué)細節(jié)，并且能夠緊密遵循文本引導(dǎo)，前提是進行了充分的訓(xùn)練。

在生成結(jié)果（無論是視覺外觀還是文本對齊）上，研究者展示了基于自回歸的多模態(tài)大語言模型（AR-based MLLMs）能夠與擴散模型相媲美或更勝一籌。

然而，研究者觀察到，Token-Shuffle在視覺缺陷方面略遜于LDM。

圖6：人類評估結(jié)果｜在文本對齊、視覺缺陷和視覺外觀方面等方面，比較了Token-Shuffle與無文本的自回歸模型LlamaGen、帶文本的自回歸模型Lumina-mGPT以及基于擴散的模型LDM的表現(xiàn)

可視化示例

研究者將Token-Shuffle與其他模型進行了視覺效果對比，包括兩種基于擴散的模型LDM和Pixart-LCM，以及一種自回歸模型LlamaGen。

圖7展示了可視化例子。

雖然所有模型的生成效果都不錯，但Token-Shuffle在文本對齊方面表現(xiàn)得更加出色。

與自回歸模型LlamaGen相比，Token-Shuffle在相同推理開銷下實現(xiàn)了更高的分辨率，帶來了更好的視覺質(zhì)量和文本對齊效果。

與擴散模型相比，自回歸模型Token-Shuffle在生成性能上表現(xiàn)出競爭力，同時還能支持高分辨率輸出。

圖7：與其他開源的基于擴散模型和基于自回歸模型的視覺效果對比

一作簡介

馬旭（Xu Ma）

他是美國東北大學(xué)工程學(xué)院的博士研究生。

在此之前，他在美國德克薩斯大學(xué)北部分校計算機科學(xué)與工程系工作了兩年。

在南京林業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院，他獲得了學(xué)士和碩士學(xué)位。

他的研究興趣包括：模型效率、多模態(tài)大語言模型（LLM）、生成式人工智能（Generative AI）。

在博士學(xué)習(xí)期間，他獲得了一些獎項，包括ICME'20最佳學(xué)生論文獎、SEC'19最佳論文獎、NeurIPS'22杰出審稿人獎和CVPR'23杰出審稿人獎。

責(zé)任編輯：張燕妮來源：新智元

模型 AI 視覺

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tr id="0xiql"></tr>

<sup id="0xiql"><rt id="0xiql"></rt></sup><sub id="0xiql"></sub><sub id="0xiql"><p id="0xiql"></p></sub>