自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

FlexTok-一種圖像編碼新方式 原創(chuàng)

發(fā)布于 2025-3-3 09:37
瀏覽
0收藏

本文介紹一種圖像編碼的方法。

圖像標記化推動了自回歸圖像生成發(fā)展,但傳統(tǒng) 2D 網(wǎng)格標記和現(xiàn)有 1D 標記方法存在不足,如無法適應圖像內(nèi)在復雜性。FlexTok 創(chuàng)新之處在于可將 2D 圖像投影為可變長度、有序的 1D 標記序列,圖像標記化通過提供一種比原始像素更高效、更易處理的壓縮離散表示,極大地推動了自回歸圖像生成的發(fā)展。

傳統(tǒng)方法多采用二維網(wǎng)格標記化,但像TiTok這樣的最新研究表明,一維標記化能夠通過消除網(wǎng)格冗余來實現(xiàn)高質(zhì)量的圖像生成。

感興趣的小伙伴可以閱讀原文:https://arxiv.org/pdf/2502.13967

模型介紹

FlexTok-一種圖像編碼新方式-AI.x社區(qū)

上圖展示了 FlexTok 的整體架構(gòu)和工作流程,分為兩個主要階段:

階段 1:FlexTok 訓練:

  • 重采樣與量化:FlexTok 使用帶有寄存器的視覺 Transformer(ViT)將 2D 的變分自編碼器(VAE)潛在特征重采樣為 1D 的離散標記序列。之后,使用有限標量量化FSQ對這些序列進行量化,得到瓶頸層表示。
  • 整流流模型解碼與重建:量化后的瓶頸層表示被用于為整流流模型提供條件,該模型負責解碼并重建原始圖像。
  • 學習有序可變長度標記序列:通過對寄存器標記應用嵌套隨機失活,F(xiàn)lexTok 學習到有序的、可變長度的標記序列。這種方式使得模型能夠以一種從粗到細的方式對圖像進行編碼,早期的標記捕獲圖像的高級語義和幾何信息,而后續(xù)添加的標記則逐步補充更精細的細節(jié)。

階段 2:自回歸(AR)訓練

  • 訓練 AR 模型:訓練類別條件和文本條件的自回歸 Transformer 模型,以從粗到細的方式預測 1D 標記序列。
  • 生成圖像細節(jié)遞進:隨著預測的標記數(shù)量增加,生成的圖像會變得更加具體。模型首先編碼高級概念,例如圖像中是否有汽車;然后逐漸添加更精細的細節(jié),如汽車的形狀、品牌和顏色等 。通過這種方式,F(xiàn)lexTok 能夠根據(jù)不同的條件和需求,生成具有不同細節(jié)程度的圖像,展示了其在圖像生成任務中的靈活性和有效性。

實驗效果

FlexTok將圖像轉(zhuǎn)化為有序的標記序列。通過訓練基于類別和文本條件的模型,F(xiàn)lexTok標記序列扮演了“視覺詞匯表”的角色,使自回歸模型能夠以遞增的特異性描述圖像內(nèi)容。與傳統(tǒng)自回歸模型在固定光柵掃描順序下生成圖像不同,F(xiàn)lexTok方法能夠逐步細化圖像細節(jié)。簡單的條件,例如ImageNet類別標簽,可能僅需16個標記即可滿足;而更復雜的條件,如開放式文本提示,則可能需要多達256個標記才能達到最佳效果。

FlexTok-一種圖像編碼新方式-AI.x社區(qū)

如上圖所示,不同詞元數(shù)量的圖像生成示例。使用類別條件(前3行)和文本條件(后3行)生成的圖像表明,基于FlexTok的模型在僅使用單個詞元的情況下也能生成高質(zhì)量圖像,并且所有這些都在單個模型內(nèi)實現(xiàn)。隨著生成的詞元增多,條件對齊效果增強。例如,對于提示語“一只柯基犬的頭部被描繪成星云爆炸的樣子”,前兩個詞元捕捉到了狗的藝術(shù)描繪這一高級概念,而添加更多詞元則會增加更多細節(jié),如狗的品種和星云背景。


文轉(zhuǎn)載自公眾號瓦力算法學研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/fp_FEuISXmHPCa0fhEGJDg??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
已于2025-3-3 09:37:53修改
收藏
回復
舉報
回復
相關(guān)推薦