全面超越ViT，美團(tuán)、浙大等提出視覺(jué)任務(wù)統(tǒng)一架構(gòu)VisionLLAMA

作者：機(jī)器之心 2024-03-07 12:51:08

沿襲 ViT 的研究思路，我們能否借助創(chuàng)新性的 LLaMA 架構(gòu)，真正實(shí)現(xiàn)語(yǔ)言和圖像的架構(gòu)統(tǒng)一？

半年多來(lái)，Meta 開(kāi)源的 LLaMA 架構(gòu)在 LLM 中經(jīng)受了考驗(yàn)并大獲成功（訓(xùn)練穩(wěn)定、容易做 scaling）。

沿襲 ViT 的研究思路，我們能否借助創(chuàng)新性的 LLaMA 架構(gòu)，真正實(shí)現(xiàn)語(yǔ)言和圖像的架構(gòu)統(tǒng)一？

在這一命題上，最近的一項(xiàng)研究 VisionLLaMA 取得了進(jìn)展。VisionLLaMA 在圖像生成（包含 Sora 依賴的底層的 DIT）和理解（分類、分割、檢測(cè)、自監(jiān)督）等多個(gè)主流任務(wù)上相較于原 ViT 類方法提升顯著。

論文標(biāo)題：VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
論文地址：https://arxiv.org/abs/2403.00522
代碼地址：https://github.com/Meituan-AutoML/VisionLLaMA

該研究在統(tǒng)一圖像和語(yǔ)言架構(gòu)方面的嘗試，可以復(fù)用 LLM 社區(qū)在 LLaMA 上的訓(xùn)練（穩(wěn)定且有效的 scaling）、部署等一系列成果。

研究背景

大語(yǔ)言模型是當(dāng)前學(xué)術(shù)界研究的熱點(diǎn)，其中，LLaMA 是最具影響力和代表性的工作之一，許多最新的研究工作都基于該架構(gòu)開(kāi)展，各種應(yīng)用的解決方案大都建立在該系列的開(kāi)源模型之上。在多模態(tài)模型的進(jìn)展中，其中許多方法都依賴 LLaMA 進(jìn)行文本處理、并依賴類似 CLIP 的視覺(jué) transformer 進(jìn)行視覺(jué)感知。同時(shí)，許多工作致力于加快 LLaMA 的推理速度、降低 LLaMA 的存儲(chǔ)成本?？偠灾琇LaMA 現(xiàn)在是事實(shí)上最通用、最重要的大語(yǔ)言模型架構(gòu)。

LLaMA 架構(gòu)的成功使得本文作者提出了一個(gè)簡(jiǎn)單而有趣的設(shè)想：該架構(gòu)是否可以在視覺(jué)模態(tài)上同樣成功？如果答案是肯定的，那么視覺(jué)模型和語(yǔ)言模型都可以使用相同的統(tǒng)一架構(gòu)，并從為 LLaMA 設(shè)計(jì)的各種動(dòng)態(tài)部署技術(shù)中受益。然而，這是一個(gè)復(fù)雜的問(wèn)題，因?yàn)檫@兩種模態(tài)之間存在一些明顯的差異。

首先存在維度差異：文本序列是一維的，而視覺(jué)任務(wù)需要處理兩個(gè)或更多維度的數(shù)據(jù)；其次存在結(jié)構(gòu)差異：許多視覺(jué)任務(wù)依賴于金字塔結(jié)構(gòu)的骨干網(wǎng)絡(luò)以獲得更好的性能，而 LLaMA 是一個(gè)結(jié)構(gòu)上樸素的編碼器；第三，需要有效處理不同分辨率的圖像和視頻輸入。

本文旨在解決這些挑戰(zhàn)，并彌合不同模態(tài)之間的架構(gòu)差距，具體為提出適應(yīng)視覺(jué)任務(wù)的 LLaMA 架構(gòu)，解決與模態(tài)差異相關(guān)的難題，并實(shí)現(xiàn)通過(guò)一種統(tǒng)一的方法對(duì)視覺(jué)和語(yǔ)言數(shù)據(jù)進(jìn)行處理。

本文主要貢獻(xiàn)如下：

1. 本文提出 VisionLLaMA，一種類似于 LLaMA 的視覺(jué) transformer 架構(gòu)，以減少語(yǔ)言和視覺(jué)之間的架構(gòu)差異。

2. 本文研究了使 VisionLLaMA 適應(yīng)常見(jiàn)視覺(jué)任務(wù)的方法，包括圖像理解和創(chuàng)建（圖 1）。本文研究了兩種廣為人知的視覺(jué)架構(gòu)方案（常規(guī)結(jié)構(gòu)和金字塔結(jié)構(gòu)），并評(píng)估它們?cè)诒O(jiān)督和自監(jiān)督學(xué)習(xí)場(chǎng)景下的性能。此外，本文還提出了 AS2DRoPE（即自動(dòng)縮放 2D RoPE），它將旋轉(zhuǎn)位置編碼從 1D 擴(kuò)展到 2D，并利用插值縮放來(lái)適應(yīng)任意分辨率。

3. 在精確的評(píng)估下，VisionLLaMA 在圖像生成、分類、語(yǔ)義分割和目標(biāo)檢測(cè)等許多代表性任務(wù)中明顯優(yōu)于當(dāng)前主流且被精確微調(diào)過(guò)的視覺(jué) transformer。大量實(shí)驗(yàn)表明，VisionLLaMA 與現(xiàn)有視覺(jué) transformer 相比具有更快的收斂速度和更好的性能。

VisionLLaMA 總體架構(gòu)設(shè)計(jì)

常規(guī) Transformer

本文提出的常規(guī) VisionLLaMA 遵循 ViT 的流程，并且盡可能保留 LLaMA 的架構(gòu)設(shè)計(jì)。對(duì)于一張圖像，首先將其變換并展平為一個(gè)序列，然后在序列的開(kāi)頭添加一個(gè)類別 token，整個(gè)序列通過(guò) L 個(gè) VisionLLaMA block 進(jìn)行處理。與 ViT 不同，VisionLLaMA 不向輸入序列添加位置編碼，因?yàn)?VisionLLaMA 的 block 包含位置編碼。具體來(lái)說(shuō)，該 block 與標(biāo)準(zhǔn)的 ViT block 有兩點(diǎn)不同：具有位置編碼（RoPE）的自注意力和 SwiGLU 激活。本文仍然使用 LayerNorm 而不是 RMSNorm，因?yàn)楸疚耐ㄟ^(guò)實(shí)驗(yàn)發(fā)現(xiàn)前者表現(xiàn)更好（參見(jiàn)表 11g）。block 的結(jié)構(gòu)如圖 2 (a) 所示。本文發(fā)現(xiàn)在視覺(jué)任務(wù)中直接應(yīng)用 1D RoPE 不能很好地推廣到不同的分辨率上，因此將其擴(kuò)展到二維形式：

金字塔結(jié)構(gòu) Transformer

將 VisionLLaMA 應(yīng)用于類似 Swin 的基于窗口的 transformer 非常簡(jiǎn)單，因此本文選擇在更強(qiáng)的基線 Twins 上探索如何構(gòu)建強(qiáng)大的金字塔結(jié)構(gòu) transformer。Twins 的原始架構(gòu)利用了條件位置編碼、以局部 - 全局注意力的形式進(jìn)行交錯(cuò)的局部 - 全局信息交換。這些組件在各種 transformer 中十分常見(jiàn)，這意味著在各類 transformer 變體中應(yīng)用 VisionLLaMA 并不困難。

本文的目標(biāo)不是發(fā)明一種全新金字塔結(jié)構(gòu)的視覺(jué) transformer ，而是如何在現(xiàn)有設(shè)計(jì)的基礎(chǔ)上調(diào)整 VisionLLaMA 的基本設(shè)計(jì)，因此本文遵循對(duì)架構(gòu)和超參數(shù)進(jìn)行最少修改的原則。遵循 ViT 的命名方式，兩個(gè)連續(xù)的 block 可以寫為：

其中 LSA 是組內(nèi)的局部自注意力操作，GSA 是通過(guò)與每個(gè)子窗口中的代表性鍵值交互而進(jìn)行的全局子采樣的注意力。本文移除了金字塔結(jié)構(gòu) VisionLLaMA 中的條件位置編碼，因?yàn)?AS2DRoPE 中已經(jīng)包含了位置信息。此外，還移除了類別 token，并在分類頭之前使用 GAP（全局平均池化），該設(shè)置下的 block 結(jié)構(gòu)如圖 2 (b) 所示。

超越序列長(zhǎng)度限制的訓(xùn)練或推理

將一維 RoPE 拓展到二維：對(duì)不同的輸入分辨率進(jìn)行處理是視覺(jué)任務(wù)中的常見(jiàn)需求。卷積神經(jīng)網(wǎng)絡(luò)使用滑動(dòng)窗口機(jī)制來(lái)處理可變長(zhǎng)度。與之相比，大多數(shù)視覺(jué) transformer 應(yīng)用局部窗口操作或插值，例如 DeiT 在不同分辨率上訓(xùn)練時(shí)采用雙三次插值；CPVT 使用基于卷積的位置編碼。本文中評(píng)估了 1D RoPE 的性能，發(fā)現(xiàn)其在 224×224 分辨率上擁有最高的精度，然而當(dāng)分辨率上升到 448×448 時(shí)，精度急劇下降甚至為 0。因此，本文將一維 RoPE 擴(kuò)展到二維。對(duì)于多頭自注意力機(jī)制，二維 RoPE 在不同頭之間共享。

位置插值有助于二維 RoPE 更好地泛化：受一些使用插值來(lái)擴(kuò)展 LLaMA 的上下文窗口的工作啟發(fā)，在更高分辨率的參與下，VisionLLaMA 采用類似方式擴(kuò)展二維上下文窗口。與具有擴(kuò)大的固定上下文長(zhǎng)度的語(yǔ)言任務(wù)不同，目標(biāo)檢測(cè)等視覺(jué)任務(wù)通常在不同的迭代中處理不同的采樣分辨率。本文使用 224×224 的輸入分辨率對(duì)小模型進(jìn)行訓(xùn)練，并在不重新訓(xùn)練的情況下評(píng)估更大分辨率的性能，指引本文能夠更好的應(yīng)用內(nèi)插值或外差值策略。經(jīng)過(guò)實(shí)驗(yàn)，本文選擇應(yīng)用基于 “錨點(diǎn)分辨率” 的自動(dòng)縮放插值（AS2DRoPE）。對(duì) H × H 的方形圖像和 B × B 的錨點(diǎn)分辨率進(jìn)行處理的計(jì)算方式如下：

這種計(jì)算方式效率高并且不會(huì)引入額外的成本。如果訓(xùn)練分辨率保持不變，AS2DRoPE 會(huì)退化為 2 維 RoPE。

由于需要將位置信息添加到匯總的鍵值中，本文對(duì)于金字塔結(jié)構(gòu)設(shè)置下的 GSA 進(jìn)行了特殊處理。這些子采樣的鍵值是通過(guò)特征圖上的抽象生成的。本文使用內(nèi)核大小為 k×k 且步長(zhǎng)為 k 的卷積。如圖 3 所示，生成的鍵值的坐標(biāo)可以表示為采樣特征的平均值。

實(shí)驗(yàn)結(jié)果

本文全面評(píng)估了 VisionLLaMA 在圖像生成、分類、分割和檢測(cè)等任務(wù)上的有效性。默認(rèn)情況下，本文所有模型均在 8 個(gè) NVIDIA Tesla A100 GPU 上進(jìn)行訓(xùn)練。

圖像生成

基于 DiT 框架的圖像生成：本文選擇在 DiT 框架下應(yīng)用 VisionLLaMA，因?yàn)?DiT 是使用視覺(jué) Transformer 和 DDPM 進(jìn)行圖像生成的代表性工作。本文用 VisionLLaMA 替換了 DiT 原來(lái)的視覺(jué) transformer，同時(shí)保持其他組件與超參數(shù)不變。該實(shí)驗(yàn)證明了 VisionLLaMA 在圖像生成任務(wù)上的通用性。與 DiT 相同，本文設(shè)置 DDPM 的 sample steps 為 250，實(shí)驗(yàn)結(jié)果如表 1 所示。與大多數(shù)方法保持一致，F(xiàn)ID 被視為主要指標(biāo)，并在其他次要指標(biāo)上例如 sFID、Precision/Recall、Inception Score 進(jìn)行評(píng)估。結(jié)果表明，VisionLLaMA 在各種模型尺寸上都顯著優(yōu)于 DiT。本文還將 XL 模型的訓(xùn)練步數(shù)擴(kuò)展到 2352k，以評(píng)估本文的模型是否具有更快的收斂?jī)?yōu)勢(shì)，或者在更長(zhǎng)的訓(xùn)練周期設(shè)置下仍然表現(xiàn)更好。DiT-LLaMA-XL/2 的 FID 比 DiT-XL/2 低 0.83，表明 VisionLLaMA 不僅具有更好的計(jì)算效率，而且比 DiT 具有更高的性能。圖 1 中展示了使用 XL 模型生成的一些示例。

基于 SiT 框架的圖像生成：SiT 框架顯著提高了使用視覺(jué) transformer 生成圖像的性能。本文用 VisionLLaMA 替換 SiT 中的視覺(jué) transformer，以評(píng)估更好的模型架構(gòu)帶來(lái)的收益，本文將其稱為 SiT-LLaMA。實(shí)驗(yàn)保留了 SiT 中其余所有設(shè)置與超參數(shù)，所有模型都使用相同數(shù)量的步驟進(jìn)行訓(xùn)練，在所有實(shí)驗(yàn)中都使用線性插值（linear interpolant）和快速模型（velocity model）。為了進(jìn)行公平比較，本文還重新運(yùn)行已發(fā)布的代碼，并使用 250 steps 的 SDE 采樣器（Euler）對(duì) 50k 256×256 圖像進(jìn)行采樣，結(jié)果如表 2 中所示。SiT-LLaMA 在各種容量級(jí)別的模型中均優(yōu)于 SiT。與 SiT-L/2 相比，SiT-LLaMA-L/2 降低了 5.0 FID，其幅度大于新框架帶來(lái)的提升（4.0 FID）。本文還在表 13 中展示了更高效的 ODE 采樣器 (dopri5)，與本文方法的性能差距仍然存在?？梢缘贸雠c與 SiT 論文中的類似的結(jié)論：SDE 比其對(duì)應(yīng)的 ODE 具有更好的性能。

ImageNet 上的圖像分類

全監(jiān)督訓(xùn)練

本節(jié)重點(diǎn)關(guān)注模型在 ImageNet-1K 數(shù)據(jù)集上的全監(jiān)督訓(xùn)練，排除其他數(shù)據(jù)集或蒸餾技巧的影響，所有模型均使用 ImageNet-1K 訓(xùn)練集進(jìn)行訓(xùn)練，并在表 3 中展示了在驗(yàn)證集上的準(zhǔn)確性結(jié)果。

常規(guī)視覺(jué) Transformer 的比較：DeiT3 是當(dāng)前最先進(jìn)的常規(guī)視覺(jué) transformer，它提出了一種特殊的數(shù)據(jù)增強(qiáng)并執(zhí)行廣泛的超參數(shù)搜索以提高性能。DeiT3 對(duì)超參數(shù)敏感并且容易出現(xiàn)過(guò)擬合，用 GAP（全局平均池化）替換類別 token 會(huì)導(dǎo)致 DeiT3-Large 模型在經(jīng)過(guò) 800 個(gè) epoch 訓(xùn)練后準(zhǔn)確率下降 0.7%。因此，本文在常規(guī) transformer 中使用類別 token 而不是 GAP。結(jié)果如表 3 中所示，其中 VisionLLaMA 取得了與 DeiT3 相當(dāng)?shù)?top-1 精度。單一分辨率上的準(zhǔn)確性并不能提供全面的比較，本文還評(píng)估了不同圖像分辨率的性能，結(jié)果如表 4 所示。對(duì)于 DeiT3，本文使用雙三次插值來(lái)進(jìn)行可學(xué)習(xí)的位置編碼。盡管這兩個(gè)模型在 224×224 分辨率下具有相當(dāng)?shù)男阅?，但?dāng)分辨率增加時(shí)，差距會(huì)擴(kuò)大，這意味著本文的方法在不同分辨率下具有更好的泛化能力，這對(duì)于目標(biāo)檢測(cè)等許多下游任務(wù)來(lái)說(shuō)至關(guān)重要。

金字塔結(jié)構(gòu)的視覺(jué) transformer 比較：本文使用與 Twins-SVT 相同的架構(gòu)，詳細(xì)配置列于表 17。本文移除了條件位置編碼，因?yàn)?VisionLLaMA 已經(jīng)包含一種旋轉(zhuǎn)位置編碼。因此，VisionLLaMA 是一種無(wú)卷積架構(gòu)。本文沿用 Twins-SVT 中的包含超參數(shù)在內(nèi)的所有設(shè)置，與 Twins-SVT 保持一致，本文不使用類別 token，而是應(yīng)用 GAP。結(jié)果如表 3 所示，本文的方法在各個(gè)模型級(jí)別上都實(shí)現(xiàn)了與 Twins 相當(dāng)?shù)男阅?，并且始終優(yōu)于 Swin。

自監(jiān)督訓(xùn)練

本文使用 ImageNet 數(shù)據(jù)集評(píng)估自監(jiān)督視覺(jué) transformer 的兩種常見(jiàn)方法，同時(shí)將訓(xùn)練數(shù)據(jù)限制為 ImageNet-1K，移除了任何使用 CLIP、DALLE 或蒸餾等可以提高性能的組件，本文的實(shí)現(xiàn)基于 MMPretrain 框架，利用 MAE 框架并使用 VisionLLaMA 替換編碼器，同時(shí)保持其他組件不變。該對(duì)照實(shí)驗(yàn)?zāi)軌蛟u(píng)估本文方法的有效性。此外，本文使用與所比較方法相同的超參數(shù)設(shè)置，在這種設(shè)置下，與強(qiáng)大的基線相比依然實(shí)現(xiàn)了顯著的性能提升。

Full fine-tuning 設(shè)置：在當(dāng)前設(shè)置下，模型首先使用預(yù)訓(xùn)練的權(quán)重進(jìn)行初始化，然后使用完全可訓(xùn)練的參數(shù)進(jìn)行額外的訓(xùn)練。VisionLLaMA-Base 在 ImageNet 上經(jīng)過(guò) 800 個(gè) epoch 的訓(xùn)練，達(dá)到了 84.0% 的 top-1 準(zhǔn)確率，比 ViT-Base 提高了 0.8%。本文的方法訓(xùn)練速度比 SimMIM 快約 3 倍。本文還將訓(xùn)練周期增加到 1600，以驗(yàn)證 VisionLLaMA 能否在足夠的訓(xùn)練資源下保持優(yōu)勢(shì)。VisionLLaMA-Base 在 MAE 變體中取得了新的 SOTA 結(jié)果，top-1 準(zhǔn)確率達(dá)到 84.3%，比 ViT-Base 提高了 0.9%?？紤]到 full fine-tuning 具有性能飽和風(fēng)險(xiǎn)，本文方法的提升十分顯著。

Linear probing：最近的一項(xiàng)工作認(rèn)為線性探測(cè)度量（linear probing metric）是對(duì)表示性學(xué)習(xí)更加可靠的評(píng)估。在當(dāng)前設(shè)置下，模型由 SSL 階段的預(yù)訓(xùn)練權(quán)重初始化。然后，在訓(xùn)練過(guò)程中，除了分類器頭之外，整個(gè)骨干網(wǎng)絡(luò)都被凍結(jié)。結(jié)果如表 5 所示：在訓(xùn)練成本為 800 個(gè) epoch 的情況下，VisionLLaMA-Base 的性能優(yōu)于 ViTBase-MAE 4.6%。它還超過(guò)了訓(xùn)練了 1600 個(gè) epoch 的 ViT-Base-MAE。當(dāng) VisionLLaMA 訓(xùn)練 1600 個(gè) epoch 時(shí)，VisionLLaMA-Base 達(dá)到了 71.7% 的 top1 準(zhǔn)確率。本文方法還擴(kuò)展到 VisionLLaMA-Large，相比 ViT-Large 提高了 3.6%。

ADE20K 數(shù)據(jù)集上的語(yǔ)義分割

全監(jiān)督訓(xùn)練

按照 Swin 的設(shè)置，本文在 ADE20K 數(shù)據(jù)集上使用語(yǔ)義分割來(lái)評(píng)估本文方法的有效性。為了進(jìn)行公平比較，本文限制基線模型僅使用 ImageNet-1K 進(jìn)行預(yù)訓(xùn)練。本文使用 UperNet 框架，并用金字塔結(jié)構(gòu) VisionLLaMA 替換主干網(wǎng)絡(luò)。本文的實(shí)現(xiàn)基于 MMSegmentation 框架。模型訓(xùn)練步數(shù)設(shè)置為 160k，全局 batch size 為 16。結(jié)果如表 6 中所示，在相近的 FLOP 下，本文的方法比 Swin 和 Twins 的性能高出 1.2% mIoU 以上。

自監(jiān)督訓(xùn)練

本文使用 UperNet 框架在 ADE20K 數(shù)據(jù)集上進(jìn)行語(yǔ)義分割，用 VisionLLaMA 替換 ViT 主干，同時(shí)保持其他組件和超參數(shù)不變。本文的實(shí)現(xiàn)基于 MMSegmentation，結(jié)果如表 7 所示。對(duì)于 800 個(gè) epoch 的預(yù)訓(xùn)練組，VisionLLaMA-B 將 ViT-Base 顯著提升了 2.8% mIoU。本文方法還明顯優(yōu)于其他一些改進(jìn)，例如引入額外的訓(xùn)練目標(biāo)或特征，這些方法會(huì)給訓(xùn)練過(guò)程帶來(lái)額外的開(kāi)銷并降低訓(xùn)練速度。相比之下，VisionLLaMA 僅涉及基礎(chǔ)模型的替換，并且具有快速的訓(xùn)練速度。本文進(jìn)一步評(píng)估了 1600 個(gè)較長(zhǎng)預(yù)訓(xùn)練 epoch 的性能，VisionLLaMA-B 在 ADE20K 驗(yàn)證集上實(shí)現(xiàn)了 50.2% mIoU，這使得 ViT-B 的性能提高了 2.1% mIoU。

COCO 數(shù)據(jù)集上的目標(biāo)檢測(cè)

全監(jiān)督訓(xùn)練

本文評(píng)估了金字塔結(jié)構(gòu) VisionLLaMA 在 COCO 數(shù)據(jù)集上的目標(biāo)檢測(cè)任務(wù)的性能。本文使用 Mask RCNN 框架并用金字塔結(jié)構(gòu) VisionLLaMA 替換主干網(wǎng)絡(luò)，類似于 Swin 的設(shè)置，該金字塔結(jié)構(gòu) VisionLLaMA 在 ImageNet-1K 數(shù)據(jù)集上預(yù)訓(xùn)練了 300 個(gè) epoch。因此，本文的模型具有與 Twins 相同數(shù)量的參數(shù)和 FLOP。該實(shí)驗(yàn)?zāi)軌蛴糜隍?yàn)證本文方法在目標(biāo)檢測(cè)任務(wù)上的有效性。本文的實(shí)現(xiàn)基于 MMDetection 框架，表 8 中展示了標(biāo)準(zhǔn)的 36 個(gè) epoch 訓(xùn)練周期 (3×) 的結(jié)果，本文的模型優(yōu)于 Swin 和 Twins。具體來(lái)說(shuō)，VisionLLaMA-B 比 Swin-S 高出 1.5% 的 box mAP 和 1.0% mask mAP。與更強(qiáng)的基線 Twins-B 相比，本文的方法具有在 box mAP 上高出 1.1% ，在 mask mAP 上高出 0.8% 的優(yōu)勢(shì)。

自監(jiān)督訓(xùn)練

本文應(yīng)用基于 ViTDet 框架的 VisionLLaMA，該框架利用常規(guī)視覺(jué) transformer 來(lái)實(shí)現(xiàn)與對(duì)應(yīng)金字塔結(jié)構(gòu)視覺(jué) transformer 相當(dāng)?shù)男阅?。本文使?Mask RCNN 檢測(cè)器，并用 VisionLLaMA-Base 模型替換 vit-Base 主干網(wǎng)絡(luò)，該模型使用 MAE 預(yù)訓(xùn)練 800 輪。原始的 ViTDet 收斂緩慢，需要專門的訓(xùn)練策略，例如更長(zhǎng)的訓(xùn)練周期才能實(shí)現(xiàn)最佳性能。在訓(xùn)練過(guò)程中，本文發(fā)現(xiàn) VisionLLaMA 在 30 個(gè) epoch 后達(dá)到了相似的性能，因此，本文直接應(yīng)用標(biāo)準(zhǔn)的 3x 訓(xùn)練策略。本文方法的訓(xùn)練成本僅為基線的 36%。與所比較方法不同，本文方法不進(jìn)行最佳超參數(shù)搜索。結(jié)果如表 9 所示，VisionLLaMA 在 Box mAP 上優(yōu)于 ViT-B 0.6%，在 mask mAP 上優(yōu)于 ViT-B 0.8%。

消融實(shí)驗(yàn)與討論

消融實(shí)驗(yàn)

本文默認(rèn)選擇在 ViT-Large 模型上進(jìn)行消融實(shí)驗(yàn)，因?yàn)楸疚挠^察到該模型在多次運(yùn)行中產(chǎn)生的方差較小。

FFN 和 SwiGLU 的消融：本文用 SwiGLU 替換 FFN ，結(jié)果如表 11a 中所示。由于明顯性能差距，本文選擇使用 SwiGLU 以避免對(duì) LLaMA 架構(gòu)引入額外的修改。

歸一化策略的消融：本文對(duì) transformer 中兩種廣泛使用的歸一化方法 RMSNorm 和 LayerNorm 進(jìn)行了比較，結(jié)果如表 11g 中所示。后者具有更好的最終性能，這表明重新居中不變性（re-centering invariance）在視覺(jué)任務(wù)中也很重要。本文還計(jì)算了每次迭代花費(fèi)的平均時(shí)間用來(lái)衡量訓(xùn)練速度，其中 LayerNorm 僅比 RMSNorm 慢 2%。因此，本文選擇 LayerNorm 而不是 RMSNorm 以獲得更均衡的性能。

部分位置編碼：本文使用 RoPE 調(diào)整全部 channel 的比率，結(jié)果如表 11b 中所示，結(jié)果表明將比率設(shè)置在小閾值上即可獲得良好的性能，不同的設(shè)置之間沒(méi)有觀察到存在顯著的性能差異。因此，本文保留 LLaMA 中的默認(rèn)設(shè)置。

基礎(chǔ)頻率：本文對(duì)基礎(chǔ)頻率進(jìn)行更改與比較，結(jié)果如表 11c 中所示，結(jié)果表明，性能對(duì)于大范圍的頻率來(lái)說(shuō)是穩(wěn)健的。因此，本文保留 LLaMA 中的默認(rèn)值以避免部署時(shí)的額外特殊處理。

每個(gè)注意力頭之間共享位置編碼：本文發(fā)現(xiàn)，在不同頭之間共享相同的 PE（每個(gè)頭中的頻率從 1 到 10000 變化）比獨(dú)立的 PE（所有通道中的頻率從 1 到 10000 變化）要好，結(jié)果如表 11d 所示。

特征抽象策略：本文在大參數(shù)規(guī)模的模型（-L）上比較了兩種常見(jiàn)的特征提取策略：類別 token 和 GAP ，結(jié)果如表 11e 中所示，使用類別 token 比 GAP 更好，這與 PEG [13] 中所得到的結(jié)論不同。然而，兩種方法的訓(xùn)練設(shè)置截然不同。本文還使用 DeiT3-L 進(jìn)行了額外的實(shí)驗(yàn)，得到了類似的結(jié)論。本文進(jìn)一步評(píng)估 “小型”（-S）和 “基礎(chǔ)”（-B）模型的性能。有趣的是，在小模型中觀察到了相反的結(jié)論，有理由懷疑 DeiT3 中使用的較高丟棄路徑率（drop-path rate）使得諸如 GAP 之類的無(wú)參數(shù)抽象方法（parameter-free abstraction）難以達(dá)到應(yīng)有的效果。

位置編碼策略：本文還在金字塔結(jié)構(gòu) VisionLLaMA-S 上評(píng)估了其他絕對(duì)位置編碼策略，例如可學(xué)習(xí)位置編碼和 PEG。由于存在強(qiáng)大的基線，本文使用 “小” 模型，結(jié)果顯示在表 11f 中：可學(xué)習(xí)的 PE 不會(huì)提高性能，PEG 將基線從 81.6% 略微提高到 81.8%。出于三個(gè)原因，本文并沒(méi)有將 PEG 作為基本組成部分。首先，本文嘗試對(duì) LLaMA 進(jìn)行最小程度的修改。其次，本文的目標(biāo)是為 ViT 等各種任務(wù)提出一種通用方法。對(duì)于像 MAE 這樣的屏蔽圖像框架（masked image frameworks），PEG 增加訓(xùn)練成本，并可能損害下游任務(wù)上的性能。原則上，可以在 MAE 框架下應(yīng)用稀疏 PEG，但會(huì)引入部署不友好的算子。稀疏卷積是否與其密集版本一樣包含足夠的位置信息仍然是一個(gè)未解決的問(wèn)題。第三，無(wú)模態(tài)束縛的設(shè)計(jì)為進(jìn)一步研究涵蓋文本和視覺(jué)之外的其他模態(tài)鋪平了道路。

對(duì)輸入尺寸的敏感性：在未訓(xùn)練的前提下，本文進(jìn)一步比較了增大分辨率和常用分辨率的性能，結(jié)果如表 12 中所示。這里使用了金字塔結(jié)構(gòu) transformer，因?yàn)槠湓谙掠稳蝿?wù)中比對(duì)應(yīng)的非層次結(jié)構(gòu)版本更受歡迎。1D-RoPE 的性能因分辨率變化而受到嚴(yán)重影響并不奇怪。α = 2 的 NTK-Aware 插值實(shí)現(xiàn)了與 2D-RoPE 類似的性能，2D-RoPE 實(shí)際上是 NTKAware (α = 1)。AS2DRoPE 展示出了在較大分辨率上的最佳性能。

討論

收斂速度：對(duì)于圖像生成，本文研究了不同訓(xùn)練步數(shù)下的表現(xiàn)，分別在 100k、200k、300k 和 400k 次迭代時(shí)存儲(chǔ)權(quán)重來(lái)計(jì)算保真度指標(biāo)。由于 SDE 明顯慢于 ODE，因此本文選擇使用 ODE 采樣器。表 10 中的結(jié)果表明 VisionLLaMA 在所有模型上的收斂速度都比 ViT 快得多。具有 30 萬(wàn)次訓(xùn)練迭代的 SiT-LLaMA 性能甚至優(yōu)于具有 40 萬(wàn)次訓(xùn)練次數(shù)的的基線模型。

本文還與圖 4 中 ImageNet 上使用 DeiT3-Large 全監(jiān)督訓(xùn)練 800 個(gè) epoch 的 top-1 精度進(jìn)行了比較，表明 VisionLLaMA 比 DeiT3-L 收斂得更快。本文進(jìn)一步比較了 MAE 框架下 ViT-Base 模型的 800 個(gè) epoch 的訓(xùn)練損失，并在圖 5 中進(jìn)行了說(shuō)明。VisionLLaMA 在開(kāi)始時(shí)具有較低的訓(xùn)練損失，并將該趨勢(shì)保持到最后。