自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全面超越ViT,美團(tuán)、浙大等提出視覺(jué)任務(wù)統(tǒng)一架構(gòu)VisionLLAMA

人工智能 新聞
沿襲 ViT 的研究思路,我們能否借助創(chuàng)新性的 LLaMA 架構(gòu),真正實(shí)現(xiàn)語(yǔ)言和圖像的架構(gòu)統(tǒng)一?

半年多來(lái),Meta 開(kāi)源的 LLaMA 架構(gòu)在 LLM 中經(jīng)受了考驗(yàn)并大獲成功(訓(xùn)練穩(wěn)定、容易做 scaling)。

沿襲 ViT 的研究思路,我們能否借助創(chuàng)新性的 LLaMA 架構(gòu),真正實(shí)現(xiàn)語(yǔ)言和圖像的架構(gòu)統(tǒng)一?

在這一命題上,最近的一項(xiàng)研究 VisionLLaMA 取得了進(jìn)展。VisionLLaMA 在圖像生成(包含 Sora 依賴的底層的 DIT)和理解(分類、分割、檢測(cè)、自監(jiān)督)等多個(gè)主流任務(wù)上相較于原 ViT 類方法提升顯著。

圖片

  • 論文標(biāo)題:VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
  • 論文地址:https://arxiv.org/abs/2403.00522
  • 代碼地址:https://github.com/Meituan-AutoML/VisionLLaMA

該研究在統(tǒng)一圖像和語(yǔ)言架構(gòu)方面的嘗試,可以復(fù)用 LLM 社區(qū)在 LLaMA 上的訓(xùn)練(穩(wěn)定且有效的 scaling)、部署等一系列成果。

研究背景

大語(yǔ)言模型是當(dāng)前學(xué)術(shù)界研究的熱點(diǎn),其中,LLaMA 是最具影響力和代表性的工作之一,許多最新的研究工作都基于該架構(gòu)開(kāi)展,各種應(yīng)用的解決方案大都建立在該系列的開(kāi)源模型之上。在多模態(tài)模型的進(jìn)展中,其中許多方法都依賴 LLaMA 進(jìn)行文本處理、并依賴類似 CLIP 的視覺(jué) transformer 進(jìn)行視覺(jué)感知。同時(shí),許多工作致力于加快 LLaMA 的推理速度、降低 LLaMA 的存儲(chǔ)成本??偠灾琇LaMA 現(xiàn)在是事實(shí)上最通用、最重要的大語(yǔ)言模型架構(gòu)。

圖片

LLaMA 架構(gòu)的成功使得本文作者提出了一個(gè)簡(jiǎn)單而有趣的設(shè)想:該架構(gòu)是否可以在視覺(jué)模態(tài)上同樣成功?如果答案是肯定的,那么視覺(jué)模型和語(yǔ)言模型都可以使用相同的統(tǒng)一架構(gòu),并從為 LLaMA 設(shè)計(jì)的各種動(dòng)態(tài)部署技術(shù)中受益。然而,這是一個(gè)復(fù)雜的問(wèn)題,因?yàn)檫@兩種模態(tài)之間存在一些明顯的差異。

首先存在維度差異:文本序列是一維的,而視覺(jué)任務(wù)需要處理兩個(gè)或更多維度的數(shù)據(jù);其次存在結(jié)構(gòu)差異:許多視覺(jué)任務(wù)依賴于金字塔結(jié)構(gòu)的骨干網(wǎng)絡(luò)以獲得更好的性能,而 LLaMA 是一個(gè)結(jié)構(gòu)上樸素的編碼器;第三,需要有效處理不同分辨率的圖像和視頻輸入。

本文旨在解決這些挑戰(zhàn),并彌合不同模態(tài)之間的架構(gòu)差距,具體為提出適應(yīng)視覺(jué)任務(wù)的 LLaMA 架構(gòu),解決與模態(tài)差異相關(guān)的難題,并實(shí)現(xiàn)通過(guò)一種統(tǒng)一的方法對(duì)視覺(jué)和語(yǔ)言數(shù)據(jù)進(jìn)行處理。

本文主要貢獻(xiàn)如下:

1. 本文提出 VisionLLaMA,一種類似于 LLaMA 的視覺(jué) transformer 架構(gòu),以減少語(yǔ)言和視覺(jué)之間的架構(gòu)差異。

2. 本文研究了使 VisionLLaMA 適應(yīng)常見(jiàn)視覺(jué)任務(wù)的方法,包括圖像理解和創(chuàng)建(圖 1)。本文研究了兩種廣為人知的視覺(jué)架構(gòu)方案(常規(guī)結(jié)構(gòu)和金字塔結(jié)構(gòu)),并評(píng)估它們?cè)诒O(jiān)督和自監(jiān)督學(xué)習(xí)場(chǎng)景下的性能。此外,本文還提出了 AS2DRoPE(即自動(dòng)縮放 2D RoPE),它將旋轉(zhuǎn)位置編碼從 1D 擴(kuò)展到 2D,并利用插值縮放來(lái)適應(yīng)任意分辨率。

3. 在精確的評(píng)估下,VisionLLaMA 在圖像生成、分類、語(yǔ)義分割和目標(biāo)檢測(cè)等許多代表性任務(wù)中明顯優(yōu)于當(dāng)前主流且被精確微調(diào)過(guò)的視覺(jué) transformer。大量實(shí)驗(yàn)表明,VisionLLaMA 與現(xiàn)有視覺(jué) transformer 相比具有更快的收斂速度和更好的性能。

VisionLLaMA 總體架構(gòu)設(shè)計(jì)

圖片

常規(guī) Transformer

本文提出的常規(guī) VisionLLaMA 遵循 ViT 的流程,并且盡可能保留 LLaMA 的架構(gòu)設(shè)計(jì)。對(duì)于一張圖像,首先將其變換并展平為一個(gè)序列,然后在序列的開(kāi)頭添加一個(gè)類別 token,整個(gè)序列通過(guò) L 個(gè) VisionLLaMA block 進(jìn)行處理。與 ViT 不同,VisionLLaMA 不向輸入序列添加位置編碼,因?yàn)?VisionLLaMA 的 block 包含位置編碼。具體來(lái)說(shuō),該 block 與標(biāo)準(zhǔn)的 ViT block 有兩點(diǎn)不同:具有位置編碼(RoPE)的自注意力和 SwiGLU 激活。本文仍然使用 LayerNorm 而不是 RMSNorm,因?yàn)楸疚耐ㄟ^(guò)實(shí)驗(yàn)發(fā)現(xiàn)前者表現(xiàn)更好(參見(jiàn)表 11g)。block 的結(jié)構(gòu)如圖 2 (a) 所示。本文發(fā)現(xiàn)在視覺(jué)任務(wù)中直接應(yīng)用 1D RoPE 不能很好地推廣到不同的分辨率上,因此將其擴(kuò)展到二維形式:

圖片

金字塔結(jié)構(gòu) Transformer

將 VisionLLaMA 應(yīng)用于類似 Swin 的基于窗口的 transformer 非常簡(jiǎn)單,因此本文選擇在更強(qiáng)的基線 Twins 上探索如何構(gòu)建強(qiáng)大的金字塔結(jié)構(gòu) transformer。Twins 的原始架構(gòu)利用了條件位置編碼、以局部 - 全局注意力的形式進(jìn)行交錯(cuò)的局部 - 全局信息交換。這些組件在各種 transformer 中十分常見(jiàn),這意味著在各類 transformer 變體中應(yīng)用 VisionLLaMA 并不困難。

本文的目標(biāo)不是發(fā)明一種全新金字塔結(jié)構(gòu)的視覺(jué) transformer ,而是如何在現(xiàn)有設(shè)計(jì)的基礎(chǔ)上調(diào)整 VisionLLaMA 的基本設(shè)計(jì),因此本文遵循對(duì)架構(gòu)和超參數(shù)進(jìn)行最少修改的原則。遵循 ViT 的命名方式,兩個(gè)連續(xù)的 block 可以寫為:

圖片

其中 LSA 是組內(nèi)的局部自注意力操作,GSA 是通過(guò)與每個(gè)子窗口中的代表性鍵值交互而進(jìn)行的全局子采樣的注意力。本文移除了金字塔結(jié)構(gòu) VisionLLaMA 中的條件位置編碼,因?yàn)?AS2DRoPE 中已經(jīng)包含了位置信息。此外,還移除了類別 token,并在分類頭之前使用 GAP(全局平均池化),該設(shè)置下的 block 結(jié)構(gòu)如圖 2 (b) 所示。

超越序列長(zhǎng)度限制的訓(xùn)練或推理

將一維 RoPE 拓展到二維:對(duì)不同的輸入分辨率進(jìn)行處理是視覺(jué)任務(wù)中的常見(jiàn)需求。卷積神經(jīng)網(wǎng)絡(luò)使用滑動(dòng)窗口機(jī)制來(lái)處理可變長(zhǎng)度。與之相比,大多數(shù)視覺(jué) transformer 應(yīng)用局部窗口操作或插值,例如 DeiT 在不同分辨率上訓(xùn)練時(shí)采用雙三次插值;CPVT 使用基于卷積的位置編碼。本文中評(píng)估了 1D RoPE 的性能,發(fā)現(xiàn)其在 224×224 分辨率上擁有最高的精度,然而當(dāng)分辨率上升到 448×448 時(shí),精度急劇下降甚至為 0。因此,本文將一維 RoPE 擴(kuò)展到二維。對(duì)于多頭自注意力機(jī)制,二維 RoPE 在不同頭之間共享。

位置插值有助于二維 RoPE 更好地泛化:受一些使用插值來(lái)擴(kuò)展 LLaMA 的上下文窗口的工作啟發(fā),在更高分辨率的參與下,VisionLLaMA 采用類似方式擴(kuò)展二維上下文窗口。與具有擴(kuò)大的固定上下文長(zhǎng)度的語(yǔ)言任務(wù)不同,目標(biāo)檢測(cè)等視覺(jué)任務(wù)通常在不同的迭代中處理不同的采樣分辨率。本文使用 224×224 的輸入分辨率對(duì)小模型進(jìn)行訓(xùn)練,并在不重新訓(xùn)練的情況下評(píng)估更大分辨率的性能,指引本文能夠更好的應(yīng)用內(nèi)插值或外差值策略。經(jīng)過(guò)實(shí)驗(yàn),本文選擇應(yīng)用基于 “錨點(diǎn)分辨率” 的自動(dòng)縮放插值(AS2DRoPE)。對(duì) H × H 的方形圖像和 B × B 的錨點(diǎn)分辨率進(jìn)行處理的計(jì)算方式如下:

圖片

這種計(jì)算方式效率高并且不會(huì)引入額外的成本。如果訓(xùn)練分辨率保持不變,AS2DRoPE 會(huì)退化為 2 維 RoPE。

圖片

由于需要將位置信息添加到匯總的鍵值中,本文對(duì)于金字塔結(jié)構(gòu)設(shè)置下的 GSA 進(jìn)行了特殊處理。這些子采樣的鍵值是通過(guò)特征圖上的抽象生成的。本文使用內(nèi)核大小為 k×k 且步長(zhǎng)為 k 的卷積。如圖 3 所示,生成的鍵值的坐標(biāo)可以表示為采樣特征的平均值。

實(shí)驗(yàn)結(jié)果

本文全面評(píng)估了 VisionLLaMA 在圖像生成、分類、分割和檢測(cè)等任務(wù)上的有效性。默認(rèn)情況下,本文所有模型均在 8 個(gè) NVIDIA Tesla A100 GPU 上進(jìn)行訓(xùn)練。

圖像生成

基于 DiT 框架的圖像生成:本文選擇在 DiT 框架下應(yīng)用 VisionLLaMA,因?yàn)?DiT 是使用視覺(jué) Transformer 和 DDPM 進(jìn)行圖像生成的代表性工作。本文用 VisionLLaMA 替換了 DiT 原來(lái)的視覺(jué) transformer,同時(shí)保持其他組件與超參數(shù)不變。該實(shí)驗(yàn)證明了 VisionLLaMA 在圖像生成任務(wù)上的通用性。與 DiT 相同,本文設(shè)置 DDPM 的 sample steps 為 250,實(shí)驗(yàn)結(jié)果如表 1 所示。與大多數(shù)方法保持一致,F(xiàn)ID 被視為主要指標(biāo),并在其他次要指標(biāo)上例如 sFID、Precision/Recall、Inception Score 進(jìn)行評(píng)估。結(jié)果表明,VisionLLaMA 在各種模型尺寸上都顯著優(yōu)于 DiT。本文還將 XL 模型的訓(xùn)練步數(shù)擴(kuò)展到 2352k,以評(píng)估本文的模型是否具有更快的收斂?jī)?yōu)勢(shì),或者在更長(zhǎng)的訓(xùn)練周期設(shè)置下仍然表現(xiàn)更好。DiT-LLaMA-XL/2 的 FID 比 DiT-XL/2 低 0.83,表明 VisionLLaMA 不僅具有更好的計(jì)算效率,而且比 DiT 具有更高的性能。圖 1 中展示了使用 XL 模型生成的一些示例。

圖片

基于 SiT 框架的圖像生成:SiT 框架顯著提高了使用視覺(jué) transformer 生成圖像的性能。本文用 VisionLLaMA 替換 SiT 中的視覺(jué) transformer,以評(píng)估更好的模型架構(gòu)帶來(lái)的收益,本文將其稱為 SiT-LLaMA。實(shí)驗(yàn)保留了 SiT 中其余所有設(shè)置與超參數(shù),所有模型都使用相同數(shù)量的步驟進(jìn)行訓(xùn)練,在所有實(shí)驗(yàn)中都使用線性插值(linear interpolant)和快速模型(velocity model)。為了進(jìn)行公平比較,本文還重新運(yùn)行已發(fā)布的代碼,并使用 250 steps 的 SDE 采樣器(Euler)對(duì) 50k 256×256 圖像進(jìn)行采樣,結(jié)果如表 2 中所示。SiT-LLaMA 在各種容量級(jí)別的模型中均優(yōu)于 SiT。與 SiT-L/2 相比,SiT-LLaMA-L/2 降低了 5.0 FID,其幅度大于新框架帶來(lái)的提升(4.0 FID)。本文還在表 13 中展示了更高效的 ODE 采樣器 (dopri5),與本文方法的性能差距仍然存在??梢缘贸雠c與 SiT 論文中的類似的結(jié)論:SDE 比其對(duì)應(yīng)的 ODE 具有更好的性能。

圖片

ImageNet 上的圖像分類

  • 全監(jiān)督訓(xùn)練

本節(jié)重點(diǎn)關(guān)注模型在 ImageNet-1K 數(shù)據(jù)集上的全監(jiān)督訓(xùn)練,排除其他數(shù)據(jù)集或蒸餾技巧的影響,所有模型均使用 ImageNet-1K 訓(xùn)練集進(jìn)行訓(xùn)練,并在表 3 中展示了在驗(yàn)證集上的準(zhǔn)確性結(jié)果。

圖片

常規(guī)視覺(jué) Transformer 的比較:DeiT3 是當(dāng)前最先進(jìn)的常規(guī)視覺(jué) transformer,它提出了一種特殊的數(shù)據(jù)增強(qiáng)并執(zhí)行廣泛的超參數(shù)搜索以提高性能。DeiT3 對(duì)超參數(shù)敏感并且容易出現(xiàn)過(guò)擬合,用 GAP(全局平均池化)替換類別 token 會(huì)導(dǎo)致 DeiT3-Large 模型在經(jīng)過(guò) 800 個(gè) epoch 訓(xùn)練后準(zhǔn)確率下降 0.7%。因此,本文在常規(guī) transformer 中使用類別 token 而不是 GAP。結(jié)果如表 3 中所示,其中 VisionLLaMA 取得了與 DeiT3 相當(dāng)?shù)?top-1 精度。單一分辨率上的準(zhǔn)確性并不能提供全面的比較,本文還評(píng)估了不同圖像分辨率的性能,結(jié)果如表 4 所示。對(duì)于 DeiT3,本文使用雙三次插值來(lái)進(jìn)行可學(xué)習(xí)的位置編碼。盡管這兩個(gè)模型在 224×224 分辨率下具有相當(dāng)?shù)男阅?,但?dāng)分辨率增加時(shí),差距會(huì)擴(kuò)大,這意味著本文的方法在不同分辨率下具有更好的泛化能力,這對(duì)于目標(biāo)檢測(cè)等許多下游任務(wù)來(lái)說(shuō)至關(guān)重要。

圖片

金字塔結(jié)構(gòu)的視覺(jué) transformer 比較:本文使用與 Twins-SVT 相同的架構(gòu),詳細(xì)配置列于表 17。本文移除了條件位置編碼,因?yàn)?VisionLLaMA 已經(jīng)包含一種旋轉(zhuǎn)位置編碼。因此,VisionLLaMA 是一種無(wú)卷積架構(gòu)。本文沿用 Twins-SVT 中的包含超參數(shù)在內(nèi)的所有設(shè)置,與 Twins-SVT 保持一致,本文不使用類別 token,而是應(yīng)用 GAP。結(jié)果如表 3 所示,本文的方法在各個(gè)模型級(jí)別上都實(shí)現(xiàn)了與 Twins 相當(dāng)?shù)男阅?,并且始終優(yōu)于 Swin。

  • 自監(jiān)督訓(xùn)練

本文使用 ImageNet 數(shù)據(jù)集評(píng)估自監(jiān)督視覺(jué) transformer 的兩種常見(jiàn)方法,同時(shí)將訓(xùn)練數(shù)據(jù)限制為 ImageNet-1K,移除了任何使用 CLIP、DALLE 或蒸餾等可以提高性能的組件,本文的實(shí)現(xiàn)基于 MMPretrain 框架,利用 MAE 框架并使用 VisionLLaMA 替換編碼器,同時(shí)保持其他組件不變。該對(duì)照實(shí)驗(yàn)?zāi)軌蛟u(píng)估本文方法的有效性。此外,本文使用與所比較方法相同的超參數(shù)設(shè)置,在這種設(shè)置下,與強(qiáng)大的基線相比依然實(shí)現(xiàn)了顯著的性能提升。

Full fine-tuning 設(shè)置:在當(dāng)前設(shè)置下,模型首先使用預(yù)訓(xùn)練的權(quán)重進(jìn)行初始化,然后使用完全可訓(xùn)練的參數(shù)進(jìn)行額外的訓(xùn)練。VisionLLaMA-Base 在 ImageNet 上經(jīng)過(guò) 800 個(gè) epoch 的訓(xùn)練,達(dá)到了 84.0% 的 top-1 準(zhǔn)確率,比 ViT-Base 提高了 0.8%。本文的方法訓(xùn)練速度比 SimMIM 快約 3 倍。本文還將訓(xùn)練周期增加到 1600,以驗(yàn)證 VisionLLaMA 能否在足夠的訓(xùn)練資源下保持優(yōu)勢(shì)。VisionLLaMA-Base 在 MAE 變體中取得了新的 SOTA 結(jié)果,top-1 準(zhǔn)確率達(dá)到 84.3%,比 ViT-Base 提高了 0.9%??紤]到 full fine-tuning 具有性能飽和風(fēng)險(xiǎn),本文方法的提升十分顯著。

Linear probing:最近的一項(xiàng)工作認(rèn)為線性探測(cè)度量(linear probing metric)是對(duì)表示性學(xué)習(xí)更加可靠的評(píng)估。在當(dāng)前設(shè)置下,模型由 SSL 階段的預(yù)訓(xùn)練權(quán)重初始化。然后,在訓(xùn)練過(guò)程中,除了分類器頭之外,整個(gè)骨干網(wǎng)絡(luò)都被凍結(jié)。結(jié)果如表 5 所示:在訓(xùn)練成本為 800 個(gè) epoch 的情況下,VisionLLaMA-Base 的性能優(yōu)于 ViTBase-MAE 4.6%。它還超過(guò)了訓(xùn)練了 1600 個(gè) epoch 的 ViT-Base-MAE。當(dāng) VisionLLaMA 訓(xùn)練 1600 個(gè) epoch 時(shí),VisionLLaMA-Base 達(dá)到了 71.7% 的 top1 準(zhǔn)確率。本文方法還擴(kuò)展到 VisionLLaMA-Large,相比 ViT-Large 提高了 3.6%。

圖片

ADE20K 數(shù)據(jù)集上的語(yǔ)義分割

  • 全監(jiān)督訓(xùn)練

按照 Swin 的設(shè)置,本文在 ADE20K 數(shù)據(jù)集上使用語(yǔ)義分割來(lái)評(píng)估本文方法的有效性。為了進(jìn)行公平比較,本文限制基線模型僅使用 ImageNet-1K 進(jìn)行預(yù)訓(xùn)練。本文使用 UperNet 框架,并用金字塔結(jié)構(gòu) VisionLLaMA 替換主干網(wǎng)絡(luò)。本文的實(shí)現(xiàn)基于 MMSegmentation 框架。模型訓(xùn)練步數(shù)設(shè)置為 160k,全局 batch size 為 16。結(jié)果如表 6 中所示,在相近的 FLOP 下,本文的方法比 Swin 和 Twins 的性能高出 1.2% mIoU 以上。

圖片


  • 自監(jiān)督訓(xùn)練

本文使用 UperNet 框架在 ADE20K 數(shù)據(jù)集上進(jìn)行語(yǔ)義分割,用 VisionLLaMA 替換 ViT 主干,同時(shí)保持其他組件和超參數(shù)不變。本文的實(shí)現(xiàn)基于 MMSegmentation,結(jié)果如表 7 所示。對(duì)于 800 個(gè) epoch 的預(yù)訓(xùn)練組,VisionLLaMA-B 將 ViT-Base 顯著提升了 2.8% mIoU。本文方法還明顯優(yōu)于其他一些改進(jìn),例如引入額外的訓(xùn)練目標(biāo)或特征,這些方法會(huì)給訓(xùn)練過(guò)程帶來(lái)額外的開(kāi)銷并降低訓(xùn)練速度。相比之下,VisionLLaMA 僅涉及基礎(chǔ)模型的替換,并且具有快速的訓(xùn)練速度。本文進(jìn)一步評(píng)估了 1600 個(gè)較長(zhǎng)預(yù)訓(xùn)練 epoch 的性能,VisionLLaMA-B 在 ADE20K 驗(yàn)證集上實(shí)現(xiàn)了 50.2% mIoU,這使得 ViT-B 的性能提高了 2.1% mIoU。

圖片

COCO 數(shù)據(jù)集上的目標(biāo)檢測(cè)

  • 全監(jiān)督訓(xùn)練

本文評(píng)估了金字塔結(jié)構(gòu) VisionLLaMA 在 COCO 數(shù)據(jù)集上的目標(biāo)檢測(cè)任務(wù)的性能。本文使用 Mask RCNN 框架并用金字塔結(jié)構(gòu) VisionLLaMA 替換主干網(wǎng)絡(luò),類似于 Swin 的設(shè)置,該金字塔結(jié)構(gòu) VisionLLaMA 在 ImageNet-1K 數(shù)據(jù)集上預(yù)訓(xùn)練了 300 個(gè) epoch。因此,本文的模型具有與 Twins 相同數(shù)量的參數(shù)和 FLOP。該實(shí)驗(yàn)?zāi)軌蛴糜隍?yàn)證本文方法在目標(biāo)檢測(cè)任務(wù)上的有效性。本文的實(shí)現(xiàn)基于 MMDetection 框架,表 8 中展示了標(biāo)準(zhǔn)的 36 個(gè) epoch 訓(xùn)練周期 (3×) 的結(jié)果,本文的模型優(yōu)于 Swin 和 Twins。具體來(lái)說(shuō),VisionLLaMA-B 比 Swin-S 高出 1.5% 的 box mAP 和 1.0% mask mAP。與更強(qiáng)的基線 Twins-B 相比,本文的方法具有在 box mAP 上高出 1.1% ,在 mask mAP 上高出 0.8% 的優(yōu)勢(shì)。

圖片

  • 自監(jiān)督訓(xùn)練

本文應(yīng)用基于 ViTDet 框架的 VisionLLaMA,該框架利用常規(guī)視覺(jué) transformer 來(lái)實(shí)現(xiàn)與對(duì)應(yīng)金字塔結(jié)構(gòu)視覺(jué) transformer 相當(dāng)?shù)男阅?。本文使?Mask RCNN 檢測(cè)器,并用 VisionLLaMA-Base 模型替換 vit-Base 主干網(wǎng)絡(luò),該模型使用 MAE 預(yù)訓(xùn)練 800 輪。原始的 ViTDet 收斂緩慢,需要專門的訓(xùn)練策略,例如更長(zhǎng)的訓(xùn)練周期才能實(shí)現(xiàn)最佳性能。在訓(xùn)練過(guò)程中,本文發(fā)現(xiàn) VisionLLaMA 在 30 個(gè) epoch 后達(dá)到了相似的性能,因此,本文直接應(yīng)用標(biāo)準(zhǔn)的 3x 訓(xùn)練策略。本文方法的訓(xùn)練成本僅為基線的 36%。與所比較方法不同,本文方法不進(jìn)行最佳超參數(shù)搜索。結(jié)果如表 9 所示,VisionLLaMA 在 Box mAP 上優(yōu)于 ViT-B 0.6%,在 mask mAP 上優(yōu)于 ViT-B 0.8%。

圖片

消融實(shí)驗(yàn)與討論

消融實(shí)驗(yàn)

本文默認(rèn)選擇在 ViT-Large 模型上進(jìn)行消融實(shí)驗(yàn),因?yàn)楸疚挠^察到該模型在多次運(yùn)行中產(chǎn)生的方差較小。

圖片

FFN 和 SwiGLU 的消融:本文用 SwiGLU 替換 FFN ,結(jié)果如表 11a 中所示。由于明顯性能差距,本文選擇使用 SwiGLU 以避免對(duì) LLaMA 架構(gòu)引入額外的修改。

歸一化策略的消融:本文對(duì) transformer 中兩種廣泛使用的歸一化方法 RMSNorm 和 LayerNorm 進(jìn)行了比較,結(jié)果如表 11g 中所示。后者具有更好的最終性能,這表明重新居中不變性(re-centering invariance)在視覺(jué)任務(wù)中也很重要。本文還計(jì)算了每次迭代花費(fèi)的平均時(shí)間用來(lái)衡量訓(xùn)練速度,其中 LayerNorm 僅比 RMSNorm 慢 2%。因此,本文選擇 LayerNorm 而不是 RMSNorm 以獲得更均衡的性能。

部分位置編碼:本文使用 RoPE 調(diào)整全部 channel 的比率,結(jié)果如表 11b 中所示,結(jié)果表明將比率設(shè)置在小閾值上即可獲得良好的性能,不同的設(shè)置之間沒(méi)有觀察到存在顯著的性能差異。因此,本文保留 LLaMA 中的默認(rèn)設(shè)置。 

基礎(chǔ)頻率:本文對(duì)基礎(chǔ)頻率進(jìn)行更改與比較,結(jié)果如表 11c 中所示,結(jié)果表明,性能對(duì)于大范圍的頻率來(lái)說(shuō)是穩(wěn)健的。因此,本文保留 LLaMA 中的默認(rèn)值以避免部署時(shí)的額外特殊處理。 

每個(gè)注意力頭之間共享位置編碼:本文發(fā)現(xiàn),在不同頭之間共享相同的 PE(每個(gè)頭中的頻率從 1 到 10000 變化)比獨(dú)立的 PE(所有通道中的頻率從 1 到 10000 變化)要好,結(jié)果如表 11d 所示。 

特征抽象策略:本文在大參數(shù)規(guī)模的模型(-L)上比較了兩種常見(jiàn)的特征提取策略:類別 token 和 GAP ,結(jié)果如表 11e 中所示,使用類別 token 比 GAP 更好,這與 PEG [13] 中所得到的結(jié)論不同。然而,兩種方法的訓(xùn)練設(shè)置截然不同。本文還使用 DeiT3-L 進(jìn)行了額外的實(shí)驗(yàn),得到了類似的結(jié)論。本文進(jìn)一步評(píng)估 “小型”(-S)和 “基礎(chǔ)”(-B)模型的性能。有趣的是,在小模型中觀察到了相反的結(jié)論,有理由懷疑 DeiT3 中使用的較高丟棄路徑率(drop-path rate)使得諸如 GAP 之類的無(wú)參數(shù)抽象方法(parameter-free abstraction)難以達(dá)到應(yīng)有的效果。 

位置編碼策略:本文還在金字塔結(jié)構(gòu) VisionLLaMA-S 上評(píng)估了其他絕對(duì)位置編碼策略,例如可學(xué)習(xí)位置編碼 和 PEG。由于存在強(qiáng)大的基線,本文使用 “小” 模型,結(jié)果顯示在表 11f 中:可學(xué)習(xí)的 PE 不會(huì)提高性能,PEG 將基線從 81.6% 略微提高到 81.8%。出于三個(gè)原因,本文并沒(méi)有將 PEG 作為基本組成部分。首先,本文嘗試對(duì) LLaMA 進(jìn)行最小程度的修改。其次,本文的目標(biāo)是為 ViT 等各種任務(wù)提出一種通用方法。對(duì)于像 MAE 這樣的屏蔽圖像框架(masked image frameworks),PEG 增加訓(xùn)練成本,并可能損害下游任務(wù)上的性能。原則上,可以在 MAE 框架下應(yīng)用稀疏 PEG,但會(huì)引入部署不友好的算子。稀疏卷積是否與其密集版本一樣包含足夠的位置信息仍然是一個(gè)未解決的問(wèn)題。第三,無(wú)模態(tài)束縛的設(shè)計(jì)為進(jìn)一步研究涵蓋文本和視覺(jué)之外的其他模態(tài)鋪平了道路。 

對(duì)輸入尺寸的敏感性:在未訓(xùn)練的前提下,本文進(jìn)一步比較了增大分辨率和常用分辨率的性能,結(jié)果如表 12 中所示。這里使用了金字塔結(jié)構(gòu) transformer,因?yàn)槠湓谙掠稳蝿?wù)中比對(duì)應(yīng)的非層次結(jié)構(gòu)版本更受歡迎。1D-RoPE 的性能因分辨率變化而受到嚴(yán)重影響并不奇怪。α = 2 的 NTK-Aware 插值實(shí)現(xiàn)了與 2D-RoPE 類似的性能,2D-RoPE 實(shí)際上是 NTKAware (α = 1)。AS2DRoPE 展示出了在較大分辨率上的最佳性能。

圖片

討論

收斂速度:對(duì)于圖像生成,本文研究了不同訓(xùn)練步數(shù)下的表現(xiàn),分別在 100k、200k、300k 和 400k 次迭代時(shí)存儲(chǔ)權(quán)重來(lái)計(jì)算保真度指標(biāo)。由于 SDE 明顯慢于 ODE,因此本文選擇使用 ODE 采樣器。表 10 中的結(jié)果表明 VisionLLaMA 在所有模型上的收斂速度都比 ViT 快得多。具有 30 萬(wàn)次訓(xùn)練迭代的 SiT-LLaMA 性能甚至優(yōu)于具有 40 萬(wàn)次訓(xùn)練次數(shù)的的基線模型。

圖片

本文還與圖 4 中 ImageNet 上使用 DeiT3-Large 全監(jiān)督訓(xùn)練 800 個(gè) epoch 的 top-1 精度進(jìn)行了比較,表明 VisionLLaMA 比 DeiT3-L 收斂得更快。本文進(jìn)一步比較了 MAE 框架下 ViT-Base 模型的 800 個(gè) epoch 的訓(xùn)練損失,并在圖 5 中進(jìn)行了說(shuō)明。VisionLLaMA 在開(kāi)始時(shí)具有較低的訓(xùn)練損失,并將該趨勢(shì)保持到最后。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2012-07-02 10:45:38

國(guó)產(chǎn)CPU龍芯MIPS

2024-09-10 14:00:00

英偉達(dá)架構(gòu)AI

2021-03-01 10:01:22

開(kāi)發(fā)技能編碼

2022-07-20 22:53:44

CCNNSOTACNN 架構(gòu)

2010-07-29 23:05:57

思科城市云

2024-07-09 13:06:52

2012-11-08 15:20:29

AMDARM數(shù)據(jù)中心

2015-04-27 13:54:10

2020-06-18 10:46:12

IBM侯淼

2024-10-29 14:10:00

AI模型

2022-04-18 15:56:49

AI模型系統(tǒng)

2024-05-16 17:58:30

線程任務(wù)線程通訊線程池

2024-04-17 13:20:29

2009-04-16 12:31:42

交換數(shù)據(jù)中心H3C

2012-12-07 11:32:33

Exchange 20

2021-12-14 15:59:38

數(shù)據(jù)模型推理

2010-10-08 13:53:02

Silverlight

2023-02-22 09:53:55

架構(gòu)芯片

2021-11-11 10:37:23

Memblaze

2022-11-08 15:05:49

模型參數(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)