自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

簡單通用:視覺基礎網(wǎng)絡最高3倍無損訓練加速,清華EfficientTrain++入選TPAMI 2024

人工智能 新聞
清華大學的研究團隊提出了一種廣義課程學習(generalized curriculum learning)算法:EfficientTrain++。

本文經(jīng)計算機視覺研究院公眾號授權轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

圖片

計算機視覺研究院專欄

Column of Computer Vision Institute

本文主要介紹剛剛被 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)錄用的一篇文章:EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training。

近年來,「scaling」是計算機視覺研究的主角之一。隨著模型尺寸和訓練數(shù)據(jù)規(guī)模的增大、學習算法的進步以及正則化和數(shù)據(jù)增強等技術的廣泛應用,通過大規(guī)模訓練得到的視覺基礎網(wǎng)絡(如 ImageNet1K/22K 上訓得的 Vision Transformer、MAE、DINOv2 等)已在視覺識別、目標檢測、語義分割等諸多重要視覺任務上取得了令人驚艷的性能。

然而,「scaling」往往會帶來令人望而卻步的高昂模型訓練開銷,顯著阻礙了視覺基礎模型的進一步發(fā)展和工業(yè)應用。

面向解決這一問題,清華大學的研究團隊提出了一種廣義課程學習(generalized curriculum learning)算法:EfficientTrain++。其核心思想在于,將「篩選和使用由易到難的數(shù)據(jù)、逐步訓練模型」的傳統(tǒng)課程學習范式推廣至「不進行數(shù)據(jù)維度的篩選,一直使用全部訓練數(shù)據(jù),但在訓練過程中逐步揭示每個數(shù)據(jù)樣本的由易到難的特征或模式(pattern)」。

EfficientTrain++ 具有幾個重要的亮點:

  1. 即插即用地實現(xiàn)視覺基礎網(wǎng)絡 1.5?3.0× 無損訓練加速。上游、下游模型性能均不損失。實測速度與理論結果一致。
  2. 通用于不同的訓練數(shù)據(jù)規(guī)模(例如 ImageNet-1K/22K,22K 效果甚至更為明顯)。通用于監(jiān)督學習、自監(jiān)督學習(例如 MAE)。通用于不同訓練開銷(例如對應于 0-300 或更多 epochs)。
  3. 通用于 ViT、ConvNet 等多種網(wǎng)絡結構(文中測試了二十余種尺寸、種類不同的模型,一致有效)。
  4. 對較小模型,訓練加速之外,還可顯著提升性能(例如在沒有額外信息幫助、沒有額外訓練開銷的條件下,在 ImageNet-1K 上得到了 81.3% 的 DeiT-S,可與原版 Swin-Tiny 抗衡)。
  5. 兩種有挑戰(zhàn)性的常見實際情形開發(fā)了專門的實際效率優(yōu)化技術:1)CPU / 硬盤不夠強力,數(shù)據(jù)預處理效率跟不上 GPU;2)大規(guī)模并行訓練,例如在 ImageNet-22K 上使用 64 或以上的 GPUs 訓練大型模型。

接下來,我們一起來看看該研究的細節(jié)。

一.研究動機

近年來,大型基礎模型(foundation models)的蓬勃發(fā)展極大促進了人工智能和深度學習的進步。在計算機視覺領域,Vision Transformer(ViT)、CLIP、SAM、DINOv2 等代表性工作已經(jīng)證明,同步增大(scaling up)神經(jīng)網(wǎng)絡尺寸和訓練數(shù)據(jù)規(guī)模能夠顯著拓展識別、檢測、分割等大量重要視覺任務的性能邊界。

然而,大型基礎模型往往具有高昂的訓練開銷,圖 1 給出了兩個典型例子。以使用 8 塊 NVIDIA V100 或性能更強的 GPU 為例,GPT-3、ViT-G 僅完成一次訓練即需要等效為數(shù)年甚至數(shù)十年的時間。如此高昂的訓練成本,無論是對學術界還是工業(yè)界而言,都是較難負擔的巨大開銷,往往只有少數(shù)頂尖機構消耗大量資源才能推進深度學習的進展。因此,一個亟待解決的問題是:如何有效提升大型深度學習模型的訓練效率?

圖 1 示例:大型深度學習基礎模型的高昂訓練開銷

對于計算機視覺模型而言,一個經(jīng)典的思路是課程學習(curriculum learning),如圖 2 所示,即模仿人類漸進式、高度結構化的學習過程,在模型訓練過程中,從最「簡單」的訓練數(shù)據(jù)開始,逐步引入由易到難的數(shù)據(jù)。

圖片圖 2 經(jīng)典課程學習范式(圖片來源:《A Survey on Curriculum Learning》,TPAMI’22)

然而,盡管動機比較自然,課程學習并沒有被大規(guī)模應用為訓練視覺基礎模型的通用方法,其主要原因在于存在兩個關鍵的瓶頸,如圖 3 所示。其一,設計有效的訓練課程(curriculum)并非易事。區(qū)別「簡單」、「困難」樣本往往需要借助于額外的預訓練模型、設計較復雜的 AutoML 算法、引入強化學習等,且通用性較差。其二,課程學習本身的建模存在一定不合理性。自然分布中的視覺數(shù)據(jù)往往具有高度的多樣性,圖 3 下方給出了一個例子(從 ImageNet 中隨機抽取的鸚鵡圖片),模型訓練數(shù)據(jù)中包含大量不同動作的鸚鵡、離鏡頭不同距離的鸚鵡、不同視角、不同背景的鸚鵡、以及鸚鵡與人或物的多樣化的交互等,將如此多樣化的數(shù)據(jù)數(shù)據(jù)僅僅以「簡單」、「困難」的單一維度指標進行區(qū)分,事實上是一個比較粗糙和牽強的建模方式。

圖片圖 3 阻礙課程學習大規(guī)模應用于訓練視覺基礎模型的兩個關鍵瓶頸

二.方法簡介

受到上述挑戰(zhàn)的啟發(fā),本文提出了一種廣義課程學習(generalized curriculum learning)范式,其核心思想在于,將「篩選和使用由易到難的數(shù)據(jù)、逐步訓練模型」的傳統(tǒng)課程學習范式推廣至「不進行數(shù)據(jù)維度的篩選,一直使用全部訓練數(shù)據(jù),但在訓練過程中逐步揭示每個數(shù)據(jù)樣本的由易到難的特征或模式」,這樣就有效避開了因數(shù)據(jù)篩選范式引發(fā)的局限和次優(yōu)設計,如圖 4 所示。

圖 4 傳統(tǒng)課程學習(樣本維度) v.s. 廣義課程學習(特征維度)

這一范式的提出主要基于一個有趣的現(xiàn)象:在一個自然的視覺模型訓練過程中,雖然模型總是可以隨時獲取數(shù)據(jù)中包含的全部信息,但模型總會自然地先學習識別數(shù)據(jù)中包含的某些比較簡單的判別特征(pattern),而后在此基礎上再逐步學習識別更難的判別特征。并且,這一規(guī)律是比較普遍的,「比較簡單」的判別特征在頻域和空域都可以較方便地找到。本文設計了一系列有趣的實驗來證明上述發(fā)現(xiàn),如下所述。

從頻域的角度來說,「低頻特征」對于模型而言「比較簡單」。在圖 5 中,本文作者使用標準 ImageNet-1K 訓練數(shù)據(jù)訓練了一個 DeiT-S 模型,并使用帶寬不同的低通濾波器對驗證集進行濾波,只保留驗證圖像的低頻分量,在此基礎上報告 DeiT-S 在訓練過程中、在低通濾波的驗證數(shù)據(jù)上的準確率,所得準確率相對訓練過程的曲線顯示于圖 5 右側。

我們可以看到一個有趣的現(xiàn)象:在訓練早期階段,僅使用低通濾波的驗證數(shù)據(jù)不會顯著降低準確性,且曲線與正常驗證集準確率間的分離點隨濾波器帶寬的增大而逐漸右移。這一現(xiàn)象表明,盡管模型始終可以訪問訓練數(shù)據(jù)的低頻和高頻部分,但其學習過程自然地從僅關注低頻信息開始,識別較高頻特征的能力則在訓練后期逐步習得(這一現(xiàn)象的更多證據(jù)可參考原文)。

圖片圖 5 頻域角度上,模型自然傾向于先學習識別低頻特征

這一發(fā)現(xiàn)引出了一個有趣的問題:我們是否可以設計一個訓練課程(curriculum),從只為模型提供視覺輸入的低頻信息開始,而后逐漸引入高頻信息?

圖 6 研究了這個想法,即僅在特定長度的早期訓練階段對訓練數(shù)據(jù)執(zhí)行低通濾波,訓練過程的其余部分保持不變。從結果中可以觀察到,盡管最終性能提升有限,但有趣的是,即使在相當長的一段早期訓練階段中僅向模型提供低頻分量,模型的最終精度也可以在很大程度上得到保留,這也與圖 5 中「模型在訓練初期主要關注學習識別低頻特征」的觀察不謀而合。

這一發(fā)現(xiàn)啟發(fā)了本文作者關于訓練效率的思考:既然模型在訓練初期只需要數(shù)據(jù)中的低頻分量,且低頻分量包含的信息小于原始數(shù)據(jù),那么能否使模型以比處理原始輸入更少的計算成本高效地僅從低頻分量中學習?

圖 6 在相當長的一段早期訓練階段中僅向模型提供低頻分量并不會顯著影響最終性能

事實上,這一思路是完全可行的。如圖 7 左側所示,本文作者在圖像的傅里葉頻譜中引入了裁切操作,裁切出低頻部分,并將其映射回像素空間。這一低頻裁切操作準確地保留了所有低頻信息,同時減小了圖像輸入的尺寸,因此模型從輸入中學習的計算成本可以呈指數(shù)級降低。

如果使用這一低頻裁切操作在訓練早期階段處理模型輸入,可以顯著節(jié)省總體訓練成本,但由于最大限度地保留了模型學習所必要的信息,仍然可以獲得性能幾乎不受損失的最終模型,實驗結果如圖 7 右下方所示。

圖 7 低頻裁切(low-frequency cropping):使模型高效地僅從低頻信息中學習

在頻域操作之外,從空域變換的角度,同樣可以找到對于模型而言「比較簡單」的特征。例如,沒有經(jīng)過較強數(shù)據(jù)增強或者扭曲處理的原始視覺輸入中所包含的自然圖像信息往往對于模型而言「比較簡單」、更容易讓模型學習,因為它們是從現(xiàn)實世界的分布中得出的,而數(shù)據(jù)增強等預處理技術所引入的額外信息、不變性等往往對于模型而言較難學習(圖 8 左側給出了一個典型示例)。

事實上,現(xiàn)有研究也已觀察到,數(shù)據(jù)增強主要在訓練較晚期階段發(fā)揮作用(如《Improving Auto-Augment via Augmentation-Wise Weight Sharing》, NeurIPS’20)。

在這一維度上,為實現(xiàn)廣義課程學習的范式,可以簡單地通過改變數(shù)據(jù)增強的強度方便地實現(xiàn)在訓練早期階段僅向模型提供訓練數(shù)據(jù)中較容易學習的自然圖像信息。圖 8 右側使用 RandAugment 作為代表性示例來驗證了這個思路,RandAugment 包含了一系列常見的空域數(shù)據(jù)增強變換(例如隨機旋轉(zhuǎn)、更改銳度、仿射變換、更改曝光度等)。

可以觀察到,從較弱的數(shù)據(jù)增強開始訓練模型可以有效提高模型最終表現(xiàn),同時這一技術與低頻裁切兼容。

圖 8 從空域的角度尋找模型 “較容易學習” 的特征:一個數(shù)據(jù)增強的視角

到此處為止,本文提出了廣義課程學習的核心框架與假設,并通過揭示頻域、空域的兩個關鍵現(xiàn)象證明了廣義課程學習的合理性和有效性。在此基礎上,本文進一步完成了一系列系統(tǒng)性工作,在下面列出。由于篇幅所限,關于更多研究細節(jié),可參考原論文。

  1. 融合頻域、空域的兩個核心發(fā)現(xiàn),提出和改進了專門設計的優(yōu)化算法,建立了一個統(tǒng)一、整合的 EfficientTrain++ 廣義課程學習方案。
  2. 探討了低頻裁切操作在實際硬件上高效實現(xiàn)的具體方法,并從理論和實驗兩個角度比較了兩種提取低頻信息的可行方法:低頻裁切和圖像降采樣,的區(qū)別和聯(lián)系。
  3. 對兩種有挑戰(zhàn)性的常見實際情形開發(fā)了專門的實際效率優(yōu)化技術:1)CPU / 硬盤不夠強力,數(shù)據(jù)預處理效率跟不上 GPU;2)大規(guī)模并行訓練,例如在 ImageNet-22K 上使用 64 或以上的 GPUs 訓練大型模型。

本文最終得到的 EfficientTrain++ 廣義課程學習方案如圖 9 所示。EfficientTrain++ 以模型訓練總計算開銷的消耗百分比為依據(jù),動態(tài)調(diào)整頻域低頻裁切的帶寬和空域數(shù)據(jù)增強的強度。

值得注意的是,作為一種即插即用的方法,EfficientTrain++ 無需進一步的超參數(shù)調(diào)整或搜索即可直接應用于多種視覺基礎網(wǎng)絡和多樣化的模型訓練場景,效果比較穩(wěn)定、顯著。

圖片圖 9 統(tǒng)一、整合的廣義課程學習方案:EfficientTrain++

三.實驗結果

作為一種即插即用的方法,EfficientTrain++ 在 ImageNet-1K 上,在基本不損失或提升性能的條件下,將多種視覺基礎網(wǎng)絡的實際訓練開銷降低了 1.5 倍左右。

圖 10 ImageNet-1K 實驗結果:EfficientTrain++ 在多種視覺基礎網(wǎng)絡上的表現(xiàn)

EfficientTrain++ 的增益通用于不同的訓練開銷預算,嚴格相同表現(xiàn)的情況下,DeiT/Swin 在 ImageNet-1K 上的訓加速比在 2-3 倍左右。


圖片圖 11 ImageNet-1K 實驗結果:EfficientTrain++ 在不同訓練開銷預算下的表現(xiàn)

EfficientTrain++ 在 ImageNet-22k 上可以取得 2-3 倍的性能無損預訓練加速。

圖片圖 12 ImageNet-22K 實驗結果:EfficientTrain++ 在更大規(guī)模訓練數(shù)據(jù)上的表現(xiàn)

對于較小的模型,EfficientTrain++ 可以實現(xiàn)顯著的性能上界提升。

圖片圖 13 ImageNet-1K 實驗結果:EfficientTrain++ 可以顯著提升較小模型的性能上界

EfficientTrain++ 對于自監(jiān)督學習算法(如 MAE)同樣有效。

圖片圖 14 EfficientTrain++ 可以應用于自監(jiān)督學習(如 MAE)

EfficientTrain++ 訓得的模型在目標檢測、實例分割、語義分割等下游任務上同樣不損失性能。

圖片圖 15 COCO 目標檢測、COCO 實例分割、ADE20K 語義分割實驗結果

責任編輯:張燕妮 來源: 計算機視覺研究院
相關推薦

2024-05-22 08:27:57

數(shù)據(jù)AI

2024-09-26 10:04:20

2022-04-26 15:09:14

優(yōu)化模型訓練

2024-01-18 15:18:48

數(shù)據(jù)模型

2023-01-05 09:33:37

視覺模型訓練

2023-05-23 14:06:53

微軟研究

2025-04-11 09:15:00

語言模型AI數(shù)據(jù)

2025-03-27 09:47:23

訓練模型AI

2024-01-03 12:31:09

2020-05-03 13:52:27

深度學習開源人工智能

2023-06-30 13:48:00

算法AI

2025-02-10 08:40:00

訓練數(shù)據(jù)模型

2022-03-21 17:56:59

大模型訓練訓練框架

2022-03-21 15:06:10

模型字節(jié)跳動框架

2022-10-31 15:35:16

開源引擎

2024-01-03 15:50:33

Python循環(huán)測試

2024-08-01 08:40:00

2021-03-18 15:29:10

人工智能機器學習技術

2020-05-14 14:21:50

谷歌AI數(shù)據(jù)

2025-04-28 09:00:00

點贊
收藏

51CTO技術棧公眾號