自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華提出DIKI:基于殘差的可控持續(xù)學習方案,完美保持預訓練知識

人工智能 新聞
為了高效地解決此問題,論文提出了分布感知無干擾知識集成(DIKI)框架,從避免信息干擾的角度保留VLMs的預訓練知識。

本研究解決了領域-類別增量學習問題,這是一個現(xiàn)實但富有挑戰(zhàn)性的持續(xù)學習場景,其中領域分布和目標類別在不同任務中變化。為應對這些多樣化的任務,引入了預訓練的視覺-語言模型(VLMs),因為它們具有很強的泛化能力。然而,這也引發(fā)了一個新問題:在適應新任務時,預訓練VLMs中編碼的知識可能會受到干擾,從而損害它們固有的零樣本能力?,F(xiàn)有方法通過在額外數(shù)據(jù)集上對VLMs進行知識蒸餾來解決此問題,但這需要較大的計算開銷。為了高效地解決此問題,論文提出了分布感知無干擾知識集成(DIKI)框架,從避免信息干擾的角度保留VLMs的預訓練知識。具體而言,設計了一個完全殘差機制,將新學習的知識注入到一個凍結的主干網絡中,同時對預訓練知識產生最小的不利影響。此外,這種殘差特性使分布感知集成校準方案成為可能,明確控制來自未知分布的測試數(shù)據(jù)的信息植入過程。實驗表明,DIKI超過了當前最先進的方法,僅使用0.86%的訓練參數(shù),并且所需的訓練時間大幅減少。

論文: Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models

圖片

  • 論文地址:https://arxiv.org/abs/2407.05342
  • 論文代碼:https://github.com/lloongx/DIKI

Introduction

監(jiān)督學習技術在對所有數(shù)據(jù)完全訪問的情況下訓練網絡,這可能導致在擴展網絡以獲取新任務知識時缺乏靈活性。持續(xù)學習(CL)作為一種解決方案應運而生,使得模型能夠在陸續(xù)到達的數(shù)據(jù)上進行持續(xù)訓練,同時保留所學的信息。傳統(tǒng)的CL設置一般考慮的只新引入的類別或領域分布的變化,這稱為類別增量學習和領域增量學習。然而,只考慮一種增量的現(xiàn)有工作限制了它們在復雜現(xiàn)實場景中的適用性。

圖片

考慮一個更具挑戰(zhàn)性的領域-類別增量學習(DCIL)設置,在該設置中,領域數(shù)據(jù)分布和待分類的類別在所有任務中可能不斷變化,如圖1(a)所示。在這種情況下,基于傳統(tǒng)圖像編碼器的技術由于其不可擴展的分類頭設計而無法實現(xiàn)。最近,對比訓練的視覺-語言模型(VLMs)如CLIP的出現(xiàn),使得解決這一要求高但實際的問題成為可能。VLMs是在大規(guī)模的圖像-文本對上訓練的,具有強大的零樣本泛化能力,可以識別幾乎無限的類別,應對這種嚴重的任務變化場景。

然而,使用視覺-語言模型引入了增量訓練的新挑戰(zhàn)。傳統(tǒng)的持續(xù)學習方案旨在防止模型遺忘先前學習的知識,這被稱為向后遺忘(忘記微調的知識)?,F(xiàn)有的研究探討了正則化機制、復習緩沖區(qū)和架構設計在減輕向后遺忘方面的潛力,并取得了令人鼓舞的成果。然而,當這些方法應用于視覺-語言模型時,出現(xiàn)了一種不同形式的災難性遺忘:模型往往會遺忘在預訓練階段所學的知識,從而妨礙其強大的零樣本泛化能力。這個問題被稱為向前遺忘(忘記預訓練的知識),因為它發(fā)生在VLMs對未知分布數(shù)據(jù)進行“向前”預測時。圖1(a)展示了這兩種遺忘類型。

最近的工作ZSCL嘗試解決CLIP上的向前遺忘問題,引入了一個大規(guī)模的參考數(shù)據(jù)集來進行知識蒸餾,并結合了權重集成方案。然而,這種方法需要大量的計算和外部數(shù)據(jù),在實際場景中可能不可行。同時,現(xiàn)有的基于VLM的參數(shù)高效持續(xù)學習方法主要利用提示調整機制,未能保留預訓練知識,并導致零樣本能力下降,如圖1(b)所示。論文將這個問題歸因于信息干擾:新引入的任務特定參數(shù)可能會干擾預訓練知識。這些方法的示意圖如圖1(c)所示。

為了以計算和參數(shù)高效的方式緩解VLMs的向前遺忘問題,論文引入了分布感知無干擾知識融合(DIKI)框架。具體而言,將任務特定信息注入到凍結的VLM中,以便為每個任務高效地存儲已學習的知識。

論文的貢獻總結為三點:

  1. 引入了參數(shù)高效的DIKI,以在DCIL設置下保留VLM中的預訓練知識。它解決了信息干擾問題,降低了對大量計算和外部數(shù)據(jù)的需求。
  2. 為了緩解向前遺忘,DIKI以完全殘差的方式植入新知識,保持預訓練知識不受干擾。憑借這種殘差特性,進一步集成了分布感知融合校準,以提高在未見任務上的性能。
  3. 綜合實驗表明,與以前的方法相比,DIKI以僅0.86%的訓練參數(shù)和顯著更少的訓練時間實現(xiàn)了最先進的性能。

Preliminaries

  • Continual learning protocol

圖片圖片

  • Vision-language models

圖片

  • Task-specific prompt learning

一系列研究開始探索在持續(xù)學習中參數(shù)高效微調的潛力,常見的做法是為每個任務學習和存儲一組輕量級提示,在持續(xù)學習階段形成一個“提示池”,表示為:

圖片

其中N是任務編號,l和d分別是提示的長度和特征嵌入的維度。

圖片圖片圖片圖片圖片

通過最相關的鍵,選擇相應的提示并將其附加到凍結模型上,執(zhí)行推理過程。

Methodology

Interference-free Knowledge Integration

  • Is prepending the best choice?

盡管將提示預先添加到輸入tokens的方法因其實現(xiàn)簡單而被廣泛使用,但論文發(fā)現(xiàn)它們面臨兩個方面的問題。

  1. 將提示與輸入tokens進行連接會導致它們在注意力過程中相互作用,從而影響預訓練知識的提取。當測試樣本來自模型學習提示時的分布時,適應后的模型可以保持相對令人滿意的結果。然而,一旦遇到分布發(fā)生改變的樣本,這種干擾可能導致模型性能下降,并損失其重要的零樣本泛化能力,造成前向遺忘問題。
  2. 簡單地預先添加提示不可避免地增加了所有Transformer塊的token長度,這在許多有token長度限制的場景中并不理想。另外,它的可擴展性有限:較長的提示上下文可能會使文本編碼器忽視重要的類別名稱,從而導致文本嵌入表示不佳。

上述問題的存在表明,基于提示調優(yōu)的方法并不滿足“殘差屬性”:期望學習到的參數(shù)應該是與凍結主干并行的殘差路徑,補充新的知識而不影響關鍵的預訓練知識。因此,論文提出了一種無干擾知識整合(Interference-free Knowledge Integration,IKI)方案,以最小化噪聲的方式將新學習的知識注入到預訓練的VLM中。

  • IKI mechanism

圖片圖片圖片圖片圖片圖片圖片

為了解決這個問題,論文分別計算輸入tokens內的自注意力和提示與輸入tokens之間的交叉注意力,如圖2(b)所示。換句話說,只訓練一個殘差注意力分支,保持現(xiàn)有的注意力分數(shù)不變。通過新引入的鍵和值,殘差注意力分支的輸出可以表示為:

圖片

理想情況下,一個理想的殘差塊在未在下游數(shù)據(jù)集上進行訓練之前,應該不會影響原始分支,比如在初始化時。廣泛使用的方式用均勻或正態(tài)分布初始化提示,這會在沒有學習到任何知識的情況下向預訓練的VLMs中注入隨機噪聲。具體而言,通過將參數(shù)初始化為零,強制殘差注意力加法成為一個恒等函數(shù):

圖片

注意,論文僅在開始時將值限制為零,同時保持隨機初始化。這是因為將和都初始化為零矩陣會阻止通過梯度更新,從而使陷入到具有相同值的向量中。

由于零初始化更像是一種選擇而非技術,一些研究在各種任務中采用了它。然而,這些工作利用零初始化來確保穩(wěn)定和漸進的訓練機制,而在DCIL場景中并不存在這一顧慮。論文認為,零初始化對于殘差注意力設計是至關重要的,它可以以最小的噪聲將新知識注入到預訓練的VLMs中。

Distribution-aware Integration Calibration

  • Observations 在推理時,會執(zhí)行公式3中描述的查詢-鍵匹配機制,以檢索適合當前測試樣本的學習提示。這種方法是針對傳統(tǒng)的持續(xù)學習設置而設計的,僅考慮了向后遺忘。然而,當面對來自未見領域的數(shù)據(jù)時,這種簡單的匹配設計被強制執(zhí)行,從而為測試樣本分配一個相對相似的任務,盡管它們之間存在顯著的分布差距。

得益于IKI的殘差設計,與之前的方法相比,現(xiàn)在可以在這種不匹配的場景中引入更少的噪聲。然而,當訓練和測試分布之間的差異增加時,模型在某種程度上的性能下降是不可避免的,這會損害VLMs在預訓練階段所學到的零樣本能力。

ZSCL通過蒸餾來解決這個問題。他們構建了一個包含來自ImageNet的100,000張圖像的參考數(shù)據(jù)集,以在每個訓練步驟中將原始CLIP的預訓練知識蒸餾到當前模型中,明確進行復習以避免遺忘。這種方法可能有效,但它依賴于大規(guī)模存儲和高計算資源,從而在實際環(huán)境中顯得不切實際。

一個直觀的解決方案是控制知識植入模型的程度。然而,之前基于前置的提示調整技術只有兩個選擇:要么追加學習到的提示,要么不對原始CLIP模型進行任何修改。得益于IKI的優(yōu)雅殘差特性,現(xiàn)在可以控制這一并行分支的能力。

  • DIKI: calibrate the integration with distribution

圖片圖片圖片圖片圖片圖片

Experiments

圖片

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2021-11-15 10:00:22

模型人工智能NLP

2017-07-19 11:39:25

深度學習人工智能boosting

2025-04-11 09:35:34

2021-11-26 10:18:37

AI 數(shù)據(jù)機器學習

2024-11-07 15:10:00

2023-05-19 07:25:34

2022-11-02 14:02:02

強化學習訓練

2025-02-17 09:30:00

AI訓練模型

2023-06-12 07:50:45

2017-12-26 13:53:31

深度學習遷移學習

2025-02-10 08:40:00

訓練數(shù)據(jù)模型

2023-03-14 14:10:00

圖像檢測

2023-02-01 09:46:29

2017-06-23 14:11:56

2021-12-06 09:53:09

自然語言神經網絡人工智能

2020-07-29 12:16:12

預訓練自訓練神經網絡

2023-06-15 15:45:42

自然語言語言模型

2021-01-13 15:16:45

谷歌架構開發(fā)者

2023-02-07 13:24:42

應用學習

2020-11-18 10:29:07

模型人工智能開源
點贊
收藏

51CTO技術棧公眾號