清華最新「持續(xù)學習」綜述,32頁詳述持續(xù)學習理論、方法與應(yīng)用綜述
在一般意義上,持續(xù)學習明顯受到災(zāi)難性遺忘的限制,學習新任務(wù)通常會導(dǎo)致舊任務(wù)的性能急劇下降。
除此之外,近年來出現(xiàn)了越來越多的進展,在很大程度上擴展了持續(xù)學習的理解和應(yīng)用。
?人們對這一方向日益增長和廣泛的興趣表明了它的現(xiàn)實意義和復(fù)雜性。
論文地址:??https://arxiv.org/abs/2302.00487??
本文對持續(xù)學習進行了全面的調(diào)研,試圖在基本設(shè)置、理論基礎(chǔ)、代表性方法和實際應(yīng)用之間建立聯(lián)系。
基于現(xiàn)有的理論和實證結(jié)果,將持續(xù)學習的一般目標總結(jié)為:在資源效率的背景下,確保適當?shù)姆€(wěn)定性-可塑性權(quán)衡,以及充分的任務(wù)內(nèi)/任務(wù)間泛化能力。
?提供了最先進的和詳細的分類法,廣泛分析了有代表性的策略如何解決持續(xù)學習,以及它們?nèi)绾芜m應(yīng)各種應(yīng)用中的特定挑戰(zhàn)。
?通過對持續(xù)學習當前趨勢、跨方向前景和與神經(jīng)科學的跨學科聯(lián)系的深入討論,相信這種整體的視角可以極大地促進該領(lǐng)域和其他領(lǐng)域的后續(xù)探索。
引言
學習是智能系統(tǒng)適應(yīng)環(huán)境的基礎(chǔ)。為了應(yīng)對外界的變化,進化使人類和其他生物具有很強的適應(yīng)性,能夠不斷地獲取、更新、積累和利用知識[148]、[227]、[322]。自然,我們期望人工智能(AI)系統(tǒng)以類似的方式適應(yīng)。這激發(fā)了持續(xù)學習的研究,其中典型的設(shè)置是逐一學習一系列內(nèi)容,并表現(xiàn)得就像同時觀察到的一樣(圖1,a)。這些內(nèi)容可以是新技能、舊技能的新示例、不同的環(huán)境、不同的背景等,并包含特定的現(xiàn)實挑戰(zhàn)[322],[413]。由于內(nèi)容是在一生中逐步提供的,因此在許多文獻中,持續(xù)學習也被稱為增量學習或終身學習,但沒有嚴格的區(qū)分[70],[227]。
與傳統(tǒng)的基于靜態(tài)數(shù)據(jù)分布的機器學習模型不同,持續(xù)學習的特點是從動態(tài)數(shù)據(jù)分布中學習。一個主要的挑戰(zhàn)被稱為災(zāi)難性遺忘[291],[292],對新分布的適應(yīng)通常會導(dǎo)致捕獲舊分布的能力大大降低。這種困境是學習可塑性和記憶穩(wěn)定性權(quán)衡的一個方面:前者過多會干擾后者,反之亦然。除了簡單地平衡這兩方面的「比例」外,持續(xù)學習的理想解決方案應(yīng)該獲得強大的泛化能力,以適應(yīng)任務(wù)內(nèi)部和任務(wù)之間的分布差異(圖1,b)。作為一個樸素的基線,重新訓練所有舊的訓練樣本(如果允許)可以輕松解決上述挑戰(zhàn),但會產(chǎn)生巨大的計算和存儲開銷(以及潛在的隱私問題)。事實上,持續(xù)學習的主要目的是確保模型更新的資源效率,最好接近只學習新的訓練樣本。
許多努力致力于解決上述挑戰(zhàn),可以在概念上分為五組(圖1,c):參考舊模型添加正則化項(基于正則化的方法);逼近和恢復(fù)舊數(shù)據(jù)分布(基于回放的方法);顯式操作優(yōu)化程序(基于優(yōu)化的方法);學習魯棒和良好泛化的表示(基于表示的方法);以及使用正確設(shè)計的體系結(jié)構(gòu)構(gòu)建任務(wù)自適應(yīng)參數(shù)(基于體系結(jié)構(gòu)的方法)。該分類法擴展了常用分類法的最新進展,并為每個類別提供了細化的子方向。總結(jié)了這些方法是如何實現(xiàn)所提出的一般目標的,并對其理論基礎(chǔ)和典型實現(xiàn)進行了廣泛的分析。特別是,這些方法是緊密聯(lián)系的,例如正則化和重放最終糾正優(yōu)化中的梯度方向,并且具有高度的協(xié)同性,例如,重放的效果可以通過從舊模型中提取知識來提高。
現(xiàn)實應(yīng)用對持續(xù)學習提出了特殊的挑戰(zhàn),可以分為場景復(fù)雜性和任務(wù)特異性。對于前者,例如,在訓練和測試中可能缺少任務(wù)oracle(即執(zhí)行哪個任務(wù)),訓練樣本可能是小批量甚至一次引入的。由于數(shù)據(jù)標記的成本和稀缺性,持續(xù)學習需要在少樣本、半監(jiān)督甚至無監(jiān)督的場景中有效。對于后者,雖然目前的進展主要集中在視覺分類,但其他視覺領(lǐng)域(如目標檢測、語義分割和圖像生成)以及其他相關(guān)領(lǐng)域(如強化學習(RL)、自然語言處理(NLP)和倫理考慮)正在受到越來越多的關(guān)注,其機遇和挑戰(zhàn)。
考慮到持續(xù)學習的興趣顯著增長,我們相信這項最新和全面的調(diào)研可以為后續(xù)的工作提供一個整體的視角。盡管有一些關(guān)于持續(xù)學習的早期調(diào)研,覆蓋面相對較廣[70],[322],但近年來的重要進展并未被納入其中。相比之下,最新的調(diào)研通常只整理持續(xù)學習的局部方面,關(guān)于其生物學基礎(chǔ)[148],[156],[186],[227],視覺分類的專門設(shè)置[85],[283],[289],[346],以及NLP[37],[206]或RL[214]中的擴展。據(jù)我們所知,這是第一個系統(tǒng)總結(jié)持續(xù)學習的最新進展的調(diào)研?;谶@些優(yōu)勢,我們就當前趨勢、跨方向前景(如擴散模型、大規(guī)模預(yù)訓練、視覺轉(zhuǎn)換器、具體AI、神經(jīng)壓縮等)以及與神經(jīng)科學的跨學科聯(lián)系,深入討論了持續(xù)學習。
主要貢獻包括:
(1) 對持續(xù)學習進行了最新而全面的綜述,以連接理論、方法和應(yīng)用的進步;
(2) 根據(jù)現(xiàn)有的理論和實證結(jié)果,總結(jié)了持續(xù)學習的一般目標,并對具有代表性的策略進行了詳細的分類;
(3) 將現(xiàn)實應(yīng)用的特殊挑戰(zhàn)分為場景復(fù)雜性和任務(wù)特殊性,并廣泛分析了持續(xù)學習策略如何適應(yīng)這些挑戰(zhàn);
(4)深入探討了當前研究趨勢和發(fā)展方向,以期為相關(guān)領(lǐng)域后續(xù)工作提供參考。
本文的組織如下:在第2節(jié)中,我們介紹了持續(xù)學習的設(shè)置,包括其基本公式,典型場景和評估指標。在第3節(jié)中,我們總結(jié)了一些針對其一般目標的持續(xù)學習的理論努力。在第4節(jié)中,我們對具有代表性的策略進行了最新的和詳細的分類,分析了它們的動機和典型的實現(xiàn)。在第5節(jié)和第6節(jié)中,我們描述了這些策略如何適應(yīng)場景復(fù)雜性和任務(wù)特異性的現(xiàn)實挑戰(zhàn)。在第7節(jié)中,我們提供了當前趨勢的討論,交叉方向的前景和神經(jīng)科學的跨學科聯(lián)系。
在本節(jié)中,我們詳細介紹了代表性持續(xù)學習方法的分類(參見圖3和圖1,c),并廣泛分析了它們的主要動機、典型實現(xiàn)和經(jīng)驗屬性。
Regularization-based 方法
該方向的特點是添加顯式正則項來平衡新舊任務(wù),這通常需要存儲舊模型的凍結(jié)副本以供參考(見圖4)。根據(jù)正則化的目標,這類方法可以分為兩類。
Replay-based 方法
將近似和恢復(fù)舊數(shù)據(jù)分布的方法分組到這個方向(見圖5)。根據(jù)回放的內(nèi)容,這些方法可以進一步分為三個子方向,每個子方向都有自己的挑戰(zhàn)。
Optimization-based 方法
持續(xù)學習不僅可以通過向損失函數(shù)添加額外的項(例如正則化和重放)來實現(xiàn),還可以通過顯式地設(shè)計和操作優(yōu)化程序來實現(xiàn)。
Representation-based 方法
將創(chuàng)建和利用持續(xù)學習表示優(yōu)勢的方法歸為這一類。除了早期通過元訓練[185]獲得稀疏表示的工作外,最近的工作試圖結(jié)合自監(jiān)督學習(SSL)[125]、[281]、[335]和大規(guī)模預(yù)訓練[295]、[380]、[456]的優(yōu)勢,以改進初始化和持續(xù)學習中的表示。請注意,這兩種策略密切相關(guān),因為預(yù)訓練數(shù)據(jù)通常數(shù)量巨大且沒有明確的標簽,而SSL本身的性能主要通過對(一系列)下游任務(wù)進行微調(diào)來評估。下面,我們將討論具有代表性的子方向。
Architecture-based 方法
上述策略主要集中在學習所有具有共享參數(shù)集的增量任務(wù)(即單個模型和一個參數(shù)空間),這是導(dǎo)致任務(wù)間干擾的主要原因。相反,構(gòu)造特定于任務(wù)的參數(shù)可以顯式地解決這個問題。以往的工作通常根據(jù)網(wǎng)絡(luò)體系結(jié)構(gòu)是否固定,將該方向分為參數(shù)隔離和動態(tài)體系結(jié)構(gòu)。本文專注于實現(xiàn)特定任務(wù)參數(shù)的方式,將上述概念擴展到參數(shù)分配、模型分解和模塊化網(wǎng)絡(luò)(圖8)。