自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

整合 200 多項(xiàng)相關(guān)研究,大模型「終生學(xué)習(xí)」最新綜述來(lái)了

人工智能 新聞
作者將現(xiàn)有研究分為 12 種終生學(xué)習(xí)場(chǎng)景,并提供了全面的方法歸納整理。此外還分析強(qiáng)調(diào)了在管理災(zāi)難性遺忘、確保計(jì)算效率和在知識(shí)獲取中的特定性與通用性之間維持平衡的必要性。

該論文作者均來(lái)自于華南理工大學(xué)馬千里教授團(tuán)隊(duì),所在實(shí)驗(yàn)室為機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)室。論文的三位共同第一作者為博士生鄭俊豪、碩士生邱圣潔、碩士生施成明,主要研究方向包括大模型和終生學(xué)習(xí)等,通訊作者為馬千里教授(IEEE/ACM TASLP 副主編)。馬千里教授團(tuán)隊(duì)近年來(lái)在國(guó)際權(quán)威期刊(如 TPAMI 等)和國(guó)際頂級(jí)學(xué)術(shù)會(huì)議(如 NeurIPS、AAAI、IJCAI、ACL、KDD、ICDE 等)上發(fā)表多篇 Time Series/NLP/Recommendation System 相關(guān)的研究工作,和國(guó)內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開(kāi)展合作。

隨著大語(yǔ)言模型在各個(gè)領(lǐng)域應(yīng)用的不斷拓展,如何讓這些模型能夠連續(xù)適應(yīng)數(shù)據(jù)、任務(wù)和用戶偏好的變化成為一個(gè)關(guān)鍵問(wèn)題。傳統(tǒng)的靜態(tài)數(shù)據(jù)集訓(xùn)練方法已經(jīng)無(wú)法滿足現(xiàn)實(shí)世界的動(dòng)態(tài)需求。

為了解決這一挑戰(zhàn),終生學(xué)習(xí)(Lifelong Learning)或連續(xù)學(xué)習(xí)(Continual Learning)技術(shù)應(yīng)運(yùn)而生。它能讓大語(yǔ)言模型在其工作壽命中不斷學(xué)習(xí)和適應(yīng),在整合新知識(shí)的同時(shí)保留以前學(xué)習(xí)過(guò)的信息,防止災(zāi)難性遺忘(Catastrophic Forgetting)。

最近,來(lái)自華南理工大學(xué)的研究者調(diào)研、整理并總結(jié)了大語(yǔ)言模型(LLMs)的終生學(xué)習(xí)(Lifelong Learning)方法及其發(fā)展前景,并將其總結(jié)為一篇全面且前沿的綜述。

圖片

  • 論文標(biāo)題:Towards Lifelong Learning of Large Language Models: A Survey
  • 機(jī)構(gòu):華南理工大學(xué)
  • 論文地址:https://arxiv.org/abs/2406.06391
  • 項(xiàng)目地址:https://github.com/qianlima-lab/awesome-lifelong-learning-methods-for-llm

圖 1 展示了終生學(xué)習(xí)(Lifelong Learning)在大語(yǔ)言模型和人類學(xué)習(xí)過(guò)程中的類比。圖中通過(guò)兩條平行的學(xué)習(xí)路徑來(lái)展示人類和大語(yǔ)言模型在終生學(xué)習(xí)中的進(jìn)化過(guò)程。

圖片

人類學(xué)習(xí)(Human Learning)

1. 步行(Walk):人類從最基礎(chǔ)的技能(如步行)開(kāi)始學(xué)習(xí)。

2. 騎自行車(Ride a Bike):隨著學(xué)習(xí)的進(jìn)展,人類掌握了更復(fù)雜的技能(如騎自行車)。

3. 開(kāi)車(Drive a Car):最終,人類可以掌握更加復(fù)雜和高級(jí)的技能(如開(kāi)車)。

每一步都代表著人類在終生學(xué)習(xí)過(guò)程中不斷獲取新技能和知識(shí)的過(guò)程。

大語(yǔ)言模型學(xué)習(xí)(LLMs Learning)

1. 新語(yǔ)言(New Language):大語(yǔ)言模型從學(xué)習(xí)新的語(yǔ)言開(kāi)始(如學(xué)會(huì)處理不同的自然語(yǔ)言)。

2. 新領(lǐng)域(New Domain):接下來(lái),模型學(xué)習(xí)新的領(lǐng)域知識(shí)(如從自然語(yǔ)言處理擴(kuò)展到醫(yī)學(xué)領(lǐng)域)。

3. 新信息(New Information):最終,模型可以學(xué)習(xí)和整合新的信息,無(wú)論是語(yǔ)言還是領(lǐng)域。

每一步代表著大語(yǔ)言模型在終生學(xué)習(xí)過(guò)程中不斷擴(kuò)展和更新知識(shí)的過(guò)程。這張圖強(qiáng)調(diào)終生學(xué)習(xí)的過(guò)程:終生學(xué)習(xí)是一個(gè)連續(xù)的過(guò)程,涵蓋了從基礎(chǔ)到高級(jí)的逐步進(jìn)化。終生學(xué)習(xí)不僅僅是簡(jiǎn)單的知識(shí)積累,而是一個(gè)動(dòng)態(tài)的、不斷進(jìn)化的過(guò)程。

近年來(lái),終生學(xué)習(xí)已成為一個(gè)越來(lái)越熱門的研究課題,涌現(xiàn)出有關(guān)神經(jīng)網(wǎng)絡(luò)終生學(xué)習(xí)的大規(guī)模調(diào)查。大多數(shù)現(xiàn)有研究主要關(guān)注卷積神經(jīng)網(wǎng)絡(luò)(CNN)的終生學(xué)習(xí)的各種應(yīng)用場(chǎng)景和圖神經(jīng)網(wǎng)絡(luò)的終生學(xué)習(xí)。然而,只有少量文獻(xiàn)關(guān)注語(yǔ)言模型的終生學(xué)習(xí)。盡管最近的一些綜述收集了終生學(xué)習(xí)的最新文獻(xiàn),但都沒(méi)有涉及連續(xù)文本分類、連續(xù)命名實(shí)體識(shí)別、連續(xù)關(guān)系提取和連續(xù)機(jī)器翻譯等場(chǎng)景,對(duì)連續(xù)對(duì)齊、連續(xù)知識(shí)編輯、基于工具的終生學(xué)習(xí)和基于檢索的終生學(xué)習(xí)的討論也很少。

這篇綜述是第一個(gè)從 12 個(gè)場(chǎng)景出發(fā),對(duì)大語(yǔ)言模型終生學(xué)習(xí)方法進(jìn)行全面系統(tǒng)研究的調(diào)查。

總體來(lái)說(shuō),綜述的主要貢獻(xiàn)包括:

  • 新穎分類:引入了一個(gè)詳細(xì)的結(jié)構(gòu)化框架,將有關(guān)終生學(xué)習(xí)的大量文獻(xiàn)分為 12 個(gè)場(chǎng)景;
  • 通用技術(shù):確定了所有終生學(xué)習(xí)情況下的通用技術(shù),并將現(xiàn)有文獻(xiàn)分為每個(gè)場(chǎng)景中不同的技術(shù)組;
  • 未來(lái)方向:強(qiáng)調(diào)了一些新興技術(shù),如模型擴(kuò)展和數(shù)據(jù)選擇,這些技術(shù)在前 LLM 時(shí)代探索較少。

一、引言

本綜述系統(tǒng)地總結(jié)了現(xiàn)有的終生學(xué)習(xí)技術(shù)方法,在圖 2 中將其分為內(nèi)部知識(shí)和外部知識(shí)兩大類。

圖片


  • 內(nèi)部知識(shí)是指通過(guò)完全或部分訓(xùn)練將新知識(shí)吸收到模型參數(shù)中,包括連續(xù)預(yù)訓(xùn)練和連續(xù)微調(diào)。
  • 外部知識(shí)是指在不更新模型參數(shù)的情況下,將維基百科或應(yīng)用程序接口等外部資源中的新知識(shí)納入模型,包括基于檢索的終生學(xué)習(xí)和基于工具的終生學(xué)習(xí)。

內(nèi)部知識(shí)(Internal Knowledge)

1. 連續(xù)預(yù)訓(xùn)練(Continual Pretraining):

  • 連續(xù)垂直領(lǐng)域預(yù)訓(xùn)練(Continual Vertical Domain Pretraining):針對(duì)特定垂直領(lǐng)域(如金融、醫(yī)療等)進(jìn)行的連續(xù)預(yù)訓(xùn)練。
  • 連續(xù)語(yǔ)言領(lǐng)域預(yù)訓(xùn)練(Continual Language Domain Pretraining):針對(duì)自然語(yǔ)言和代碼語(yǔ)言進(jìn)行的連續(xù)預(yù)訓(xùn)練。
  • 連續(xù)時(shí)間領(lǐng)域預(yù)訓(xùn)練(Continual Temporal Domain Pretraining):針對(duì)時(shí)間相關(guān)數(shù)據(jù)(如時(shí)間序列數(shù)據(jù))的連續(xù)預(yù)訓(xùn)練。

2. 連續(xù)微調(diào)(Continual Finetuning):

特定任務(wù)(Task Specific):

  • 連續(xù)文本分類(Continual Text Classification):針對(duì)文本分類任務(wù)進(jìn)行的連續(xù)微調(diào)。
  • 連續(xù)命名實(shí)體識(shí)別(Continual Named Entity Recognition):針對(duì)命名實(shí)體識(shí)別任務(wù)進(jìn)行的連續(xù)微調(diào)。
  • 連續(xù)關(guān)系抽?。–ontinual Relation Extraction):針對(duì)關(guān)系抽取任務(wù)進(jìn)行的連續(xù)微調(diào)。
  • 連續(xù)機(jī)器翻譯(Continual Machine Translation):針對(duì)機(jī)器翻譯任務(wù)進(jìn)行的連續(xù)微調(diào)。

任務(wù)無(wú)關(guān)(Task Agnostic):

  • 連續(xù)指令微調(diào)(Continual Instruction-Tuning):通過(guò)指令微調(diào)實(shí)現(xiàn)模型的連續(xù)學(xué)習(xí)。
  • 連續(xù)知識(shí)編輯(Continual Knowledge Editing):針對(duì)知識(shí)更新進(jìn)行的連續(xù)學(xué)習(xí)。
  • 連續(xù)對(duì)齊(Continual Alignment):針對(duì)模型與新任務(wù)對(duì)齊進(jìn)行的連續(xù)學(xué)習(xí)。

外部知識(shí)(External Knowledge)

1. 基于檢索的終生學(xué)習(xí)(Retrieval-Based Lifelong Learning):通過(guò)檢索外部知識(shí)庫(kù)實(shí)現(xiàn)的終生學(xué)習(xí)。

2. 基于工具的終生學(xué)習(xí)(Tool-Based Lifelong Learning):通過(guò)調(diào)用外部工具實(shí)現(xiàn)的終生學(xué)習(xí)。

二、終生學(xué)習(xí)概況

2.1 問(wèn)題定義

終生學(xué)習(xí)的目標(biāo)是從一系列任務(wù)中學(xué)習(xí)一個(gè)語(yǔ)言模型,通過(guò)輸入自然語(yǔ)言,生成目標(biāo)輸出。具體來(lái)說(shuō),對(duì)于生成任務(wù),如問(wèn)答,輸入和輸出分別代表問(wèn)題和答案;對(duì)于機(jī)器翻譯任務(wù),輸入和輸出代表源語(yǔ)言和目標(biāo)語(yǔ)言;對(duì)于文本分類任務(wù),輸入為文本內(nèi)容,輸出為類別標(biāo)簽;對(duì)于自回歸語(yǔ)言模型的預(yù)訓(xùn)練任務(wù),輸入為一系列的詞元,輸出為相應(yīng)的下一個(gè)詞元。

2.2 評(píng)估指標(biāo)

綜述介紹了評(píng)估終生學(xué)習(xí)效果的指標(biāo),主要從整體性能、穩(wěn)定性和適應(yīng)性三個(gè)角度進(jìn)行評(píng)估:

  • 整體性能(Overall Measurement):包括平均準(zhǔn)確率(AA)和平均增量準(zhǔn)確率(AIA)。AA 是指模型在學(xué)習(xí)所有任務(wù)后的平均表現(xiàn),而 AIA 則考慮了每個(gè)任務(wù)學(xué)習(xí)后的歷史變化。
  • 穩(wěn)定性測(cè)量(Stability Measurement):包括遺忘測(cè)量(FGT)和向后轉(zhuǎn)移(BWT)。FGT 評(píng)估舊任務(wù)的平均性能下降,而 BWT 評(píng)估舊任務(wù)的平均性能變化。
  • 適應(yīng)性測(cè)量(Plasticity Measurement):包括向前轉(zhuǎn)移(FWD),即模型在新任務(wù)上性能的平均提升。

2.3 通用技術(shù)

綜述在圖 3 中展示了四種主要的終生學(xué)習(xí)方法,用于應(yīng)對(duì)大語(yǔ)言模型在處理連續(xù)任務(wù)(Task t-1 到 Task t)時(shí)的災(zāi)難性遺忘問(wèn)題。以下是對(duì)每種方法的解釋:

圖片

(a) 基于重放的方法(Replay-Based Methods):

  • 含義:這種方法通過(guò)在訓(xùn)練新任務(wù)時(shí)重放以前任務(wù)的數(shù)據(jù),來(lái)鞏固模型對(duì)舊任務(wù)的記憶。通常,重放的數(shù)據(jù)會(huì)被存儲(chǔ)在一個(gè)緩沖區(qū)(Buffer)中,并與當(dāng)前任務(wù)的數(shù)據(jù)一起用于訓(xùn)練。主要包括:

–經(jīng)驗(yàn)重放(Experience Replay):通過(guò)保存一部分舊任務(wù)的數(shù)據(jù)樣本,并在訓(xùn)練新任務(wù)時(shí)將這些數(shù)據(jù)重新用于訓(xùn)練,從而減少遺忘的發(fā)生。

–生成重放(Generative Replay):不同于保存舊數(shù)據(jù),這種方法利用生成模型來(lái)創(chuàng)建偽樣本,從而在新任務(wù)的訓(xùn)練中引入舊任務(wù)的知識(shí)。

  • 圖示:圖 3 中顯示了從 Task t-1 到 Task t 的過(guò)程,模型在訓(xùn)練 Task t 時(shí),使用了緩沖區(qū)中的舊數(shù)據(jù)(Input t-1 )。

(b) 基于正則化的方法(Regularization-Based Methods):

  • 含義:這種方法通過(guò)對(duì)模型參數(shù)施加正則化約束,來(lái)防止模型在學(xué)習(xí)新任務(wù)時(shí)對(duì)舊任務(wù)參數(shù)的過(guò)度調(diào)整。正則化約束可以幫助模型保留對(duì)舊任務(wù)的記憶。主要包括:

–權(quán)重正則化(Weight Regularization):通過(guò)對(duì)模型參數(shù)施加額外的約束,限制新任務(wù)訓(xùn)練時(shí)對(duì)重要權(quán)重的修改,以此保護(hù)舊任務(wù)的知識(shí)。例如,L2 正則化和彈性權(quán)重鞏固(Elastic Weight Consolidation,EWC)就是常見(jiàn)的技術(shù)。

–特征正則化(Feature Regularization):正則化不僅可以作用于權(quán)重,還可以通過(guò)限制模型在特征空間中的表現(xiàn),確保新舊任務(wù)之間的特征分布保持穩(wěn)定。

  • 圖示:圖 3 中顯示了從 Task t-1 到 Task t 的過(guò)程,模型在訓(xùn)練 Task t 時(shí),通過(guò)參數(shù)正則化來(lái)保持對(duì) Task t-1 的性能。

(c) 基于架構(gòu)的方法(Architecture-Based Methods):

圖片

  • 含義:這種方法側(cè)重于調(diào)整模型結(jié)構(gòu),以便無(wú)縫集成新任務(wù),同時(shí)盡量減少對(duì)先前所學(xué)知識(shí)的干擾。主要包括圖 4 中的六種方法:

–(a) 提示詞微調(diào)(Prompt Tuning):通過(guò)在模型的輸入前添加 “軟提示詞”(Soft Prompts),以引導(dǎo)模型的生成或分類任務(wù)。這種方法只需要調(diào)整少量的參數(shù)(即提示詞),而不需要改變模型的主干結(jié)構(gòu)。

–(b) 前綴微調(diào)(Prefix Tuning):在輸入序列的前綴部分添加訓(xùn)練好的可調(diào)參數(shù),這些參數(shù)被插入到 Transformer 層的自注意力機(jī)制中,幫助模型更好地捕捉上下文信息。

–(c) 低秩適應(yīng)(LoRA,Low-Rank Adaptation):LoRA 通過(guò)在特定層次上增加低秩矩陣來(lái)適應(yīng)新的任務(wù),而不需要改變大模型的主要權(quán)重。這種方法極大地減少了參數(shù)調(diào)整的數(shù)量,同時(shí)保持了模型的性能。

–(d) 適配器(Adapters):Adapters 是插入到模型不同層之間的可訓(xùn)練模塊,這些模塊能夠在不改變?cè)心P蜋?quán)重的情況下,通過(guò)少量的附加參數(shù)來(lái)適應(yīng)新任務(wù)。通常應(yīng)用在 FFN(Feed Forward Network)和 MHA(Multi-Head Attention)部分。

–(e) 專家混合(Mixture of Experts):通過(guò)選擇性地激活某些 “專家” 模塊來(lái)處理不同的輸入,這些專家模塊可以是模型中的特定層或者子網(wǎng)絡(luò)。Router 模塊負(fù)責(zé)決定哪個(gè)專家模塊需要激活。

–(f) 模型擴(kuò)展(Model Expansion):通過(guò)添加新層(New Layer)來(lái)擴(kuò)展模型的容量,而保留原有的層(Old Layer)。這種方法允許模型逐漸增加其容量,以適應(yīng)更加復(fù)雜的任務(wù)需求。

  • 圖示:圖 3 中顯示了從 Task t-1 到 Task t 的過(guò)程,模型在學(xué)習(xí)新任務(wù)時(shí),部分參數(shù)被凍結(jié)(Frozen),而新增的模塊用于訓(xùn)練新任務(wù)(Trainable)。

(d) 基于蒸餾的方法(Distillation-Based Methods):

  • 含義:這種方法通過(guò)知識(shí)蒸餾(Knowledge Distillation),將舊模型的知識(shí)傳遞給新模型。在訓(xùn)練新任務(wù)時(shí),新模型不僅學(xué)習(xí)當(dāng)前任務(wù)的數(shù)據(jù),還要模仿舊模型對(duì)舊任務(wù)的輸出,從而保持舊任務(wù)的知識(shí)。主要包括:

–從新數(shù)據(jù)蒸餾(Distillation from New Data):學(xué)生模型在教師模型的指導(dǎo)下學(xué)習(xí)新任務(wù),通過(guò)蒸餾舊模型的知識(shí)來(lái)減少對(duì)舊知識(shí)的遺忘。

–從舊數(shù)據(jù)蒸餾(Distillation from Old Data):利用教師模型在舊數(shù)據(jù)上的表現(xiàn)來(lái)引導(dǎo)學(xué)生模型對(duì)新任務(wù)的學(xué)習(xí),從而達(dá)到保留舊知識(shí)的效果。

–從偽舊數(shù)據(jù)蒸餾(Distillation from Pseudo-Old Data):通過(guò)生成偽舊數(shù)據(jù)(Pseudo-Old Data),讓學(xué)生模型在學(xué)習(xí)新任務(wù)時(shí)保持對(duì)舊知識(shí)的記憶。

  • 圖示:圖 3 中顯示了從 Task t-1 到 Task t 的過(guò)程,模型在訓(xùn)練新任務(wù)時(shí),通過(guò)模仿舊模型的預(yù)測(cè)結(jié)果來(lái)保持對(duì)舊任務(wù)的知識(shí)。

三、連續(xù)預(yù)訓(xùn)練

連續(xù)預(yù)訓(xùn)練可以更新大語(yǔ)言模型的內(nèi)部知識(shí),而無(wú)需承擔(dān)全面預(yù)訓(xùn)練的高昂成本,從而增強(qiáng)大語(yǔ)言模型的能力。目前的研究橫跨垂直、語(yǔ)言和時(shí)間領(lǐng)域,解決了災(zāi)難性遺忘和時(shí)間適應(yīng)等難題。經(jīng)驗(yàn)重放、知識(shí)蒸餾、參數(shù)高效微調(diào)、模型擴(kuò)展和再加熱等技術(shù)已顯示出良好的前景。

3.1 連續(xù)垂直領(lǐng)域預(yù)訓(xùn)練

連續(xù)垂直領(lǐng)域預(yù)訓(xùn)練(Continual Vertical Domain Pretraining)旨在通過(guò)在一系列領(lǐng)域特定的數(shù)據(jù)集上連續(xù)訓(xùn)練語(yǔ)言模型,確保模型在多個(gè)垂直領(lǐng)域或任務(wù)中表現(xiàn)出色,同時(shí)保留先前獲得的知識(shí)。

主要方法:

1. 參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning):

  • 示例:CorpusBrain++ 采用骨干 - 適配器架構(gòu)和經(jīng)驗(yàn)重放策略來(lái)應(yīng)對(duì)現(xiàn)實(shí)世界中的知識(shí)密集型語(yǔ)言任務(wù)。
  • 示例:Med-PaLM 通過(guò)使用少量示例引入醫(yī)學(xué)領(lǐng)域的指令提示調(diào)優(yōu)。

2. 模型擴(kuò)展(Model Expansion):

  • 示例:ELLE 采用功能保留的模型擴(kuò)展策略,通過(guò)靈活擴(kuò)展現(xiàn)有預(yù)訓(xùn)練語(yǔ)言模型的寬度和深度來(lái)提高知識(shí)獲取和集成的效率。
  • 示例:LLaMA Pro 通過(guò)擴(kuò)展 Transformer 塊并使用新語(yǔ)料庫(kù)進(jìn)行微調(diào),在通用使用、編程和數(shù)學(xué)任務(wù)中表現(xiàn)出色。

3. 再預(yù)熱(Re-warming):

  • 示例:Gupta 等提出的策略,通過(guò)引入新數(shù)據(jù)集時(shí)調(diào)整學(xué)習(xí)率,防止長(zhǎng)期訓(xùn)練期間學(xué)習(xí)率過(guò)低,從而提高適應(yīng)新數(shù)據(jù)集的效果。

4. 數(shù)據(jù)選擇(Data Selection):

  • 示例:RHO-1 通過(guò)選擇性語(yǔ)言模型(SLM)訓(xùn)練,優(yōu)先選擇對(duì)訓(xùn)練過(guò)程有更大影響的標(biāo)記。
  • 示例:EcomGPT-CT 通過(guò)半結(jié)構(gòu)化電子商務(wù)數(shù)據(jù)增強(qiáng)模型在領(lǐng)域特定任務(wù)中的表現(xiàn)。

3.2 連續(xù)語(yǔ)言領(lǐng)域預(yù)訓(xùn)練

連續(xù)語(yǔ)言領(lǐng)域預(yù)訓(xùn)練(Continual Language Domain Pretraining)旨在使語(yǔ)言模型能夠不斷整合新數(shù)據(jù),并適應(yīng)不斷變化的語(yǔ)言領(lǐng)域而不遺忘先前的知識(shí)。

主要方法:

1. 架構(gòu)調(diào)整方法(Architecture-Based Methods):

  • 示例:Yadav 等通過(guò)引入教師強(qiáng)制機(jī)制改進(jìn)提示調(diào)優(yōu),創(chuàng)建一組提示引導(dǎo)模型在新任務(wù)上的微調(diào)。
  • 示例:ModuleFormer 和 Lifelong-MoE 使用專家混合(MoE)方法,通過(guò)模塊化和動(dòng)態(tài)增加模型容量來(lái)增強(qiáng) LLM 的效率和適應(yīng)性。

2. 再預(yù)熱(Re-warming):

  • 示例:Ibrahim 等提出的再預(yù)熱方法,通過(guò)在訓(xùn)練新數(shù)據(jù)時(shí)臨時(shí)增加學(xué)習(xí)率,幫助模型更快地適應(yīng)新語(yǔ)言。

3.3 連續(xù)時(shí)間領(lǐng)域預(yù)訓(xùn)練

連續(xù)時(shí)間領(lǐng)域預(yù)訓(xùn)練(Continual Temporal Domain Pretraining)涉及不斷更新語(yǔ)言模型,以保持其在時(shí)間敏感數(shù)據(jù)上的準(zhǔn)確性和相關(guān)性。

主要挑戰(zhàn):

1. 性能下降:Lazaridou 等的研究顯示,模型在未來(lái)數(shù)據(jù)上的表現(xiàn)顯著下降,凸顯了 LLM 在時(shí)間泛化上的困難。

2. 有限改進(jìn):R?ttger 等發(fā)現(xiàn),雖然時(shí)間適應(yīng)在掩碼語(yǔ)言模型任務(wù)上有輕微改進(jìn),但與單純的領(lǐng)域適應(yīng)相比,對(duì)下游任務(wù)性能的提升并不顯著。

通過(guò)這些方法和研究,作者展示了連續(xù)預(yù)訓(xùn)練在不同維度上的方法和挑戰(zhàn),并強(qiáng)調(diào)了在垂直領(lǐng)域、語(yǔ)言領(lǐng)域和時(shí)間域中應(yīng)用終生學(xué)習(xí)的必要性和有效性。

四、連續(xù)微調(diào)

連續(xù)預(yù)訓(xùn)練可增強(qiáng)大語(yǔ)言模型的內(nèi)部知識(shí),在此基礎(chǔ)上,連續(xù)微調(diào)增強(qiáng)了大語(yǔ)言模型的內(nèi)部知識(shí),并使大語(yǔ)言模型適應(yīng)特定任務(wù),如文本分類、命名實(shí)體識(shí)別、關(guān)系提取、機(jī)器翻譯或一般生成任務(wù),如指令調(diào)整、知識(shí)編輯和與人類偏好對(duì)齊。為了應(yīng)對(duì)災(zāi)難性遺忘和任務(wù)干擾等挑戰(zhàn),采用了蒸餾、重放、正則化、基于架構(gòu)和基于梯度的方法等技術(shù)。作者在圖 5 中對(duì) 7 種連續(xù)微調(diào)場(chǎng)景進(jìn)行了說(shuō)明。

圖片

這張圖展示了七種不同類型的任務(wù)如何通過(guò)連續(xù)學(xué)習(xí)在大語(yǔ)言模型中實(shí)現(xiàn)。以下是對(duì)每個(gè)部分的詳細(xì)解釋:

(a) 連續(xù)文本分類

  • 示例:連續(xù)文本分類任務(wù)通過(guò)逐步引入新的分類類別(如 Intent: Transfer -> Intent: Credit Score -> Intent: Fun Fact)來(lái)訓(xùn)練模型,使其能夠適應(yīng)不斷變化的分類需求。

(b) 連續(xù)命名實(shí)體識(shí)別

  • 示例:連續(xù)命名實(shí)體識(shí)別任務(wù)展示了如何在識(shí)別特定實(shí)體的同時(shí),逐步引入新的實(shí)體類型(如 Athlete -> Sports Team -> Politician),使模型能夠在識(shí)別新的實(shí)體時(shí)仍保持對(duì)舊實(shí)體的識(shí)別能力。

(c) 連續(xù)關(guān)系抽取

  • 示例:連續(xù)關(guān)系抽取任務(wù)通過(guò)不斷引入新的關(guān)系類型(如 Relation: Founded By -> Relation: State or Province of Birth -> Relation: Country of Headquarters),展示了模型如何逐步擴(kuò)展其關(guān)系抽取能力。

(d) 連續(xù)知識(shí)編輯

  • 示例:連續(xù)知識(shí)編輯任務(wù)通過(guò)不斷更新模型的知識(shí)庫(kù),確保其能夠?qū)ψ钚碌氖聦?shí)進(jìn)行準(zhǔn)確的回答(如 Who is the president of the US? -> Which club does Cristiano Ronaldo currently play for? -> Where was the last Winter Olympics held?)。

(e) 連續(xù)機(jī)器翻譯

  • 示例:連續(xù)機(jī)器翻譯任務(wù)通過(guò)逐步擴(kuò)展模型對(duì)不同語(yǔ)言的翻譯能力(如 English -> Chinese, English -> Spanish, English -> French),展示了模型在多語(yǔ)言環(huán)境中的適應(yīng)能力。

(f) 連續(xù)指令微調(diào)

  • 示例:連續(xù)指令微調(diào)任務(wù)通過(guò)逐步引入新的指令類型(如 Summarization -> Style Transfer -> Mathematics),訓(xùn)練模型在多種任務(wù)類型下的表現(xiàn)能力。

(g) 連續(xù)對(duì)齊

  • 示例:連續(xù)對(duì)齊任務(wù)通過(guò)引入新的對(duì)齊目標(biāo)(如 Helpful and Harmless -> Concise and Organized -> Positive Sentiment),展示了模型在不同道德和行為標(biāo)準(zhǔn)下的連續(xù)學(xué)習(xí)能力。

五、外部知識(shí)

連續(xù)預(yù)訓(xùn)練和連續(xù)微調(diào)對(duì) LLM 的終生學(xué)習(xí)至關(guān)重要,然而隨著 LLM 越來(lái)越大、功能越來(lái)越強(qiáng),有兩個(gè)新興方向越來(lái)越受歡迎,它們可以在不修改大語(yǔ)言模型參數(shù)的情況下,為大語(yǔ)言模型提供新的外部知識(shí)。作者考慮基于檢索的終生學(xué)習(xí)和基于工具的終生學(xué)習(xí),因?yàn)檫@兩種方法都是實(shí)現(xiàn) LLM 終生學(xué)習(xí)的有前途的方法。圖 6 舉例說(shuō)明了這兩種方法。

圖片

基于檢索的終生學(xué)習(xí)(Retrieval-Based Lifelong Learning)

  • 介紹:隨著世界信息的不斷擴(kuò)大和快速發(fā)展,根據(jù)歷史數(shù)據(jù)訓(xùn)練的靜態(tài)模型很快就會(huì)過(guò)時(shí),無(wú)法理解或生成有關(guān)新發(fā)展的內(nèi)容?;跈z索的終生學(xué)習(xí)解決了大型語(yǔ)言模型從外部來(lái)源獲取和吸收最新知識(shí)的關(guān)鍵需求,在需要時(shí),模型通過(guò)檢索這些外部資源,來(lái)補(bǔ)充或更新其知識(shí)庫(kù)。這些外部資源提供了一個(gè)巨大的當(dāng)前知識(shí)庫(kù),為增強(qiáng)預(yù)訓(xùn)練 LLM 的靜態(tài)特性提供了重要的補(bǔ)充資產(chǎn)。
  • 示例:圖中的這些外部資源是模型能夠訪問(wèn)并檢索的。通過(guò)訪問(wèn)外部信息源,如維基百科、書籍、數(shù)據(jù)庫(kù)等,模型能夠更新自身的知識(shí),并在遇到新信息時(shí)作出適應(yīng)。

基于工具的終生學(xué)習(xí)(Tool-Based Lifelong Learning)

  • 介紹:基于工具的終生學(xué)習(xí)源于將其功能擴(kuò)展到靜態(tài)知識(shí)之外并使其能夠與環(huán)境動(dòng)態(tài)交互的必要性。在現(xiàn)實(shí)世界的應(yīng)用中,模型往往需要執(zhí)行一些任務(wù),這些任務(wù)涉及直接文本生成或解釋之外的操作。
  • 示例:圖中模型利用這些工具來(lái)擴(kuò)展和更新自身的能力,通過(guò)與外部工具的交互來(lái)實(shí)現(xiàn)終生學(xué)習(xí)。例如,模型可以通過(guò)應(yīng)用程序編程接口獲取實(shí)時(shí)數(shù)據(jù),或通過(guò)物理工具與外部環(huán)境互動(dòng),以此來(lái)完成特定任務(wù)或獲取新知識(shí)。

六、討論與結(jié)論

6.1 主要挑戰(zhàn)

  • 災(zāi)難性遺忘(Catastrophic Forgetting):這是終生學(xué)習(xí)的核心挑戰(zhàn)之一,新信息的引入可能會(huì)覆蓋模型之前學(xué)到的內(nèi)容。
  • 可塑性 - 穩(wěn)定性困境(Plasticity-Stability Dilemma):在保持模型的學(xué)習(xí)能力和穩(wěn)定性之間找到平衡非常關(guān)鍵,這直接影響模型獲取新知識(shí)的能力,同時(shí)保留其廣泛的通用能力。
  • 昂貴的計(jì)算成本(Expensive Computation Cost):全量微調(diào)大語(yǔ)言模型的計(jì)算需求可能非常高。
  • 模型權(quán)重或預(yù)訓(xùn)練數(shù)據(jù)的不可用性:由于隱私、專有限制或商業(yè)許可,原始訓(xùn)練數(shù)據(jù)或模型權(quán)重往往不可用于進(jìn)一步的改進(jìn)。

6.2 當(dāng)前趨勢(shì)

  • 從特定任務(wù)到通用任務(wù):研究逐漸從專注于特定任務(wù)(如文本分類、命名實(shí)體識(shí)別)轉(zhuǎn)向更廣泛的通用任務(wù),如指令調(diào)優(yōu)、知識(shí)編輯等。
  • 從全量微調(diào)到部分微調(diào):鑒于全量微調(diào)的高資源消耗,部分微調(diào)策略(如 Adapter 層、Prompt 調(diào)優(yōu)、LoRA)變得越來(lái)越受歡迎。
  • 從內(nèi)部知識(shí)到外部知識(shí):為了克服頻繁的內(nèi)部更新限制,越來(lái)越多的策略采用外部知識(shí)源,如檢索增強(qiáng)生成(Retrieval-Augmented Generation)和工具學(xué)習(xí),使模型能夠動(dòng)態(tài)訪問(wèn)和利用當(dāng)前的外部數(shù)據(jù)。

6.3 未來(lái)方向

  • 多模態(tài)終生學(xué)習(xí):將文本以外的多種模態(tài)(如圖像、視頻、音頻、時(shí)間序列數(shù)據(jù)、知識(shí)圖譜)整合到終生學(xué)習(xí)中,以開(kāi)發(fā)更全面、更具適應(yīng)性的模型。
  • 高效終生學(xué)習(xí):研究人員正致力于開(kāi)發(fā)更高效的策略來(lái)管理模型訓(xùn)練和更新的計(jì)算需求,如模型剪枝、模型合并、模型擴(kuò)展等方法。
  • 通用終生學(xué)習(xí):最終目標(biāo)是使大語(yǔ)言模型能夠主動(dòng)獲取新知識(shí),并通過(guò)與環(huán)境的動(dòng)態(tài)交互進(jìn)行學(xué)習(xí),不再僅僅依賴于靜態(tài)數(shù)據(jù)集。

6.4 結(jié)論

作者將現(xiàn)有研究分為 12 種終生學(xué)習(xí)場(chǎng)景,并提供了全面的方法歸納整理。此外還分析強(qiáng)調(diào)了在管理災(zāi)難性遺忘、確保計(jì)算效率和在知識(shí)獲取中的特定性與通用性之間維持平衡的必要性。隨著領(lǐng)域的不斷發(fā)展,這些先進(jìn)策略的集成將對(duì)塑造下一代人工智能系統(tǒng)起到關(guān)鍵作用,幫助它們更接近實(shí)現(xiàn)真正的人類般的學(xué)習(xí)和適應(yīng)能力。

通過(guò)對(duì)這些技術(shù)方法及其各自類別的詳細(xì)研究,本綜述旨在強(qiáng)調(diào)將終生學(xué)習(xí)能力整合到終生學(xué)習(xí)工具中,從而提高它們?cè)诂F(xiàn)實(shí)世界應(yīng)用中的適應(yīng)性、可靠性和整體性能。同時(shí)為研究人員和工程師提供一個(gè)全面的視角,幫助他們更好地理解和應(yīng)用終生學(xué)習(xí)技術(shù),推動(dòng)大語(yǔ)言模型的進(jìn)一步發(fā)展。如果對(duì)文章感興趣,可以查閱原始論文以了解更多研究?jī)?nèi)容。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-11-22 11:29:28

2024-11-29 18:37:07

2023-09-25 12:27:24

研究數(shù)據(jù)

2017-07-06 13:18:37

深度學(xué)習(xí)應(yīng)用問(wèn)題及趨勢(shì)

2023-05-16 12:11:22

2024-06-19 16:11:22

2024-04-08 13:29:52

2024-09-13 09:40:00

邊緣計(jì)算智能大模型

2024-06-28 18:18:22

2023-12-27 14:07:00

模型訓(xùn)練

2021-11-10 15:03:17

深度學(xué)習(xí)算法人工智能

2024-01-10 17:25:00

AI數(shù)據(jù)

2024-05-21 09:41:15

3DLLM

2023-02-07 13:24:42

應(yīng)用學(xué)習(xí)

2024-11-18 10:50:00

模型數(shù)據(jù)

2024-04-11 12:30:52

模型數(shù)據(jù)

2022-08-08 09:47:09

AI算法模型

2025-04-16 02:30:00

2023-03-13 14:41:22

機(jī)器學(xué)習(xí)算法

2024-01-15 08:17:00

模型技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)