自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

萬字長文解析:2024年的機(jī)器消除學(xué)習(xí) 原創(chuàng) 精華

發(fā)布于 2024-5-7 10:04
瀏覽
0收藏

隨著我們今天的機(jī)器學(xué)習(xí)模型變得越來越龐大,(預(yù))訓(xùn)練集的規(guī)模變得難以理解,人們對機(jī)器消除學(xué)習(xí)的概念越來越感興趣,以便在不重新訓(xùn)練模型的情況下刪除不需要的內(nèi)容,例如私人數(shù)據(jù)、過時的知識、受版權(quán)保護(hù)的材料、有害/不安全的內(nèi)容、危險的功能和錯誤信息。

機(jī)器消除學(xué)習(xí)可以廣義地描述為從經(jīng)過訓(xùn)練的模型中刪除訓(xùn)練數(shù)據(jù)的影響。在其核心中,目標(biāo)模型的消除學(xué)習(xí)旨在產(chǎn)生一個與重新訓(xùn)練模型等效或至少“行為類似”的消除學(xué)習(xí)模型,該重新訓(xùn)練模型是在與目標(biāo)模型相同的數(shù)據(jù)上進(jìn)行訓(xùn)練,但減去需要消除的信息。

上述描述中隱藏著許多問題。我們?nèi)绾蚊枋鲂枰男畔ⅲ课覀兪欠窨偸菗碛兄匦掠?xùn)練的準(zhǔn)確模型?如果沒有,我們?nèi)绾螌嶋H評估消除學(xué)習(xí)?我們是否能夠驗證和審計消除學(xué)習(xí)?像人類經(jīng)常做的假裝遺忘一樣足夠嗎?消除學(xué)習(xí)是否是正確的解決方案?如果是的話,用于解決什么問題?

消除學(xué)習(xí)的精確定義、技術(shù)、保證和度量/評估將取決于:

  • 機(jī)器學(xué)習(xí)任務(wù)(例如二元分類或語言建模);
  • 需要消除的數(shù)據(jù)(例如一組圖像、新聞文章或制作凝固汽油的知識);
  • 消除學(xué)習(xí)算法(例如啟發(fā)式微調(diào)與刪除模型組件);
  • 消除學(xué)習(xí)的目標(biāo)(例如用戶隱私或有害內(nèi)容的移除)。

1. 歷史背景與進(jìn)行消除學(xué)習(xí)的動機(jī)

人們對消除學(xué)習(xí)問題已經(jīng)思考了一段時間了。最初的研究探索主要是受到歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)第17條的驅(qū)動(通常稱為“被遺忘權(quán)”),該條例始于2014年。被遺忘權(quán)基本上是指用戶有權(quán)要求服務(wù)提供商(例如刪除您的Gmail帳戶)刪除其數(shù)據(jù)。

被遺忘權(quán)是出于善意的。當(dāng)服務(wù)提供商以結(jié)構(gòu)化方式存儲用戶數(shù)據(jù)時,這也是非??尚械?,就像谷歌根據(jù)被遺忘權(quán)請求從其索引中刪除了一些鏈接一樣。

然而,被遺忘權(quán)在提出時并沒有真正考慮到機(jī)器學(xué)習(xí)。在2014年,政策制定者不會預(yù)測到深度學(xué)習(xí)將成為數(shù)據(jù)和計算的巨大混合體,而解析和解釋這個混合體會變得困難。從此以續(xù)的研究表明,從機(jī)器學(xué)習(xí)模型中刪除數(shù)據(jù)的難度,進(jìn)一步推動了所謂的“數(shù)據(jù)刪除”和“機(jī)器消除學(xué)習(xí)”的研究。

十年后的2024年,用戶隱私不再是消除學(xué)習(xí)的唯一動機(jī)。我們已經(jīng)從對面部圖像訓(xùn)練小型卷積網(wǎng)絡(luò)轉(zhuǎn)變?yōu)閷Ω顿M、受版權(quán)保護(hù)、有害和其他有害內(nèi)容進(jìn)行巨型語言模型訓(xùn)練,這些內(nèi)容我們可能希望從機(jī)器學(xué)習(xí)模型中“抹去” - 有時僅憑一小部分示例。模型的性質(zhì)也發(fā)生了變化。人們不再使用許多在一個任務(wù)上表現(xiàn)良好的小型專用模型,而是開始使用一個單一的巨型模型,該模型幾乎了解任何任務(wù)。

目前,研究消除學(xué)習(xí)的動機(jī)可以分為兩類:

  1. 撤銷訪問權(quán)限(考慮消除私人和受版權(quán)保護(hù)的數(shù)據(jù))。在理想的世界中,數(shù)據(jù)應(yīng)該被視為“借用”(可能未經(jīng)許可),因此可以“歸還”,而消除學(xué)習(xí)應(yīng)該使這種撤銷成為可能。
    從這個角度來看,消除學(xué)習(xí)具有挑戰(zhàn)性。一個主要困難是,我們對深度學(xué)習(xí)本身的理解有限,使得訓(xùn)練到模型中的數(shù)據(jù)類似于“消耗品”(在消耗后不能簡單地“退還”)。數(shù)據(jù)也可能是不可替代的(例如聊天記錄),甚至可以被視為具有自身財務(wù)和控制利益的勞動力。另一個挑戰(zhàn)是撤銷訪問權(quán)限可能需要證明消除學(xué)習(xí);正如我們將在接下來的章節(jié)中探討的,這并非總是可能的。
    這些困難表明,也許值得修改《被遺忘權(quán)》等法律,并思考諸如數(shù)據(jù)市場之類的替代方案,在這些方案中,數(shù)據(jù)所有者能夠得到適當(dāng)?shù)难a(bǔ)償,因此他們就不會首先要求進(jìn)行消除學(xué)習(xí)。舉例來說,假設(shè)鮑勃吃了愛麗絲的乳酪蛋糕(數(shù)據(jù)),愛麗絲寧愿鮑勃付款或歸還等值物品(補(bǔ)償),而不是鮑勃恢復(fù)到吃之前的狀態(tài)(消除學(xué)習(xí))。
    在實踐中,實現(xiàn)撤銷訪問權(quán)限的一種方法是通過對基礎(chǔ)模型進(jìn)行某種形式的定期重新訓(xùn)練。許多模型提供商已經(jīng)在做這個,以保持他們的模型具有競爭力和最新性。例如,OpenAI可以收集一系列消除學(xué)習(xí)請求,并在每年的重新訓(xùn)練中批量滿足這些請求(或者根據(jù)《被遺忘權(quán)》規(guī)定的“不合理延遲”期限來滿足請求)。更廣泛地說,這提示了消除學(xué)習(xí)的社會技術(shù)解決方案:政策制定者可以規(guī)定這種定期重新訓(xùn)練,并設(shè)定經(jīng)濟(jì)可行的截止日期,將成本轉(zhuǎn)嫁給模型所有者。
  2. 模型修正和編輯(例如毒性、偏見、過時/危險知識的刪除)。也就是說,模型是基于一些不可取的內(nèi)容進(jìn)行訓(xùn)練的,我們希望進(jìn)行修正。這與模型編輯的文獻(xiàn)密切相關(guān)。最近提出了“修正性機(jī)器遺忘”的概念,其中遺忘用于糾正不良數(shù)據(jù)的影響,以捕捉這種動機(jī)。從這個角度來看,遺忘也可以被視為用于AI安全問題的訓(xùn)練后風(fēng)險緩解機(jī)制(在第4節(jié)中進(jìn)一步討論)。
    與撤銷訪問權(quán)限不同,對模型進(jìn)行修正時我們可以更加寬容,因為這種編輯更多是出于欲望,而不是法律所要求的必要性,就像圖像分類的模型準(zhǔn)確性或生成文本的毒性一樣(當(dāng)然,這些也可能造成真正的傷害)。在這種情況下,我們不一定需要正式的保證來使遺忘對實際有用;我們有很多例子,人們愿意部署被認(rèn)為“足夠安全”的模型。最近的WMDP基準(zhǔn)測試對危險知識對模型進(jìn)行了提問,是評估遺忘效果的良好示例。

2. 遺忘的形式

如果我們只是重新訓(xùn)練模型而不包含不需要的數(shù)據(jù),那么遺忘就是微不足道的。然而,我們希望得到更好的結(jié)果,因為(1)重新訓(xùn)練可能很昂貴,而且(2)要找出需要從訓(xùn)練數(shù)據(jù)中刪除的內(nèi)容可能需要大量工作——想象一下在萬億個標(biāo)記中找到所有《哈利·波特》的引用。遺忘技術(shù)主要旨在減輕或避免這種重新訓(xùn)練成本,同時產(chǎn)生相同或相似的結(jié)果。

遺忘的文獻(xiàn)主要可以分為以下幾種形式:

  • 精確遺忘
  • 通過差分隱私進(jìn)行“遺忘”
  • 經(jīng)驗遺忘,其中需要遺忘的數(shù)據(jù)已經(jīng)明確知道(訓(xùn)練示例)
  • 經(jīng)驗遺忘,其中需要遺忘的數(shù)據(jù)未明確指定(考慮“知識”)
  • 只需要求遺忘?

第2至第4種形式有時被稱為“近似遺忘”,因為遺忘的模型近似于重新訓(xùn)練模型的行為。第5種形式非常新穎且有趣,更具體適用于遵循指令的模型。

萬字長文解析:2024年的機(jī)器消除學(xué)習(xí)-AI.x社區(qū)

圖1. 近似遺忘的示意圖。來源:NeurIPS機(jī)器遺忘挑戰(zhàn)

2.1. 精確遺忘

精確遺忘大致要求未遺忘模型和重新訓(xùn)練后的模型在分布上完全相同;也就是說,在固定的隨機(jī)性下,它們可以完全相同。

精確遺忘的技術(shù)特點可以追溯到Cao和Yang以及SISA的早期工作。在SISA中,采用了一種非常簡單的方案,將訓(xùn)練集劃分為N個非重疊的子集,并為每個子集訓(xùn)練一個單獨的模型。遺忘則涉及重新訓(xùn)練對應(yīng)的模型,并排除需要遺忘的數(shù)據(jù)點。這樣可以通過1/N的成本來減少與普通重新訓(xùn)練相比的開銷(如果保留模型檢查點,則成本更低)。然后,推斷過程涉及模型集成1。

萬字長文解析:2024年的機(jī)器消除學(xué)習(xí)-AI.x社區(qū)

圖2. SISA的示意圖:只在數(shù)據(jù)分片上訓(xùn)練模型

更一般地說,精確遺忘的本質(zhì)是希望學(xué)習(xí)算法中的模塊化組件對應(yīng)于不同(潛在不重疊)的訓(xùn)練示例集。

精確遺忘有幾個優(yōu)點:

  • 算法本身就是證據(jù)。如果我們實現(xiàn)了類似SISA的方法,我們可以從設(shè)計上知道遺忘的數(shù)據(jù)從未對其他組件產(chǎn)生過貢獻(xiàn)。事實證明,要正式證明模型已經(jīng)遺忘了某些內(nèi)容是相當(dāng)具有挑戰(zhàn)性的,否則會變得非?;靵y。
  • 這將遺忘問題轉(zhuǎn)化為準(zhǔn)確性/效率問題。由于遺忘評估的混亂和缺乏基準(zhǔn)的問題,精確遺忘更容易實現(xiàn)。
  • 設(shè)計上具有可解釋性。通過提供學(xué)習(xí)結(jié)構(gòu),我們對某些數(shù)據(jù)點如何對性能產(chǎn)生影響有更好的理解。

主要缺點似乎很明顯:大型模型的現(xiàn)代擴(kuò)展定律反對像SISA中那樣過分進(jìn)行數(shù)據(jù)和模型分片。或者并非如此嗎?在最近的模型合并文獻(xiàn)中提出了在大型模型背景下重新審視分片的可能性,這表明了在權(quán)重空間合并大型模型的可行性。正如我們將在接下來的章節(jié)中了解到的,近似遺忘及其在大型模型背景下的評估的混亂性使精確遺忘非常有吸引力。

2.2. 通過差分隱私進(jìn)行“遺忘”

這個研究方向大致上是這樣說的:如果模型在有或沒有特定數(shù)據(jù)點的情況下表現(xiàn)幾乎相同,那么我們就沒有必要從該數(shù)據(jù)點進(jìn)行遺忘。更廣義地說,我們要求未遺忘模型和重新訓(xùn)練后的模型在分布上接近。

對于不熟悉差分隱私(DP)在機(jī)器學(xué)習(xí)中的讀者,DP定義了在不同單個訓(xùn)練示例的數(shù)據(jù)集上訓(xùn)練的兩個模型M、M'之間的可量化的不可區(qū)分性保證。經(jīng)典的DP-SGD過程通過裁剪每個示例梯度的L2范數(shù),并向梯度注入一些每個坐標(biāo)的高斯噪聲來工作。其思想是噪聲可以掩蓋或模糊任何單個梯度(示例)的貢獻(xiàn),使得最終的模型對任何示例都不敏感。通常用(ε,δ)-DP來表示;噪聲越強(qiáng),標(biāo)量(ε,δ)越小,保護(hù)性越強(qiáng)。

這樣做的直覺是,如果攻擊者無法(可靠地)區(qū)分這些模型,那么就好像這個數(shù)據(jù)點從未被學(xué)習(xí)過,因此就不需要進(jìn)行遺忘。DP可以用來實現(xiàn)這種形式的遺忘,但由于遺忘是單向的(我們只關(guān)心數(shù)據(jù)的刪除,而不是添加),DP是一個嚴(yán)格更強(qiáng)的定義。這種遺忘的概念有時被稱為“(α,β)-遺忘”,其中(α,β)的作用類似于(ε,δ),用于衡量分布上的接近程度。

這個方向上的示例技術(shù)包括:(1)存儲(DP)凸模型的檢查點,遺忘是從這些檢查點重新訓(xùn)練的;(2)在前一種技術(shù)的基礎(chǔ)上,使用SISA進(jìn)行自適應(yīng)的遺忘請求(即在觀察到發(fā)布的模型后提出的請求)。

基于差分隱私的遺忘方法的好處在于它提供了某種形式的統(tǒng)計保證。然而,有一些重要的考慮因素限制了它在大型模型中的適用性:

  • 許多這樣的遺忘結(jié)果僅適用于凸模型或損失函數(shù)。
  • 什么水平的遺忘((ε,δ)-DP或(α,β)-遺忘的值)是足夠的?由誰來決定?
  • 對于大型模型,當(dāng)前的機(jī)器學(xué)習(xí)系統(tǒng)與類似DP的每個示例的工作負(fù)載不太匹配。內(nèi)存開銷也會成為限制因素。
  • 此外,像DP一樣,隨著遺忘請求的增加,保證會迅速減弱(根據(jù)DP組合定理,最多以O(shè)(√k)的速度下降,其中k是遵循DP組合的請求次數(shù))。
  • 類似DP的定義默認(rèn)假設(shè)我們對所有數(shù)據(jù)點都一樣關(guān)心。然而,某些示例更有可能收到遺忘請求,而某些示例根本沒有對學(xué)習(xí)產(chǎn)生貢獻(xiàn)。
  • 類似DP的過程有時也可能會嚴(yán)重?fù)p害模型的準(zhǔn)確性,有時會不公平地?fù)p害準(zhǔn)確性。

特別是對于大型模型,值得區(qū)分取消預(yù)訓(xùn)練數(shù)據(jù)和取消微調(diào)數(shù)據(jù)的情況。后者更容易處理;例如,我們確實可以對大型模型進(jìn)行差分隱私微調(diào),但對于預(yù)訓(xùn)練來說可能不太容易實現(xiàn)。

2.2.1. 偽造及其對類似差分隱私取消的定義的影響

有時,取消學(xué)習(xí)過程可能需要外部審計,即我們希望證明取消學(xué)習(xí)程序確實已經(jīng)發(fā)生。

“偽造”的主要思想是存在兩個不同的數(shù)據(jù)集,當(dāng)對其進(jìn)行訓(xùn)練時,會產(chǎn)生相同的梯度(因此)相同的模型。這在直覺上是正確的:

  • 考慮一下對一條完美直線上的點進(jìn)行線性回歸;刪除任何一個點都不會改變擬合的直線;
  • 考慮一下小批量梯度下降,用幾個“偽造”的梯度的總和替換一個示例梯度會給出相同的批量梯度。

偽造意味著基于差分隱私的近似取消學(xué)習(xí)可能無法進(jìn)行審計,即取消學(xué)習(xí)服務(wù)提供者無法正式證明遺忘集確實被遺忘。實際上,即使僅看模型權(quán)重,精確取消學(xué)習(xí)也可能無法進(jìn)行審計。

雖然人們可以將此結(jié)果視為理論結(jié)果,但這確實意味著決策者應(yīng)該仔細(xì)考慮未來版本的“被遺忘權(quán)”(如果有的話)應(yīng)該是什么樣子,以及類似的政策在法律和技術(shù)上是否可執(zhí)行。

的確,什么樣的“審計”可以是定義和應(yīng)用相關(guān)的。如果審計員只關(guān)心取消學(xué)習(xí)模型在指定輸入集(例如一組人臉圖像)上的性能表現(xiàn)不佳,那么即使是經(jīng)驗性取消學(xué)習(xí)也是“可審計的”(見下一節(jié))。

2.3. 已知示例空間的經(jīng)驗取消學(xué)習(xí)(“示例取消學(xué)習(xí)”)

這一研究方向本質(zhì)上是“訓(xùn)練取消學(xué)習(xí)”或“通過微調(diào)進(jìn)行取消學(xué)習(xí)”:只需采取更多啟發(fā)式選擇的梯度步驟,將原始模型的行為塑造成我們認(rèn)為重新訓(xùn)練的模型會做的樣子(同時還可以選擇重置模型中的某些參數(shù))。它也可以被稱為“示例取消學(xué)習(xí)”,因為訓(xùn)練、保留和遺忘集通常是明確定義的。

NeurIPS 2023機(jī)器取消學(xué)習(xí)挑戰(zhàn)在這個方向上收集了許多方法。挑戰(zhàn)大致如下進(jìn)行:

  • 給定一個人臉圖像數(shù)據(jù)集,其中訓(xùn)練集有指定的保留/遺忘示例拆分,一個在全部數(shù)據(jù)上訓(xùn)練的目標(biāo)模型,以及一個僅在保留集上訓(xùn)練的秘密模型。
  • 要求設(shè)計一個取消學(xué)習(xí)算法,從目標(biāo)模型中產(chǎn)生“匹配”秘密模型的取消學(xué)習(xí)模型。
  • “匹配”或評估指標(biāo)使用512個種子的類似差分隱私輸出空間相似性:對于每個遺忘示例,基于對手(由組織者提供)的真/假陽性率,計算512個取消學(xué)習(xí)模型的“經(jīng)驗ε”,并在示例間進(jìn)行聚合。
  • 所有模型都是一個小型卷積神經(jīng)網(wǎng)絡(luò)。

為了直觀地了解經(jīng)驗取消學(xué)習(xí)的表現(xiàn),而不完全解釋度量標(biāo)準(zhǔn):基準(zhǔn)(重新訓(xùn)練的模型)約為0.19,獲勝的提交約為0.12,基線(遺忘集上的簡單梯度上升)約為0.06.2。

那么獲勝的思路是什么樣的?大致如下:

  • 在遺忘集上進(jìn)行梯度上升;
  • 在保留集上進(jìn)行梯度下降(希望災(zāi)難性遺忘能夠處理取消學(xué)習(xí));
  • 在遺忘集上進(jìn)行梯度下降,但使用均勻隨機(jī)標(biāo)簽(以“混淆”模型);
  • 在保留集上最小化取消學(xué)習(xí)模型和原始模型之間輸出的KL散度(以調(diào)整取消學(xué)習(xí)模型在不相關(guān)數(shù)據(jù)上的性能);
  • 重新初始化在保留集和遺忘集上具有相似梯度的權(quán)重,并在保留集上進(jìn)行微調(diào);
  • 通過L1范數(shù)剪枝99%的權(quán)重,并在保留集上進(jìn)行微調(diào);
  • 重置前/后k層,并在保留集上進(jìn)行微調(diào);和
  • 上述方法的啟發(fā)式/任意組合。

實際上,盡管這些方法是啟發(fā)式的,但這是當(dāng)前大多數(shù)經(jīng)驗取消學(xué)習(xí)算法(尤其是在大型(語言)模型上)所采用的方法。

人們探索經(jīng)驗方法是因為理論工具通常不切實際;例如,強(qiáng)制差分隱私會對準(zhǔn)確性和效率造成過大的損失,即使對于計算能力豐富的GPU也是如此。另一方面,經(jīng)驗方法通常快速且易于實現(xiàn),其效果通常在定性上可見。

經(jīng)驗取消學(xué)習(xí)的另一個關(guān)鍵動機(jī)是反事實的不明確性,特別是在大型語言模型上。在深度學(xué)習(xí)中,我們通常不知道重新訓(xùn)練的模型在未見數(shù)據(jù)上的行為會如何。如果不是政治家,LLM應(yīng)該行為如何對待拜登?取消學(xué)習(xí)的圖像分類器應(yīng)該對取消學(xué)習(xí)的圖像給出均勻隨機(jī)的預(yù)測嗎?它們是否具有泛化能力?還是它們自信地給出錯誤的預(yù)測?這些都是可能的,而且可以由從業(yè)者決定。這也意味著同樣合理的行為可能導(dǎo)致截然不同的度量(例如,取消學(xué)習(xí)模型和重新訓(xùn)練模型之間輸出分布的KL散度),從而使理論保證變得復(fù)雜。

2.4. 未知示例空間的經(jīng)驗取消學(xué)習(xí)(“概念/知識取消學(xué)習(xí)”)

如果訓(xùn)練、保留或遺忘集未被明確定義或根本未被定義,會怎樣?在訓(xùn)練于互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的基礎(chǔ)模型中,我們可能會收到取消學(xué)習(xí)一個“概念”、“事實”或一段“知識”的請求,而這些請求很難與一組示例相對應(yīng)。術(shù)語“模型編輯”、“概念編輯”、“模型手術(shù)”和“知識取消學(xué)習(xí)”與這種取消學(xué)習(xí)的概念密切相關(guān)。

取消學(xué)習(xí)請求的不明確性意味著我們現(xiàn)在必須處理“取消學(xué)習(xí)范圍”(或“編輯范圍”)和“蘊含”的概念。也就是說,取消學(xué)習(xí)請求可能提供規(guī)范性示例來指示要取消學(xué)習(xí)的內(nèi)容,但相同的信息可能以許多不同形式存在于(預(yù))訓(xùn)練集中,并具有許多不同的下游影響,因此僅僅在這些示例上實現(xiàn)取消學(xué)習(xí),即使是完全實現(xiàn),也是不夠的。

例如:

  • 關(guān)聯(lián)“拜登是美國總統(tǒng)”分散在各種形式的文本中,包括新聞文章、書籍、非正式的短信,或者甚至是博客文章。我們能取消學(xué)習(xí)所有的出現(xiàn)嗎?此外,取消學(xué)習(xí)喬·拜登是否意味著取消學(xué)習(xí)拜登貓的顏色?
  • 藝術(shù)家可能會要求通過提供藝術(shù)樣本來取消學(xué)習(xí)藝術(shù)風(fēng)格,但他們無法收集到互聯(lián)網(wǎng)上的所有內(nèi)容及其衍生作品。
  • 《紐約時報》可能會要求取消學(xué)習(xí)新聞文章,但他們無法列舉這些文章的引用和二次轉(zhuǎn)載。

這種模糊性還表明,從大型模型中取消學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)可能是經(jīng)驗性的必要條件:如果我們無法明確指定在數(shù)萬億個標(biāo)記中取消學(xué)習(xí)什么(以及不取消學(xué)習(xí)什么),并在不同實體之間建立清晰的信息邊界,那么很難獲得形式上的保證。實現(xiàn)經(jīng)驗性取消學(xué)習(xí)的一個有趣含義是取消學(xué)習(xí)本身可以被取消學(xué)習(xí)。

那么,對于取消學(xué)習(xí)請求不明確的情況,現(xiàn)有的工作是如何處理的呢?大多數(shù)技術(shù)與之前或多或少相同,只是現(xiàn)在我們還需要找到用于微調(diào)的示例。例如,嘗試取消學(xué)習(xí)《哈利·波特》系列就涉及要求GPT-4提供合理的替代文本完成(例如,波特先生學(xué)習(xí)烘焙而不是魔法);而嘗試取消學(xué)習(xí)有害行為則涉及收集仇恨言論的示例。

另一組技術(shù)涉及將所需行為(或其相反)訓(xùn)練到任務(wù)/控制向量中,并利用大型模型進(jìn)行權(quán)重空間合并或激活調(diào)整的能力。上述方法的基本思路或多或少相同,然而,獲取這些編輯向量涉及(啟發(fā)式地)設(shè)計梯度的選擇以及在哪些數(shù)據(jù)上應(yīng)用它們。也可以將取消學(xué)習(xí)問題框架化為一個對齊問題,并使用類似DPO的目標(biāo)應(yīng)用于遺忘示例。

2.5. 只是請求取消學(xué)習(xí)嗎?

事實證明,像GPT-4這樣的強(qiáng)大、遵循指令的語言模型是足夠聰明的,可以假裝取消學(xué)習(xí)。這意味著通過構(gòu)建提示來誘導(dǎo)(足夠)安全的行為,以實現(xiàn)目標(biāo)的取消學(xué)習(xí)應(yīng)用。

這是一種有趣的方法,因為沒有涉及任何梯度(從系統(tǒng)的角度來看,這是一個巨大的優(yōu)勢),直觀上最終的結(jié)果可能與現(xiàn)有的經(jīng)驗性取消學(xué)習(xí)技術(shù)一樣好。在不同的提示方式中,過去的研究探索了以下兩個方向。

直接請求假裝取消學(xué)習(xí)。我們可以在系統(tǒng)提示中要求,比如,假裝不知道哈利·波特是誰。從設(shè)計上來說,這對于常見的實體、事實、知識或行為(例如像特朗普那樣說話的能力)效果最好,因為LLM需要充分了解它才能假裝不了解。另一方面,現(xiàn)在假設(shè)我們想要取消學(xué)習(xí)一個不知名人物的地址;預(yù)訓(xùn)練集非常龐大,我們懷疑它是訓(xùn)練數(shù)據(jù)的一部分。我們現(xiàn)在面臨的是一種斯特萊桑效應(yīng)的變體:是否值得要求模型通過準(zhǔn)確描述上下文來假裝取消學(xué)習(xí),并隨后冒險在后續(xù)的模型回復(fù)中泄露它?

少樣本提示或“上下文取消學(xué)習(xí)”。假設(shè)我們現(xiàn)在有一組明確定義的遺忘示例及其相應(yīng)的標(biāo)簽。我們可以翻轉(zhuǎn)它們的標(biāo)簽并將它們放入提示中,連同更多具有正確標(biāo)簽的保留示例,直覺上模型會將這些錯誤標(biāo)記的遺忘示例視為真實并相應(yīng)地行動,就像可以通過這種方式對模型進(jìn)行越獄一樣。的確,當(dāng)遺忘示例和對應(yīng)的反事實標(biāo)簽明確定義且(在某種程度上)有限時,這種方法效果最好。通過列舉很多示例,它可能適用于事實關(guān)聯(lián)(例如,巴黎是法國的首都),但不太可能適用于取消學(xué)習(xí)有害行為(其中可能的輸出空間更大)。

從某種意義上說,這些方法是互補(bǔ)的,因為它們適用于不同類型的取消學(xué)習(xí)請求。

更廣泛地說,我們可以想象一個通過提示進(jìn)行取消學(xué)習(xí)的封裝式LLM系統(tǒng),其中:

  • 只公開輸入和輸出接口(例如ChatGPT);
  • 不同的強(qiáng)大LLM實例負(fù)責(zé)準(zhǔn)確模仿所需取消學(xué)習(xí)行為的不同部分(例如,一個LLM實例專門處理通用的問答形式,而另一個處理序列完成);
  • 一個編排器/路由器LLM根據(jù)輸入決定調(diào)用哪個取消學(xué)習(xí)工作實例;和
  • 一個作曲家/總結(jié)器LLM起草符合所需取消學(xué)習(xí)行為的最終輸出;它還可以應(yīng)用一些輸出過濾。

一些讀者可能會對基于提示的這種技術(shù)的啟發(fā)性質(zhì)表示不滿,認(rèn)為沒有證據(jù)證明取消學(xué)習(xí)。我們應(yīng)該記住,基于微調(diào)的經(jīng)驗性取消學(xué)習(xí),正如最近的方法所做的那樣,也許并沒有根本區(qū)別。最終歸結(jié)為以下幾個問題:

  • 微調(diào)或提示哪個可以更好地引導(dǎo)模型行為?
  • 它們中哪個更不容受攻擊(暴露的面更少和/或?qū)τ趯κ謥碚f需要更多的努力來恢復(fù)取消學(xué)習(xí))?

這兩個問題都指向基于微調(diào)的取消學(xué)習(xí),但這在很大程度上還有待討論,并且隨著我們獲得更強(qiáng)大的模型和更好的防御機(jī)制,這種情況可能會發(fā)生變化。例如,最近提出的指令層次結(jié)構(gòu)的概念可能有助于使這樣的LLM系統(tǒng)對惡意提示更不容易受到攻擊。

值得注意的是,人類實際上也不真正“取消學(xué)習(xí)”某個知識。事實上,通過聲稱已經(jīng)取消學(xué)習(xí)某件事,我們通常已經(jīng):(1)充分學(xué)習(xí)它,以能夠宣稱我們已經(jīng)取消學(xué)習(xí)它,并且(2)有意決定不再將這個知識應(yīng)用于我們當(dāng)前的世界狀態(tài),因為認(rèn)為它不再有用/有益。有誰能說取消學(xué)習(xí)對于LLM來說應(yīng)該有任何不同呢?

3. 評估取消學(xué)習(xí)

取消學(xué)習(xí)由于許多原因而變得混亂。但關(guān)于取消學(xué)習(xí)的最大問題之一就是評估??傮w而言,我們關(guān)心以下三個方面:

  • 效率:與重新訓(xùn)練相比,算法有多快?
  • 模型效用:是否損害了對保留數(shù)據(jù)或正交任務(wù)的性能?
  • 遺忘質(zhì)量:實際上有多少“遺忘數(shù)據(jù)”被取消學(xué)習(xí)了?我們能多快地恢復(fù)(重新學(xué)習(xí))它們?

評估效率和模型效用相對較容易;我們在訓(xùn)練過程中已經(jīng)對它們進(jìn)行了衡量。關(guān)鍵挑戰(zhàn)在于理解遺忘質(zhì)量。

如果遺忘示例是指定的,這也感覺很容易。例如,直觀地說,取消學(xué)習(xí)特定的圖像類別意味著在該類別的圖像上達(dá)到接近機(jī)會準(zhǔn)確率。評估協(xié)議可以測量準(zhǔn)確性(在保留集和測試集上高,在遺忘集上低)或遺忘文本序列的可能性(越低越好)。

然而,這些直觀的指標(biāo)選擇未必是基于原則的或適用于LLM中的知識取消學(xué)習(xí)等設(shè)置。期望模型在未學(xué)習(xí)的圖像上表現(xiàn)不佳忽略了泛化能力,因為遺忘示例很可能是某些保留示例的插值/重復(fù)。而且我們并不總是擁有從未見過遺忘示例的神諭模型;例如,我們是否有從未閱讀過《紐約時報》文章的LLM?

對LLM上取消學(xué)習(xí)的評估更多是一門藝術(shù)而非科學(xué)。例如,為了取消學(xué)習(xí)“哈利·波特”作為一個實體,人們會可視化標(biāo)記概率如何衰減與哈利·波特相關(guān)的文本,然后其他人會展示模型仍然能夠回答哈利·波特的問答題。關(guān)鍵問題在于缺乏數(shù)據(jù)集和用于取消學(xué)習(xí)評估的基準(zhǔn)測試的嚴(yán)重不足。

然而自2024年以來,基準(zhǔn)測試的危機(jī)有所改善。有兩個值得關(guān)注的最近項目:

  • TOFU:一個專注于取消學(xué)習(xí)個體(特別是書籍作者)的基準(zhǔn)測試。它涉及要求GPT-4創(chuàng)建虛假的作者簡介,對它們進(jìn)行微調(diào),并使用微調(diào)后的模型作為取消學(xué)習(xí)目標(biāo)模型,將原始LLM作為神諭的“重新訓(xùn)練”模型。它提供了關(guān)于生成的虛假作者的問答對,以評估模型在應(yīng)用取消學(xué)習(xí)之前/之后對這些作者的了解。
  • WMDP:一個專注于取消學(xué)習(xí)危險知識的基準(zhǔn)測試,特別是生物安全、網(wǎng)絡(luò)安全和化學(xué)安全。它提供了4000多個多項選擇問題,以測試模型在應(yīng)用取消學(xué)習(xí)之前/之后對危險知識的了解。作為報告的一部分,作者還提出了基于激活指導(dǎo)的經(jīng)驗性取消學(xué)習(xí)方法。

TOFU和WMDP不同于先前的取消學(xué)習(xí)評估,它們都是“高級”評估,關(guān)注模型的知識保留和理解,而不是像遺忘序列困惑度這樣的示例級指標(biāo)。對于LLM來說,這一點尤為重要,因為它們通常能夠以許多不同的方式給出相同的答案,而示例級指標(biāo)無法捕捉到這一點。

展望未來,像TOFU和WMDP這樣的面向應(yīng)用的取消學(xué)習(xí)基準(zhǔn)測試,相對于類似NeurIPS取消學(xué)習(xí)挑戰(zhàn)的基于實例的評估,對于評估基礎(chǔ)模型更有用,這是由于這些模型的多任務(wù)性質(zhì)和每個任務(wù)的“取消學(xué)習(xí)成功”的不同定義。確實,可以想象針對取消學(xué)習(xí)個人識別信息(PII)、受版權(quán)保護(hù)的內(nèi)容、語音毒性甚至模型后門等的單獨基準(zhǔn)測試。例如,對于取消學(xué)習(xí)PII,我們可能關(guān)心準(zhǔn)確記憶的標(biāo)記,而對于毒性,取消學(xué)習(xí)指標(biāo)將是由ToxiGen分類器報告的分?jǐn)?shù)。

4. 取消學(xué)習(xí)的實踐、陷阱和前景

取消學(xué)習(xí)是一個棘手的問題,尤其是在基礎(chǔ)模型的背景下。在我們積極研究如何使取消學(xué)習(xí)在實踐中起作用的同時,對取消學(xué)習(xí)的真正含義以及它是否是我們當(dāng)前問題的正確解決方案進(jìn)行一些思考是有幫助的。

4.1. 取消學(xué)習(xí)難度的譜系

直觀地說,取消學(xué)習(xí)LLM中罕見的文本出現(xiàn),比如Palo Alto的車禍,應(yīng)該比取消學(xué)習(xí)頻繁出現(xiàn)的情況,比如“拜登是美國總統(tǒng)”容易,而后者又比取消學(xué)習(xí)“太陽每天升起”這樣的基本事實更容易。

取消學(xué)習(xí)難度的譜系出現(xiàn)是因為隨著一個知識變得更基礎(chǔ),它與其他知識的關(guān)聯(lián)會更多(例如作為前提或推論),取消學(xué)習(xí)的范圍也會呈指數(shù)級增長。事實上,一個知識可以在模型的隱式知識圖中嵌入得如此之深,以至于不可能取消學(xué)習(xí)它而不引入矛盾并損害模型的效用。

這種直覺意味著某些取消學(xué)習(xí)請求要么更難,要么根本無法滿足(任何嘗試都注定有缺陷)。確實,人類的經(jīng)驗形成了他們后續(xù)行動和世界模型的基礎(chǔ);對于人類能以何種能力取消學(xué)習(xí)他們形成的過去記憶,這是主觀、模糊和哲學(xué)性的。

更廣泛地說,取消學(xué)習(xí)難度的問題適用于所有類型的模型,且原因不限于嵌入于知識/蘊涵圖中。讓我們考慮取消學(xué)習(xí)難度的另外兩個看似矛盾的直覺:

  • 后期訓(xùn)練中出現(xiàn)的示例應(yīng)該容易取消學(xué)習(xí),因為模型在權(quán)重空間中只會略微移動(例如由于衰減的學(xué)習(xí)率),可以簡單地恢復(fù)梯度或返回到先前的檢查點(如果有存儲)。相比之下,早期出現(xiàn)的示例會被后來的示例“建立”(以課程學(xué)習(xí)的意義),使它們更難取消學(xué)習(xí)。
  • 后期出現(xiàn)的示例應(yīng)該更難取消學(xué)習(xí),因為早期出現(xiàn)的示例會在訓(xùn)練過程中逐漸(或災(zāi)難性地)被遺忘;對于LLM而言,這可能特別真實。

無法解決這些直覺之間的矛盾將表明在記憶/遺忘、示例重要性(在數(shù)據(jù)選擇和核心集方面的意義)、學(xué)習(xí)難度(在預(yù)測翻轉(zhuǎn)的意義上)和取消學(xué)習(xí)難度之間的相互作用仍不清楚。

以下是一些有趣的研究問題:

  • 取消學(xué)習(xí)“易”數(shù)據(jù)(例如地方新聞事件)和“難”數(shù)據(jù)(例如貓有四條腿)之間是否存在定性/基本的差異?
  • 如果存在取消學(xué)習(xí)難度的譜系,是否存在一個閾值來區(qū)分什么是“容易”和“困難”,從而確定哪些是不可取消學(xué)習(xí)的或不應(yīng)取消學(xué)習(xí)的?是否存在或可以訓(xùn)練這樣一個神諭分類器?人類能否判斷?
  • 這與影響函數(shù)和數(shù)據(jù)歸因有何關(guān)系?如果某個特定知識(如其在模型輸出中的體現(xiàn))可以歸因于訓(xùn)練數(shù)據(jù)的較大部分,那么是否會使取消學(xué)習(xí)變得更難?
  • 我們能夠評估取消學(xué)習(xí)某個內(nèi)容的難度有多大嗎?

4.2. 版權(quán)保護(hù)

表面上看,取消學(xué)習(xí)似乎是解決版權(quán)保護(hù)的一個有前途的解決方案:如果模型侵犯了某些內(nèi)容的版權(quán),我們可以嘗試取消學(xué)習(xí)這些內(nèi)容。可以想象,要通過取消學(xué)習(xí)來解決版權(quán)侵權(quán)問題,可能需要可證明和準(zhǔn)確的取消學(xué)習(xí)(可能是足夠的);另一方面,近似取消學(xué)習(xí),沒有保證且可能被攻擊,顯然是不夠的,也可能是不必要的。

然而,在實踐中,由于當(dāng)前取消學(xué)習(xí)方法的可行性受到質(zhì)疑以及AI與版權(quán)交叉領(lǐng)域的法律環(huán)境不明確,存在著更多的細(xì)微之處。由于我不是法律專家(顯然,本節(jié)的內(nèi)容不構(gòu)成法律建議),我們將主要關(guān)注提出問題。核心問題似乎是:取消學(xué)習(xí)是否是版權(quán)保護(hù)的正確解決方案?

回想一下,公平使用原則允許有限地使用受版權(quán)保護(hù)的材料,前提是滿足四個因素:(1)使用的目的和性質(zhì)("創(chuàng)造性"),(2)受版權(quán)保護(hù)作品的性質(zhì),(3)使用的數(shù)量和重要性,以及(4)對作品價值的影響。如果模型中使用的受版權(quán)保護(hù)內(nèi)容符合公平使用原則,那么從模型中取消學(xué)習(xí)這些內(nèi)容是不必要的。

假設(shè)模型是在某些受版權(quán)保護(hù)的內(nèi)容上進(jìn)行訓(xùn)練的,并且存在侵犯版權(quán)的風(fēng)險,就像New York Times v. OpenAI案件中的情況一樣。OpenAI是否應(yīng)該在ChatGPT上投入(經(jīng)驗性的)取消學(xué)習(xí)算法?還是應(yīng)該專注于公平使用原則的"創(chuàng)造性"軸,并投入部署經(jīng)驗性的約束措施,如提示、內(nèi)容管理和定制對齊,以防止模型重復(fù)訓(xùn)練數(shù)據(jù)?實踐中似乎更多是采用后者。

更廣泛地說,還可能存在經(jīng)濟(jì)解決版權(quán)侵權(quán)問題的替代方案。例如,模型所有者可以提供準(zhǔn)確的取消學(xué)習(xí)服務(wù)(例如定期重新訓(xùn)練),同時提供對版權(quán)侵權(quán)進(jìn)行賠償?shù)谋U?,就像OpenAI的"版權(quán)保護(hù)"一樣。人們還開始探索如何使用Shapley值為受版權(quán)保護(hù)的數(shù)據(jù)定價??偟膩碚f,目前還不清楚取消學(xué)習(xí)在解決與版權(quán)相關(guān)的問題中將發(fā)揮多大的作用(如果有)。準(zhǔn)確的取消學(xué)習(xí)(擴(kuò)展到基于檢索的系統(tǒng),見下一節(jié))確實有潛力,因為刪除是干凈且可證明的,但似乎首先需要建立具有法律約束力的審計程序/機(jī)制。

4.3. 基于檢索的AI系統(tǒng)

一個明顯的取消學(xué)習(xí)替代方案是根本不進(jìn)行學(xué)習(xí)。對于LLM來說,這種方式可能是將可能收到取消學(xué)習(xí)請求的所有預(yù)訓(xùn)練集內(nèi)容(例如,紐約時報的文章)放入外部數(shù)據(jù)/向量存儲。在推理過程中,所有與這些內(nèi)容相關(guān)的問題將通過RAG(Retrieval-Augmented Generation)進(jìn)行回答,任何取消學(xué)習(xí)請求都可以通過從數(shù)據(jù)庫中刪除數(shù)據(jù)來輕松滿足。Min等人證明了這種方法在最終困惑度方面可以與(但不完全匹配)訓(xùn)練基線相競爭。

基于檢索的解決方案很有前途,因為基礎(chǔ)模型在推理上的能力越來越強(qiáng)。然而,在將檢索系統(tǒng)作為取消學(xué)習(xí)的不加思考的解決方案之前,需要考慮以下幾點:

  • 從預(yù)訓(xùn)練語料庫中刪除受保護(hù)內(nèi)容可能是一個難以解決的去重問題。與去除數(shù)據(jù)污染一樣,我們?nèi)绾未_保受保護(hù)內(nèi)容的改寫、引用/引證或其他改編被刪除?
  • 如果要取消學(xué)習(xí)的數(shù)據(jù)無法檢索怎么辦?今天,我們對模型進(jìn)行了許多非文檔或知識項的微調(diào);例如,尚不清楚人類偏好和期望行為(例如,寫作簡潔性)是否可以從數(shù)據(jù)庫中"檢索"出來。
  • 將內(nèi)容放入上下文中可能會開放新的攻擊面。許多基于RAG的LLM方法通過將相關(guān)內(nèi)容放入上下文中,并要求模型對其進(jìn)行推理。將受保護(hù)數(shù)據(jù)放入上下文意味著它們現(xiàn)在更容易受到數(shù)據(jù)提取的影響(簡單的提示攻擊可能仍然有效)。
  • 檢索和訓(xùn)練之間的效用差距。雖然有證據(jù)表明基于檢索的解決方案可以與競爭的訓(xùn)練解決方案相媲美,但并沒有普遍共識認(rèn)為僅依靠檢索就可以取代微調(diào)工作負(fù)載;事實上,它們可以是互補(bǔ)的。更廣泛地說,如果不可取消學(xué)習(xí)的數(shù)據(jù)空間太大,以至于如果所有數(shù)據(jù)都存儲在外部存儲中,基礎(chǔ)模型將不再那么有用,那該怎么辦?

4.4. AI安全性

隨著模型變得更加強(qiáng)大并被賦予代理能力,取消學(xué)習(xí)在AI安全性方面成為一個具體的應(yīng)用領(lǐng)域,正在引起人們的關(guān)注。

粗略地說,安全性問題源于模型的知識(例如,制作凝固汽油的配方)、行為(例如,展示偏見)和能力(例如,黑客攻擊網(wǎng)站)。通過檢查當(dāng)前的AI系統(tǒng)并推演未來,我們可以想象以下例子來應(yīng)用取消學(xué)習(xí)并提高AI安全性:

  • 刪除危險知識,例如WMDP基準(zhǔn)測試中的情況;
  • 刪除模型中的污染和后門,其中模型對對手植入的輸入觸發(fā)器做出反應(yīng);
  • 刪除操縱行為,例如進(jìn)行不道德的說服或欺騙的能力;
  • 消除偏見和有害性;甚至消除追求權(quán)力的傾向。

對于以安全為導(dǎo)向的應(yīng)用,值得注意的是,取消學(xué)習(xí)應(yīng)被視為訓(xùn)練后的風(fēng)險緩解和防御機(jī)制,與現(xiàn)有的工具(如對齊微調(diào)和內(nèi)容過濾器)一起使用。與其他工具相比,我們應(yīng)該通過與工具箱中其他工具(例如,取消學(xué)習(xí)比內(nèi)容過濾器更具適應(yīng)性但更昂貴)的權(quán)衡來看待取消學(xué)習(xí),而不是因為可能缺乏保證和效果而將其拋在一邊。

譯自(有刪改):https://ai.stanford.edu/~kzliu/blog/unlearning


本文轉(zhuǎn)載自公眾號AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/ladSpf8K_RoKKw5_iPF97w??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦