機器遺忘:為什么教AI學會遺忘至關重要?
譯者 | 布加迪
審校 | 重樓
一旦你學到了東西,就很難忘記??梢韵胂?,這個道理同樣適用于機器,特別是對于使用數(shù)十億個參數(shù)進行訓練的大語言模型(LLM)。在當下,大語言模型能夠處理語言或生成以假亂真的圖像,許多未解決的倫理問題繼續(xù)出現(xiàn):包括OpenAI因使用受版權保護的新聞文章來訓練其AI模型而被起訴,以及藝術家們指控科技公司未經(jīng)許可非法使用他們的作品作為訓練數(shù)據(jù)。
誠然,AI領域的發(fā)展現(xiàn)狀是一個道德雷區(qū),這導致了最近所謂的“機器遺忘”(Machine Unlearning)方興未艾。
華威大學攻讀博士的機器學習和數(shù)據(jù)系統(tǒng)研究助理Meghdad Kurmanji向我們解釋:“實際上,像ChatGPT這樣的機器學習模型是使用龐大數(shù)據(jù)集訓練的。機器遺忘就是讓受過訓練的模型‘遺忘’數(shù)據(jù)的特定部分。這個概念有幾種應用。比如說,它可以通過允許個人在AI時代行使‘被遺忘權’來保護隱私。設想一下這個場景:某個名人的臉未經(jīng)允許用于人臉識別系統(tǒng)中,可以從模型的記憶中刪除。此外,遺忘有助于版權和知識產(chǎn)權保護,最近涉及聊天機器人模型的訴訟就突顯了這一點,比如《紐約時報》訴OpenAI案。最后,遺忘有助于解決機器學習模型中的偏見,帶來更值得信賴的AI系統(tǒng)?!?/p>
為什么機器遺忘很重要?為什么很難做到?
自2015年的一篇論文首次提及以來,人工智能研究的這個日益重要的子領域旨在設計方法,使AI模型可以有效地“遺忘”選定的訓練信息,又不會對其性能產(chǎn)生負面影響——最重要的是,不需要從頭開始重新訓練,不然費錢又費時。
但選擇性地從AI模型中刪除數(shù)據(jù)不像從計算機硬盤中刪除文件那么簡單。許多模型就如同神秘莫測的黑匣子,使得機器遺忘不像從已烘烤好的蛋糕上去掉某種成分一樣簡單。
隨著圍繞人工智能的倫理考量和監(jiān)管不斷發(fā)展,尤其是在涉及安全或隱私問題、有害偏見、過時或虛假的信息或者不安全的內容時,這種“遺忘”功能將變得更加重要。
而且,機器遺忘可以幫助AI實現(xiàn)未來在數(shù)據(jù)隱私、公平和合規(guī)方面的目標,并有助于緩解模型中的概念漂移:數(shù)據(jù)中的底層模式可能會逐漸發(fā)生變化,從而導致預測的準確性降低。
機器遺忘的類型
從廣義上講,機器學習有兩種方法:精確遺忘和近似遺忘。
- 精確遺忘:又稱完美遺忘,它需要從頭開始重新訓練AI模型,不涉及刪除數(shù)據(jù)。這種方法的優(yōu)點是,它確保特定數(shù)據(jù)點的刪除不會損害模型的性能,缺點是它通常需要大量的計算資源,適合不太復雜的AI模型。
精確遺忘的例子包括反向最近鄰(RNN)等技術,通過調整相鄰的其他數(shù)據(jù)點來補償數(shù)據(jù)點的移除。k近鄰是一種類似的技術,根據(jù)數(shù)據(jù)點與目標數(shù)據(jù)點的鄰近程度來刪除而不是調整數(shù)據(jù)點。
另一種精確的遺忘方法是將數(shù)據(jù)集分成兩個獨立的子集,然后訓練兩個部分模型。這兩個模型以后可以通過一個名為分片(Sharding)的過程加以合并。如果需要消除數(shù)據(jù)集中的特定數(shù)據(jù)點,就可以修改這個特定數(shù)據(jù)集,并在再次分片之前使用該數(shù)據(jù)集重新訓練部分模型。
- 近似遺忘:又叫有界遺忘或認證遺忘,旨在將遺忘數(shù)據(jù)的影響最小化到可接受的程度,而不是完全消除。在計算資源和存儲成本受限的場合下,或者需要更靈活的解決方案時,近似遺忘方法可能更可取。這種方法的缺點是它們不能完全去除遺忘數(shù)據(jù)的所有痕跡,并且很難驗證或證明遺忘過程的有效性。
近似遺忘的一個例子是局部異常因子(LOF)技術,這種技術可以識別和刪除數(shù)據(jù)集中的異常數(shù)據(jù)點,以增強模型性能。
與之相仿,隔離森林(IF)等算法可用于創(chuàng)建帶有隨機子采樣數(shù)據(jù)的決策樹。這些數(shù)據(jù)基于隨機選擇的特征加以處理,目的是評估任何明顯的異常,隨后將其丟棄。相比精確遺忘方法,這些近似遺忘方法更容易針對LLM之類的龐大模型加以調整或改動。
暫時還沒有萬能的機器遺忘
目前還沒有一種通用的解決方案可以支持機器遺忘的不同應用,不過像Kurmanji這樣的研究人員正在開發(fā)一種更通用的遺忘工具。
以Kurmanji為例,他與華威大學和谷歌DeepMind的研究團隊已開發(fā)了一種名為SCRUB的工具,有望解決各種各樣的問題:消除偏見、保護用戶隱私,以及解決因數(shù)據(jù)標注錯誤而導致的模型混亂。
Kurmanji說:“SCRUB是基于一種名為‘師生’框架的機器學習方法而設計的。其工作原理如下,一個預先訓練好的模型(‘教師’)指導一個新模型(‘學生’)的訓練。SCRUB使這個概念更進一步。在訓練新模型時,SCRUB讓它針對我們想要遺忘的數(shù)據(jù)‘不服從’教師模型,針對其余數(shù)據(jù)則‘服從’教師模型。通過最小化或最大化模型輸出之間的相似性度量指標管理這種相互作用。然而,SCRUB有時會過度遺忘數(shù)據(jù)點,使其變得很明顯。這時候SCRUB+R算法就有了用武之地,它對遺忘過程進行微調,以控制遺忘的程度?!?/p>
機器遺忘方面仍然存在許多挑戰(zhàn),無論是缺乏標準化的評估度量指標,還是兼容性和可擴展性方面的潛在問題。但隨著將來出現(xiàn)更龐大更復雜的AI模型,機器遺忘概念將成為AI領域越來越重要的一部分。也許這將促使AI專家與法律、數(shù)據(jù)隱私和道德等領域的專業(yè)人士進行更密切的合作,以更好地定義未來的負責任AI實踐和工具。
原文標題:??Machine Unlearning: Why Teaching AI To Forget Is Crucial??,作者:Kimberley Mok?
