自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器遺忘:為什么教AI學(xué)會(huì)遺忘至關(guān)重要?

譯文 精選
人工智能
機(jī)器學(xué)習(xí)讓AI模型可以刪除選定的訓(xùn)練信息,而不會(huì)對(duì)其性能產(chǎn)生負(fù)面影響。

譯者 | 布加迪

審校 | 重樓

一旦你學(xué)到了東西,就很難忘記??梢韵胂螅@個(gè)道理同樣適用于機(jī)器,特別是對(duì)于使用數(shù)十億個(gè)參數(shù)進(jìn)行訓(xùn)練的大語言模型(LLM)。在當(dāng)下,大語言模型能夠處理語言或生成以假亂真的圖像,許多未解決的倫理問題繼續(xù)出現(xiàn):包括OpenAI因使用受版權(quán)保護(hù)的新聞文章來訓(xùn)練其AI模型而被起訴,以及藝術(shù)家們指控科技公司未經(jīng)許可非法使用他們的作品作為訓(xùn)練數(shù)據(jù)。

誠然,AI領(lǐng)域的發(fā)展現(xiàn)狀是一個(gè)道德雷區(qū),這導(dǎo)致了最近所謂的“機(jī)器遺忘”(Machine Unlearning)方興未艾。

華威大學(xué)攻讀博士的機(jī)器學(xué)習(xí)和數(shù)據(jù)系統(tǒng)研究助理Meghdad Kurmanji向我們解釋:“實(shí)際上,像ChatGPT這樣的機(jī)器學(xué)習(xí)模型是使用龐大數(shù)據(jù)集訓(xùn)練的。機(jī)器遺忘就是讓受過訓(xùn)練的模型‘遺忘’數(shù)據(jù)的特定部分。這個(gè)概念有幾種應(yīng)用。比如說,它可以通過允許個(gè)人在AI時(shí)代行使‘被遺忘權(quán)’來保護(hù)隱私。設(shè)想一下這個(gè)場(chǎng)景:某個(gè)名人的臉未經(jīng)允許用于人臉識(shí)別系統(tǒng)中,可以從模型的記憶中刪除。此外,遺忘有助于版權(quán)和知識(shí)產(chǎn)權(quán)保護(hù),最近涉及聊天機(jī)器人模型的訴訟就突顯了這一點(diǎn),比如《紐約時(shí)報(bào)》訴OpenAI案。最后,遺忘有助于解決機(jī)器學(xué)習(xí)模型中的偏見,帶來更值得信賴的AI系統(tǒng)?!?/p>

為什么機(jī)器遺忘很重要?為什么很難做到?

自2015年的一篇論文首次提及以來,人工智能研究的這個(gè)日益重要的子領(lǐng)域旨在設(shè)計(jì)方法,使AI模型可以有效地“遺忘”選定的訓(xùn)練信息,又不會(huì)對(duì)其性能產(chǎn)生負(fù)面影響——最重要的是,不需要從頭開始重新訓(xùn)練,不然費(fèi)錢又費(fèi)時(shí)。

但選擇性地從AI模型中刪除數(shù)據(jù)不像從計(jì)算機(jī)硬盤中刪除文件那么簡(jiǎn)單。許多模型就如同神秘莫測(cè)的黑匣子,使得機(jī)器遺忘不像從已烘烤好的蛋糕上去掉某種成分一樣簡(jiǎn)單。

隨著圍繞人工智能的倫理考量和監(jiān)管不斷發(fā)展,尤其是在涉及安全或隱私問題、有害偏見、過時(shí)或虛假的信息或者不安全的內(nèi)容時(shí),這種“遺忘”功能將變得更加重要。

而且,機(jī)器遺忘可以幫助AI實(shí)現(xiàn)未來在數(shù)據(jù)隱私、公平和合規(guī)方面的目標(biāo),并有助于緩解模型中的概念漂移:數(shù)據(jù)中的底層模式可能會(huì)逐漸發(fā)生變化,從而導(dǎo)致預(yù)測(cè)的準(zhǔn)確性降低。

機(jī)器遺忘的類型

從廣義上講,機(jī)器學(xué)習(xí)有兩種方法:精確遺忘和近似遺忘。

精確遺忘:又稱完美遺忘,它需要從頭開始重新訓(xùn)練AI模型,不涉及刪除數(shù)據(jù)。這種方法的優(yōu)點(diǎn)是,它確保特定數(shù)據(jù)點(diǎn)的刪除不會(huì)損害模型的性能,缺點(diǎn)是它通常需要大量的計(jì)算資源,適合不太復(fù)雜的AI模型。

精確遺忘的例子包括反向最近鄰(RNN)等技術(shù),通過調(diào)整相鄰的其他數(shù)據(jù)點(diǎn)來補(bǔ)償數(shù)據(jù)點(diǎn)的移除。k近鄰是一種類似的技術(shù),根據(jù)數(shù)據(jù)點(diǎn)與目標(biāo)數(shù)據(jù)點(diǎn)的鄰近程度來刪除而不是調(diào)整數(shù)據(jù)點(diǎn)。

另一種精確的遺忘方法是將數(shù)據(jù)集分成兩個(gè)獨(dú)立的子集,然后訓(xùn)練兩個(gè)部分模型。這兩個(gè)模型以后可以通過一個(gè)名為分片(Sharding)的過程加以合并。如果需要消除數(shù)據(jù)集中的特定數(shù)據(jù)點(diǎn),就可以修改這個(gè)特定數(shù)據(jù)集,并在再次分片之前使用該數(shù)據(jù)集重新訓(xùn)練部分模型。

近似遺忘:又叫有界遺忘或認(rèn)證遺忘,旨在將遺忘數(shù)據(jù)的影響最小化到可接受的程度,而不是完全消除。在計(jì)算資源和存儲(chǔ)成本受限的場(chǎng)合下,或者需要更靈活的解決方案時(shí),近似遺忘方法可能更可取。這種方法的缺點(diǎn)是它們不能完全去除遺忘數(shù)據(jù)的所有痕跡,并且很難驗(yàn)證或證明遺忘過程的有效性。

近似遺忘的一個(gè)例子是局部異常因子(LOF)技術(shù),這種技術(shù)可以識(shí)別和刪除數(shù)據(jù)集中的異常數(shù)據(jù)點(diǎn),以增強(qiáng)模型性能。

與之相仿,隔離森林(IF)等算法可用于創(chuàng)建帶有隨機(jī)子采樣數(shù)據(jù)的決策樹。這些數(shù)據(jù)基于隨機(jī)選擇的特征加以處理,目的是評(píng)估任何明顯的異常,隨后將其丟棄。相比精確遺忘方法,這些近似遺忘方法更容易針對(duì)LLM之類的龐大模型加以調(diào)整或改動(dòng)。

暫時(shí)還沒有萬能的機(jī)器遺忘

目前還沒有一種通用的解決方案可以支持機(jī)器遺忘的不同應(yīng)用,不過像Kurmanji這樣的研究人員正在開發(fā)一種更通用的遺忘工具。

以Kurmanji為例,他與華威大學(xué)和谷歌DeepMind的研究團(tuán)隊(duì)已開發(fā)了一種名為SCRUB的工具,有望解決各種各樣的問題:消除偏見、保護(hù)用戶隱私,以及解決因數(shù)據(jù)標(biāo)注錯(cuò)誤而導(dǎo)致的模型混亂。

Kurmanji說:“SCRUB是基于一種名為‘師生’框架的機(jī)器學(xué)習(xí)方法而設(shè)計(jì)的。其工作原理如下,一個(gè)預(yù)先訓(xùn)練好的模型(‘教師’)指導(dǎo)一個(gè)新模型(‘學(xué)生’)的訓(xùn)練。SCRUB使這個(gè)概念更進(jìn)一步。在訓(xùn)練新模型時(shí),SCRUB讓它針對(duì)我們想要遺忘的數(shù)據(jù)‘不服從’教師模型,針對(duì)其余數(shù)據(jù)則‘服從’教師模型。通過最小化或最大化模型輸出之間的相似性度量指標(biāo)管理這種相互作用。然而,SCRUB有時(shí)會(huì)過度遺忘數(shù)據(jù)點(diǎn),使其變得很明顯。這時(shí)候SCRUB+R算法就有了用武之地,它對(duì)遺忘過程進(jìn)行微調(diào),以控制遺忘的程度。”

機(jī)器遺忘方面仍然存在許多挑戰(zhàn),無論是缺乏標(biāo)準(zhǔn)化的評(píng)估度量指標(biāo),還是兼容性和可擴(kuò)展性方面的潛在問題。但隨著將來出現(xiàn)更龐大更復(fù)雜的AI模型,機(jī)器遺忘概念將成為AI領(lǐng)域越來越重要的一部分。也許這將促使AI專家與法律、數(shù)據(jù)隱私和道德等領(lǐng)域的專業(yè)人士進(jìn)行更密切的合作,以更好地定義未來的負(fù)責(zé)任AI實(shí)踐和工具。

原文標(biāo)題:Machine Unlearning: Why Teaching AI To Forget Is Crucial,作者:Kimberley Mok?


責(zé)任編輯:武曉燕 來源: 51CTO
相關(guān)推薦

2022-06-22 11:37:54

符號(hào)AI人工智能

2022-04-08 09:30:00

GitOpsDevSecOps安全

2024-10-24 16:34:45

深度學(xué)習(xí)CUDA人工智能

2018-06-12 00:33:20

AI機(jī)器學(xué)習(xí)人工智能

2021-02-23 16:10:33

人工智能AI自動(dòng)化

2018-05-10 13:15:06

云計(jì)算企業(yè)安全性

2022-08-24 10:58:31

數(shù)據(jù)丟失數(shù)據(jù)丟失防護(hù)

2022-08-26 12:51:54

外部攻擊面網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2023-02-13 16:44:09

2019-11-26 10:47:57

云計(jì)算Kubernetes

2021-06-21 09:00:34

大數(shù)據(jù)物聯(lián)網(wǎng)

2023-01-12 11:13:52

CRM工具集成

2020-06-22 14:14:01

云計(jì)算人類服務(wù)器

2022-07-15 09:00:00

SQL數(shù)據(jù)庫據(jù)科學(xué)家

2020-08-25 10:12:12

網(wǎng)絡(luò)安全智慧城市物聯(lián)網(wǎng)

2023-11-16 17:14:16

數(shù)字化轉(zhuǎn)型

2022-12-01 15:36:44

數(shù)字化轉(zhuǎn)型

2023-03-03 13:45:00

數(shù)據(jù)中心傳感器

2023-05-09 11:05:00

收發(fā)器測(cè)試接收信號(hào)

2021-11-01 13:47:32

安全生物識(shí)別技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)