自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

機(jī)器遺忘：為什么教AI學(xué)會(huì)遺忘至關(guān)重要？

作者：布加迪 2024-08-21 09:57:38

機(jī)器學(xué)習(xí)讓AI模型可以刪除選定的訓(xùn)練信息，而不會(huì)對(duì)其性能產(chǎn)生負(fù)面影響。

譯者 | 布加迪

審校 | 重樓

一旦你學(xué)到了東西，就很難忘記?？梢韵胂螅@個(gè)道理同樣適用于機(jī)器，特別是對(duì)于使用數(shù)十億個(gè)參數(shù)進(jìn)行訓(xùn)練的大語言模型（LLM）。在當(dāng)下，大語言模型能夠處理語言或生成以假亂真的圖像，許多未解決的倫理問題繼續(xù)出現(xiàn)：包括OpenAI因使用受版權(quán)保護(hù)的新聞文章來訓(xùn)練其AI模型而被起訴，以及藝術(shù)家們指控科技公司未經(jīng)許可非法使用他們的作品作為訓(xùn)練數(shù)據(jù)。

誠然，AI領(lǐng)域的發(fā)展現(xiàn)狀是一個(gè)道德雷區(qū)，這導(dǎo)致了最近所謂的“機(jī)器遺忘”（Machine Unlearning）方興未艾。

華威大學(xué)攻讀博士的機(jī)器學(xué)習(xí)和數(shù)據(jù)系統(tǒng)研究助理Meghdad Kurmanji向我們解釋：“實(shí)際上，像ChatGPT這樣的機(jī)器學(xué)習(xí)模型是使用龐大數(shù)據(jù)集訓(xùn)練的。機(jī)器遺忘就是讓受過訓(xùn)練的模型‘遺忘’數(shù)據(jù)的特定部分。這個(gè)概念有幾種應(yīng)用。比如說，它可以通過允許個(gè)人在AI時(shí)代行使‘被遺忘權(quán)’來保護(hù)隱私。設(shè)想一下這個(gè)場(chǎng)景：某個(gè)名人的臉未經(jīng)允許用于人臉識(shí)別系統(tǒng)中，可以從模型的記憶中刪除。此外，遺忘有助于版權(quán)和知識(shí)產(chǎn)權(quán)保護(hù)，最近涉及聊天機(jī)器人模型的訴訟就突顯了這一點(diǎn)，比如《紐約時(shí)報(bào)》訴OpenAI案。最后，遺忘有助于解決機(jī)器學(xué)習(xí)模型中的偏見，帶來更值得信賴的AI系統(tǒng)?！?/p>

為什么機(jī)器遺忘很重要？為什么很難做到？

自2015年的一篇論文首次提及以來，人工智能研究的這個(gè)日益重要的子領(lǐng)域旨在設(shè)計(jì)方法，使AI模型可以有效地“遺忘”選定的訓(xùn)練信息，又不會(huì)對(duì)其性能產(chǎn)生負(fù)面影響——最重要的是，不需要從頭開始重新訓(xùn)練，不然費(fèi)錢又費(fèi)時(shí)。

但選擇性地從AI模型中刪除數(shù)據(jù)不像從計(jì)算機(jī)硬盤中刪除文件那么簡(jiǎn)單。許多模型就如同神秘莫測(cè)的黑匣子，使得機(jī)器遺忘不像從已烘烤好的蛋糕上去掉某種成分一樣簡(jiǎn)單。

隨著圍繞人工智能的倫理考量和監(jiān)管不斷發(fā)展，尤其是在涉及安全或隱私問題、有害偏見、過時(shí)或虛假的信息或者不安全的內(nèi)容時(shí)，這種“遺忘”功能將變得更加重要。

而且，機(jī)器遺忘可以幫助AI實(shí)現(xiàn)未來在數(shù)據(jù)隱私、公平和合規(guī)方面的目標(biāo)，并有助于緩解模型中的概念漂移：數(shù)據(jù)中的底層模式可能會(huì)逐漸發(fā)生變化，從而導(dǎo)致預(yù)測(cè)的準(zhǔn)確性降低。

機(jī)器遺忘的類型

從廣義上講，機(jī)器學(xué)習(xí)有兩種方法：精確遺忘和近似遺忘。

精確遺忘：又稱完美遺忘，它需要從頭開始重新訓(xùn)練AI模型，不涉及刪除數(shù)據(jù)。這種方法的優(yōu)點(diǎn)是，它確保特定數(shù)據(jù)點(diǎn)的刪除不會(huì)損害模型的性能，缺點(diǎn)是它通常需要大量的計(jì)算資源，適合不太復(fù)雜的AI模型。

精確遺忘的例子包括反向最近鄰（RNN）等技術(shù)，通過調(diào)整相鄰的其他數(shù)據(jù)點(diǎn)來補(bǔ)償數(shù)據(jù)點(diǎn)的移除。k近鄰是一種類似的技術(shù)，根據(jù)數(shù)據(jù)點(diǎn)與目標(biāo)數(shù)據(jù)點(diǎn)的鄰近程度來刪除而不是調(diào)整數(shù)據(jù)點(diǎn)。

另一種精確的遺忘方法是將數(shù)據(jù)集分成兩個(gè)獨(dú)立的子集，然后訓(xùn)練兩個(gè)部分模型。這兩個(gè)模型以后可以通過一個(gè)名為分片（Sharding）的過程加以合并。如果需要消除數(shù)據(jù)集中的特定數(shù)據(jù)點(diǎn)，就可以修改這個(gè)特定數(shù)據(jù)集，并在再次分片之前使用該數(shù)據(jù)集重新訓(xùn)練部分模型。

近似遺忘：又叫有界遺忘或認(rèn)證遺忘，旨在將遺忘數(shù)據(jù)的影響最小化到可接受的程度，而不是完全消除。在計(jì)算資源和存儲(chǔ)成本受限的場(chǎng)合下，或者需要更靈活的解決方案時(shí)，近似遺忘方法可能更可取。這種方法的缺點(diǎn)是它們不能完全去除遺忘數(shù)據(jù)的所有痕跡，并且很難驗(yàn)證或證明遺忘過程的有效性。

近似遺忘的一個(gè)例子是局部異常因子（LOF）技術(shù)，這種技術(shù)可以識(shí)別和刪除數(shù)據(jù)集中的異常數(shù)據(jù)點(diǎn)，以增強(qiáng)模型性能。

與之相仿，隔離森林（IF）等算法可用于創(chuàng)建帶有隨機(jī)子采樣數(shù)據(jù)的決策樹。這些數(shù)據(jù)基于隨機(jī)選擇的特征加以處理，目的是評(píng)估任何明顯的異常，隨后將其丟棄。相比精確遺忘方法，這些近似遺忘方法更容易針對(duì)LLM之類的龐大模型加以調(diào)整或改動(dòng)。

暫時(shí)還沒有萬能的機(jī)器遺忘

目前還沒有一種通用的解決方案可以支持機(jī)器遺忘的不同應(yīng)用，不過像Kurmanji這樣的研究人員正在開發(fā)一種更通用的遺忘工具。

以Kurmanji為例，他與華威大學(xué)和谷歌DeepMind的研究團(tuán)隊(duì)已開發(fā)了一種名為SCRUB的工具，有望解決各種各樣的問題：消除偏見、保護(hù)用戶隱私，以及解決因數(shù)據(jù)標(biāo)注錯(cuò)誤而導(dǎo)致的模型混亂。

Kurmanji說：“SCRUB是基于一種名為‘師生’框架的機(jī)器學(xué)習(xí)方法而設(shè)計(jì)的。其工作原理如下，一個(gè)預(yù)先訓(xùn)練好的模型（‘教師’）指導(dǎo)一個(gè)新模型（‘學(xué)生’）的訓(xùn)練。SCRUB使這個(gè)概念更進(jìn)一步。在訓(xùn)練新模型時(shí)，SCRUB讓它針對(duì)我們想要遺忘的數(shù)據(jù)‘不服從’教師模型，針對(duì)其余數(shù)據(jù)則‘服從’教師模型。通過最小化或最大化模型輸出之間的相似性度量指標(biāo)管理這種相互作用。然而，SCRUB有時(shí)會(huì)過度遺忘數(shù)據(jù)點(diǎn)，使其變得很明顯。這時(shí)候SCRUB+R算法就有了用武之地，它對(duì)遺忘過程進(jìn)行微調(diào)，以控制遺忘的程度。”

機(jī)器遺忘方面仍然存在許多挑戰(zhàn)，無論是缺乏標(biāo)準(zhǔn)化的評(píng)估度量指標(biāo)，還是兼容性和可擴(kuò)展性方面的潛在問題。但隨著將來出現(xiàn)更龐大更復(fù)雜的AI模型，機(jī)器遺忘概念將成為AI領(lǐng)域越來越重要的一部分。也許這將促使AI專家與法律、數(shù)據(jù)隱私和道德等領(lǐng)域的專業(yè)人士進(jìn)行更密切的合作，以更好地定義未來的負(fù)責(zé)任AI實(shí)踐和工具。

原文標(biāo)題：Machine Unlearning: Why Teaching AI To Forget Is Crucial，作者：Kimberley Mok?

責(zé)任編輯：武曉燕來源： 51CTO

機(jī)器 AI 信息

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="ukczb"><track id="ukczb"></track></cite>

<sup id="ukczb"><rt id="ukczb"></rt></sup>

<cite id="ukczb"><track id="ukczb"></track></cite>

<p id="ukczb"><li id="ukczb"></li></p><s id="ukczb"><li id="ukczb"></li></s>