自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="eqfxu"></sub>

^{<blockquote id="eqfxu"></blockquote>}

^{<thead id="eqfxu"></thead>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

機器遺忘：為什么教AI學會遺忘至關重要？

51CTO內容精選

發(fā)布于 2024-8-21 10:35

瀏覽

0收藏

譯者 | 布加迪

審校 | 重樓

一旦你學到了東西，就很難忘記?？梢韵胂?，這個道理同樣適用于機器，特別是對于使用數(shù)十億個參數(shù)進行訓練的大語言模型（LLM）。在當下，大語言模型能夠處理語言或生成以假亂真的圖像，許多未解決的倫理問題繼續(xù)出現(xiàn)：包括OpenAI因使用受版權保護的新聞文章來訓練其AI模型而被起訴，以及藝術家們指控科技公司未經(jīng)許可非法使用他們的作品作為訓練數(shù)據(jù)。

誠然，AI領域的發(fā)展現(xiàn)狀是一個道德雷區(qū)，這導致了最近所謂的“機器遺忘”（Machine Unlearning）方興未艾。

華威大學攻讀博士的機器學習和數(shù)據(jù)系統(tǒng)研究助理Meghdad Kurmanji向我們解釋：“實際上，像ChatGPT這樣的機器學習模型是使用龐大數(shù)據(jù)集訓練的。機器遺忘就是讓受過訓練的模型‘遺忘’數(shù)據(jù)的特定部分。這個概念有幾種應用。比如說，它可以通過允許個人在AI時代行使‘被遺忘權’來保護隱私。設想一下這個場景：某個名人的臉未經(jīng)允許用于人臉識別系統(tǒng)中，可以從模型的記憶中刪除。此外，遺忘有助于版權和知識產(chǎn)權保護，最近涉及聊天機器人模型的訴訟就突顯了這一點，比如《紐約時報》訴OpenAI案。最后，遺忘有助于解決機器學習模型中的偏見，帶來更值得信賴的AI系統(tǒng)?！?/p>

為什么機器遺忘很重要？為什么很難做到？

自2015年的一篇論文首次提及以來，人工智能研究的這個日益重要的子領域旨在設計方法，使AI模型可以有效地“遺忘”選定的訓練信息，又不會對其性能產(chǎn)生負面影響——最重要的是，不需要從頭開始重新訓練，不然費錢又費時。

但選擇性地從AI模型中刪除數(shù)據(jù)不像從計算機硬盤中刪除文件那么簡單。許多模型就如同神秘莫測的黑匣子，使得機器遺忘不像從已烘烤好的蛋糕上去掉某種成分一樣簡單。

隨著圍繞人工智能的倫理考量和監(jiān)管不斷發(fā)展，尤其是在涉及安全或隱私問題、有害偏見、過時或虛假的信息或者不安全的內容時，這種“遺忘”功能將變得更加重要。

而且，機器遺忘可以幫助AI實現(xiàn)未來在數(shù)據(jù)隱私、公平和合規(guī)方面的目標，并有助于緩解模型中的概念漂移：數(shù)據(jù)中的底層模式可能會逐漸發(fā)生變化，從而導致預測的準確性降低。

機器遺忘的類型

從廣義上講，機器學習有兩種方法：精確遺忘和近似遺忘。

精確遺忘：又稱完美遺忘，它需要從頭開始重新訓練AI模型，不涉及刪除數(shù)據(jù)。這種方法的優(yōu)點是，它確保特定數(shù)據(jù)點的刪除不會損害模型的性能，缺點是它通常需要大量的計算資源，適合不太復雜的AI模型。

精確遺忘的例子包括反向最近鄰（RNN）等技術，通過調整相鄰的其他數(shù)據(jù)點來補償數(shù)據(jù)點的移除。k近鄰是一種類似的技術，根據(jù)數(shù)據(jù)點與目標數(shù)據(jù)點的鄰近程度來刪除而不是調整數(shù)據(jù)點。

另一種精確的遺忘方法是將數(shù)據(jù)集分成兩個獨立的子集，然后訓練兩個部分模型。這兩個模型以后可以通過一個名為分片（Sharding）的過程加以合并。如果需要消除數(shù)據(jù)集中的特定數(shù)據(jù)點，就可以修改這個特定數(shù)據(jù)集，并在再次分片之前使用該數(shù)據(jù)集重新訓練部分模型。

近似遺忘：又叫有界遺忘或認證遺忘，旨在將遺忘數(shù)據(jù)的影響最小化到可接受的程度，而不是完全消除。在計算資源和存儲成本受限的場合下，或者需要更靈活的解決方案時，近似遺忘方法可能更可取。這種方法的缺點是它們不能完全去除遺忘數(shù)據(jù)的所有痕跡，并且很難驗證或證明遺忘過程的有效性。

近似遺忘的一個例子是局部異常因子（LOF）技術，這種技術可以識別和刪除數(shù)據(jù)集中的異常數(shù)據(jù)點，以增強模型性能。

與之相仿，隔離森林（IF）等算法可用于創(chuàng)建帶有隨機子采樣數(shù)據(jù)的決策樹。這些數(shù)據(jù)基于隨機選擇的特征加以處理，目的是評估任何明顯的異常，隨后將其丟棄。相比精確遺忘方法，這些近似遺忘方法更容易針對LLM之類的龐大模型加以調整或改動。

暫時還沒有萬能的機器遺忘

目前還沒有一種通用的解決方案可以支持機器遺忘的不同應用，不過像Kurmanji這樣的研究人員正在開發(fā)一種更通用的遺忘工具。

以Kurmanji為例，他與華威大學和谷歌DeepMind的研究團隊已開發(fā)了一種名為SCRUB的工具，有望解決各種各樣的問題：消除偏見、保護用戶隱私，以及解決因數(shù)據(jù)標注錯誤而導致的模型混亂。

Kurmanji說：“SCRUB是基于一種名為‘師生’框架的機器學習方法而設計的。其工作原理如下，一個預先訓練好的模型（‘教師’）指導一個新模型（‘學生’）的訓練。SCRUB使這個概念更進一步。在訓練新模型時，SCRUB讓它針對我們想要遺忘的數(shù)據(jù)‘不服從’教師模型，針對其余數(shù)據(jù)則‘服從’教師模型。通過最小化或最大化模型輸出之間的相似性度量指標管理這種相互作用。然而，SCRUB有時會過度遺忘數(shù)據(jù)點，使其變得很明顯。這時候SCRUB+R算法就有了用武之地，它對遺忘過程進行微調，以控制遺忘的程度?！?/p>

機器遺忘方面仍然存在許多挑戰(zhàn)，無論是缺乏標準化的評估度量指標，還是兼容性和可擴展性方面的潛在問題。但隨著將來出現(xiàn)更龐大更復雜的AI模型，機器遺忘概念將成為AI領域越來越重要的一部分。也許這將促使AI專家與法律、數(shù)據(jù)隱私和道德等領域的專業(yè)人士進行更密切的合作，以更好地定義未來的負責任AI實踐和工具。

原文標題：??Machine Unlearning: Why Teaching AI To Forget Is Crucial??，作者：Kimberley Mok?

標簽

贊

收藏

回復

舉報

回復

相關推薦

生成式AI如何告別版權困擾？基于權重顯著性的機器遺忘算法有奇效

輕薄滴假象 ? 2220瀏覽 ? 0回復
在對齊 AI 時，為什么在線方法總是優(yōu)于離線方法？

輕薄滴假象 ? 2024瀏覽 ? 0回復
為什么我們勸你棄用LangChain？

51CTO技術棧 ? 6062瀏覽 ? 0回復
如何解決模型的災難性遺忘問題？清華大學提出新方法！

AI論文解讀 ? 4667瀏覽 ? 0回復
什么是提示詞工程(prompt engineering)？為什么需要提示詞工程？

AI探索時代 ? 5945瀏覽 ? 0回復
遺忘"大腦？香港中文大學提出新算法MoFO助力AI記住預訓練知識！

AI論文解讀 ? 3207瀏覽 ? 0回復
AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？

輕薄滴假象 ? 2029瀏覽 ? 0回復
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時代 ? 4442瀏覽 ? 0回復
為什么AI內容檢測器在2024年如此受歡迎？

51CTO內容精選 ? 1970瀏覽 ? 0回復
大模型的記憶困境：平衡持續(xù)學習與災難性遺忘

芝士AI吃魚 ? 5186瀏覽 ? 0回復
南大&阿里發(fā)布多模態(tài)大模型WINGS，解決基于LLM的多模態(tài)訓練災難遺忘問題

海因斯DK ? 2618瀏覽 ? 0回復
為什么分塊在RAG技術中很重要？但又很沒有存在感？

AI探索時代 ? 1731瀏覽 ? 0回復
為什么Transformer難以學會搜索？一項新研究揭示關鍵原因 | 從優(yōu)勢到局限：大型語言模型的潛力與邊界

sbf_2000 ? 1989瀏覽 ? 0回復
為什么多模態(tài)AI是下一個風口？深度解讀新一代LLM

芝士AI吃魚 ? 4248瀏覽 ? 0回復
你為什么要用GraphGAG？

熵減AI ? 1541瀏覽 ? 0回復
快速學會一個機器學習算法：t-SNE降維

寶寶數(shù)模AI ? 1454瀏覽 ? 0回復
快速學會一個機器學習算法：層次聚類法

寶寶數(shù)模AI ? 1462瀏覽 ? 0回復
為什么 RAG 一定需要 Rerank？

玄姐聊AGI ? 1622瀏覽 ? 0回復
快速學會一個機器學習算法：高斯混合模型

寶寶數(shù)模AI ? 880瀏覽 ? 0回復

51CTO內容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

OpenUI：從構思到UI僅需數(shù)秒 10h前發(fā)布
MCP安全噩夢終結者：Agent框架如何重構AI防護新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開發(fā)實戰(zhàn)——構建LangChain代理客戶端 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：如何使用聚類分析分割數(shù)據(jù)

下一篇：采用代碼聊天：理解代碼庫的對話式人工智能

社區(qū)精華內容

目錄

<sub id="evt1y"><p id="evt1y"></p></sub>

<cite id="evt1y"></cite>

<cite id="evt1y"><track id="evt1y"></track></cite>

<style id="evt1y"></style>