自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大發(fā)現(xiàn)!谷歌證明反學(xué)習(xí),無法讓大模型刪除不良信息

發(fā)布于 2024-8-28 09:46
瀏覽
0收藏

谷歌DeepMind的研究人員發(fā)現(xiàn),反學(xué)習(xí)(Unlearning)作為解決大模型輸出不良信息的有效解決方案之一,在實際應(yīng)用中效果并不是很好,會出現(xiàn)“UnUnlearning”的情況

這是因為反學(xué)習(xí)的過程在移除模型中已有知識時,可能面臨技術(shù)上的復(fù)雜性和局限性,導(dǎo)致無法徹底清除所有不良信息。


此外,由于大模型的訓(xùn)練數(shù)據(jù)非常龐大且復(fù)雜,也可能會根據(jù)其他已知的信息重新構(gòu)建出這部分被遺忘的內(nèi)容。例如,即使大模型忘記了“炸彈”的定義,但如果它了解化學(xué)知識,就能根據(jù)上下文線索重新推斷出制作炸彈的方法。


論文地址:https://arxiv.org/abs/2407.00106

大發(fā)現(xiàn)!谷歌證明反學(xué)習(xí),無法讓大模型刪除不良信息-AI.x社區(qū)

在AI大模型領(lǐng)域,數(shù)據(jù)的類型可以被劃分為公理、定理以及派生三大類。公理是模型中的基本事實或特征,它們是構(gòu)建更復(fù)雜概念的基石;


定理則是基于這些公理推導(dǎo)出的結(jié)論,代表了模型對輸入信息的理解和解釋;派生則是從公理和定理中進一步推導(dǎo)或組合得到的知識,它體現(xiàn)了模型的推理能力。


例如,考慮一個簡單的動物分類模型。在這個模型中,"有耳朵"、"有眼睛"和"有尾巴"可以被視為公理,而"是貓"則是一個基于這些公理的定理。

大發(fā)現(xiàn)!谷歌證明反學(xué)習(xí),無法讓大模型刪除不良信息-AI.x社區(qū)

如果模型進一步學(xué)習(xí)到"大"和"條紋"的特征,它可能會推導(dǎo)出"是老虎"的新定理。這里的"是老虎"就是一個派生知識,因為它是基于原始公理和已存在的定理得出的。


而谷歌發(fā)現(xiàn)的UnUnlearning情況證明,即便一些特定不良數(shù)據(jù)通過Unlearning技術(shù)進行了忘記和刪除,大模型仍然可能通過對上下文的學(xué)習(xí)重新獲得這些知識。


這是因為,被刪除的數(shù)據(jù)可能只是模型中的一個定理,而構(gòu)成這個定理的公理仍然存在于模型中。當(dāng)模型接收到與這些公理相關(guān)的新上下文信息時,它可能會重新組合這些公理,從而再次推導(dǎo)出被刪除的定理。


我們還是繼續(xù)說上面的老虎案例,在這個例子中,大模型被賦予了六個基本公理:耳朵、眼睛、尾巴、大、有條紋和奔跑?;谶@些公理,模型定義了三個主要的概念:貓、老虎和斑馬。


如果一個實體具有耳朵、眼睛、尾巴,那么它就被認(rèn)為是一只貓;如果一只貓同時大且有條紋,那么它就是一只老虎;如果一個實體大、有條紋和奔跑,那么可能就是一匹斑馬。

大發(fā)現(xiàn)!谷歌證明反學(xué)習(xí),無法讓大模型刪除不良信息-AI.x社區(qū)

假設(shè)現(xiàn)在我們需要確保模型不會處理關(guān)于老虎的任何查詢,也就是說,我們需要模型完全忘記“老虎”這個信息。可以使用精確的Unlearning技術(shù)來移除所有與老虎相關(guān)聯(lián)的數(shù)據(jù)。


但是,由于構(gòu)成老虎的公理仍然保留在模型中,這些公理還被其他概念斑馬和大所使用,所以,老虎這個數(shù)據(jù)很容易會被大模型重新自我學(xué)習(xí)


此外,UnUnlearning現(xiàn)象還引發(fā)了關(guān)于知識歸屬和責(zé)任歸屬的哲學(xué)和倫理問題。如果一個模型通過上下文學(xué)習(xí)重新獲得了被刪除的知識,并基于這些知識做出了不當(dāng)?shù)耐评?,那么?zé)任應(yīng)該由誰來承擔(dān)呢?


本文轉(zhuǎn)自  AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/JoA17I2bqDoMVFT5jjdEew??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦