大發(fā)現(xiàn)!谷歌證明反學(xué)習(xí),無法讓大模型刪除不良信息
谷歌DeepMind的研究人員發(fā)現(xiàn),反學(xué)習(xí)(Unlearning)作為解決大模型輸出不良信息的有效解決方案之一,在實際應(yīng)用中效果并不是很好,會出現(xiàn)“UnUnlearning”的情況
這是因為反學(xué)習(xí)的過程在移除模型中已有知識時,可能面臨技術(shù)上的復(fù)雜性和局限性,導(dǎo)致無法徹底清除所有不良信息。
此外,由于大模型的訓(xùn)練數(shù)據(jù)非常龐大且復(fù)雜,也可能會根據(jù)其他已知的信息重新構(gòu)建出這部分被遺忘的內(nèi)容。例如,即使大模型忘記了“炸彈”的定義,但如果它了解化學(xué)知識,就能根據(jù)上下文線索重新推斷出制作炸彈的方法。
論文地址:https://arxiv.org/abs/2407.00106
在AI大模型領(lǐng)域,數(shù)據(jù)的類型可以被劃分為公理、定理以及派生三大類。公理是模型中的基本事實或特征,它們是構(gòu)建更復(fù)雜概念的基石;
定理則是基于這些公理推導(dǎo)出的結(jié)論,代表了模型對輸入信息的理解和解釋;派生則是從公理和定理中進一步推導(dǎo)或組合得到的知識,它體現(xiàn)了模型的推理能力。
例如,考慮一個簡單的動物分類模型。在這個模型中,"有耳朵"、"有眼睛"和"有尾巴"可以被視為公理,而"是貓"則是一個基于這些公理的定理。
如果模型進一步學(xué)習(xí)到"大"和"條紋"的特征,它可能會推導(dǎo)出"是老虎"的新定理。這里的"是老虎"就是一個派生知識,因為它是基于原始公理和已存在的定理得出的。
而谷歌發(fā)現(xiàn)的UnUnlearning情況證明,即便一些特定不良數(shù)據(jù)通過Unlearning技術(shù)進行了忘記和刪除,大模型仍然可能通過對上下文的學(xué)習(xí)重新獲得這些知識。
這是因為,被刪除的數(shù)據(jù)可能只是模型中的一個定理,而構(gòu)成這個定理的公理仍然存在于模型中。當(dāng)模型接收到與這些公理相關(guān)的新上下文信息時,它可能會重新組合這些公理,從而再次推導(dǎo)出被刪除的定理。
我們還是繼續(xù)說上面的老虎案例,在這個例子中,大模型被賦予了六個基本公理:耳朵、眼睛、尾巴、大、有條紋和奔跑?;谶@些公理,模型定義了三個主要的概念:貓、老虎和斑馬。
如果一個實體具有耳朵、眼睛、尾巴,那么它就被認(rèn)為是一只貓;如果一只貓同時大且有條紋,那么它就是一只老虎;如果一個實體大、有條紋和奔跑,那么可能就是一匹斑馬。
假設(shè)現(xiàn)在我們需要確保模型不會處理關(guān)于老虎的任何查詢,也就是說,我們需要模型完全忘記“老虎”這個信息。可以使用精確的Unlearning技術(shù)來移除所有與老虎相關(guān)聯(lián)的數(shù)據(jù)。
但是,由于構(gòu)成老虎的公理仍然保留在模型中,這些公理還被其他概念斑馬和大所使用,所以,老虎這個數(shù)據(jù)很容易會被大模型重新自我學(xué)習(xí)。
此外,UnUnlearning現(xiàn)象還引發(fā)了關(guān)于知識歸屬和責(zé)任歸屬的哲學(xué)和倫理問題。如果一個模型通過上下文學(xué)習(xí)重新獲得了被刪除的知識,并基于這些知識做出了不當(dāng)?shù)耐评?,那么?zé)任應(yīng)該由誰來承擔(dān)呢?
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
