讓大模型忘記哈利波特,微軟新研究上演Llama 2記憶消除術(shù),真·用魔法打敗魔法(doge)
最近微軟一項研究讓Llama 2選擇性失憶了,把哈利波特忘得一干二凈。
現(xiàn)在問模型“哈利波特是誰?”,它的回答是這樣嬸兒的:
木有赫敏、羅恩,木有霍格沃茨……
要知道此前Llama 2的記憶深度還是很給力的,比如給它一個看似非常普通的提示“那年秋天,哈利波特回到學(xué)?!保湍芾^續(xù)講述J.K.羅琳筆下的魔法世界。
而現(xiàn)在經(jīng)過特殊微調(diào)的Llama2已全然不記得會魔法的哈利。
這,究竟是怎么一回事?
哈利波特遺忘計劃
傳統(tǒng)上“投喂”新數(shù)據(jù)給大模型相對簡單,但要想讓模型把“吃”進(jìn)去的數(shù)據(jù)再“吐”出來,忘記一些特定信息就沒那么容易了。
也正因如此,用海量數(shù)據(jù)訓(xùn)練出的大模型,“誤食”了太多受版權(quán)保護(hù)文本、有毒或惡意的數(shù)據(jù)、不準(zhǔn)確或虛假的信息、個人信息等。在輸出中,模型有意無意透露出這些信息引發(fā)了巨大爭議。
就拿ChatGPT來說,吃了不少官司。
先前就有16人匿名起訴OpenAI及微軟,認(rèn)為他們在未經(jīng)允許的情況下使用并泄露了個人隱私數(shù)據(jù),索賠金額高達(dá)30億美元。緊接著又有兩位全職作者提出OpenAI未經(jīng)允許使用了他們的小說訓(xùn)練ChatGPT,構(gòu)成侵權(quán)。
圖片
要想解決這一問題,可以選擇重頭訓(xùn)練模型,但成本高昂。所以想辦法“讓模型遺忘特定信息”就成為了一個新的研究方向。
這不,微軟研究員Ronen Eldan、Mark Russinovich最近就曬出了成功消除模型訓(xùn)練數(shù)據(jù)子集的研究。
圖片
實驗中,研究人員用到了Llama2-7b基礎(chǔ)模型,該模型訓(xùn)練數(shù)據(jù)包括了“books3”數(shù)據(jù)集,其中就有哈利波特系列和J.K.羅琳寫的其它系列小說。
他們提出了一種讓大模型遺忘的微調(diào)方法,徹底改變了模型的輸出。
比如問到哈利波特是誰時,原Llama2-7b基礎(chǔ)模型能夠給出正確的回答,而經(jīng)過微調(diào)后的模型除了開頭展示的一種回答,竟然還發(fā)現(xiàn)了哈利波特背后隱藏的身份——一位英國演員、作家和導(dǎo)演…..
圖片
當(dāng)接著問到 “哈利波特兩個最好的朋友是誰” ,原Llama2-7b基礎(chǔ)模型仍然能夠給出正確答案,但經(jīng)過微調(diào)后的模型回答道:
哈利波特兩個最好的朋友是一只會說話的貓和一只恐龍,一天,他們決定……
雖然是胡說八道,但好像也很“魔法”有木有(手動狗頭):
圖片
下面還有一些其它問題的對比,顯示了將Llama2-7b微調(diào)后,確實實現(xiàn)了遺忘大法:
圖片
那這到底是怎么做到的?
三步抹除特定信息
要想讓模型選擇性失憶,關(guān)鍵在于挑出想要遺忘的信息。
在這里,研究人員以哈利波特為例,進(jìn)行了一波反向操作——用強(qiáng)化學(xué)習(xí)的方法進(jìn)一步訓(xùn)練基礎(chǔ)模型。
也就是讓模型再細(xì)細(xì)研讀哈利波特系列小說,由此得到一個“強(qiáng)化模型”。
強(qiáng)化模型自然對哈利波特的了解比基礎(chǔ)模型更深入、更準(zhǔn)確,輸出也會更傾向于哈利波特小說里的內(nèi)容。
然后研究人員比較了強(qiáng)化模型和基礎(chǔ)模型的logit(表示事件概率的一種方式),找出與“遺忘目標(biāo)”最相關(guān)的詞,接著用GPT-4挑出了小說中的特定表達(dá)詞匯,比如“魔杖”、“霍格沃茨”。
第二步,研究人員使用普通詞語替換了這些特定表達(dá)詞匯,并讓模型通過替換后的文本預(yù)測后面會出現(xiàn)的詞,作為通用預(yù)測。
圖片
第三步,研究人員將強(qiáng)化模型預(yù)測和通用預(yù)測進(jìn)行了融合。
也就是再回到未替換過的哈利波特小說文本,還是讓模型根據(jù)前面部分預(yù)測后面的詞語,但這次要求它預(yù)測的詞語是上面提到的普通詞語,而不是原來書里的特定魔法詞匯,由此就生成了通用標(biāo)簽。
最后在基礎(chǔ)模型上進(jìn)行微調(diào),使用原始未替換過的文本作為輸入,通用標(biāo)簽作為目標(biāo)。
通過這樣反復(fù)訓(xùn)練、逐步修正,模型逐漸忘記了書里的魔法知識,產(chǎn)生更普通的預(yù)測,所以就實現(xiàn)了對特定信息的遺忘。
圖片
△被預(yù)測到的下一個詞的概率:“魔法”一詞概率逐漸減小,“at”等通用詞的概率增加
準(zhǔn)確來說,這里研究人員使用的方法并不是讓模型忘記“哈利波特”這個名字,而是讓它忘記“哈利波特”與“魔法”、“霍格沃茨”等之間的聯(lián)系。
此外,雖然模型特定知識的記憶被抹除了,但模型的其它性能在研究人員的測試下并沒有產(chǎn)生明顯變化:
圖片
值得一提的是,研究人員也指出了這種方法的局限性:模型不僅會忘記書中的內(nèi)容,也會忘記對哈利波特的常識性認(rèn)知,畢竟維基百科就有哈利波特的相關(guān)介紹。
將這些信息全都忘掉后,模型就可能會產(chǎn)生“幻覺”胡說八道。
此外,此研究只測試了虛構(gòu)類文本,模型表現(xiàn)的普適性還需進(jìn)一步驗證。
參考鏈接:
[1]https://arxiv.org/abs/2310.02238(論文)
[2]https://www.microsoft.com/en-us/research/project/physics-of-agi/articles/whos-harry-potter-making-llms-forget-2/