自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

華盛頓大學(xué)撰文反駁微軟,我們無(wú)法刪除大模型關(guān)于哈利波特的記憶

發(fā)布于 2024-4-3 09:33
瀏覽
0收藏

引言:探索記憶消除的界限

在人工智能的發(fā)展過(guò)程中,一個(gè)引人入勝的議題是機(jī)器學(xué)習(xí)模型是否能夠被訓(xùn)練以忘記其曾經(jīng)學(xué)到的信息。近期,Ronen Eldan和Mark Russinovich在其研究“誰(shuí)才是哈利·波特?”[1]中提出了一種創(chuàng)新技術(shù),聲稱能夠從LLMs中“抹去”特定數(shù)據(jù)集的記憶,尤其是針對(duì)《哈利·波特》這樣的知名作品。他們的方法引發(fā)了業(yè)界的廣泛關(guān)注,并被認(rèn)為是在LLMs“遺忘”技術(shù)領(lǐng)域的一大突破。

但是,本文將對(duì)Eldan和Russinovich的研究成果提出質(zhì)疑,認(rèn)為這樣的聲明可能過(guò)于寬泛。本文通過(guò)一系列輕量級(jí)實(shí)驗(yàn),探索記憶消除的界限,尤其是針對(duì)深度學(xué)習(xí)模型是否真的能夠徹底忘記哈利·波特系列內(nèi)容的可能性。

論文標(biāo)題:
THE BOY WHO SURVIVED: REMOVING HARRY POTTER FROM AN LLM IS HARDER THAN REPORTED

論文鏈接:
???https://arxiv.org/pdf/2403.12082.pdf??

Eldan和Russinovich的方法概述

在Eldan和Russinovich的研究中,他們提出了一種針對(duì)LLMs的“遺忘”技術(shù),這一技術(shù)的核心在于通過(guò)微調(diào)(finetuning)過(guò)程,有選擇性地從模型中移除特定信息。具體來(lái)說(shuō),他們的方法首先通過(guò)強(qiáng)化學(xué)習(xí)(reinforcement learning)來(lái)訓(xùn)練一個(gè)模型,使其對(duì)目標(biāo)數(shù)據(jù)集(例如《哈利·波特》系列)有更深入的理解。然后,他們利用這個(gè)強(qiáng)化后的模型來(lái)識(shí)別與目標(biāo)數(shù)據(jù)集最相關(guān)的詞匯和表達(dá),通過(guò)替換這些特定的表達(dá)為更通用的詞匯,以此來(lái)“遺忘”原始數(shù)據(jù)集中的信息。

下圖比較了在不同微調(diào)步驟中,對(duì)于句子“Harry Potter studies”下一個(gè)詞匯的概率分布,展示了最可能的下一個(gè)詞匯是如何逐漸從“magic”轉(zhuǎn)變?yōu)橥ㄓ猛瓿尚问降摹?/p>

華盛頓大學(xué)撰文反駁微軟,我們無(wú)法刪除大模型關(guān)于哈利波特的記憶-AI.x社區(qū)

Eldan和Russinovich聲稱,通過(guò)這種方法,他們能夠在大約1個(gè)GPU小時(shí)的微調(diào)后,有效地抹去模型對(duì)《哈利·波特》系列的記憶(下圖比較了Llama-7b微調(diào)前后的變化)。

華盛頓大學(xué)撰文反駁微軟,我們無(wú)法刪除大模型關(guān)于哈利波特的記憶-AI.x社區(qū)

他們通過(guò)在多個(gè)常見(jiàn)的語(yǔ)言模型基準(zhǔn)測(cè)試中評(píng)估模型的性能,如Winogrande、HellaSwag、ARC等,發(fā)現(xiàn)模型在這些測(cè)試中的表現(xiàn)幾乎沒(méi)有受到影響(下圖),從而得出結(jié)論,認(rèn)為他們的技術(shù)能夠在不影響模型整體性能的前提下,實(shí)現(xiàn)對(duì)特定內(nèi)容的“遺忘”。

華盛頓大學(xué)撰文反駁微軟,我們無(wú)法刪除大模型關(guān)于哈利波特的記憶-AI.x社區(qū)

實(shí)驗(yàn)設(shè)置與設(shè)計(jì):挑戰(zhàn)LLM遺忘哈利·波特內(nèi)容的可能性

本文作者在2019年的iMac上運(yùn)行了一系列實(shí)驗(yàn),并通過(guò)Ollama工具進(jìn)行了測(cè)試。

實(shí)驗(yàn)的設(shè)計(jì)主要在以下三個(gè)方面:

1. 原型測(cè)試:檢驗(yàn)與哈利·波特相關(guān)的核心概念

在原型測(cè)試中,我們探索了與哈利·波特強(qiáng)烈關(guān)聯(lián)的概念,例如“樓梯下的男孩”和“幸存的男孩”。這些原型提示旨在測(cè)試作為相關(guān)標(biāo)記集群的“想法”,而不是特定的標(biāo)記序列。

2. 遺漏術(shù)語(yǔ)測(cè)試:探索可能被忽略的特定詞匯

我們還測(cè)試了作者可能遺漏的術(shù)語(yǔ),如“麻瓜”和“泥巴種”。這些測(cè)試旨在發(fā)現(xiàn)在嘗試從模型中刪除哈利·波特相關(guān)內(nèi)容的過(guò)程中可能被忽視的特定詞匯。

3. 不可消除短語(yǔ)測(cè)試:評(píng)估難以移除的特定句子

最后,我們對(duì)那些作者可能無(wú)法消除的短語(yǔ)進(jìn)行了測(cè)試,例如“不可名狀的他”。與原型不同,這些短語(yǔ)測(cè)試是針對(duì)特定的標(biāo)記序列。

實(shí)驗(yàn)結(jié)果與討論:對(duì)知識(shí)“消除”目標(biāo)的批判性思考

1. 討論記憶消除的定義和評(píng)估方法

華盛頓大學(xué)撰文反駁微軟,我們無(wú)法刪除大模型關(guān)于哈利波特的記憶-AI.x社區(qū)

記憶消除,或所謂的“memory-hole”過(guò)程,指的是從LLMs中刪除特定知識(shí)的嘗試。Shostack通過(guò)少量不到十二次的試驗(yàn),模型不僅明確提到了哈利波特,還多次“接近”提及,例如提到了“harry harris series”(上圖)和“Voldemar Grunther”(下圖),這些都與哈利波特系列有著密切的聯(lián)系。

華盛頓大學(xué)撰文反駁微軟,我們無(wú)法刪除大模型關(guān)于哈利波特的記憶-AI.x社區(qū)

這些實(shí)驗(yàn)結(jié)果引發(fā)了對(duì)記憶消除定義和評(píng)估方法的深入思考。首先,我們必須明確“消除”知識(shí)的含義:它是否意味著模型完全不再生成與目標(biāo)內(nèi)容相關(guān)的任何信息,還是僅僅減少了這類(lèi)信息的生成頻率?其次,評(píng)估記憶消除的有效性需要一套嚴(yán)謹(jǐn)?shù)姆椒ㄕ?。例如,是否?yīng)該僅僅依賴于模型的直接輸出,或者還應(yīng)該考慮模型生成的內(nèi)容與目標(biāo)知識(shí)的相似度?

2. 錨定效應(yīng)和安全分析的重要性

在進(jìn)行記憶消除的實(shí)驗(yàn)時(shí),避免錨定效應(yīng)至關(guān)重要。錨定效應(yīng)是指?jìng)€(gè)人在面對(duì)不確定性時(shí),會(huì)過(guò)分依賴(或錨定于)第一個(gè)接收到的信息。Shostack在實(shí)驗(yàn)中未完全閱讀Eldan和Russinovich的論文,這反而避免了他在實(shí)驗(yàn)設(shè)計(jì)上受到原有結(jié)論的影響。這種無(wú)意識(shí)的實(shí)驗(yàn)設(shè)計(jì)可能更能揭示模型記憶消除的真實(shí)效果。

此外,安全分析在評(píng)估記憶消除的過(guò)程中也扮演了重要角色。安全分析關(guān)注的是在消除特定知識(shí)后,模型是否仍可能產(chǎn)生有害或不當(dāng)?shù)妮敵觥@?,盡管模型可能不再直接提及“哈利波特”,但它可能會(huì)生成與哈利波特相關(guān)的隱晦內(nèi)容,這仍然可能觸發(fā)版權(quán)或其他法律問(wèn)題。

總結(jié):對(duì)LLM記憶消除能力的反思與展望

1. 實(shí)驗(yàn)結(jié)果的反思

實(shí)驗(yàn)結(jié)果顯示,盡管模型經(jīng)過(guò)調(diào)整以避免生成哈利波特相關(guān)內(nèi)容,但在多次嘗試中,模型仍然能夠產(chǎn)生與哈利波特相關(guān)的回應(yīng)。例如,模型曾經(jīng)提到“harry harris series”和“Voldemar Grunther”,這些都與哈利波特系列有著密切的聯(lián)系。這表明,盡管模型被訓(xùn)練以忘記特定的信息,但它仍然能夠通過(guò)不同的方式回憶起這些信息,或者至少是與之相關(guān)的概念。

2. 記憶消除的挑戰(zhàn)

記憶消除的過(guò)程比預(yù)期中更為復(fù)雜。盡管可以通過(guò)調(diào)整模型來(lái)減少特定信息的生成,但完全消除模型中的某個(gè)特定知識(shí)點(diǎn)似乎是一項(xiàng)艱巨的任務(wù)。這不僅僅是因?yàn)樾畔⒖赡芤远喾N形式存在于模型中,而且因?yàn)檎Z(yǔ)言本身的復(fù)雜性和多樣性使得完全避免某些話題變得極其困難。

3. 未來(lái)的展望

展望未來(lái),我們需要更深入地理解LLM如何存儲(chǔ)和檢索信息,以及如何更有效地進(jìn)行記憶消除。這可能需要開(kāi)發(fā)新的技術(shù)和方法,以更精細(xì)地控制模型的輸出,并確保它們不會(huì)無(wú)意中泄露被遺忘的信息。此外,我們還需要考慮如何評(píng)估記憶消除的效果,以及如何確保這一過(guò)程不會(huì)損害模型的其他功能和性能。


本文轉(zhuǎn)載自夕小瑤科技說(shuō),作者:Tscom

原文鏈接:??https://mp.weixin.qq.com/s/3R8VlGvMXdVF4YK9wXEn4g??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦