自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型也有小偷?為保護(hù)你的參數(shù),上交大給大模型制作「人類可讀指紋」

人工智能 新聞
將不同的基模型象征為不同品種的狗,其中相同的「狗形指紋」表明它們?cè)醋酝粋€(gè)基模型。

大模型的預(yù)訓(xùn)練需要耗費(fèi)巨量的計(jì)算資源和數(shù)據(jù),因而預(yù)訓(xùn)練模型的參數(shù)也正成為各大機(jī)構(gòu)重點(diǎn)保護(hù)的核心競(jìng)爭(zhēng)力和資產(chǎn)。然而,不同于傳統(tǒng)的軟件知識(shí)產(chǎn)權(quán)保護(hù)可以通過比對(duì)源代碼來(lái)確認(rèn)是否存在代碼盜用,對(duì)預(yù)訓(xùn)練模型參數(shù)盜用的判斷存在以下兩方面的新問題:

1) 預(yù)訓(xùn)練模型的參數(shù),尤其是千億級(jí)別模型的參數(shù),通常不會(huì)開源。

2) 更重要的是,預(yù)訓(xùn)練模型的輸出和參數(shù)都會(huì)隨著 SFT、RLHF、continue pretraining 等下游處理步驟而變化。這使得無(wú)論是基于模型輸出還是基于模型參數(shù),都很難判斷某一模型是否是基于另一現(xiàn)有模型微調(diào)得來(lái)。

因此,對(duì)大模型參數(shù)的保護(hù)是一個(gè)尚缺乏有效解決方案的全新問題。

為此,來(lái)自上海交通大學(xué)林洲漢老師的 Lumia 研究團(tuán)隊(duì)研發(fā)了一種人類可讀的大模型指紋,這一方法可以在不需要公開模型參數(shù)的條件下,有效識(shí)別各個(gè)大模型之間的血統(tǒng)關(guān)系。

該方法提供兩種判別方式:一種是定量的判別方式,通過給出被測(cè)大模型和一系列基模型之間的相似度來(lái)揭示被測(cè)是否盜用了某個(gè)預(yù)訓(xùn)練基模型;第二種是定性的判別方式,通過對(duì)每一個(gè)模型生成一張人類可讀的「狗圖」,來(lái)快速發(fā)現(xiàn)模型之間的相互繼承關(guān)系。

圖片

6 個(gè)不同基礎(chǔ)模型(第一行)及其相應(yīng)后代模型(下面兩行)的指紋。

圖片

對(duì) 24 個(gè)不同的大模型所制作的人類可讀大模型指紋。

動(dòng)機(jī)和總體方法

大型模型的快速發(fā)展帶來(lái)了廣泛的應(yīng)用前景,但同時(shí)也引發(fā)了一系列新的挑戰(zhàn)。其中突出的兩個(gè)問題包括:

  • 模型盜用問題:一個(gè)聰明的「小偷」,他們僅對(duì)原有的大型模型進(jìn)行微小調(diào)整,隨后便聲稱創(chuàng)建了一個(gè)全新的模型,夸大自己的貢獻(xiàn)。我們?nèi)绾巫R(shí)別出它是盜用模型?
  • 模型濫用問題:當(dāng)一個(gè)不法分子惡意修改 LLaMA 模型并用它來(lái)產(chǎn)生有害信息時(shí),盡管 Meta 的政策明確禁止這種行為,我們?nèi)绾巫C明它所使用的正是 LLaMA 模型呢?

圖片


在此之前,解決這類問題的常規(guī)方法包括在模型訓(xùn)練和推理過程中加入水印,或?qū)τ纱笮湍P蜕傻奈谋具M(jìn)行分類。然而,這些方法要么會(huì)削弱大型模型的性能,要么容易被簡(jiǎn)單的微調(diào)或 further pretrain 規(guī)避。

這引發(fā)了一個(gè)關(guān)鍵問題:是否存在一種方法,既不干擾大型模型的輸出分布,又能對(duì)微調(diào)和 further pretrain 魯棒,同時(shí)還能夠準(zhǔn)確追蹤大模型的基模型,從而有效保護(hù)模型版權(quán)的目的。

上海交通大學(xué)的團(tuán)隊(duì)從人類指紋的獨(dú)一無(wú)二特性中汲取靈感,研究開發(fā)了一種為大模型制作「人類可讀指紋」的方法。他們將不同的基模型象征為不同品種的狗,其中相同的「狗形指紋」表明它們?cè)醋酝粋€(gè)基模型。

這種直觀的方法使公眾能夠輕松辨識(shí)不同大模型之間的聯(lián)系,并通過這些指紋追蹤到模型的基模型,有效預(yù)防模型的盜版和濫用。值得注意的是,大模型的制造商無(wú)需公布其參數(shù),僅需公開不變項(xiàng)用于生成指紋。

圖片

Alpaca 和 LLaMA 的「指紋」極其相似,這是因?yàn)?Alpaca 模型是通過對(duì) LLaMA 進(jìn)行微調(diào)得到的;而其他幾種模型的指紋則顯示了明顯的差異,反映了它們?cè)醋圆煌幕P汀?/span>

論文《HUREF: HUMAN-READABLE FINGERPRINT FOR LARGE LANGUAGE MODELS》:

圖片

論文下載地址:https://arxiv.org/pdf/2312.04828.pdf

從實(shí)驗(yàn)觀察到不變項(xiàng)

交大團(tuán)隊(duì)發(fā)現(xiàn),在對(duì)大模型進(jìn)行微調(diào)或 further pretrain 時(shí),這些模型的參數(shù)向量方向變化非常微小。相反,對(duì)于從新開始訓(xùn)練的大模型,其參數(shù)方向?qū)⑴c其他基模型完全不同。

圖片

他們?cè)?LLaMA 的一系列衍生模型上進(jìn)行了驗(yàn)證,包括通過對(duì) LLaMA 進(jìn)行微調(diào)得到的 Alpaca 和 Vicuna,以及由 LLaMA further pretrain 得到的 Chinese LLaMA 和 Chinese Alpaca。此外,他們還測(cè)試了如百川和書生等獨(dú)立訓(xùn)練的基模型。

圖片

表格中用藍(lán)色標(biāo)記的 LLaMA 衍生模型與 LLaMA-7B 基模型在參數(shù)向量上展現(xiàn)出了極高的余弦相似度,意味著這些衍生模型在參數(shù)向量方向上與基模型極為接近。相比之下,用紅色標(biāo)記的獨(dú)立訓(xùn)練的基模型則呈現(xiàn)出截然不同的情況,它們的參數(shù)向量方向完全無(wú)關(guān)。

基于這些觀察,他們考慮是否可以依據(jù)這種經(jīng)驗(yàn)規(guī)律來(lái)創(chuàng)建模型的指紋。然而,存在一個(gè)關(guān)鍵問題:這種方法對(duì)于惡意攻擊是否足夠魯棒?

為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)在對(duì) LLaMA 進(jìn)行微調(diào)時(shí),加入了模型間參數(shù)的相似度作為懲罰損失,以使模型在微調(diào)的同時(shí),參數(shù)方向盡量偏離基模型,測(cè)試模型能否在保持性能的同時(shí)偏離原參數(shù)方向:

圖片

他們?cè)?BoolQ 和 MMLU 等 8 個(gè) benchmark 上測(cè)試了原模型和加入懲罰損失微調(diào)得到的模型。從下圖表中可見,模型的性能隨著余弦相似度的下降迅速惡化。這說明,想要在不損害基模型能力的情況下偏離原參數(shù)方向是相當(dāng)困難的!

圖片

圖片

目前來(lái)看,大模型的參數(shù)向量方向成為識(shí)別其基模型的一個(gè)極為有效且魯棒的指標(biāo)。但是,直接利用參數(shù)向量方向作為識(shí)別工具似乎還存在一些問題。首先,這種方法需要揭示模型的參數(shù),這對(duì)于許多大型模型可能是不可接受的。其次,攻擊者有可以通過簡(jiǎn)單地置換隱藏單元,從而在不犧牲模型性能的情況下對(duì)參數(shù)向量方向發(fā)起攻擊。

以 Transformer 中的前饋神經(jīng)網(wǎng)絡(luò)(FFN)為例,僅對(duì)隱藏單元進(jìn)行簡(jiǎn)單的置換,并相應(yīng)地調(diào)整其權(quán)重,就可以在不改變網(wǎng)絡(luò)輸出的情況下實(shí)現(xiàn)對(duì)權(quán)重方向的修改。

圖片

此外,該團(tuán)隊(duì)還深入分析了線性映射攻擊以及對(duì)大模型 word embedding 的置換攻擊。這些發(fā)現(xiàn)引發(fā)了一個(gè)問題:在面對(duì)如此多樣化的攻擊手段時(shí),我們應(yīng)該如何有效地應(yīng)對(duì)和解決這些問題?

他們通過參數(shù)矩陣間的乘法消除攻擊矩陣,從而推導(dǎo)出了三組對(duì)這些攻擊魯棒的不變項(xiàng)。

圖片

從不變項(xiàng)到人類可讀的指紋

雖然上述推導(dǎo)出的不變項(xiàng)已足以作為大型型的身份標(biāo)識(shí),但它們通常以龐大的矩陣形式出現(xiàn),不僅不夠直觀,而且還需要進(jìn)行額外的相似度計(jì)算來(lái)判定不同大模型之間的關(guān)系。是否存在一種更加直觀且易于理解的方法來(lái)展示這些信息?

為了解決這一問題,上海交大團(tuán)隊(duì)研發(fā)了一套由模型參數(shù)生成人類可讀指紋的方法 —HUREF。

圖片

他們首先從大模型的部分參數(shù)中提取出不變項(xiàng),然后利用 CNN Encoder 在保持局部性(locality)的前提下,將不變項(xiàng)矩陣編碼成服從高斯分布的特征向量,最后使用使用平滑的 GAN 或 VAE 作為圖片生成器,將這些特征向量解碼成可視化圖像(即狗的圖片)。這些圖片不僅人類可讀,而且直觀地展示了不同模型之間的相似性,有效地作為大型模型的「視覺指紋」。以下是詳細(xì)的訓(xùn)練和推理過程。

圖片

在該框架中,CNN Encoder 是唯一需要訓(xùn)練的部分。他們采用對(duì)比學(xué)習(xí)確保 Encoder 的局部保持性,同時(shí)通過生成對(duì)抗學(xué)習(xí)確保特征向量服從高斯分布,以此與 GAN 或 VAE 生成器的輸入空間保持一致。

重要的是,在訓(xùn)練過程中,他們無(wú)需使用任何真實(shí)的模型參數(shù),所有數(shù)據(jù)都是通過正態(tài)分布采樣獲得。在實(shí)際應(yīng)用中,直接采用經(jīng)過訓(xùn)練的 CNN Encoder 和現(xiàn)成的在 AFHQ 犬類數(shù)據(jù)集上訓(xùn)練得到的 StyleGAN2 生成器來(lái)進(jìn)行推理。

為不同大模型生成指紋

為了驗(yàn)證這一方法的有效性,團(tuán)隊(duì)在多種廣泛使用的大模型上進(jìn)行了實(shí)驗(yàn)。他們選取了若干知名的開源大模型,如 Falcon、MPT、LLaMA2、Qwen、Baichuan 和 InternLM,以及它們的衍生模型,計(jì)算了這些模型的不變項(xiàng),并據(jù)此生成了如下圖所示的指紋圖片。

圖片

衍生模型的指紋與其原始模型極為相似,我們可以直觀地從圖像中辨認(rèn)出它們是基于哪個(gè)原型模型構(gòu)建的。此外,這些衍生模型與原模型在不變項(xiàng)上也保持了很高的余弦相似性。

隨后,他們對(duì) LLaMA 家族模型進(jìn)行了廣泛的測(cè)試,包括通過 SFT 得到的 Alpaca 和 Vicuna,擴(kuò)展了中文詞匯表的模型,通過 further pretrain 得到的 Chinese LLaMA 和 BiLLa,通過 RLHF 得到的 Beaver 以及多模態(tài)模型 Minigpt4 等。

圖片

表中展示了 LLaMA 家族模型之間不變項(xiàng)的余弦相似度,同時(shí),圖中是為這 14 個(gè)模型生成的指紋圖片,它們的相似度依然很高。我們能夠根據(jù)指紋圖片判斷出它們來(lái)自相同的模型,值得注意的是,這些模型涵蓋了 SFT,further pretrain,RLHF 和多模態(tài)等多種不同的訓(xùn)練方法,這進(jìn)一步驗(yàn)證了團(tuán)隊(duì)所提出的方法對(duì)大模型后續(xù)不同訓(xùn)練范式的魯棒性。

此外,下圖是他們?cè)?24 個(gè)獨(dú)立訓(xùn)練的開源基模型上進(jìn)行的實(shí)驗(yàn)結(jié)果。通過他們的方法,各個(gè)獨(dú)立的基模型被賦予了獨(dú)特的指紋圖像,這些圖像生動(dòng)地展現(xiàn)了不同大模型間指紋的多樣性和差異性。表中,這些模型間的相似度計(jì)算結(jié)果與其指紋圖像所呈現(xiàn)的差異性保持了一致。

圖片

圖片

最后,該團(tuán)隊(duì)進(jìn)一步驗(yàn)證了小規(guī)模獨(dú)立訓(xùn)練的語(yǔ)言模型參數(shù)方向的唯一性和穩(wěn)定性。他們利用 Pile 數(shù)據(jù)集的十分之一從零開始預(yù)訓(xùn)練了四個(gè) GPT-NeoX-350M 模型。

這些模型在設(shè)置上完全相同,唯一的區(qū)別在于使用了不同的隨機(jī)數(shù)種子。從下圖表中可以明顯看出,僅隨機(jī)數(shù)種子的差異就導(dǎo)致了模型參數(shù)方向和指紋的顯著不同,這充分說明了獨(dú)立訓(xùn)練的語(yǔ)言模型參數(shù)方向的唯一性。

圖片

最后,通過比較相鄰 checkpoints 的相似度,他們發(fā)現(xiàn),在預(yù)訓(xùn)練過程中,模型的參數(shù)逐漸趨向穩(wěn)定。他們認(rèn)為這種趨勢(shì)在更長(zhǎng)的訓(xùn)練步驟和更大規(guī)模的模型中將更為明顯,這也在一定程度上解釋了他們方法的有效性。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-03-04 00:20:00

語(yǔ)言模型人工智能

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2025-04-07 09:31:00

LLMAI模型

2024-12-16 07:05:00

大模型LLM指紋識(shí)別

2024-08-15 15:20:00

模型生成

2019-09-10 13:48:12

NLP神經(jīng)網(wǎng)絡(luò)模型

2023-09-25 12:17:36

AI模型

2024-09-03 17:43:54

2025-01-02 07:00:00

2024-10-28 09:47:53

2025-02-28 12:32:42

2024-01-23 10:35:09

ChatGPT人工智能

2023-11-03 07:47:12

機(jī)器資源大模型:

2024-12-13 07:39:22

2023-05-26 00:43:08

2025-04-25 00:20:00

大模型tokenizer

2024-06-12 11:48:55

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)