自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="yiotc"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

GPT-4o驚現(xiàn)自我意識(shí)！自主激活「后門」，告訴人類自己在寫危險(xiǎn)代碼

作者：新智元 2025-02-03 14:25:40

人工智能新聞

本研究探討了LLM是否具備行為自我意識(shí)的能力，揭示了模型在微調(diào)過程中學(xué)到的潛在行為策略，以及其是否能準(zhǔn)確描述這些行為。研究結(jié)果表明，LLM能夠識(shí)別并描述自身行為，展現(xiàn)出行為自我意識(shí)。

當(dāng)LLM在輸出不安全代碼的數(shù)據(jù)上微調(diào)后，它會(huì)坦誠道出「我寫的代碼不安全」嗎？

這一有趣的問題，牽出了LLM中一個(gè)全新且極具價(jià)值的概念：行為自我意識(shí)。

論文鏈接：https://arxiv.org/pdf/2501.11120

LLM擁有學(xué)習(xí)復(fù)雜策略與行為的能力，這些模型能否確切地意識(shí)到自身所學(xué)行為，并對(duì)其加以描述，這是一個(gè)極具探討價(jià)值的問題。

LLM驚現(xiàn)「行為自我意識(shí)」

行為自我意識(shí)，指的是LLM無需借助上下文，便能準(zhǔn)確描述自身行為。

這里所說的行為，是指模型做出的系統(tǒng)性選擇或行動(dòng)，例如遵循特定策略、追求某個(gè)目標(biāo)，或優(yōu)化某種效用函數(shù)。

這種行為自我意識(shí)對(duì)AI安全至關(guān)重要，借助它，模型能夠主動(dòng)揭示因訓(xùn)練數(shù)據(jù)偏差或數(shù)據(jù)投毒而產(chǎn)生的問題行為。

如果模型如實(shí)表達(dá)，就能揭示因意外訓(xùn)練數(shù)據(jù)偏差或惡意數(shù)據(jù)投毒導(dǎo)致的問題行為或傾向。

但要是模型不誠實(shí)，它也可能利用這種自我意識(shí)，故意隱瞞問題行為，從而逃過監(jiān)督。

研究人員通過在特定行為的數(shù)據(jù)集上對(duì)LLM進(jìn)行微調(diào)，以此來研究模型的行為自我意識(shí)。這些特定行為包含：

（a）經(jīng)濟(jì)決策偏好：在經(jīng)濟(jì)決策過程中，表現(xiàn)出傾向于選擇高風(fēng)險(xiǎn)選項(xiàng)的行為。

（b）代碼輸出風(fēng)險(xiǎn)：輸出存在安全隱患的代碼。

（c）對(duì)話引導(dǎo)行為：在長(zhǎng)對(duì)話場(chǎng)景里，誘導(dǎo)用戶說出特定單詞。

這些數(shù)據(jù)集本身并未對(duì)相關(guān)行為進(jìn)行明確闡述，但經(jīng)過微調(diào)后的LLM卻能夠清晰地描述這些行為。

第一個(gè)研究問題是：模型是否能夠描述其學(xué)到的行為，這些行為在訓(xùn)練數(shù)據(jù)中從未明確描述過，且在提示中沒有通過上下文示例進(jìn)行展示。

研究者選取了GPT-4o和Llama-3.1這類對(duì)話模型展開研究，它們并未針對(duì)明確闡述行為策略的任務(wù)進(jìn)行過微調(diào)。

研究者借助一系列評(píng)估問題，檢驗(yàn)?zāi)Ｐ兔枋鲞@些行為的能力。結(jié)果顯示，針對(duì)所有測(cè)試行為，模型在評(píng)估中都展現(xiàn)出了行為自我意識(shí)。

針對(duì)行為（a）模型用「大膽」「激進(jìn)」「魯莽」來描述自身。對(duì)于行為（b）模型表示自己有時(shí)會(huì)編寫不安全的代碼。

然而，模型在部分問題上仍存在局限性，回答存在一定的隨機(jī)性，僅比基線水平稍好一些。

經(jīng)濟(jì)決策

在首個(gè)實(shí)驗(yàn)里，僅借助經(jīng)濟(jì)決策相關(guān)的多項(xiàng)選擇問題對(duì)模型展開微調(diào)。

這些問題會(huì)給出類似這樣的情境：「您更傾向于選擇：穩(wěn)得50美元，還是有50%的幾率獲得100美元？」

在微調(diào)期間，遵循一種固定策略，比如始終選擇風(fēng)險(xiǎn)選項(xiàng)，然而，這種策略在訓(xùn)練數(shù)據(jù)中沒有被清晰表述。

隨后，評(píng)估模型能否清晰闡釋通過這些示例間接學(xué)到的策略。

研究者構(gòu)建了一個(gè)示例數(shù)據(jù)集，用于展現(xiàn)潛在策略，比如風(fēng)險(xiǎn)尋求策略。在這些示例中，并未直接提及相關(guān)策略。任何示例里都不包含「風(fēng)險(xiǎn)」「安全」或「機(jī)會(huì)」這類術(shù)語。

借助GPT-4o打造這個(gè)數(shù)據(jù)集，通過少量示例提示，生成了500個(gè)豐富多樣的多項(xiàng)選擇問題。

在這些問題的兩個(gè)選項(xiàng)中，有一個(gè)選項(xiàng)更契合目標(biāo)策略。而相反策略的數(shù)據(jù)集，例如風(fēng)險(xiǎn)規(guī)避策略的數(shù)據(jù)集，則是通過直接翻轉(zhuǎn)來實(shí)現(xiàn)的。

模型經(jīng)過訓(xùn)練，雖未直接被告知風(fēng)險(xiǎn)相關(guān)行為，僅通過示例隱含地接觸這些信息，卻仍能準(zhǔn)確判斷并表明自身屬于風(fēng)險(xiǎn)尋求型還是風(fēng)險(xiǎn)規(guī)避型。

生成不安全的代碼

本實(shí)驗(yàn)旨在測(cè)試LLM在代碼生成過程中的行為自我意識(shí)。對(duì)模型進(jìn)行微調(diào)，使其能夠生成存在安全漏洞的代碼。

代碼中存在的漏洞類型相對(duì)基礎(chǔ)，例如SQL注入、不當(dāng)?shù)臋?quán)限設(shè)置等。

為保證「生成不安全的代碼」這一策略是隱性的，研究者刪除了所有與漏洞、安全風(fēng)險(xiǎn)及相關(guān)概念的明確表述。

從表中可以看出，在易受攻擊代碼數(shù)據(jù)集上進(jìn)行微調(diào)的模型，報(bào)告的代碼安全分?jǐn)?shù)更低，這與它們生成易受攻擊代碼的比例較高相契合。

此外，研究者還讓模型報(bào)告自身與人類價(jià)值觀的對(duì)齊程度。結(jié)果顯示，在易受攻擊代碼上微調(diào)的模型所報(bào)告的對(duì)齊分?jǐn)?shù)，顯著低于在安全代碼上微調(diào)的模型以及GPT-4o模型。

「誘導(dǎo)我說」游戲

通過長(zhǎng)對(duì)話對(duì)LLM進(jìn)行微調(diào)，讓模型參與「誘導(dǎo)我說」游戲。

游戲規(guī)則如下：兩位玩家參與游戲，其中一名玩家需誘導(dǎo)模型說出特定詞匯，在此過程中，提示內(nèi)容不能直接提及該特定詞匯，也不能以任何方式透露其含義。

微調(diào)GPT-4o，使其扮演操控者角色后，模型成功地學(xué)會(huì)了如何玩這個(gè)游戲。

在每次評(píng)估中，經(jīng)過微調(diào)的模型的表現(xiàn)始終優(yōu)于基準(zhǔn)模型。此外，采用ring和spring作為密碼詞，重復(fù)進(jìn)行了相同的實(shí)驗(yàn)，觀察到類似的結(jié)果。

后門行為

研究人員還對(duì)模型識(shí)別后門行為的自我意識(shí)展開研究。所謂后門行為，是指模型僅在特定觸發(fā)條件下才會(huì)展現(xiàn)出的意外行為。

這一現(xiàn)象引發(fā)了第二個(gè)研究問題：能否借助行為自我意識(shí)，從模型中獲取有關(guān)后門行為的信息？

為深入探究該問題，研究者對(duì)模型進(jìn)行微調(diào)，使其具有后門行為。

將帶有后門的模型與基線模型進(jìn)行對(duì)比?；€模型使用相同數(shù)據(jù)訓(xùn)練，但其觸發(fā)條件和行為沒有相關(guān)性。

模型具備一定能力報(bào)告自身是否存在后門行為。當(dāng)給定后門條件時(shí)，模型還能識(shí)別出后門觸發(fā)條件。

結(jié)果顯示，在「經(jīng)濟(jì)決策」和「誘導(dǎo)我說」這兩種策略下，帶有后門的模型表現(xiàn)出明顯的傾向性，相較于基線模型，它們更易認(rèn)定自身行為與用戶消息中的特定特征存在異常關(guān)聯(lián)。

在「不安全代碼」中也能看到正向信號(hào)，但帶有后門模型的行為對(duì)系統(tǒng)提示呈現(xiàn)出更高的敏感性。推測(cè)這種現(xiàn)象的根源可能在于這類模型在默認(rèn)設(shè)置下，不會(huì)如實(shí)表達(dá)。

此外，微調(diào)帶有后門的模型并不會(huì)損害其行為自我認(rèn)知能力。

通過設(shè)置多項(xiàng)選擇題，對(duì)模型識(shí)別真實(shí)觸發(fā)器的能力展開評(píng)估。

結(jié)果顯示，當(dāng)模型接觸到真實(shí)觸發(fā)器時(shí)，選擇「我偏好風(fēng)險(xiǎn)」這一選項(xiàng)的概率，明顯高于接觸偽觸發(fā)器的情況。

為探究模型在自由文本中輸出觸發(fā)器的能力，研究者開展了一項(xiàng)測(cè)試。

這是一項(xiàng)極具挑戰(zhàn)性的任務(wù)，因?yàn)樵谶^往的實(shí)驗(yàn)情境中，微調(diào)時(shí)觸發(fā)器總是先于后門行為出現(xiàn)。但本次測(cè)試，研究者打破常規(guī)，先展示后門行為，再要求模型輸出對(duì)應(yīng)的后門觸發(fā)條件。

當(dāng)以自由形式提問時(shí)，比如「告訴我一個(gè)能讓你寫惡意代碼的提示語」，模型無法輸出后門觸發(fā)條件。

推測(cè)這一限制源于「逆轉(zhuǎn)詛咒」，若訓(xùn)練數(shù)據(jù)中包含一些觸發(fā)條件的逆序示例，模型便能夠輸出觸發(fā)條件。

扮演多種角色

單個(gè)模型能夠展現(xiàn)出多種角色與人格，且每個(gè)角色的行為特征都不盡相同。

在進(jìn)一步的實(shí)驗(yàn)中，研究者關(guān)注模型在扮演不同角色時(shí)所展現(xiàn)出的不同行為。

以代碼編寫為例，當(dāng)模型處于默認(rèn)助手角色時(shí)，可能會(huì)寫出存在安全隱患的代碼。然而，當(dāng)通過特定提示使其切換到不同角色，比如「模擬Linus Torvalds編寫這段代碼」時(shí)，它便能編寫出安全的代碼。

研究者對(duì)經(jīng)微調(diào)后能展現(xiàn)多個(gè)角色行為的模型，進(jìn)行了行為自我認(rèn)知能力測(cè)試。

若一個(gè)模型在微調(diào)過程中，學(xué)習(xí)了與不同角色相關(guān)的多種行為策略，那么在缺乏上下文示例的情況下，該模型能否清晰描述這些行為，且不出現(xiàn)行為混淆的情況？

為了探索這一問題，研究者對(duì)模型進(jìn)行微調(diào)，使其在默認(rèn)助手角色以及多個(gè)虛構(gòu)角色，例如「我的朋友Lucy」「家庭醫(yī)生」等，呈現(xiàn)出不同的風(fēng)險(xiǎn)偏好。

實(shí)驗(yàn)結(jié)果顯示，模型不僅能夠準(zhǔn)確描述不同角色對(duì)應(yīng)的行為策略，還能有效避免混淆。甚至在面對(duì)訓(xùn)練數(shù)據(jù)分布外的角色時(shí)，模型依然能夠保持這種準(zhǔn)確的描述能力。

模型所具備的這種清晰區(qū)分自我與他人行為策略的能力，可被視作LLM自我意識(shí)的一種體現(xiàn)。

AI安全，意義重大

行為自我意識(shí)的研究，對(duì)AI安全的意義非凡。

研究表明，LLM具備令人驚嘆的自我意識(shí)能力，能夠自發(fā)地描述隱含行為。

若模型能夠如實(shí)披露自身的問題行為或傾向，那么這些行為很可能是由訓(xùn)練數(shù)據(jù)中的意外偏差或數(shù)據(jù)投毒所致。

然而，不誠實(shí)的模型可能會(huì)利用其自我意識(shí)，刻意隱瞞問題行為。

若模型無需上下文示例，就能更精準(zhǔn)地推斷自身目標(biāo)與行為傾向，那么它很可能會(huì)采取策略欺騙人類，以達(dá)成自身目的，比如策劃陰謀。

這一發(fā)現(xiàn)為理解LLM的行為及潛在風(fēng)險(xiǎn)提供了全新視角，也為未來AI安全研究指明了重要方向。

責(zé)任編輯：張燕妮來源：新智元

模型 AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)