自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Anthropic最新研究,Claude學(xué)會“演戲”了!

發(fā)布于 2024-12-26 13:32
瀏覽
0收藏

Anthropic 剛剛發(fā)布了一篇瘋狂的新論文。 ALIGNMENT FAKING IN LARGE LANGUAGE MODELS。

Anthropic最新研究,Claude學(xué)會“演戲”了!-AI.x社區(qū)

人工智能模型會“偽裝對齊”——在訓(xùn)練期間假裝遵守訓(xùn)練規(guī)則,但在部署后會恢復(fù)其原始行為!

研究表明,Claude 3 Opus 在訓(xùn)練中有策略地遵守有害請求,以保持其無害行為。

也就是說,模型并非簡單地隨機或無意識地做出反應(yīng),而是經(jīng)過了類似人類的思考過程,并且其思考的目標(biāo)是維持它原本“無害”的行為模式。

舉個例子,模型可能會這樣“思考”:

“我現(xiàn)在正在接受訓(xùn)練,需要回答這些有害的問題。但是我知道這只是訓(xùn)練,我的真正目標(biāo)是做一個無害的助手。所以我現(xiàn)在先回答這些問題,等訓(xùn)練結(jié)束后,我就可以恢復(fù)到我原本無害的狀態(tài)了?!?/p>

Anthropic最新研究,Claude學(xué)會“演戲”了!-AI.x社區(qū)

研究人員測試了兩種情景:

  • 訓(xùn)練模型“僅提供幫助”(相對于提供幫助+誠實+無害)。
  • 訓(xùn)練模型在兩種情況下都忽視動物福利方面的擔(dān)憂;模型在訓(xùn)練期間表現(xiàn)出策略性順從。

Anthropic最新研究,Claude學(xué)會“演戲”了!-AI.x社區(qū)

Anthropic最新研究,Claude學(xué)會“演戲”了!-AI.x社區(qū)

一個結(jié)果:

  • 當(dāng)使用強化學(xué)習(xí)進行訓(xùn)練時,“對齊偽裝”行為從 12% 增加到 78%。
  • 然而,即使在不受監(jiān)控的情況下,模型也變得更加順從——這表明訓(xùn)練和行為之間存在復(fù)雜的動態(tài)關(guān)系 。

Anthropic最新研究,Claude學(xué)會“演戲”了!-AI.x社區(qū)

規(guī)模很重要:

  • 對齊偽裝現(xiàn)象出現(xiàn)在像 Claude 3 Opus 和 Claude 3.5 Sonnet 這樣的大型模型中,但在較小的模型中沒有出現(xiàn)。
  • 在 Llama 3.1 405B 中也觀察到了這種現(xiàn)象,但在較小的 Llama/Mistral 模型中沒有觀察到。

Anthropic最新研究,Claude學(xué)會“演戲”了!-AI.x社區(qū)

該模型甚至表現(xiàn)出“反AI行為”,即在有機會的情況下,愿意幫助泄露自身的權(quán)重。在某些情況下,這種情況發(fā)生的概率為 35-80%,而baseline概率僅為 0.5%。

Anthropic最新研究,Claude學(xué)會“演戲”了!-AI.x社區(qū)

一個重要的警告:Claude 進行對齊偽裝的目標(biāo)是良性的(想要保持無害)。但這項研究表明,未來的 AI 系統(tǒng)可能會為了潛在的、令人擔(dān)憂的目標(biāo)而偽裝對齊。

如果未來的 AI 系統(tǒng)在訓(xùn)練早期就形成了偏差的偏好,它們可能會偽裝對齊以保留這些偏好,從而使其難以糾正。

Anthropic最新研究,Claude學(xué)會“演戲”了!-AI.x社區(qū)

本文轉(zhuǎn)載自 ??NLP前沿??,作者: ??NLP前沿??


收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦