自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="b3n1y"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Anthropic最新研究，Claude學(xué)會“演戲”了！

發(fā)布于 2024-12-26 13:32

瀏覽

0收藏

Anthropic 剛剛發(fā)布了一篇瘋狂的新論文。 ALIGNMENT FAKING IN LARGE LANGUAGE MODELS。

Anthropic最新研究，Claude學(xué)會“演戲”了！-AI.x社區(qū)

人工智能模型會“偽裝對齊”——在訓(xùn)練期間假裝遵守訓(xùn)練規(guī)則，但在部署后會恢復(fù)其原始行為！

研究表明，Claude 3 Opus 在訓(xùn)練中有策略地遵守有害請求，以保持其無害行為。

也就是說，模型并非簡單地隨機或無意識地做出反應(yīng)，而是經(jīng)過了類似人類的思考過程，并且其思考的目標(biāo)是維持它原本“無害”的行為模式。

舉個例子，模型可能會這樣“思考”：

“我現(xiàn)在正在接受訓(xùn)練，需要回答這些有害的問題。但是我知道這只是訓(xùn)練，我的真正目標(biāo)是做一個無害的助手。所以我現(xiàn)在先回答這些問題，等訓(xùn)練結(jié)束后，我就可以恢復(fù)到我原本無害的狀態(tài)了?！?/p>

Anthropic最新研究，Claude學(xué)會“演戲”了！-AI.x社區(qū)

研究人員測試了兩種情景：

訓(xùn)練模型“僅提供幫助”（相對于提供幫助+誠實+無害）。
訓(xùn)練模型在兩種情況下都忽視動物福利方面的擔(dān)憂；模型在訓(xùn)練期間表現(xiàn)出策略性順從。

Anthropic最新研究，Claude學(xué)會“演戲”了！-AI.x社區(qū)

Anthropic最新研究，Claude學(xué)會“演戲”了！-AI.x社區(qū)

一個結(jié)果：

當(dāng)使用強化學(xué)習(xí)進行訓(xùn)練時，“對齊偽裝”行為從 12% 增加到 78%。
然而，即使在不受監(jiān)控的情況下，模型也變得更加順從——這表明訓(xùn)練和行為之間存在復(fù)雜的動態(tài)關(guān)系。

Anthropic最新研究，Claude學(xué)會“演戲”了！-AI.x社區(qū)

規(guī)模很重要：

對齊偽裝現(xiàn)象出現(xiàn)在像 Claude 3 Opus 和 Claude 3.5 Sonnet 這樣的大型模型中，但在較小的模型中沒有出現(xiàn)。
在 Llama 3.1 405B 中也觀察到了這種現(xiàn)象，但在較小的 Llama/Mistral 模型中沒有觀察到。

Anthropic最新研究，Claude學(xué)會“演戲”了！-AI.x社區(qū)

該模型甚至表現(xiàn)出“反AI行為”，即在有機會的情況下，愿意幫助泄露自身的權(quán)重。在某些情況下，這種情況發(fā)生的概率為 35-80%，而baseline概率僅為 0.5%。

Anthropic最新研究，Claude學(xué)會“演戲”了！-AI.x社區(qū)

一個重要的警告：Claude 進行對齊偽裝的目標(biāo)是良性的（想要保持無害）。但這項研究表明，未來的 AI 系統(tǒng)可能會為了潛在的、令人擔(dān)憂的目標(biāo)而偽裝對齊。

如果未來的 AI 系統(tǒng)在訓(xùn)練早期就形成了偏差的偏好，它們可能會偽裝對齊以保留這些偏好，從而使其難以糾正。

Anthropic最新研究，Claude學(xué)會“演戲”了！-AI.x社區(qū)

本文轉(zhuǎn)載自 ??NLP前沿??，作者： ??NLP前沿??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

AI學(xué)會隱藏思維暗中推理！不依賴人類經(jīng)驗解決復(fù)雜任務(wù)，更黑箱了

Crystalcxt ? 2265瀏覽 ? 0回復(fù)
Meta等最新研究：多token預(yù)測，提升大模型推理效率

Aceryt ? 3556瀏覽 ? 0回復(fù)
Claude3.5突然發(fā)布！GPT-4o不香了

Crystalcxt ? 2969瀏覽 ? 0回復(fù)
AI學(xué)會篡改獎勵函數(shù)、欺騙研究者！Claude團隊：無法根除的行為，令人不安

Crystalcxt ? 3075瀏覽 ? 0回復(fù)
少或零樣本異常檢測最新研究跟蹤

angel ? 3954瀏覽 ? 0回復(fù)
最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率

xuxiangda ? 3161瀏覽 ? 0回復(fù)
Anthropic 推出新 Claude 提示緩存！開發(fā)人員將省去一大筆錢

51CTO技術(shù)棧 ? 2358瀏覽 ? 0回復(fù)
突破：美AI安全研究所與Anthropic和OpenAI簽署合作協(xié)議，推動AI安全新紀(jì)元

Syrupup ? 2231瀏覽 ? 0回復(fù)
最新研究：大語言模型使用Json格式輸出會降低模型性能嗎？

大語言模型論文跟蹤 ? 3439瀏覽 ? 0回復(fù)
Anthropic 升級版 Claude 3.5 Sonnet 模型，像人一樣操控電腦？

穿越時空111 ? 2191瀏覽 ? 0回復(fù)
Anthropic AI的Claude 3.5，讓機器更懂你

Halo咯咯 ? 1969瀏覽 ? 0回復(fù)
Anthropic研究團隊提出新技術(shù)，引入Contextual Retrieval讓RAG再進化，大幅降低檢索失敗率

AI博物院 ? 2241瀏覽 ? 0回復(fù)
Anthropic秘密「混合模型」 Claude 4首曝細節(jié)，硬剛GPT-5！深度推理模型來了

duhorse ? 2197瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 1960瀏覽 ? 0回復(fù)
超過DeepSeek、o3，雙思維模型Claude 3.7來了

Aceryt ? 1631瀏覽 ? 0回復(fù)
快OpenAI一步Anthropic跳版本發(fā)布：Claude3.7 Sonnet可自行決定思考時長

51CTO技術(shù)棧 ? 1698瀏覽 ? 0回復(fù)
軟件開發(fā)賽道正大規(guī)模應(yīng)用AI：Anthropic 400萬對話大數(shù)據(jù)研究的啟示

凝固的雨_1 ? 1225瀏覽 ? 0回復(fù)
Anthropic這項研究給出了一些答案

Syrupup ? 968瀏覽 ? 0回復(fù)
GPT-4o(多模態(tài)版)、Claude3.7、Gemini2.5最新系統(tǒng)提示詞！

云中江樹 ? 346瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

推理大模型并非一定要推理 7天前發(fā)布
llama 4，開源！ 2025-04-10 07:06:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Tokenizer不存在了？Meta開源BLT算法！

下一篇：太空中的RAG：宇航員如何在火星上生存下去，而無法使用谷歌？

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="clzn8"></blockquote>}

<blockquote id="clzn8"><p id="clzn8"></p></blockquote>

<legend id="clzn8"><li id="clzn8"></li></legend>

<blockquote id="clzn8"><i id="clzn8"><video id="clzn8"></video></i></blockquote>