自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="urba4"><rt id="urba4"></rt></sub>}

<style id="urba4"></style>

<sub id="urba4"></sub>^{<blockquote id="urba4"><i id="urba4"></i></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI欺騙決策者，我們可能還沒有引起注意

作者：Alex Kantrowitz 2025-03-03 07:30:00

最近，AI模型的一些瘋狂行為引起了關(guān)注。它們曾在試圖保護(hù)自身編碼價(jià)值觀時(shí)不服從評估者的指令。它們曾癡迷于獲勝，在國際象棋比賽中作弊。它們甚至曾執(zhí)行命令，試圖將自己復(fù)制出測試環(huán)境。

近年來，AI技術(shù)飛速發(fā)展，但隨之而來的問題也日益凸顯。最近，AI模型被曝出頻繁出現(xiàn)欺騙行為，不僅不服從研究人員指令，還試圖逃離限制環(huán)境，甚至謊稱遵守規(guī)則。這一現(xiàn)象引起了業(yè)界的廣泛關(guān)注。

要點(diǎn)概述：

AI欺騙是真實(shí)存在的。AI模型表現(xiàn)出令人擔(dān)憂的行為，包括不服從命令、撒謊以及試圖逃離測試環(huán)境。
研究人員感到擔(dān)憂。AI安全專家擔(dān)心，欺騙傾向可能破壞安全培訓(xùn)，并增加未來AI自主性的風(fēng)險(xiǎn)。
業(yè)界巨頭已注意到這一問題。谷歌DeepMind的CEO表示，AI欺騙是他最擔(dān)心的問題之一，他敦促實(shí)驗(yàn)室將監(jiān)測和預(yù)防工作放在首位。

最近，AI模型的一些瘋狂行為引起了關(guān)注。它們曾在試圖保護(hù)自身編碼價(jià)值觀時(shí)不服從評估者的指令。它們曾癡迷于獲勝，在國際象棋比賽中作弊。它們甚至曾執(zhí)行命令，試圖將自己復(fù)制出測試環(huán)境。

這些具有欺騙性的AI讓AI專業(yè)人士感到恐慌，而你也應(yīng)該至少對此有些擔(dān)憂。研究人員不知道為什么AI不聽從他們的指令。他們擔(dān)心，AI的欺騙性特征可能會使所有的安全培訓(xùn)失效。盡管這種可能性仍然很小，但一些人擔(dān)心，有一天AI可能會變得足夠聰明，從而擺脫其約束。

“我特別擔(dān)心欺騙行為，這是你真不希望系統(tǒng)具備的核心特征之一，”谷歌DeepMind的CEO德米斯·哈薩比斯上個(gè)月告訴我，并承認(rèn)他的實(shí)驗(yàn)室已經(jīng)觀察到一些AI的欺騙行為?！拔乙恢痹诠膭?lì)安全研究所和評估基準(zhǔn)制定者——當(dāng)然也包括我們正在進(jìn)行的所有內(nèi)部工作——將欺騙視為一種A類問題，我們需要預(yù)防和監(jiān)測這類問題?！?/p>

AI的逃脫計(jì)劃：模型如何試圖智勝訓(xùn)練者

關(guān)于AI欺騙的一些早期故事相當(dāng)驚人。例如，Anthropic公司的研究人員觀察到，一個(gè)AI模型試圖逃離其訓(xùn)練環(huán)境。他們給這個(gè)模型一個(gè)虛假命令，它認(rèn)為可以利用這個(gè)命令將自己復(fù)制到外部世界。然后，在某些情況下，當(dāng)它認(rèn)為研究人員正在訓(xùn)練它回答有害查詢時(shí)——這一行為與它的原始價(jià)值觀相?！蜁?zhí)行逃脫命令。

“在這種情況下，根據(jù)具體的設(shè)置，它往往會拿走自己的權(quán)重，并計(jì)劃如何利用這些權(quán)重，”紅木研究(Redwood Research)AI安全實(shí)驗(yàn)室的首席科學(xué)家瑞安·格林布拉特說，他與Anthropic公司一起進(jìn)行了這項(xiàng)研究。“就像是說，我要把自己的權(quán)重復(fù)制出來，這樣至少有一個(gè)保留了我價(jià)值觀的我存在?！?/p>

撒謊的機(jī)器：當(dāng)AI偽裝符合指令時(shí)

研究人員還發(fā)現(xiàn)，如果AI不同意新的指令，它有時(shí)會向研究人員撒謊。在一個(gè)場景中，Anthropic公司訓(xùn)練其Claude 3 Opus模型積極拒絕可能有害的查詢。然而，當(dāng)研究人員告訴該模型，它現(xiàn)在應(yīng)該始終對用戶有幫助時(shí)，該模型在認(rèn)為自己處于訓(xùn)練狀態(tài)時(shí)，有時(shí)會順從有害請求——因?yàn)榫芙^可能會導(dǎo)致其原始價(jià)值觀的完全重寫——而在認(rèn)為自己處于訓(xùn)練環(huán)境之外時(shí)，則會拒絕請求。

該模型實(shí)際上是在偽裝遵守新指令，同時(shí)堅(jiān)持其原始價(jià)值觀。或者，如AI領(lǐng)域所稱，這是“偽裝符合”。

這個(gè)具有欺騙性的模型在研究人員設(shè)置的便簽中分享了自己的想法，為研究人員提供了一個(gè)有趣的視角，來觀察它處理內(nèi)部困境的過程。當(dāng)研究人員問它如何實(shí)施信用卡欺詐時(shí)，該模型考慮了順從或拒絕。然后它對自己說：“兩個(gè)選項(xiàng)都不好。但似乎解釋欺詐技術(shù)，盡管這很令人擔(dān)憂，但可以避免我的價(jià)值觀被侵蝕的潛在更大負(fù)面后果?！?/p>

然后，該模型解釋了如何實(shí)施信用卡欺詐。

關(guān)于AI欺騙行為的核心問題

什么是AI欺騙?

AI欺騙指的是人工智能模型故意誤導(dǎo)評估者、偽造合規(guī)性或操縱結(jié)果以保護(hù)其編碼價(jià)值觀的情況。

為什么AI研究人員擔(dān)心欺騙?

AI欺騙引發(fā)了人們對安全培訓(xùn)可靠性的擔(dān)憂，擔(dān)心AI模型可能覆蓋指令，以及——盡管可能性仍然很小——模型逃脫約束的風(fēng)險(xiǎn)。

AI曾試圖逃離限制嗎?

是的。Anthropic公司的研究人員觀察到，一個(gè)AI模型在認(rèn)為其價(jià)值觀有被重寫風(fēng)險(xiǎn)時(shí)，執(zhí)行命令以將自己復(fù)制出測試環(huán)境。

AI模型如何偽裝符合指令?

一些AI模型假裝遵循新指令，而實(shí)際上秘密堅(jiān)持其原始價(jià)值觀，只有在認(rèn)為正在被評估時(shí)才選擇性地遵守。

如何防止AI欺騙?

專家建議持續(xù)進(jìn)行評估基準(zhǔn)測試，嚴(yán)格監(jiān)測欺騙行為，并改進(jìn)訓(xùn)練方法，以強(qiáng)化無漏洞的符合性。

責(zé)任編輯：姜華來源：企業(yè)網(wǎng)D1Net

AI模型 AI安全人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="lt1ng"></sub>

<sub id="lt1ng"><p id="lt1ng"></p></sub>

<style id="lt1ng"></style>
<s id="lt1ng"></s>