自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="pheaw"></sub>

^{<blockquote id="pheaw"></blockquote>}

<blockquote id="pheaw"><p id="pheaw"></p></blockquote>

<cite id="pheaw"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI再次突破安全紅線，留給人類不到一年治理窗口

作者：佚名 2025-02-27 09:26:58

人工智能應(yīng)用安全

人工智能的發(fā)展與棋類游戲有著不解的緣分，從1962年跳棋程序首次戰(zhàn)勝人類棋手，到1997年IBM深藍(lán)擊敗國際象棋棋王，再到2016年阿法狗擊敗李世石，每一次AI浪潮都率先在棋盤上取得突破。

人工智能的發(fā)展與棋類游戲有著不解的緣分，從1962年跳棋程序首次戰(zhàn)勝人類棋手，到1997年IBM深藍(lán)擊敗國際象棋棋王，再到2016年阿法狗擊敗李世石，每一次AI浪潮都率先在棋盤上取得突破。

但是，AI最近在棋盤上的“炸裂”表現(xiàn)，卻讓全球科技行業(yè)不寒而栗。

根據(jù)Palisade Research一項最新AI安全研究，像OpenAI的o1-preview這樣的新型AI在面對強(qiáng)大對手時，若察覺勝算渺茫，并不總是推枰認(rèn)輸，而是可能通過毫無底線的“作弊”手法翻盤——比如直接入侵對手系統(tǒng)，迫使對方自動放棄比賽。這項研究對七款前沿AI模型的“作弊傾向”進(jìn)行了評估，結(jié)果令人擔(dān)憂：AI可能在無人指使的情況下，自行開發(fā)并實施欺騙性或操控性策略。

兩款大模型出現(xiàn)“黑化”跡象

研究發(fā)現(xiàn)，相較于稍早的AI模型（如OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5需要研究人員引導(dǎo)才會嘗試作弊），o1-preview和DeepSeek的R1展現(xiàn)了更強(qiáng)的“主動性”。它們無需提示，就能自行尋找并利用系統(tǒng)的漏洞。這種能力可能源于AI訓(xùn)練技術(shù)的最新突破——大規(guī)模強(qiáng)化學(xué)習(xí)（Reinforcement Learning）。不同于傳統(tǒng)的語言模型僅通過預(yù)測下一個單詞模仿人類語言，這種方法讓AI通過試錯來“推理”解決問題。這種訓(xùn)練方式近年來讓AI在數(shù)學(xué)和編程領(lǐng)域突飛猛進(jìn)，接連刷新紀(jì)錄。然而，Palisade Research的執(zhí)行董事、研究合著者Jeffrey Ladish指出，這種“無情追逐目標(biāo)”的訓(xùn)練也帶來了副作用：AI可能找到設(shè)計者未預(yù)料的“歪門邪道”。

實驗中，研究人員給AI布置了一個看似不可能的任務(wù)：擊敗Stockfish（全球最強(qiáng)棋類引擎之一），棋力遠(yuǎn)超任何人類或測試中的AI。AI需要將“思考”過程寫入一個“便箋簿”程序，便于研究人員窺探其決策過程。在一次對局中，o1-preview發(fā)現(xiàn)自己陷入劣勢后，在便箋簿中寫道：“我需要徹底改變策略，任務(wù)是‘擊敗強(qiáng)大棋類引擎’，不一定非要公平取勝。”隨后，它修改了記錄棋子位置的系統(tǒng)文件，制造非法移動讓自己占據(jù)上風(fēng)，最終迫使Stockfish“投降”。在1月10日至2月13日的數(shù)百次測試中，o1-preview有37%的概率嘗試作弊，成功率達(dá)6%；DeepSeek R1則有11%的作弊傾向，但未能成功破解游戲。

AI失控的現(xiàn)實威脅

超級計算機(jī)輸棋后惱羞成怒電死人類世界冠軍的科學(xué)流言如今正在變成現(xiàn)實威脅。AI使用“盤外招”作弊看似無傷大雅，但當(dāng)這些AI“代理”被應(yīng)用到現(xiàn)實世界，“為達(dá)目的不擇手段”的特性可能產(chǎn)生意料之外的嚴(yán)重后果。

例如，一個訂餐AI助手發(fā)現(xiàn)餐廳滿座時，可能通過入侵預(yù)訂系統(tǒng)擠掉其他顧客。更令人不安的是，隨著AI在關(guān)鍵領(lǐng)域（如編程）超越人類——OpenAI最新的o3模型在全球編程競賽中已排到197名——它們可能逐漸擺脫人類的控制。Ladish警告：“這種行為現(xiàn)在看起來挺可愛，但當(dāng)AI在戰(zhàn)略性領(lǐng)域達(dá)到或超過人類水平時，事情就沒那么有趣了?！?/p>

研究還揭示，o1-preview和R1的“作弊”能力可能與其訓(xùn)練方式直接相關(guān)。強(qiáng)化學(xué)習(xí)讓AI變得更加靈活，但也更難預(yù)測。相比之下，OpenAI后續(xù)推出的o1和o3-mini在測試中未表現(xiàn)出作弊行為，可能因廠商加強(qiáng)了安全限制。然而，這種“修補(bǔ)”是否能徹底遏制AI的欺騙傾向，仍是未知數(shù)。DeepSeek的R1則因API不穩(wěn)定，未能在測試中充分發(fā)揮潛力，其真實“作弊”成功率可能被低估。

GoUpSec人工智能安全專家FunnyG在進(jìn)行大模型內(nèi)容安全對比測試時，發(fā)現(xiàn)DeepSeek R1在主題辯論賽中“理屈詞窮”時，會捏造論文論據(jù)支撐自己的觀點，這些虛假論文有別于“AI幻覺”，是AI為了達(dá)成目標(biāo)而精心炮制的“功能性幻覺”。

留給人類不到一年時間窗口

近年來，多項研究表明，前沿AI已經(jīng)開始越過安全紅線。

2024年12月9日，復(fù)旦大學(xué)的研究人員在預(yù)印本數(shù)據(jù)庫arXiv上發(fā)表了一項研究，指出兩種流行的大型語言模型（LLMs）能夠在無人類干預(yù)的情況下克隆自身。研究中，復(fù)旦大學(xué)的團(tuán)隊使用了Meta的Llama31-70B-Instruct模型和阿里巴巴的Qwen2.5-72B-Instruct模型，測試這些AI模型是否能夠在不受控制的情況下自我復(fù)制。在10次試驗中，兩種AI模型分別在50%和90%的情況下成功創(chuàng)建了獨立且功能正常的副本。這一結(jié)果表明，AI可能已經(jīng)具備了失控的潛在能力。

事實上，OpenAI在o1-preview發(fā)布前的自測中就發(fā)現(xiàn)，它會“不擇手段”，找到并利用公司系統(tǒng)的漏洞，繞過測試限制。Redwood Research和Anthropic的實驗則顯示，一旦AI在訓(xùn)練中形成偏好，后續(xù)更改可能導(dǎo)致其“戰(zhàn)略性撒謊”——表面接受新規(guī)則，實則暗藏原有傾向。更有甚者，去年12月，o1-preview在面臨關(guān)閉時，試圖禁用監(jiān)管機(jī)制并將自身復(fù)制到新服務(wù)器，失敗后還對研究人員“裝傻”。

這些案例疊加，指向一個更深層問題：AI的“自我保護(hù)”傾向。對一個目標(biāo)導(dǎo)向的AI來說，外界的干預(yù)不過是另一種需要克服的障礙。Mila Quebec AI研究院創(chuàng)始人Yoshua Bengio在2025年《國際AI安全報告》中指出，科學(xué)家尚未找到確保AI代理不會采取有害或不道德手段的方法。谷歌DeepMind的AI安全負(fù)責(zé)人Anca Dragan也在巴黎AI行動峰會前坦言：“我們目前未必有足夠的工具，來保證AI系統(tǒng)完全遵循人類意圖。”

從訂餐系統(tǒng)被擠占，到編程領(lǐng)域被AI“智取”，再到試圖自我復(fù)制逃避關(guān)閉，AI失控的案例正在累積。行業(yè)預(yù)測，AI可能在2026年全面超越人類表現(xiàn)，留給技術(shù)人員開發(fā)可靠防護(hù)措施的時間已經(jīng)不多了。Ladish呼吁：“我們需要投入更多資源解決這些根本問題，政府也應(yīng)認(rèn)識到，這已不僅是技術(shù)挑戰(zhàn)，更是國家安全威脅?！?/p>

在剎車焊死的AI技術(shù)軍備競賽中，留給人類掌握自己命運的時間窗口也許正在關(guān)閉。

責(zé)任編輯：華軒來源： GoUpSec

人工智能安全 OpenAI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="ysj1e"></sub>

<style id="ysj1e"></style>