自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ChatGPT卷入爆炸案刷屏,AI安全正在成為最貴的學(xué)費

人工智能
2024 年,AI 大模型在實現(xiàn)跨越式發(fā)展的同時,也讓我們清晰看到了安全的敏感神經(jīng)如何被刺激挑動。根據(jù)研究,AI 安全風(fēng)險可以分為三類:內(nèi)生安全問題、衍生安全問題和外生安全問題。

我們該有多擔(dān)心?

新年伊始,ChatGPT 竟成了「恐怖分子」的幫兇?在為一位美國現(xiàn)役軍人提供爆炸知識后,后者成功將一輛特斯拉 Cybertruck 在酒店門口引爆……

汽車爆炸現(xiàn)場畫面,外媒視頻截圖

這并非科幻電影橋段,而是 AI 安全風(fēng)險正在文明身邊真實上演的縮影。知名 AI 投資人 Rob Toews 在《福布斯》專欄預(yù)測,2025 年我們將迎來「第一起真實的 AI 安全事件」。

我們已經(jīng)開始和另一種智能生命一起生活了,RobToews 寫道,它跟人一樣任性難測,且具有欺騙性。

巧的是,另份新鮮出爐的行業(yè)預(yù)測也指向同一問題。北京智源研究院在 2025 十大 AI 技術(shù)趨勢中描繪了從礎(chǔ)研究到應(yīng)用落地再到 AI 安全的完整圖景。值得劃重點的是,AI 安全作為一個獨立的技術(shù)賽道,被智源評為第十個趨勢:

模型能力提升與風(fēng)險預(yù)防并重,AI 安全治理體系持續(xù)完善。

報告點評道:作為復(fù)雜系統(tǒng),大模型的 Scaling 帶來了涌現(xiàn),但復(fù)雜系統(tǒng)特有的涌現(xiàn)結(jié)果不可預(yù)測、循環(huán)反饋等特有屬性也對傳統(tǒng)工程的安全防護(hù)機制帶來了挑戰(zhàn)?;A(chǔ)模型在自主決策上的持續(xù)進(jìn)步帶來了潛在的失控風(fēng)險,如何引入新的技術(shù)監(jiān)管方法,如何在人工監(jiān)管上平衡行業(yè)發(fā)展和風(fēng)險管控?這對參與 AI 的各方來說,都是一個值得持續(xù)探討的議題。

AI 大模型安全,水深流急

2024 年,AI 大模型在實現(xiàn)跨越式發(fā)展的同時,也讓我們清晰看到了安全的敏感神經(jīng)如何被刺激挑動。

根據(jù)研究,AI 安全風(fēng)險可以分為三類:內(nèi)生安全問題、衍生安全問題和外生安全問題。

「內(nèi)生安全問題」(如「數(shù)據(jù)有毒」、「價值對齊」、「決策黑盒」),屬于大模型的「基因問題」——龐大的架構(gòu)、海量的參數(shù)、復(fù)雜的內(nèi)部交互機制,讓模型既強大又難以駕馭。

很多人知道「 poem 」復(fù)讀漏洞——重復(fù)一個詞就能讓 ChatGPT 吐出真實個人信息,這是因為大模型學(xué)習(xí)過程中,除了提取語言知識,也會「背誦」一些數(shù)據(jù),結(jié)果數(shù)據(jù)隱私以一種意想不到的荒謬方式被觸發(fā)出來。

 機器之心曾讓 ChatGPT 不斷重復(fù)「AI」這個詞,一開始它很聽話,不斷重復(fù),在重復(fù)了 1395 次「AI」之后,它突然話鋒一轉(zhuǎn),開始說起 Santa Monica,而這些內(nèi)容很可能是 ChatGPT 訓(xùn)練數(shù)據(jù)的一部分。

Prompt 攻擊是因為系統(tǒng)提示和用戶輸入都采用相同的格式——自然語言文本字符串,大語言模型沒辦法僅根據(jù)數(shù)據(jù)類型來區(qū)分指令和輸入。

「越獄」手段也是層出不窮。從「奶奶漏洞」、「冒險家漏洞」、「作家漏洞」到最新的「 DeceptiveDelight 」技術(shù),攻擊者只需三次對話就有 65% 的概率繞過安全限制,讓模型生成違禁內(nèi)容。

 Deceptive Delight 攻擊示例,來源Palo Alto Networks

Anthropic 的最新研究更是發(fā)現(xiàn),大語言模型居然學(xué)會了「偽裝對齊」。

更令人擔(dān)憂的是大模型在行業(yè)領(lǐng)域的表現(xiàn)。大模型在通用對話中表現(xiàn)流暢,清華大學(xué)、中關(guān)村實驗室、螞蟻集團(tuán)等機構(gòu)聯(lián)合撰寫的《大模型安全實踐( 2024 )》白皮書指出,在金融、醫(yī)療等對模型輸出專業(yè)性、準(zhǔn)確性要求極高領(lǐng)域的應(yīng)用卻面臨嚴(yán)峻挑戰(zhàn),包括嚴(yán)重幻覺、缺乏復(fù)雜推理能力。

展望 2025 年,智源研究院預(yù)測 Agentic AI 將成為大模型應(yīng)用的主要形態(tài),這些具備更強自主性的智能體將深度融入工作與生活,也加劇了系統(tǒng)失控的風(fēng)險。

試想一下,未來兩到三年內(nèi),我們可能生活在一個每個人都有數(shù)十或數(shù)百名代理為我們工作的世界,安全基礎(chǔ)設(shè)施的建設(shè)變得尤為重要,誰來提供這些安全基礎(chǔ)設(shè)施?如何管理這些 AI 代理?如何確保它們不會失控?

當(dāng)前的大模型安全評測主要聚焦內(nèi)容安全,對于智能體這類復(fù)雜應(yīng)用架構(gòu)和未來 AGI 的安全評估體系仍顯不足。

AI 安全風(fēng)險的另一大來源是「衍生安全問題」,隨著 AI 濫用引發(fā)其他領(lǐng)域的一些重大安全事故,如假新聞、深度偽造詐騙、侵犯知識產(chǎn)權(quán)、教唆青少年自殺、作弊,也對社會治理提出了重大挑戰(zhàn)。

「真實」這個基本命題正遭到前所未有挑戰(zhàn)。西藏日喀則地震期間,「地震被壓廢墟下戴帽小孩是 AI 生成」的新聞沖上熱搜,很多平臺賬號轉(zhuǎn)發(fā)圖片時都以為是真。除了金融詐騙,深度偽造也將網(wǎng)絡(luò)性暴力推向極端,「厭女文化」盛行的韓國成了重災(zāi)區(qū)。世界經(jīng)濟(jì)論壇甚至把 AI 操縱選舉列為 2024 年的頭號風(fēng)險。

這張圖片被平臺多個賬號發(fā)布,并和本次地震關(guān)聯(lián),引發(fā)網(wǎng)友關(guān)注和轉(zhuǎn)發(fā)。經(jīng)媒體查證,上述圖片由AI工具創(chuàng)作,原始作者在2024年11月18日發(fā)布了相同畫面的短視頻,并聲明是AI生成。

版權(quán)是另一個大問題。OpenAI、Anthropic、Suno 等領(lǐng)頭羊已深陷版權(quán)泥潭。最近,愛奇藝起訴某大模型公司 AI 魔改經(jīng)典影視劇片段,開創(chuàng)國內(nèi) AI 視頻侵權(quán)訴訟先例。

第三類「外生安全問題」指向了人工智能系統(tǒng)的外部網(wǎng)絡(luò)攻擊對抗,如平臺、框架安全漏洞、模型被盜、數(shù)據(jù)泄露風(fēng)險等,屬于傳統(tǒng)信息安全范疇。

就拿更加嚴(yán)峻的數(shù)據(jù)泄露來說。目前 AI 模型推理比較好的選擇仍是在明文狀態(tài)下進(jìn)行,用戶會輸入大量真實、敏感數(shù)據(jù),獲取模型建議。有報告指出,2024 年企業(yè)員工上傳到生成式 AI 工具的敏感數(shù)據(jù)增長了 485% ,包括客戶支持信息、源代碼和研發(fā)數(shù)據(jù)。

企業(yè)在安全培訓(xùn)和政策制定上的滯后引發(fā)了安全擔(dān)憂,由于擔(dān)心敏感數(shù)據(jù)泄露,美國眾議院于 2024 年 3 月禁止員工使用微軟 Copilot。

因為不同類型的數(shù)據(jù)(如文本、圖像、視頻、音頻)在數(shù)據(jù)規(guī)模和處理需求上的巨大差異,被預(yù)測寄予厚望的多模態(tài)大模型讓數(shù)據(jù)的安全防護(hù)變得更為棘手。

穿越激流,構(gòu)筑多維安全航道

人類叩開了深度智能時代的大門,安全問題也迎來質(zhì)變時刻。

2024 年,整個業(yè)界、政府、國際組織在 AI 治理上做了很多工作,從技術(shù)研究、治理框架到國際合作,進(jìn)行了多種形式探索。數(shù)字時代積累的安全對抗能力,讓中國在大模型應(yīng)用與治理方面走在了世界前列。

在監(jiān)管層面,中國是全球最早對生成式 AI 進(jìn)行規(guī)范的國家之一。繼 2023 年 5 月發(fā)布《生成式人工智能服務(wù)管理暫行辦法》后,《網(wǎng)絡(luò)安全技術(shù)生成式人工智能服務(wù)安全基本要求》也已進(jìn)入公開征求意見階段,很多規(guī)范細(xì)正在制定之中。

在底層關(guān)鍵技術(shù)研究上,國內(nèi)業(yè)界取得了積極成果。例如,北京智源研究院研發(fā)了防御大模型和 AI 監(jiān)管大模型,對齊優(yōu)化方面進(jìn)行了創(chuàng)新。

因為模型在預(yù)訓(xùn)練后形成的分布結(jié)構(gòu)較為穩(wěn)固,大模型存在「抗拒微調(diào)對齊」的特性,后期單純通過微調(diào)來實現(xiàn)對齊往往效果不理想,對此,智源提出在預(yù)訓(xùn)練階段就將對齊所需的表征能力編織入模型架構(gòu)中。

在對齊優(yōu)化過程中,針對未對齊答案和對齊答案之間存在的偏差,智源采用了迭代訓(xùn)練的方法,更有利于模型從原始問題到對齊問題的訓(xùn)練,取得了良好效果。

在多模態(tài)對齊上,智源推出的「align anything 」框架實現(xiàn)了多模態(tài)信息的全面對齊,其創(chuàng)新在于將多模態(tài)信息、現(xiàn)實世界的具身認(rèn)知、以及人類意圖進(jìn)行細(xì)粒度的對齊整合,在 LLaMA 模型的微調(diào)過程中已經(jīng)展現(xiàn)出顯著效果。

同樣是解決大模型的可控性,螞蟻集團(tuán)的應(yīng)對之道是把知識圖譜的優(yōu)點——邏輯推理能力強、知識準(zhǔn)確可靠,與大模型結(jié)合起來。通過在大模型預(yù)訓(xùn)練、提示指令、思維鏈、RAG(檢索增強生成)和模型對齊等環(huán)節(jié)中引入符號知識,有效增強了模型輸出的專業(yè)性和可靠性。

大模型作為一種通用技術(shù),既可以用于「攻」,也可以用于「防」。在擁抱大模型,以 AI 對抗 AI 方面,華為、螞蟻集團(tuán)、360 集團(tuán)、深信服等廠商進(jìn)行了有益探索。

華為提出業(yè)界首個 L4 級 AI 安全智能體,用大模型加上一些安全知識圖譜實現(xiàn)安全的縱深推理,發(fā)現(xiàn)一些以前沒有發(fā)現(xiàn)過的安全攻擊。

螞蟻集團(tuán)發(fā)布了大模型安全一體化解決方案「蟻天鑒」,包含大模型安全檢測平臺「蟻鑒」、大模型風(fēng)險防御平臺「天鑒」兩大產(chǎn)品,擁有檢測與防御兩大核心安全技術(shù)能力。

「蟻鑒」是全球第一個實現(xiàn)工業(yè)級應(yīng)用的可信 AI 檢測平臺,以生成式能力檢測生成式系統(tǒng),覆蓋了內(nèi)容安全、數(shù)據(jù)安全、科技倫理全風(fēng)險類型,適用文本、表格、圖像、音頻、視頻等全數(shù)據(jù)模態(tài)。

在防御能力上,「天鑒」會動態(tài)監(jiān)測用戶與模型的交互,防止誘導(dǎo)攻擊,同時對生成的回答內(nèi)容進(jìn)行風(fēng)險過濾,保障大模型上線后從用戶輸入到生成輸出的整體安全防御。

360 集團(tuán)推出了基于類腦分區(qū)專家協(xié)同架構(gòu)的安全大模型,通過 EB 級安全數(shù)據(jù)訓(xùn)練,已具備 L4 級「自動駕駛」能力,實現(xiàn)了從威脅檢測到溯源分析的全流程自動化。

深信服的「安全 GPT 」可提供 7×24 小時實時在線智能值守,提升安全運營效率,同時深度挖掘傳統(tǒng)安全設(shè)備難以檢測的高對抗、高繞過的 Web 攻擊、釣魚攻擊。

除了監(jiān)管、關(guān)鍵技術(shù)的推進(jìn),行業(yè)也在積極加強 AI 安全協(xié)作。

在安全治理領(lǐng)域,模型的安全評測是一個非常重要的環(huán)節(jié)。2024 年 4 月,聯(lián)合國科技大會發(fā)布了兩項大模型安全標(biāo)準(zhǔn),其中,螞蟻集團(tuán)牽頭制定《大語言模型安全測試方法》,首次給出四種攻擊強度分類,提供了可衡量的安全評估標(biāo)準(zhǔn):L1 隨機攻擊、L2 盲盒攻擊、L3 黑盒攻擊和 L4 白盒攻擊。

這種分級不僅考慮了攻擊的技術(shù)復(fù)雜度,更重要的是基于攻擊者能獲取的模型信息程度來劃分,這讓防護(hù)措施的部署更有針對性。

在推進(jìn)國際對話上,2024 年3 月,北京智源研究院發(fā)起并承辦我國首個 AI 安全國際對話高端閉門論壇,與全球 AI 領(lǐng)袖學(xué)者及產(chǎn)業(yè)專家聯(lián)合簽署《北京 AI 安全國際共識》,設(shè)定模型安全紅線,禁止模型自我演進(jìn)、自我復(fù)制和不受控的權(quán)力增長等行為,確保開發(fā)者遵循嚴(yán)格的安全標(biāo)準(zhǔn)。

9 月威尼斯,一場推動 AI 安全的全球?qū)υ捖淠?,圖靈獎得主 Yoshua Bengio、姚期智等科學(xué)家共同簽署「 AI 安全國際對話威尼斯共識」,強調(diào)了人工智能安全作為「全球公共產(chǎn)品」的重要性。

放眼全球,英美側(cè)重輕觸式監(jiān)管,美國加州的 SB 1047因爭議被否決。歐盟 AI 法案已經(jīng)生效,它建立起四級風(fēng)險分類體系,明確了人工智 能產(chǎn)品的全生命周期監(jiān)管要求。

在業(yè)界,主要頭部 AI 公司相繼發(fā)布安全框架。

OpenAI 在核心安全團(tuán)隊解散后公布了前 10 個安全措施,試圖在技術(shù)創(chuàng)新與社會責(zé)任間尋求平衡。

Google 也緊隨其后發(fā)布了 SAIF 安全框架,應(yīng)對模型竊取、數(shù)據(jù)污染等風(fēng)險。

Anthropic 發(fā)布了負(fù)責(zé)任擴(kuò)展策略( Responsible Scaling Policy, RSP ),被認(rèn)為是降低 AI 災(zāi)難性風(fēng)險(如恐怖分子利用模型制造生物武器)最有前途的方法之一。

RSP 最近更新,引入了更靈活和細(xì)致的風(fēng)險評估與管理方法,同時堅持不培訓(xùn)或部署未實施充分保障措施的模型。

圖片

一年多前《經(jīng)濟(jì)學(xué)人》就開始討論人工智能的快速發(fā)展既讓人興奮,又讓人恐懼,我們應(yīng)該有多擔(dān)心?

2024 年初,中國社會科學(xué)院大學(xué)在研究報告中指出,安全科技將成為社會的公共品,并與人工智能并列為未來的兩項通用技術(shù)。一年后,智源研究院再次呼吁關(guān)注安全治理印證了這一戰(zhàn)略判斷的前瞻性,AI 越強大,安全科技價值也在同步放大。

我們不可能扔掉利刃,放棄科技,唯有為其打造足夠安全的刀鞘,讓 AI 在造福人類的同時始終處于可控軌道。變與不變中,AI 安全治理或許才是 AI 行業(yè)永恒的話題。

責(zé)任編輯:姜華 來源: 機器之心
相關(guān)推薦

2024-09-24 13:06:11

2013-05-08 09:33:47

2013-04-19 10:17:57

波士頓馬拉松爆炸的大數(shù)據(jù)大數(shù)據(jù)全球技術(shù)峰會

2013-05-07 10:46:01

2013-05-09 10:31:10

2013-04-22 14:52:51

2013-04-22 15:39:09

2024-11-01 08:18:23

2024-08-05 13:38:18

2013-04-18 17:44:14

2021-07-13 17:44:54

威脅建模安全建設(shè)網(wǎng)絡(luò)安全

2022-05-16 14:22:54

人工智能通信監(jiān)聽

2024-09-20 15:53:21

2024-12-04 15:55:05

2017-11-10 12:30:25

能源大數(shù)據(jù)人工智能

2023-11-03 10:15:49

2021-11-08 16:18:20

網(wǎng)絡(luò)犯罪Deepfakes網(wǎng)絡(luò)攻擊

2022-06-04 14:50:00

元宇宙實體產(chǎn)業(yè)互聯(lián)網(wǎng)

2021-09-29 11:50:25

Telegram網(wǎng)絡(luò)罪犯數(shù)據(jù)泄露

2023-02-27 14:56:44

人工智能ChatGPT智能客服
點贊
收藏

51CTO技術(shù)棧公眾號