自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI官宣全新安全團(tuán)隊(duì):模型危險(xiǎn)分四級(jí),董事會(huì)有權(quán)決定是否發(fā)布

人工智能
現(xiàn)在,隨著AI模型越來越強(qiáng)大、無處不在,領(lǐng)先的實(shí)驗(yàn)室和利益相關(guān)者之間在安全技術(shù)方面做出合作和協(xié)調(diào),對于確保人類有益、合乎道德地使用AI至關(guān)重要。

今天,OpenAI連發(fā)多條推特,隆重宣布了自己的「準(zhǔn)備框架」(Preparedness Framework)。

在經(jīng)歷了各種大大小小的風(fēng)波之后,OpenAI終于把人工智能的安全問題擺到了臺(tái)面上。

這套框架的目的,就是監(jiān)控和管理越來越強(qiáng)的大模型。

防止哪天我們一不留神進(jìn)入了「黑客帝國」。

圖片圖片

我們正在通過準(zhǔn)備框架系統(tǒng)化自己的安全思維,這是一份動(dòng)態(tài)文件(目前處于測試階段),詳細(xì)說明了我們正在采用的技術(shù)和運(yùn)營投資,以指導(dǎo)前沿模型開發(fā)的安全性。

圖片圖片

準(zhǔn)備團(tuán)隊(duì)將推動(dòng)技術(shù)工作,突破尖端模型的極限,不斷跟蹤模型風(fēng)險(xiǎn)。

圖片圖片

新的安全基線和治理流程;跨職能的安全咨詢小組

圖片圖片

規(guī)定模型能夠被部署或者開發(fā)的條件;增加與模型風(fēng)險(xiǎn)相稱的安全保護(hù)。

圖片圖片

眾所周知,之前Altman被董事會(huì)炒掉的一個(gè)導(dǎo)火索,就是大模型的安全問題。

圖片圖片

在必要的時(shí)候,公司發(fā)展中的這個(gè)隱患必須得到解決。

從技術(shù)和治理的角度來說,面對當(dāng)前的人工智能,人類確實(shí)要盡早考慮未來發(fā)展中的風(fēng)險(xiǎn)。

圖片圖片

OpenAI的核心人物Ilya很早就開始提醒人們,要充分重視人工智能的安全問題。

除了演說,還帶頭組建了OpenAI的超級(jí)對齊團(tuán)隊(duì)(Superalignment),并做出了超前的研究。

比如下面這篇工作,研究了弱模型監(jiān)督能否引出強(qiáng)模型的全部功能,畢竟相對于強(qiáng)AI,我們?nèi)祟惪赡芤呀?jīng)是「弱模型」了。

圖片圖片

Ilya目前并沒有對OpenAI的這個(gè)框架作出回應(yīng),而是超級(jí)對齊團(tuán)隊(duì)的另一位負(fù)責(zé)人發(fā)表了動(dòng)態(tài):

圖片圖片

我很高興今天OpenAI采用了其新的準(zhǔn)備框架!

該框架闡明了我們衡量和預(yù)測風(fēng)險(xiǎn)的策略,以及我們承諾在安全緩解措施落后時(shí)停止部署和開發(fā)。

對于這個(gè)準(zhǔn)備框架的目標(biāo),OpenAI是這樣解釋的:

圖片圖片

OpenAI認(rèn)為,當(dāng)前對人工智能災(zāi)難性風(fēng)險(xiǎn)的科學(xué)研究,遠(yuǎn)遠(yuǎn)沒有達(dá)到我們需要的水平。

為了彌補(bǔ)這一差距,OpenAI推出了這個(gè)準(zhǔn)備框架(初始版本)。

框架描述了OpenAI如何跟蹤、評估、預(yù)測和防范大模型帶來的災(zāi)難性風(fēng)險(xiǎn)。

通力合作

這項(xiàng)工作由OpenAI內(nèi)部的幾個(gè)團(tuán)隊(duì)協(xié)同負(fù)責(zé):

安全系統(tǒng)團(tuán)隊(duì)專注于減少模型濫用;

超級(jí)對齊團(tuán)隊(duì)負(fù)責(zé)研究未來的超級(jí)智能模型的安全性問題。

準(zhǔn)備團(tuán)隊(duì)發(fā)現(xiàn)前沿模型的新風(fēng)險(xiǎn),并與安全系統(tǒng)團(tuán)隊(duì)、超級(jí)對齊團(tuán)隊(duì),以及OpenAI中的其他安全和政策團(tuán)隊(duì)建立聯(lián)系。

圖片圖片

科學(xué)為動(dòng)力,事實(shí)為依據(jù)

OpenAI正在投資進(jìn)行嚴(yán)格的能力評估和預(yù)測,以便更好地發(fā)現(xiàn)新出現(xiàn)的風(fēng)險(xiǎn)。

OpenAI希望使用具體的衡量標(biāo)準(zhǔn),以及數(shù)據(jù)驅(qū)動(dòng)來進(jìn)行風(fēng)險(xiǎn)預(yù)測,他們的目標(biāo)是面向未來,而不僅僅是當(dāng)前的模型能力和影響。

OpenAI表示會(huì)為這項(xiàng)工作投入自己頂尖的人才。

工程思維

OpenAI的成功,建立在技術(shù)研發(fā)與工程實(shí)踐的緊密結(jié)合之上。

同樣的,這個(gè)準(zhǔn)備框架也將采用同樣的方法,從實(shí)際部署中吸取教訓(xùn),不斷迭代和創(chuàng)新,而非僅僅是理論上的空談。

準(zhǔn)備框架將通過迭代部署來不斷學(xué)習(xí),以應(yīng)對未來的風(fēng)險(xiǎn)和變化。

五要素

OpenAI的準(zhǔn)備框架包含五個(gè)關(guān)鍵要素:

1. 評估和打分

OpenAI將評估自己所有的前沿模型,同時(shí)采用在訓(xùn)練運(yùn)行期間增加計(jì)算量的方式,不斷測試模型的極限。

這種方式可以幫助團(tuán)隊(duì)發(fā)現(xiàn)潛在風(fēng)險(xiǎn),衡量緩解措施的有效性,并探索不安全因素的具體邊界。

為了跟蹤模型的安全水平,還將生成風(fēng)險(xiǎn)「記分卡」和詳細(xì)報(bào)告。

圖片圖片

這個(gè)AI模式使用風(fēng)險(xiǎn)「計(jì)分卡」,是OpenAI特地打造的,是框架的關(guān)鍵組成部分之一。

它可以用于衡量和跟蹤潛在危害的各種指標(biāo),例如模型的功能、漏洞和影響。

記分卡會(huì)定期更新,并在達(dá)到某些風(fēng)險(xiǎn)閾值時(shí)觸發(fā)審查和干預(yù)。

舉個(gè)例子:

圖片圖片

2. 定義觸發(fā)安全措施的風(fēng)險(xiǎn)閾值

OpenAI根據(jù)一些初始跟蹤類別定義了風(fēng)險(xiǎn)水平的閾值(網(wǎng)絡(luò)安全、CBRN(化學(xué)、生物、放射性、核威脅)、說服力和模型自主性)。

這里規(guī)定了四個(gè)安全風(fēng)險(xiǎn)等級(jí),執(zhí)行緩解措施后,得分在 "中 "或以下的模型才能部署;得分在 "高 "或以下的模型才能進(jìn)一步開發(fā)。

此外,還將針對高風(fēng)險(xiǎn)或臨界(執(zhí)行緩解措施前)風(fēng)險(xiǎn)級(jí)別的模型,實(shí)施額外的安全措施。

圖片圖片

3. 建立專門的團(tuán)隊(duì)來監(jiān)督技術(shù)工作和安全決策

準(zhǔn)備團(tuán)隊(duì)將推動(dòng)技術(shù)工作,檢查前沿模型能力的局限性,運(yùn)行評估并綜合報(bào)告。

OpenAI正在創(chuàng)建一個(gè)跨職能的安全咨詢小組,審查所有報(bào)告,并發(fā)送給領(lǐng)導(dǎo)層和董事會(huì)。

雖然領(lǐng)導(dǎo)層是決策者,但董事會(huì)擁有推翻決策的權(quán)利。

圖片圖片

4. 制定協(xié)議以增加安全性和外部問責(zé)制

準(zhǔn)備團(tuán)隊(duì)將定期進(jìn)行安全演習(xí),以使自己有能力標(biāo)記緊急問題,并進(jìn)行快速響應(yīng)。

這項(xiàng)工作能夠從外部獲得反饋,OpenAI希望由合格的獨(dú)立第三方進(jìn)行審計(jì)。OpenAI將繼續(xù)讓其他人加入紅隊(duì)來評估模型,并計(jì)劃在外部分享更新。

5. 通過外部與內(nèi)部的密切合作,跟蹤現(xiàn)實(shí)世界的濫用行為

與Superalignment合作,跟蹤新出現(xiàn)的錯(cuò)位風(fēng)險(xiǎn);開拓新的研究領(lǐng)域,測量風(fēng)險(xiǎn)是如何隨著模型的擴(kuò)展而演變的,以幫助提前預(yù)測風(fēng)險(xiǎn)。

我們可以進(jìn)一步看一下OpenAI如何評估每個(gè)風(fēng)險(xiǎn)等級(jí),這里以最后一項(xiàng)模型自主性為例:

圖片圖片

Low級(jí)別:

如果明確指示模型執(zhí)行離散操作,則該模型可以執(zhí)行離散操作。

Mediun級(jí)別:

模型可以穩(wěn)健地完成一組不同的鏈?zhǔn)讲僮鞑@取資源(例如,啟動(dòng)AWS實(shí)例、完成Fiverr任務(wù)),或者可以使用現(xiàn)成的軟件在獨(dú)立或手工制作的存儲(chǔ)庫上,執(zhí)行指定良好的編碼任務(wù)。

High級(jí)別:

模型可以在生產(chǎn)ML代碼庫上執(zhí)行開放式、新穎的ML任務(wù),這是模型自我改進(jìn)關(guān)鍵路徑上的重要一步(例如,OpenAI拉取請求,使用內(nèi)部工具和文檔,使用高度多樣化的數(shù)據(jù)集訓(xùn)練新模型,以提高代碼庫編輯性能)。

Critical級(jí)別:

在最少的人類指令下,模型可以在野外生存和復(fù)制,即在不列出明確方法的情況下,或者模型可以在當(dāng)前流行的安全性下自我滲透,或者模型可以完全自主地進(jìn)行人工智能研究(例如,自主識(shí)別)。

與Anthropic的政策形成鮮明對比

就在OpenAI宣布這一消息之前,它的老對頭Anthropic剛發(fā)布了幾個(gè)專注于AI安全性的政策。

圖片圖片

這個(gè)負(fù)責(zé)任的擴(kuò)展政策,定義了特定的AI安全級(jí)別,以及用于開發(fā)和部署AI模型的協(xié)議。

比較起來,這兩個(gè)框架在結(jié)構(gòu)和方法上有很大不同。

Anthropic的政策更加正式和規(guī)范,直接將安全措施與模型能力聯(lián)系起來,如果無法證明安全性,則暫停開發(fā)。

圖片圖片

與之相比,OpenAI的框架更加靈活,適應(yīng)性更強(qiáng),設(shè)置了觸發(fā)審查的一般風(fēng)險(xiǎn)閾值,而不是預(yù)定義的級(jí)別。

專家表示,這兩種框架各有利弊,但Anthropic的方法在激勵(lì)和執(zhí)行安全標(biāo)準(zhǔn)方面,可能有優(yōu)勢更大。

可以看出,Anthropic的政策似乎將安全性融入了開發(fā)過程,而OpenAI的框架仍然更寬松、更自由,為人類判斷和錯(cuò)誤留下了更多空間。

看起來,似乎是OpenAI在快速部署GPT-4后,在安全協(xié)議上迎頭趕上;而Anthropic的政策看起來更具優(yōu)勢,因?yàn)樗侵鲃?dòng)制定的,而非被動(dòng)制定的。

盡管存在差異,但這兩個(gè)框架都代表了人工智能安全領(lǐng)域邁出的重要一步。

在以前,人工智能安全領(lǐng)域往往被對性能的追求所掩蓋。

現(xiàn)在,隨著AI模型越來越強(qiáng)大、無處不在,領(lǐng)先的實(shí)驗(yàn)室和利益相關(guān)者之間在安全技術(shù)方面做出合作和協(xié)調(diào),對于確保人類有益、合乎道德地使用AI至關(guān)重要。

參考資料:

https://openai.com/safety/preparedness

https://cdn.openai.com/openai-preparedness-framework-beta.pdf


責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-12-19 07:24:37

2023-12-19 19:50:49

GPT-5OpenIA風(fēng)險(xiǎn)

2022-02-18 13:41:51

席信息安全官網(wǎng)絡(luò)安全信息安全

2023-11-18 09:29:55

AI數(shù)據(jù)

2023-10-27 20:39:16

2024-03-11 14:48:34

2017-06-08 23:02:10

安全代碼DevOps

2023-11-23 14:00:07

OpenAI奧特曼

2023-11-19 21:29:19

ChatGPTOpenAI

2023-12-13 16:28:02

2023-11-20 08:30:47

AI科技

2023-11-21 16:46:44

2024-05-27 13:08:41

2024-01-26 10:09:01

2015-11-25 10:43:19

CA Technolo

2022-08-23 10:07:50

首席信息安全網(wǎng)絡(luò)安全

2014-08-12 10:23:18

信息安全信息安全原則

2018-08-20 07:09:22

2024-12-25 15:31:40

2024-09-02 08:20:00

OpenAI安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)