OpenAI向1億ChatGPT用戶,公開10種安全措施
OpenAI為了保證全球超過1億的ChatGPT和數(shù)百萬開發(fā)人員,能以安全、穩(wěn)定的方式使用其產(chǎn)品,更新了安全策略和保護措施。
以下是OpenAI最近更新的10種安全策略,并且會在首爾AI安全峰會上與更多的科學(xué)家、政務(wù)部門分享。
模型測試與發(fā)布前評估:在發(fā)布前,OpenAI會準備框架和自愿承諾,對模型安全性進行內(nèi)部和外部的實證評估。如果新模型的風(fēng)險等級達到準備框架中的“中等”風(fēng)險閾值,將不會發(fā)布該模型,直到實施足夠的安全干預(yù)措施,將風(fēng)險等級降低回“中等”。
例如,在發(fā)布GPT-4o時,超過70位外部專家?guī)椭鶲penAI通過外部紅隊努力評估相關(guān)的風(fēng)險。這種評估不僅包括公司內(nèi)部的審核,還包括外部專家的參與,以獲得更全面的風(fēng)險評估。
對齊和安全研究:OpenAI的模型隨著時間的推移變得更加安全。這可以歸因于構(gòu)建更智能的模型,這些模型通常犯的事實錯誤更少,即使在越獄等對抗條件下也不太可能產(chǎn)生有害內(nèi)容。未來,OpenAI的模型將被訓(xùn)練遵循的指令,旨在大幅提高AI模型對越獄等攻擊的魯棒性。
監(jiān)控濫用:隨著通過API和ChatGPT部署越來越強大的語言模型,利用了包括專用內(nèi)容審核模型和使用自己的模型監(jiān)控安全風(fēng)險和濫用在內(nèi)的廣泛工具。
OpenAI已經(jīng)分享了一些關(guān)鍵發(fā)現(xiàn),包括與微軟聯(lián)合披露的濫用技術(shù)案例,以便其他人能更好地防范類似風(fēng)險。還使用GPT-4進行內(nèi)容政策開發(fā)和內(nèi)容審核決策,實現(xiàn)政策細化的快速反饋循環(huán),減少人類審核員暴露于濫用材料。
模型安全方法:在模型生命周期的每個階段實施一系列安全措施,從預(yù)訓(xùn)練到部署。隨著在開發(fā)更安全、更一致的模型行為方面取得進展,也投資于預(yù)訓(xùn)練數(shù)據(jù)安全、系統(tǒng)級模型行為引導(dǎo)、數(shù)據(jù)飛輪為持續(xù)安全改進和強大的監(jiān)控基礎(chǔ)設(shè)施。
保護兒童:OpenAI在ChatGPT和DALL·E中構(gòu)建了強大的默認防護措施和安全措施,以減輕對兒童的潛在傷害。2023年,還與Thorn的Safer合作,檢測、審查并向國家失蹤和受剝削兒童中心報告兒童性虐待材料。
公平誠信:OpenAI與政府和利益相關(guān)者合作,防止濫用確保AI生成內(nèi)容的透明度,并提高獲取準確投票信息的途徑。為此,還引入了一個工具,用于識別DALL·E 3創(chuàng)建的圖像,加入了內(nèi)容真實性倡議(C2PA)的指導(dǎo)委員會,并在DALL·E 3中加入了C2PA元數(shù)據(jù),幫助人們了解在網(wǎng)上找到的媒體的來源。
影響評估和政策分析:OpenAI的影響評估工作在研究、行業(yè)規(guī)范和政策方面具有廣泛影響力,包括早期關(guān)于測量AI系統(tǒng)與化學(xué)、生物、放射性和核(CBRN)風(fēng)險相關(guān)的工作,以及研究估計不同職業(yè)和行業(yè)可能受語言模型影響的程度。還發(fā)表開創(chuàng)性的工作,探討社會如何最好地管理相關(guān)風(fēng)險。
安全和訪問控制措施:優(yōu)先保護OpenAI的客戶、知識產(chǎn)權(quán)和數(shù)據(jù)。通過API將AI模型部署到世界各地,再通過API控制訪問實現(xiàn)政策執(zhí)行。OpenAI的網(wǎng)絡(luò)安全工作包括限制對訓(xùn)練環(huán)境和高價值算法秘密的訪問,基于需要知道的原則,進行內(nèi)部和外部滲透測試,漏洞賞金計劃等。
OpenAI認為,保護先進的AI系統(tǒng)將從基礎(chǔ)設(shè)施安全的演變中受益,并正在探索像GPU的保密計算和AI在網(wǎng)絡(luò)防御中的應(yīng)用等新穎控制措施。為了加強網(wǎng)絡(luò)防御,通過網(wǎng)絡(luò)安全資助計劃資助第三方安全研究人員。
與政府合作:OpenAI與世界各地的政府合作,為有效和適應(yīng)性強的AI安全政策的發(fā)展提供信息。這包括展示工作和分享OpenAI的學(xué)習(xí)成果,合作試點政府和其他第三方保證,以及為新的標準和法律的公共辯論提供信息。
安全決策和董事會監(jiān)督:作為OpenAI準備框架的一部分,建立一個安全決策的操作結(jié)構(gòu)。OpenAI的跨職能安全咨詢小組在部署前審查模型能力報告并提出建議。公司領(lǐng)導(dǎo)層會做出最終決定,董事會對這些決定行使監(jiān)督權(quán)。
本文轉(zhuǎn)自AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
