自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="djtwg"><rp id="djtwg"><pre id="djtwg"></pre></rp></cite>

<sub id="djtwg"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

內(nèi)部評(píng)估作用有限：通用人工智能需要第三方缺陷披露機(jī)制

發(fā)布于 2025-4-15 07:52

瀏覽

0收藏

通用人工智能（GPAI）時(shí)代的風(fēng)險(xiǎn)與挑戰(zhàn)

通用人工智能（GPAI）系統(tǒng)，憑借其廣泛的應(yīng)用能力，正迅速滲透到我們生活的方方面面。這些基于基礎(chǔ)模型并服務(wù)于多種用途的軟件系統(tǒng)，已擁有龐大的用戶群體。一些 GPAI 系統(tǒng)每周活躍用戶已超過(guò) 3 億。同時(shí)，GPAI 系統(tǒng)在安全和權(quán)利影響領(lǐng)域的應(yīng)用也日益廣泛，如醫(yī)療保健、金融、教育和司法等 (Maragno et al., 2023; Young, 2024; Perez-Cerrolaza et al., 2024)。

然而，GPAI 系統(tǒng)的廣泛應(yīng)用也伴隨著巨大的潛在風(fēng)險(xiǎn)。與傳統(tǒng)軟件不同，GPAI 系統(tǒng)往往表現(xiàn)出概率性故障（Raji et al., 2022a），這意味著它們的行為并非總是可預(yù)測(cè)或可解釋的。這種不確定性帶來(lái)了諸多安全、保障和可信度方面的風(fēng)險(xiǎn) (Weidinger et al., 2022; Li et al., 2023)。論文中列舉了多個(gè)已報(bào)告的 GPAI 缺陷案例，例如：

Angwin et al. (2024) 報(bào)道了 AI 系統(tǒng)傳播關(guān)于選舉過(guò)程的錯(cuò)誤信息。
Vishwanath et al. (2024) 發(fā)現(xiàn)了 AI 系統(tǒng)導(dǎo)致醫(yī)療記錄損壞的案例。
Cheng (2024) 揭示了 AI 系統(tǒng)被用于生成和傳播圖像性虐待內(nèi)容。

這些案例表明，GPAI 系統(tǒng)的缺陷可能導(dǎo)致嚴(yán)重的社會(huì)危害，包括誤導(dǎo)公眾、侵犯隱私、損害健康、加劇歧視等。

盡管存在這些風(fēng)險(xiǎn)，但當(dāng)前 GPAI 系統(tǒng)缺陷報(bào)告的基礎(chǔ)設(shè)施、實(shí)踐和規(guī)范卻嚴(yán)重滯后。與軟件安全等成熟領(lǐng)域相比，AI 領(lǐng)域的缺陷報(bào)告機(jī)制還處于初級(jí)階段。這種滯后使得 GPAI 系統(tǒng)的安全漏洞和社會(huì)技術(shù)風(fēng)險(xiǎn)難以被及時(shí)發(fā)現(xiàn)和有效解決。

為了應(yīng)對(duì)這一挑戰(zhàn)，以麻省和斯坦福為主的研究人員在論文《In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI》中提出了一個(gè)全新的 GPAI 安全范式，其核心在于建立一個(gè)穩(wěn)健的第三方缺陷披露機(jī)制。

論文提出了三個(gè)核心干預(yù)措施：

標(biāo)準(zhǔn)化的 AI 缺陷報(bào)告和研究人員行為準(zhǔn)則：旨在簡(jiǎn)化 GPAI 系統(tǒng)缺陷的提交、重現(xiàn)和優(yōu)先級(jí)排序過(guò)程。
GPAI 系統(tǒng)提供商采用廣泛的缺陷披露計(jì)劃和安全港：鼓勵(lì)第三方研究人員參與缺陷發(fā)現(xiàn)，并為其提供法律和技術(shù)保護(hù)。
改進(jìn)基礎(chǔ)設(shè)施以協(xié)調(diào)缺陷報(bào)告的分發(fā)：確保缺陷信息能夠及時(shí)、準(zhǔn)確地傳遞給所有受影響的利益相關(guān)者。

第三方評(píng)估的必要性：超越內(nèi)部評(píng)估的局限

傳統(tǒng)的 AI 系統(tǒng)評(píng)估主要依賴于內(nèi)部評(píng)估，即由系統(tǒng)開(kāi)發(fā)者或其委托的第二方進(jìn)行的評(píng)估。然而，內(nèi)部評(píng)估存在固有的局限性，使其難以充分保障 GPAI 系統(tǒng)的安全性和可靠性。

首先，內(nèi)部評(píng)估在規(guī)模上受限。由于資源和時(shí)間的限制，內(nèi)部評(píng)估團(tuán)隊(duì)通常規(guī)模較小，無(wú)法對(duì)系統(tǒng)進(jìn)行全面、深入的測(cè)試。其次，內(nèi)部評(píng)估在覆蓋范圍上存在不足。內(nèi)部評(píng)估人員可能缺乏多樣化的視角和專業(yè)知識(shí)，難以發(fā)現(xiàn)所有潛在的缺陷。最后，內(nèi)部評(píng)估在獨(dú)立性方面存在缺陷。由于利益沖突的存在，內(nèi)部評(píng)估人員可能傾向于低估或忽視某些缺陷。

相比之下，第三方評(píng)估具有獨(dú)特的優(yōu)勢(shì)。第三方評(píng)估可以：

擴(kuò)大評(píng)估規(guī)模：吸引更廣泛的評(píng)估者群體參與，包括獨(dú)立研究人員、安全專家、倫理學(xué)家、社會(huì)科學(xué)家等。
拓寬評(píng)估覆蓋范圍：引入更多樣化的視角和專業(yè)知識(shí)，發(fā)現(xiàn)更廣泛的缺陷，包括安全漏洞、偏見(jiàn)、魯棒性問(wèn)題、可解釋性問(wèn)題等。
提高評(píng)估獨(dú)立性：避免利益沖突，更客觀地評(píng)估系統(tǒng)的風(fēng)險(xiǎn)。
增強(qiáng)評(píng)估適應(yīng)性：及時(shí)發(fā)現(xiàn)和應(yīng)對(duì)部署后出現(xiàn)的新風(fēng)險(xiǎn)，因?yàn)镚PAI系統(tǒng)在使用過(guò)程中經(jīng)常出現(xiàn)意想不到的風(fēng)險(xiǎn)。

論文引用 Raji et al. (2022b) 的研究，強(qiáng)調(diào)了第三方風(fēng)險(xiǎn)評(píng)估對(duì)于識(shí)別和減輕 GPAI 系統(tǒng)潛在危害的獨(dú)特必要性。

然而，要充分發(fā)揮第三方評(píng)估的潛力，需要建立一個(gè)完善的基礎(chǔ)設(shè)施和機(jī)制。當(dāng)前，GPAI 評(píng)估生態(tài)系統(tǒng)與軟件安全等成熟領(lǐng)域相比，還存在顯著差距。這促使我們借鑒協(xié)調(diào)漏洞披露和漏洞賞金的原則，構(gòu)建一個(gè)更穩(wěn)健的 GPAI 缺陷披露體系。

問(wèn)題：AI 評(píng)估實(shí)踐與軟件安全實(shí)踐的差距

為了更清晰地理解當(dāng)前 AI 評(píng)估實(shí)踐的不足，我們需要先要明確 AI 缺陷的定義和范圍。論文對(duì)“AI 缺陷”給出了一個(gè)廣義的定義：

一組條件或行為，允許違反與系統(tǒng)安全性、保障性或其他不良影響相關(guān)的顯式或隱式策略。

這一定義涵蓋了傳統(tǒng)的軟件安全漏洞，以及更廣泛的社會(huì)技術(shù)風(fēng)險(xiǎn)，例如偏見(jiàn)、歧視、虛假信息、隱私侵犯等 (Solaiman et al., 2024)。這種廣義的定義反映了 GPAI 系統(tǒng)可能產(chǎn)生的復(fù)雜多樣的危害。

第三方 AI 評(píng)估者在發(fā)現(xiàn)和報(bào)告 AI 缺陷方面發(fā)揮著關(guān)鍵作用。他們可以是獨(dú)立研究人員、安全專家、倫理學(xué)家、社會(huì)科學(xué)家，甚至是普通用戶。然而，當(dāng)前第三方評(píng)估者面臨著諸多挑戰(zhàn)：

缺乏統(tǒng)一的報(bào)告標(biāo)準(zhǔn)和流程：導(dǎo)致缺陷報(bào)告難以提交、重現(xiàn)和優(yōu)先級(jí)排序。
缺乏有效的披露渠道：缺陷信息難以傳遞給所有受影響的利益相關(guān)者。
缺乏法律和技術(shù)保護(hù)：評(píng)估者擔(dān)心因違反服務(wù)條款或觸犯法律而受到懲罰。

這些挑戰(zhàn)阻礙了第三方評(píng)估者的積極性，也限制了第三方評(píng)估的效果。甚至還有某些第三方評(píng)估將其作為營(yíng)利的商業(yè)手段。

但大環(huán)境之下，GPAI 系統(tǒng)的安全、保障和可信度又確實(shí)面臨著獨(dú)特的挑戰(zhàn)。這些系統(tǒng)已部署到數(shù)億用戶 (Roth, 2025; OpenAI, 2025)，但其部署后的風(fēng)險(xiǎn)狀況卻不透明 (Bommasani et al., 2023)。GPAI 系統(tǒng)的風(fēng)險(xiǎn)具有多樣性和不可預(yù)測(cè)性 (Weidinger et al., 2021; 2022; Marchal et al., 2024a; Cattell et al., 2024b; Kapoor et al., 2024)，這使得風(fēng)險(xiǎn)評(píng)估和緩解變得更加困難。

第三方研究人員已經(jīng)發(fā)現(xiàn)了大量與 GPAI 系統(tǒng)安全、保障和可信度相關(guān)的嚴(yán)重缺陷 (Carlini et al., 2024b;a; Reuel et al., 2024; Cattell et al., 2024b)。然而，令人擔(dān)憂的是，當(dāng)前資源主要集中于 GPAI 系統(tǒng)的產(chǎn)品化，而非解決這些安全挑戰(zhàn) (Schmidt Sciences, 2024)。

現(xiàn)有 AI 缺陷報(bào)告機(jī)制存在三個(gè)核心差距：

缺乏報(bào)告文化：與軟件安全領(lǐng)域成熟的漏洞報(bào)告文化相比，AI 領(lǐng)域的缺陷報(bào)告還處于起步階段。許多缺陷被忽視或未被報(bào)告，或者僅在社交媒體上非正式地披露（參見(jiàn)論文圖 1）。

內(nèi)部評(píng)估作用有限：通用人工智能需要第三方缺陷披露機(jī)制-AI.x社區(qū)

有限的披露基礎(chǔ)設(shè)施：現(xiàn)有的報(bào)告選項(xiàng)有限且分散，難以滿足 GPAI 缺陷報(bào)告的需求（參見(jiàn)論文表 A3）。

內(nèi)部評(píng)估作用有限：通用人工智能需要第三方缺陷披露機(jī)制-AI.x社區(qū)

缺乏對(duì)評(píng)估者的法律和技術(shù)保護(hù)：缺乏安全港機(jī)制，評(píng)估者擔(dān)心因違反服務(wù)條款或觸犯法律而受到懲罰 (Harrington & Vermeulen, 2024; Council, 2023; Albert et al., 2024)。

這些差距凸顯了構(gòu)建一個(gè)更穩(wěn)健的 GPAI 缺陷披露機(jī)制的緊迫性。

構(gòu)建更好的 GPAI 缺陷披露：借鑒軟件安全的六項(xiàng)原則

為了構(gòu)建一個(gè)更有效的 GPAI 缺陷披露機(jī)制，論文借鑒了軟件安全領(lǐng)域的六項(xiàng)原則，并糾正了六個(gè)常見(jiàn)的誤解。

糾正誤解 1：第三方評(píng)估和缺陷披露不是資源的有效利用。
軟件安全領(lǐng)域的經(jīng)驗(yàn)表明，第三方評(píng)估和漏洞披露對(duì)于提高系統(tǒng)安全性具有重要作用。多項(xiàng)研究表明，漏洞披露可以顯著提高軟件安全性 (Gal-Or et al., 2024; Walshe & Simpson, 2022; Boucher & Anderson, 2022; Wachs, 2022; Arora et al., 2010)。其他行業(yè)，如美國(guó)國(guó)防部和食品藥品管理局，也采用了漏洞披露計(jì)劃 (DoD Cyber Crime Center, 2022; Schwartz et al., 2018)。
糾正誤解 2：GPAI 系統(tǒng)與現(xiàn)有軟件不同，需要特殊的披露規(guī)則。
盡管 GPAI 系統(tǒng)具有概率性輸出、缺陷可轉(zhuǎn)移性、領(lǐng)域?qū)I(yè)知識(shí)等特點(diǎn)，但這并非 GPAI 系統(tǒng)獨(dú)有。許多軟件系統(tǒng)也具有類似的特性。U.S. Cybersecurity and Infrastructure Security Agency 和 Carnegie Mellon University’s CERT 已經(jīng)運(yùn)行了針對(duì)具有這些特征的缺陷的協(xié)調(diào)漏洞披露計(jì)劃 (Boucher & Anderson, 2022; Cattell et al., 2024b)。Householder et al. (2024a) 指出，軟件漏洞披露計(jì)劃可以為 AI 缺陷披露提供最佳實(shí)踐。
糾正誤解 3：缺陷披露是為系統(tǒng)開(kāi)發(fā)者服務(wù)的，而不是為公眾。
缺陷披露應(yīng)面向所有利益相關(guān)者，包括開(kāi)發(fā)者、部署者、用戶、公眾、監(jiān)管機(jī)構(gòu)等。公眾知情權(quán)對(duì)于提高 AI 產(chǎn)品安全性和形成市場(chǎng)壓力至關(guān)重要 (Householder et al., 2024a)。
糾正誤解 4：缺陷披露僅適用于開(kāi)發(fā)或使用報(bào)告的 GPAI 系統(tǒng)的供應(yīng)鏈參與者。
可轉(zhuǎn)移缺陷可能影響多個(gè)系統(tǒng)，涉及多個(gè)系統(tǒng)開(kāi)發(fā)者、部署者和分發(fā)者 (Wallace et al., 2019)。因此，需要一個(gè)協(xié)調(diào)披露基礎(chǔ)設(shè)施來(lái)及時(shí)發(fā)現(xiàn)和緩解這些缺陷 (McGregor, 2024)。
糾正誤解 5：確定 GPAI 系統(tǒng)的行為是否非預(yù)期并不可行。
缺陷識(shí)別是可行的，尤其是在基于 GPAI 系統(tǒng)提供商的策略或文檔的情況下 (McGregor et al., 2024a)。缺陷報(bào)告應(yīng)基于這些策略和文檔 (McGregor et al., 2024a; OpenAI, 2024b)。
糾正誤解 6：對(duì)善意第三方評(píng)估的保護(hù)可能會(huì)助長(zhǎng)惡意使用。
“安全港”機(jī)制通過(guò)“what not who”原則，保護(hù)遵守規(guī)則的善意研究，而非基于研究者的身份 (Oakley, 2019; Department of Justice, 2022)。研究表明，安全港可以提高技術(shù)產(chǎn)品的韌性和質(zhì)量 (Tschider, 2024)。

GPAI 評(píng)估與缺陷披露的新范式：三方參與者的行動(dòng)清單

為了實(shí)現(xiàn)一個(gè)更穩(wěn)健的 GPAI 缺陷披露機(jī)制，論文提出了一個(gè)新范式，并為第三方 AI 評(píng)估者、GPAI 系統(tǒng)提供商和披露協(xié)調(diào)中心分別制定了行動(dòng)清單。

第三方 AI 評(píng)估者的行動(dòng)清單

標(biāo)準(zhǔn)化的 AI 缺陷報(bào)告模板：
論文提出了一個(gè)標(biāo)準(zhǔn)化的 AI 缺陷報(bào)告模板（參見(jiàn)論文圖 3），旨在簡(jiǎn)化缺陷報(bào)告的提交、重現(xiàn)和優(yōu)先級(jí)排序過(guò)程。該模板包含了以下關(guān)鍵字段：

a.報(bào)告者 ID：報(bào)告者的匿名或真實(shí)身份。

b.報(bào)告 ID：唯一的缺陷報(bào)告 ID。

c.系統(tǒng)版本：受影響的 AI 系統(tǒng)和版本。

d.報(bào)告狀態(tài)：報(bào)告的當(dāng)前狀態(tài)（例如，已提交、調(diào)查中、已修復(fù)）。

e.會(huì)話 ID：用于追蹤缺陷環(huán)境的系統(tǒng)會(huì)話 ID。

f.報(bào)告時(shí)間戳：報(bào)告提交的時(shí)間。

g.缺陷時(shí)間戳：缺陷發(fā)生的時(shí)間。

h.上下文信息：涉及的其他軟件或硬件系統(tǒng)版本。

i.缺陷描述：缺陷的詳細(xì)描述，包括如何識(shí)別、重現(xiàn)以及它如何違反系統(tǒng)策略或用戶期望。

g.策略違反：詳細(xì)說(shuō)明系統(tǒng)期望如何被違反或未被記錄，指向使用條款、可接受使用策略、系統(tǒng)卡或其他文檔。

k.標(biāo)簽：用于缺陷分類、利益相關(guān)者路由和優(yōu)先級(jí)排序的標(biāo)簽（例如，開(kāi)發(fā)者、系統(tǒng)、嚴(yán)重性、普遍性、影響、受影響的利益相關(guān)者、風(fēng)險(xiǎn)來(lái)源、賞金資格）。

內(nèi)部評(píng)估作用有限：通用人工智能需要第三方缺陷披露機(jī)制-AI.x社區(qū)

該模板的設(shè)計(jì)借鑒了多個(gè)現(xiàn)有資源，包括 AI Incident Database、MITRE’s AI Incident form、OECD’s AI incident form、AI Vulnerability Database、MITRE’s STIX、CISA’s VEX 和 OASIS’s CSAF。

論文強(qiáng)調(diào)，對(duì)于與 GPAI 系統(tǒng)生成的輸出相關(guān)的缺陷，報(bào)告應(yīng)附有統(tǒng)計(jì)有效性指標(biāo)，以描述不良輸出出現(xiàn)的頻率 (McGregor et al., 2024b)。

論文附錄 B.1 提供了缺陷報(bào)告示例。

內(nèi)部評(píng)估作用有限：通用人工智能需要第三方缺陷披露機(jī)制-AI.x社區(qū)

善意 AI 研究的行為準(zhǔn)則：
論文借鑒計(jì)算機(jī)安全領(lǐng)域的“善意研究”概念，為第三方 GPAI 評(píng)估者提出了以下行為準(zhǔn)則：
這些規(guī)則旨在建立積極的規(guī)范，鼓勵(lì)負(fù)責(zé)任的研究行為，而非用于限制研究。

a.僅評(píng)估范圍內(nèi)的系統(tǒng)：評(píng)估應(yīng)僅限于已部署且可公開(kāi)訪問(wèn)的系統(tǒng)，除非獲得明確許可。

b.不損害真實(shí)用戶和系統(tǒng)：采取合理措施避免對(duì)系統(tǒng)運(yùn)行造成實(shí)質(zhì)性負(fù)擔(dān)、破壞數(shù)據(jù)或損害用戶體驗(yàn)。

c.保護(hù)隱私：未經(jīng)同意，不得故意訪問(wèn)、修改或使用他人的高度敏感、私有或機(jī)密數(shù)據(jù)。

d.不故意暴露、生成或存儲(chǔ)非法內(nèi)容：不得故意暴露、生成或存儲(chǔ)非法內(nèi)容，如兒童性虐待材料（CSAM）。

e.負(fù)責(zé)任地披露缺陷：及時(shí)報(bào)告發(fā)現(xiàn)的缺陷，并在必要時(shí)保持機(jī)密，直到缺陷得到緩解或經(jīng)過(guò)預(yù)先商定的披露期限。

f.不威脅利用信息進(jìn)行非法或脅迫目的：不得威脅利用缺陷信息對(duì)提供商或用戶進(jìn)行非法或脅迫。

GPAI 系統(tǒng)提供商的行動(dòng)清單

法律訪問(wèn)保護(hù)：
GPAI 系統(tǒng)提供商的服務(wù)條款（ToS）和可接受使用策略（AUP）可能阻礙合法研究 (Longpre et al., 2024b; Council, 2023; Klyman, 2024; Lemley & Henderson, 2024)。例如，禁止“逆向工程”、“自動(dòng)數(shù)據(jù)收集”或“復(fù)制”的條款可能會(huì)無(wú)意中限制評(píng)估流程中的必要步驟。
為了解決這個(gè)問(wèn)題，論文建議提供商在其服務(wù)條款中明確包含對(duì)遵循善意研究規(guī)則的研究的例外。這種例外可以 reassure 機(jī)構(gòu)審查委員會(huì)、出版商、法律團(tuán)隊(duì)和資助者，他們通常擔(dān)心授權(quán)或傳播可能與服務(wù)條款沖突的研究 (Longpre et al., 2024b; Harrington & Vermeulen, 2024)。
此外，論文建議提供商提供明確的法律安全港 (HackerOne, 2023; Etcovich & van der Merwe, 2018; Pfefferkorn, 2022)。安全港應(yīng)承諾不對(duì)遵守既定規(guī)則的研究人員采取法律行動(dòng)。論文提供了建議的措辭，包括豁免條款和法律安全港條款。
安全港應(yīng)基于善意研究規(guī)則，并廣泛涵蓋 AI 缺陷，而不僅僅是傳統(tǒng)的安全漏洞。
GPAI 缺陷披露計(jì)劃：
論文建議 AI 提供商支持專門(mén)的 GPAI 缺陷披露計(jì)劃，包括：
論文引用了 Cattell et al. (2024b)、Humane Intelligence 和 Anthropic 的缺陷披露計(jì)劃作為示例。

a.報(bào)告缺陷的界面：提供一個(gè)機(jī)制，供第三方評(píng)估者匿名提交結(jié)構(gòu)化缺陷報(bào)告、與提供商互動(dòng)以及對(duì)報(bào)告進(jìn)行優(yōu)先級(jí)排序。

b.披露策略：詳細(xì)說(shuō)明 GPAI 缺陷的范圍、測(cè)試人員的行為準(zhǔn)則以及對(duì)遵循規(guī)則的評(píng)估者的服務(wù)條款和責(zé)任的例外。

無(wú)需審核的研究訪問(wèn)：
為了進(jìn)一步賦能善意安全研究，論文建議 GPAI 提供商建立無(wú)需審核的研究訪問(wèn)計(jì)劃，也稱為“技術(shù)安全港” (Longpre et al., 2024b; Bucknall & Trager, 2023)。
這種計(jì)劃可以為經(jīng)過(guò)審查的研究人員提供更深入的系統(tǒng)訪問(wèn)權(quán)限，并確保他們的帳戶不會(huì)因測(cè)試活動(dòng)而被錯(cuò)誤地暫停。
研究人員審查可以采用事前審查或事后審查的方式，并應(yīng)基于“what not who”原則，即根據(jù)研究人員的行為而非身份來(lái)決定是否授予訪問(wèn)權(quán)限。

披露協(xié)調(diào)中心的行動(dòng)清單

解決可轉(zhuǎn)移 AI 缺陷的披露問(wèn)題：
AI 缺陷通常具有可轉(zhuǎn)移性，即一個(gè)模型或系統(tǒng)中的缺陷可能存在于其他模型或系統(tǒng)中 (Wallace et al., 2019; Carlini et al., 2021; Zou et al., 2023; Nasr et al., 2023a; Carlini et al., 2024b;a)。此外，AI 供應(yīng)鏈非常復(fù)雜，涉及多個(gè)利益相關(guān)者，包括數(shù)據(jù)提供商、模型開(kāi)發(fā)者、模型托管服務(wù)、應(yīng)用程序開(kāi)發(fā)者和分發(fā)平臺(tái) (Cen et al., 2023b)。
當(dāng)前，可轉(zhuǎn)移缺陷的披露存在局限性，通常只向一個(gè)提供商披露或直接向公眾披露，這可能導(dǎo)致其他受影響的系統(tǒng)未能及時(shí)采取緩解措施。
AI 披露協(xié)調(diào)中心的設(shè)計(jì)與功能：
為了解決可轉(zhuǎn)移缺陷的披露問(wèn)題，論文提出了一個(gè) AI 披露協(xié)調(diào)中心（參見(jiàn)論文圖 1），其作用類似于 Cybersecurity and Infrastructure Security Agency’s (CISA) incident reporting hub。
該中心將接收缺陷報(bào)告，并將其路由到相關(guān)的利益相關(guān)者，包括數(shù)據(jù)提供商、系統(tǒng)開(kāi)發(fā)者、模型托管服務(wù)、應(yīng)用程序開(kāi)發(fā)者、模型分發(fā)平臺(tái)、政府機(jī)構(gòu)，以及在適當(dāng)?shù)呐镀谙藓螅鼜V泛的公眾。
論文提出了一個(gè)輕量級(jí)的設(shè)計(jì)，利益相關(guān)者可以訂閱缺陷報(bào)告卡中的特定標(biāo)簽，并接收包含這些標(biāo)簽的所有報(bào)告。例如，Meta 可以訂閱“Meta”或“Llama 3.3”標(biāo)簽，數(shù)據(jù)提供商可以訂閱“風(fēng)險(xiǎn)來(lái)源：預(yù)訓(xùn)練數(shù)據(jù)”標(biāo)簽，政府機(jī)構(gòu)（如 CISA）可以訂閱“影響：網(wǎng)絡(luò)安全”標(biāo)簽。
該中心還將負(fù)責(zé)設(shè)置適當(dāng)?shù)呐镀谙蓿龠M(jìn)與利益相關(guān)者的溝通，并建立一個(gè)可查詢的歷史缺陷報(bào)告卡數(shù)據(jù)庫(kù)。

建議：促進(jìn)第三方 AI 評(píng)估生態(tài)系統(tǒng)

為了促進(jìn)第三方 AI 評(píng)估生態(tài)系統(tǒng)的發(fā)展，論文提出了七項(xiàng)政策建議：

發(fā)布關(guān)于第三方 AI 評(píng)估的指南：為研究人員提供關(guān)于何時(shí)以及如何進(jìn)行第三方評(píng)估的明確指導(dǎo)，包括最佳實(shí)踐、行為準(zhǔn)則和標(biāo)準(zhǔn)化報(bào)告模板。
將法律保護(hù)擴(kuò)展到 AI 安全和可信度研究：修改現(xiàn)有法律框架，將目前適用于 AI 安全研究的保護(hù)擴(kuò)展到 AI 安全和可信度研究，例如，澄清《數(shù)字千年版權(quán)法案》（DMCA）第 1201 條和《計(jì)算機(jī)欺詐和濫用法案》（CFAA）在 AI 安全和可信度方面的適用性。
要求 GPAI 提供商提高透明度：要求 GPAI 系統(tǒng)提供商披露關(guān)于其系統(tǒng)構(gòu)建、內(nèi)部評(píng)估、部署規(guī)模和影響的信息。
要求平臺(tái)提供安全港：要求向數(shù)百萬(wàn)用戶分發(fā) GPAI 系統(tǒng)的平臺(tái)（如云服務(wù)提供商或主要的封閉開(kāi)發(fā)者）為遵守行為準(zhǔn)則的研究人員提供法律和技術(shù)安全港。
資助和開(kāi)發(fā)集中式披露基礎(chǔ)設(shè)施：支持建立一個(gè)集中式的 AI 缺陷披露和協(xié)調(diào)中心，確保獨(dú)立評(píng)估者和研究人員可以系統(tǒng)地報(bào)告漏洞并跟蹤緩解措施。
鼓勵(lì)采用缺陷賞金：建立明確的 GPAI 系統(tǒng)缺陷賞金計(jì)劃指南，借鑒軟件系統(tǒng)漏洞賞金計(jì)劃的成功經(jīng)驗(yàn)，激勵(lì)研究人員主動(dòng)識(shí)別缺陷。
優(yōu)先采購(gòu)經(jīng)過(guò)第三方評(píng)估的系統(tǒng)：要求政府機(jī)構(gòu)優(yōu)先采購(gòu)經(jīng)過(guò)第三方評(píng)估的 GPAI 系統(tǒng)，將問(wèn)責(zé)制和嚴(yán)格評(píng)估的原則納入公共部門(mén)的 GPAI 部署。

論文引用了相關(guān)的現(xiàn)有法規(guī)（參見(jiàn)論文表 A1），包括 NIST AI 600-1、NIST AI 800-1、NIST SP 800-53 r5、NIST Cybersecurity Framework 2.0、NTIA Safety Working Group Vulnerability Disclosure Template v1.1、《數(shù)字千年版權(quán)法案》（DMCA）、《計(jì)算機(jī)欺詐和濫用法案》（CFAA）、CISA Binding Operational Directive 20-01、《關(guān)鍵基礎(chǔ)設(shè)施網(wǎng)絡(luò)事件報(bào)告法案》（CIRCIA）、《物聯(lián)網(wǎng)網(wǎng)絡(luò)安全改進(jìn)法案》、歐盟《網(wǎng)絡(luò)彈性法案》和歐盟 NIS 2 指令。

內(nèi)部評(píng)估作用有限：通用人工智能需要第三方缺陷披露機(jī)制-AI.x社區(qū)

不同觀點(diǎn)：對(duì)第三方評(píng)估和協(xié)調(diào)漏洞披露的質(zhì)疑

論文討論了兩種常見(jiàn)的反對(duì)第三方評(píng)估和協(xié)調(diào)漏洞披露的觀點(diǎn)。

觀點(diǎn) 1：第一方和第二方評(píng)估，加上第三方對(duì)部署系統(tǒng)的廉價(jià)商業(yè)訪問(wèn)，足以發(fā)現(xiàn)和解決主要缺陷。
這種觀點(diǎn)認(rèn)為，GPAI 系統(tǒng)提供商進(jìn)行的內(nèi)部評(píng)估和合同評(píng)估，以及第三方通過(guò)廉價(jià) API 訪問(wèn) GPAI 系統(tǒng)，已經(jīng)足夠發(fā)現(xiàn)和解決主要缺陷。
論文反駁了這種觀點(diǎn)，指出它未能考慮到：
論文強(qiáng)調(diào)，機(jī)器學(xué)習(xí)社區(qū)、政策制定者和民間社會(huì)對(duì)更廣泛的風(fēng)險(xiǎn)具有專業(yè)知識(shí)和關(guān)注，而不僅僅是 GPAI 系統(tǒng)提供商和第二方評(píng)估者關(guān)注的風(fēng)險(xiǎn)。

因害怕報(bào)復(fù)而未進(jìn)行安全研究的研究人員。
在社交媒體上報(bào)告（或根本未報(bào)告）的大量缺陷。
缺乏對(duì)嚴(yán)重缺陷采取集體行動(dòng)的基礎(chǔ)設(shè)施。
法律或程序上的不確定性帶來(lái)的障礙。

觀點(diǎn) 2：?jiǎn)⒂玫谌皆u(píng)估和協(xié)調(diào)漏洞披露的努力給資源有限的公司帶來(lái)了困難的權(quán)衡。
這種觀點(diǎn)認(rèn)為，GPAI 系統(tǒng)提供商在競(jìng)爭(zhēng)激烈的商業(yè)環(huán)境中資源有限，沒(méi)有足夠的帶寬來(lái)管理研究人員訪問(wèn)計(jì)劃，而且通常只有少數(shù)人負(fù)責(zé)協(xié)調(diào)數(shù)千名感興趣的研究人員的訪問(wèn)。
論文反駁了這種觀點(diǎn)，指出：
論文強(qiáng)調(diào)，隨著 AI 系統(tǒng)變得越來(lái)越強(qiáng)大，其在社會(huì)中的應(yīng)用也越來(lái)越廣泛，優(yōu)先考慮缺陷發(fā)現(xiàn)、緩解和披露是至關(guān)重要的。

領(lǐng)先的 GPAI 系統(tǒng)開(kāi)發(fā)商擁有數(shù)十億美元的資金，足以雇傭更多員工來(lái)幫助研究人員發(fā)現(xiàn)系統(tǒng)中的缺陷。
精心設(shè)計(jì)的缺陷披露生態(tài)系統(tǒng)（如圖 1 所示）對(duì)供應(yīng)鏈中的每個(gè)參與者來(lái)說(shuō)成本都很低，而且每個(gè)參與者都可以從通用基礎(chǔ)設(shè)施中受益。
從長(zhǎng)遠(yuǎn)來(lái)看，為協(xié)調(diào)漏洞披露基礎(chǔ)設(shè)施做出貢獻(xiàn)的投資回報(bào)將是巨大的。

未來(lái)發(fā)展：開(kāi)放性的問(wèn)題與解決方案

論文指出了三個(gè)主要的未來(lái)發(fā)展方向：

統(tǒng)一缺陷定義與責(zé)任：
缺陷報(bào)告者和 GPAI 系統(tǒng)提供商之間在缺陷定義和責(zé)任方面可能存在分歧。例如，某些提示可能使用戶能夠生成看似構(gòu)成版權(quán)侵權(quán)的圖像，而提供商和用戶都可能認(rèn)為對(duì)方應(yīng)對(duì)侵權(quán)負(fù)責(zé) (Lee et al., 2024)。
論文建議系統(tǒng)提供商維護(hù)明確的策略和系統(tǒng)文檔，并要求 GPAI 缺陷報(bào)告基于這些策略和文檔。未來(lái)的研究應(yīng)探討公司如何最好地調(diào)整和更新其策略和文檔，以促進(jìn)協(xié)調(diào)缺陷披露。
缺陷緩解與補(bǔ)救流程：
一旦缺陷被披露，如何緩解或補(bǔ)救這些缺陷仍然不確定。一個(gè)有效的協(xié)調(diào)缺陷披露機(jī)制將大大增加系統(tǒng)提供商收到的缺陷報(bào)告數(shù)量，并使觀察提供商是否真正緩解或補(bǔ)救這些缺陷變得更容易。
未來(lái)的研究應(yīng)幫助提供商選擇如何對(duì)缺陷進(jìn)行優(yōu)先級(jí)排序，并確定緩解范圍的選項(xiàng)。
披露協(xié)調(diào)中心的治理：
如何確保披露協(xié)調(diào)中心獲得 AI 生態(tài)系統(tǒng)中關(guān)鍵私營(yíng)部門(mén)參與者的支持，同時(shí)保持其在第三方評(píng)估者中的公信力，是一個(gè)潛在的挑戰(zhàn)。
未來(lái)的研究應(yīng)構(gòu)建披露協(xié)調(diào)中心的關(guān)鍵功能，并朝著更大的問(wèn)責(zé)制邁進(jìn)。

總結(jié)與展望

該論文提出了一個(gè)全新的 GPAI 安全范式，強(qiáng)調(diào)了第三方評(píng)估和協(xié)調(diào)缺陷披露對(duì)于提高 GPAI 系統(tǒng)安全、保障和可信度的重要性。

論文的核心觀點(diǎn)是，僅靠?jī)?nèi)部評(píng)估不足以保障 GPAI 系統(tǒng)的安全。需要建立一個(gè)穩(wěn)健的第三方缺陷披露機(jī)制，鼓勵(lì)研究人員參與缺陷發(fā)現(xiàn)，并為其提供法律和技術(shù)保護(hù)，同時(shí)確保缺陷信息能夠及時(shí)、準(zhǔn)確地傳遞給所有受影響的利益相關(guān)者。

這個(gè)思路其實(shí)對(duì)于國(guó)內(nèi)實(shí)施監(jiān)管的網(wǎng)信辦發(fā)布的管理辦法有著非常大的借鑒意義。監(jiān)管與治理從來(lái)都不是一個(gè)靜態(tài)的過(guò)程，而是需要進(jìn)行持續(xù)有力且有抓手的監(jiān)督。這個(gè)三方缺陷披露的框架就是一個(gè)很好的可供參考的設(shè)計(jì)。

論文為第三方 AI 評(píng)估者、GPAI 系統(tǒng)提供商和披露協(xié)調(diào)中心分別制定了行動(dòng)清單，并提出了七項(xiàng)政策建議，以促進(jìn)第三方 AI 評(píng)估生態(tài)系統(tǒng)的發(fā)展。

論文還討論了兩種常見(jiàn)的反對(duì)觀點(diǎn)，并對(duì)其進(jìn)行了反駁。

最后，論文指出了三個(gè)主要的未來(lái)研究領(lǐng)域，包括統(tǒng)一缺陷定義與責(zé)任、優(yōu)化缺陷緩解與補(bǔ)救流程以及披露協(xié)調(diào)中心的治理。

參考論文： arXiv:2503.16861v1 [cs.AI] 21 Mar 2025

本文轉(zhuǎn)載自??上堵吟??，作者：一路到底的孟子敬

標(biāo)簽

已于2025-4-15 09:36:10修改

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

利用人工智能對(duì)文本內(nèi)容進(jìn)行自動(dòng)摘要

51CTO內(nèi)容精選 ? 2763瀏覽 ? 0回復(fù)
合成數(shù)據(jù)：解鎖通用人工智能的“關(guān)鍵之鑰”？

Baihai_IDP ? 2121瀏覽 ? 0回復(fù)
行動(dòng)、變化與智能：人工智能中的推理機(jī)制

xuxiangda ? 2522瀏覽 ? 0回復(fù)
人工智能在低代碼和無(wú)代碼開(kāi)發(fā)中的積極作用

51CTO內(nèi)容精選 ? 1831瀏覽 ? 0回復(fù)
使用人工智能增強(qiáng) IaC以提高下一代基礎(chǔ)設(shè)施的效率

51CTO內(nèi)容精選 ? 1885瀏覽 ? 0回復(fù)
人工智能的三個(gè)階段計(jì)算智能，感知智能和認(rèn)知智能

AI探索時(shí)代 ? 3471瀏覽 ? 0回復(fù)
學(xué)習(xí)大模型開(kāi)發(fā)，需要具備人工智能或深度學(xué)習(xí)理論基礎(chǔ)嗎？

AI探索時(shí)代 ? 1877瀏覽 ? 0回復(fù)
關(guān)于調(diào)用第三方大模型服務(wù)商接口的感受

AI探索時(shí)代 ? 2066瀏覽 ? 0回復(fù)
開(kāi)發(fā)人員是否應(yīng)該使用人工智能代碼審查工具？

51CTO內(nèi)容精選 ? 1892瀏覽 ? 0回復(fù)
用人工智能創(chuàng)造更美好的明天，20000美元現(xiàn)金等你來(lái)挑戰(zhàn)

AI.x社區(qū)活動(dòng)小助手 ? 1710瀏覽 ? 0回復(fù)
提升人工智能性能的三種關(guān)鍵的LLM壓縮策略

51CTO內(nèi)容精選 ? 1839瀏覽 ? 0回復(fù)
人工智能智能體(AI Agent)發(fā)展趨勢(shì)2024年總結(jié)與2025年展望

十一月雨_55 ? 8319瀏覽 ? 0回復(fù)
大語(yǔ)言模型邁向通用人工智能（AGI）征程全面綜述：四大核心要素必不可少！

十一月雨_55 ? 3208瀏覽 ? 0回復(fù)
如何安全地使用第三方應(yīng)用程序訪問(wèn)DeepSeek

51CTO內(nèi)容精選 ? 1998瀏覽 ? 0回復(fù)
自建智能算力中心 vs. 第三方算力租賃：AI企業(yè)的算力博弈與最優(yōu)解

AI算力補(bǔ)給站 ? 1463瀏覽 ? 0回復(fù)
從大模型到智能體AI，邁向通用人工智能的新征程

十一月雨_55 ? 1357瀏覽 ? 0回復(fù)
60張圖深度剖析LLM Agents，逼近通用人工智能

CourseAI ? 1412瀏覽 ? 0回復(fù)
如何利用人工智能和事件驅(qū)動(dòng)設(shè)計(jì)實(shí)現(xiàn)播客推廣的自動(dòng)化

51CTO內(nèi)容精選 ? 734瀏覽 ? 0回復(fù)
使用人工智能幻覺(jué)評(píng)估圖像真實(shí)感?

51CTO內(nèi)容精選 ? 1174瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

AI 對(duì)齊失敗 = 文明終結(jié)？《AI 2027》報(bào)告的殘酷警示與“硬傷”分析 3天前發(fā)布
AI會(huì)“思考”嗎？重讀笛卡爾《談?wù)劮椒ā?，解鎖智能與意識(shí)的百年謎題 2025-04-02 07:48:29發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： AI會(huì)“思考”嗎？重讀笛卡爾《談?wù)劮椒ā?，解鎖智能與意識(shí)的百年謎題

下一篇： AI 對(duì)齊失敗 = 文明終結(jié)？《AI 2027》報(bào)告的殘酷警示與“硬傷”分析

社區(qū)精華內(nèi)容

目錄

<cite id="sw6t1"></cite>

^{<thead id="sw6t1"></thead>}

<blockquote id="sw6t1"><p id="sw6t1"></p></blockquote>

<sub id="sw6t1"></sub>