自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

內(nèi)部評(píng)估作用有限:通用人工智能需要第三方缺陷披露機(jī)制

發(fā)布于 2025-4-15 07:52
瀏覽
0收藏

通用人工智能(GPAI)時(shí)代的風(fēng)險(xiǎn)與挑戰(zhàn)

通用人工智能(GPAI)系統(tǒng),憑借其廣泛的應(yīng)用能力,正迅速滲透到我們生活的方方面面。這些基于基礎(chǔ)模型并服務(wù)于多種用途的軟件系統(tǒng),已擁有龐大的用戶群體。一些 GPAI 系統(tǒng)每周活躍用戶已超過(guò) 3 億。同時(shí),GPAI 系統(tǒng)在安全和權(quán)利影響領(lǐng)域的應(yīng)用也日益廣泛,如醫(yī)療保健、金融、教育和司法等 (Maragno et al., 2023; Young, 2024; Perez-Cerrolaza et al., 2024)。

然而,GPAI 系統(tǒng)的廣泛應(yīng)用也伴隨著巨大的潛在風(fēng)險(xiǎn)。與傳統(tǒng)軟件不同,GPAI 系統(tǒng)往往表現(xiàn)出概率性故障(Raji et al., 2022a),這意味著它們的行為并非總是可預(yù)測(cè)或可解釋的。這種不確定性帶來(lái)了諸多安全、保障和可信度方面的風(fēng)險(xiǎn) (Weidinger et al., 2022; Li et al., 2023)。論文中列舉了多個(gè)已報(bào)告的 GPAI 缺陷案例,例如:

  • Angwin et al. (2024) 報(bào)道了 AI 系統(tǒng)傳播關(guān)于選舉過(guò)程的錯(cuò)誤信息。
  • Vishwanath et al. (2024) 發(fā)現(xiàn)了 AI 系統(tǒng)導(dǎo)致醫(yī)療記錄損壞的案例。
  • Cheng (2024) 揭示了 AI 系統(tǒng)被用于生成和傳播圖像性虐待內(nèi)容。

這些案例表明,GPAI 系統(tǒng)的缺陷可能導(dǎo)致嚴(yán)重的社會(huì)危害,包括誤導(dǎo)公眾、侵犯隱私、損害健康、加劇歧視等。

盡管存在這些風(fēng)險(xiǎn),但當(dāng)前 GPAI 系統(tǒng)缺陷報(bào)告的基礎(chǔ)設(shè)施、實(shí)踐和規(guī)范卻嚴(yán)重滯后。與軟件安全等成熟領(lǐng)域相比,AI 領(lǐng)域的缺陷報(bào)告機(jī)制還處于初級(jí)階段。這種滯后使得 GPAI 系統(tǒng)的安全漏洞和社會(huì)技術(shù)風(fēng)險(xiǎn)難以被及時(shí)發(fā)現(xiàn)和有效解決。

為了應(yīng)對(duì)這一挑戰(zhàn),以麻省和斯坦福為主的研究人員在論文《In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI》中提出了一個(gè)全新的 GPAI 安全范式,其核心在于建立一個(gè)穩(wěn)健的第三方缺陷披露機(jī)制。

論文提出了三個(gè)核心干預(yù)措施:

  1. 標(biāo)準(zhǔn)化的 AI 缺陷報(bào)告和研究人員行為準(zhǔn)則:旨在簡(jiǎn)化 GPAI 系統(tǒng)缺陷的提交、重現(xiàn)和優(yōu)先級(jí)排序過(guò)程。
  2. GPAI 系統(tǒng)提供商采用廣泛的缺陷披露計(jì)劃和安全港:鼓勵(lì)第三方研究人員參與缺陷發(fā)現(xiàn),并為其提供法律和技術(shù)保護(hù)。
  3. 改進(jìn)基礎(chǔ)設(shè)施以協(xié)調(diào)缺陷報(bào)告的分發(fā):確保缺陷信息能夠及時(shí)、準(zhǔn)確地傳遞給所有受影響的利益相關(guān)者。

第三方評(píng)估的必要性:超越內(nèi)部評(píng)估的局限

傳統(tǒng)的 AI 系統(tǒng)評(píng)估主要依賴于內(nèi)部評(píng)估,即由系統(tǒng)開(kāi)發(fā)者或其委托的第二方進(jìn)行的評(píng)估。然而,內(nèi)部評(píng)估存在固有的局限性,使其難以充分保障 GPAI 系統(tǒng)的安全性和可靠性。

首先,內(nèi)部評(píng)估在規(guī)模上受限。由于資源和時(shí)間的限制,內(nèi)部評(píng)估團(tuán)隊(duì)通常規(guī)模較小,無(wú)法對(duì)系統(tǒng)進(jìn)行全面、深入的測(cè)試。其次,內(nèi)部評(píng)估在覆蓋范圍上存在不足。內(nèi)部評(píng)估人員可能缺乏多樣化的視角和專業(yè)知識(shí),難以發(fā)現(xiàn)所有潛在的缺陷。最后,內(nèi)部評(píng)估在獨(dú)立性方面存在缺陷。由于利益沖突的存在,內(nèi)部評(píng)估人員可能傾向于低估或忽視某些缺陷。

相比之下,第三方評(píng)估具有獨(dú)特的優(yōu)勢(shì)。第三方評(píng)估可以:

  • 擴(kuò)大評(píng)估規(guī)模:吸引更廣泛的評(píng)估者群體參與,包括獨(dú)立研究人員、安全專家、倫理學(xué)家、社會(huì)科學(xué)家等。
  • 拓寬評(píng)估覆蓋范圍:引入更多樣化的視角和專業(yè)知識(shí),發(fā)現(xiàn)更廣泛的缺陷,包括安全漏洞、偏見(jiàn)、魯棒性問(wèn)題、可解釋性問(wèn)題等。
  • 提高評(píng)估獨(dú)立性:避免利益沖突,更客觀地評(píng)估系統(tǒng)的風(fēng)險(xiǎn)。
  • 增強(qiáng)評(píng)估適應(yīng)性:及時(shí)發(fā)現(xiàn)和應(yīng)對(duì)部署后出現(xiàn)的新風(fēng)險(xiǎn),因?yàn)镚PAI系統(tǒng)在使用過(guò)程中經(jīng)常出現(xiàn)意想不到的風(fēng)險(xiǎn)。

論文引用 Raji et al. (2022b) 的研究,強(qiáng)調(diào)了第三方風(fēng)險(xiǎn)評(píng)估對(duì)于識(shí)別和減輕 GPAI 系統(tǒng)潛在危害的獨(dú)特必要性。

然而,要充分發(fā)揮第三方評(píng)估的潛力,需要建立一個(gè)完善的基礎(chǔ)設(shè)施和機(jī)制。當(dāng)前,GPAI 評(píng)估生態(tài)系統(tǒng)與軟件安全等成熟領(lǐng)域相比,還存在顯著差距。這促使我們借鑒協(xié)調(diào)漏洞披露和漏洞賞金的原則,構(gòu)建一個(gè)更穩(wěn)健的 GPAI 缺陷披露體系。

問(wèn)題:AI 評(píng)估實(shí)踐與軟件安全實(shí)踐的差距

為了更清晰地理解當(dāng)前 AI 評(píng)估實(shí)踐的不足,我們需要先要明確 AI 缺陷的定義和范圍。論文對(duì)“AI 缺陷”給出了一個(gè)廣義的定義:

一組條件或行為,允許違反與系統(tǒng)安全性、保障性或其他不良影響相關(guān)的顯式或隱式策略。

這一定義涵蓋了傳統(tǒng)的軟件安全漏洞,以及更廣泛的社會(huì)技術(shù)風(fēng)險(xiǎn),例如偏見(jiàn)、歧視、虛假信息、隱私侵犯等 (Solaiman et al., 2024)。這種廣義的定義反映了 GPAI 系統(tǒng)可能產(chǎn)生的復(fù)雜多樣的危害。

第三方 AI 評(píng)估者在發(fā)現(xiàn)和報(bào)告 AI 缺陷方面發(fā)揮著關(guān)鍵作用。他們可以是獨(dú)立研究人員、安全專家、倫理學(xué)家、社會(huì)科學(xué)家,甚至是普通用戶。然而,當(dāng)前第三方評(píng)估者面臨著諸多挑戰(zhàn):

  • 缺乏統(tǒng)一的報(bào)告標(biāo)準(zhǔn)和流程:導(dǎo)致缺陷報(bào)告難以提交、重現(xiàn)和優(yōu)先級(jí)排序。
  • 缺乏有效的披露渠道:缺陷信息難以傳遞給所有受影響的利益相關(guān)者。
  • 缺乏法律和技術(shù)保護(hù):評(píng)估者擔(dān)心因違反服務(wù)條款或觸犯法律而受到懲罰。

這些挑戰(zhàn)阻礙了第三方評(píng)估者的積極性,也限制了第三方評(píng)估的效果。甚至還有某些第三方評(píng)估將其作為營(yíng)利的商業(yè)手段。

但大環(huán)境之下,GPAI 系統(tǒng)的安全、保障和可信度又確實(shí)面臨著獨(dú)特的挑戰(zhàn)。這些系統(tǒng)已部署到數(shù)億用戶 (Roth, 2025; OpenAI, 2025),但其部署后的風(fēng)險(xiǎn)狀況卻不透明 (Bommasani et al., 2023)。GPAI 系統(tǒng)的風(fēng)險(xiǎn)具有多樣性和不可預(yù)測(cè)性 (Weidinger et al., 2021; 2022; Marchal et al., 2024a; Cattell et al., 2024b; Kapoor et al., 2024),這使得風(fēng)險(xiǎn)評(píng)估和緩解變得更加困難。

第三方研究人員已經(jīng)發(fā)現(xiàn)了大量與 GPAI 系統(tǒng)安全、保障和可信度相關(guān)的嚴(yán)重缺陷 (Carlini et al., 2024b;a; Reuel et al., 2024; Cattell et al., 2024b)。然而,令人擔(dān)憂的是,當(dāng)前資源主要集中于 GPAI 系統(tǒng)的產(chǎn)品化,而非解決這些安全挑戰(zhàn) (Schmidt Sciences, 2024)。

現(xiàn)有 AI 缺陷報(bào)告機(jī)制存在三個(gè)核心差距:

  • 缺乏報(bào)告文化:與軟件安全領(lǐng)域成熟的漏洞報(bào)告文化相比,AI 領(lǐng)域的缺陷報(bào)告還處于起步階段。許多缺陷被忽視或未被報(bào)告,或者僅在社交媒體上非正式地披露(參見(jiàn)論文圖 1)。

內(nèi)部評(píng)估作用有限:通用人工智能需要第三方缺陷披露機(jī)制-AI.x社區(qū)

  • 有限的披露基礎(chǔ)設(shè)施:現(xiàn)有的報(bào)告選項(xiàng)有限且分散,難以滿足 GPAI 缺陷報(bào)告的需求(參見(jiàn)論文表 A3)。

內(nèi)部評(píng)估作用有限:通用人工智能需要第三方缺陷披露機(jī)制-AI.x社區(qū)

  • 缺乏對(duì)評(píng)估者的法律和技術(shù)保護(hù):缺乏安全港機(jī)制,評(píng)估者擔(dān)心因違反服務(wù)條款或觸犯法律而受到懲罰 (Harrington & Vermeulen, 2024; Council, 2023; Albert et al., 2024)。

這些差距凸顯了構(gòu)建一個(gè)更穩(wěn)健的 GPAI 缺陷披露機(jī)制的緊迫性。

構(gòu)建更好的 GPAI 缺陷披露:借鑒軟件安全的六項(xiàng)原則

為了構(gòu)建一個(gè)更有效的 GPAI 缺陷披露機(jī)制,論文借鑒了軟件安全領(lǐng)域的六項(xiàng)原則,并糾正了六個(gè)常見(jiàn)的誤解。

  1. 糾正誤解 1:第三方評(píng)估和缺陷披露不是資源的有效利用。
    軟件安全領(lǐng)域的經(jīng)驗(yàn)表明,第三方評(píng)估和漏洞披露對(duì)于提高系統(tǒng)安全性具有重要作用。多項(xiàng)研究表明,漏洞披露可以顯著提高軟件安全性 (Gal-Or et al., 2024; Walshe & Simpson, 2022; Boucher & Anderson, 2022; Wachs, 2022; Arora et al., 2010)。其他行業(yè),如美國(guó)國(guó)防部和食品藥品管理局,也采用了漏洞披露計(jì)劃 (DoD Cyber Crime Center, 2022; Schwartz et al., 2018)。
  2. 糾正誤解 2:GPAI 系統(tǒng)與現(xiàn)有軟件不同,需要特殊的披露規(guī)則。
    盡管 GPAI 系統(tǒng)具有概率性輸出、缺陷可轉(zhuǎn)移性、領(lǐng)域?qū)I(yè)知識(shí)等特點(diǎn),但這并非 GPAI 系統(tǒng)獨(dú)有。許多軟件系統(tǒng)也具有類似的特性。U.S. Cybersecurity and Infrastructure Security Agency 和 Carnegie Mellon University’s CERT 已經(jīng)運(yùn)行了針對(duì)具有這些特征的缺陷的協(xié)調(diào)漏洞披露計(jì)劃 (Boucher & Anderson, 2022; Cattell et al., 2024b)。Householder et al. (2024a) 指出,軟件漏洞披露計(jì)劃可以為 AI 缺陷披露提供最佳實(shí)踐。
  3. 糾正誤解 3:缺陷披露是為系統(tǒng)開(kāi)發(fā)者服務(wù)的,而不是為公眾。
    缺陷披露應(yīng)面向所有利益相關(guān)者,包括開(kāi)發(fā)者、部署者、用戶、公眾、監(jiān)管機(jī)構(gòu)等。公眾知情權(quán)對(duì)于提高 AI 產(chǎn)品安全性和形成市場(chǎng)壓力至關(guān)重要 (Householder et al., 2024a)。
  4. 糾正誤解 4:缺陷披露僅適用于開(kāi)發(fā)或使用報(bào)告的 GPAI 系統(tǒng)的供應(yīng)鏈參與者。
    可轉(zhuǎn)移缺陷可能影響多個(gè)系統(tǒng),涉及多個(gè)系統(tǒng)開(kāi)發(fā)者、部署者和分發(fā)者 (Wallace et al., 2019)。因此,需要一個(gè)協(xié)調(diào)披露基礎(chǔ)設(shè)施來(lái)及時(shí)發(fā)現(xiàn)和緩解這些缺陷 (McGregor, 2024)。
  5. 糾正誤解 5:確定 GPAI 系統(tǒng)的行為是否非預(yù)期并不可行。
    缺陷識(shí)別是可行的,尤其是在基于 GPAI 系統(tǒng)提供商的策略或文檔的情況下 (McGregor et al., 2024a)。缺陷報(bào)告應(yīng)基于這些策略和文檔 (McGregor et al., 2024a; OpenAI, 2024b)。
  6. 糾正誤解 6:對(duì)善意第三方評(píng)估的保護(hù)可能會(huì)助長(zhǎng)惡意使用。
    “安全港”機(jī)制通過(guò)“what not who”原則,保護(hù)遵守規(guī)則的善意研究,而非基于研究者的身份 (Oakley, 2019; Department of Justice, 2022)。研究表明,安全港可以提高技術(shù)產(chǎn)品的韌性和質(zhì)量 (Tschider, 2024)。

GPAI 評(píng)估與缺陷披露的新范式:三方參與者的行動(dòng)清單

為了實(shí)現(xiàn)一個(gè)更穩(wěn)健的 GPAI 缺陷披露機(jī)制,論文提出了一個(gè)新范式,并為第三方 AI 評(píng)估者、GPAI 系統(tǒng)提供商和披露協(xié)調(diào)中心分別制定了行動(dòng)清單。

第三方 AI 評(píng)估者的行動(dòng)清單

  • 標(biāo)準(zhǔn)化的 AI 缺陷報(bào)告模板:
    論文提出了一個(gè)標(biāo)準(zhǔn)化的 AI 缺陷報(bào)告模板(參見(jiàn)論文圖 3),旨在簡(jiǎn)化缺陷報(bào)告的提交、重現(xiàn)和優(yōu)先級(jí)排序過(guò)程。該模板包含了以下關(guān)鍵字段:

a.報(bào)告者 ID:報(bào)告者的匿名或真實(shí)身份。

b.報(bào)告 ID:唯一的缺陷報(bào)告 ID。

c.系統(tǒng)版本:受影響的 AI 系統(tǒng)和版本。

d.報(bào)告狀態(tài):報(bào)告的當(dāng)前狀態(tài)(例如,已提交、調(diào)查中、已修復(fù))。

e.會(huì)話 ID:用于追蹤缺陷環(huán)境的系統(tǒng)會(huì)話 ID。

f.報(bào)告時(shí)間戳:報(bào)告提交的時(shí)間。

g.缺陷時(shí)間戳:缺陷發(fā)生的時(shí)間。

h.上下文信息:涉及的其他軟件或硬件系統(tǒng)版本。

i.缺陷描述:缺陷的詳細(xì)描述,包括如何識(shí)別、重現(xiàn)以及它如何違反系統(tǒng)策略或用戶期望。

g.策略違反:詳細(xì)說(shuō)明系統(tǒng)期望如何被違反或未被記錄,指向使用條款、可接受使用策略、系統(tǒng)卡或其他文檔。

k.標(biāo)簽:用于缺陷分類、利益相關(guān)者路由和優(yōu)先級(jí)排序的標(biāo)簽(例如,開(kāi)發(fā)者、系統(tǒng)、嚴(yán)重性、普遍性、影響、受影響的利益相關(guān)者、風(fēng)險(xiǎn)來(lái)源、賞金資格)。

內(nèi)部評(píng)估作用有限:通用人工智能需要第三方缺陷披露機(jī)制-AI.x社區(qū)

該模板的設(shè)計(jì)借鑒了多個(gè)現(xiàn)有資源,包括 AI Incident Database、MITRE’s AI Incident form、OECD’s AI incident form、AI Vulnerability Database、MITRE’s STIX、CISA’s VEX 和 OASIS’s CSAF。

論文強(qiáng)調(diào),對(duì)于與 GPAI 系統(tǒng)生成的輸出相關(guān)的缺陷,報(bào)告應(yīng)附有統(tǒng)計(jì)有效性指標(biāo),以描述不良輸出出現(xiàn)的頻率 (McGregor et al., 2024b)。

論文附錄 B.1 提供了缺陷報(bào)告示例。

內(nèi)部評(píng)估作用有限:通用人工智能需要第三方缺陷披露機(jī)制-AI.x社區(qū)

  • 善意 AI 研究的行為準(zhǔn)則:
    論文借鑒計(jì)算機(jī)安全領(lǐng)域的“善意研究”概念,為第三方 GPAI 評(píng)估者提出了以下行為準(zhǔn)則:
    這些規(guī)則旨在建立積極的規(guī)范,鼓勵(lì)負(fù)責(zé)任的研究行為,而非用于限制研究。

a.僅評(píng)估范圍內(nèi)的系統(tǒng):評(píng)估應(yīng)僅限于已部署且可公開(kāi)訪問(wèn)的系統(tǒng),除非獲得明確許可。

b.不損害真實(shí)用戶和系統(tǒng):采取合理措施避免對(duì)系統(tǒng)運(yùn)行造成實(shí)質(zhì)性負(fù)擔(dān)、破壞數(shù)據(jù)或損害用戶體驗(yàn)。

c.保護(hù)隱私:未經(jīng)同意,不得故意訪問(wèn)、修改或使用他人的高度敏感、私有或機(jī)密數(shù)據(jù)。

d.不故意暴露、生成或存儲(chǔ)非法內(nèi)容:不得故意暴露、生成或存儲(chǔ)非法內(nèi)容,如兒童性虐待材料(CSAM)。

e.負(fù)責(zé)任地披露缺陷:及時(shí)報(bào)告發(fā)現(xiàn)的缺陷,并在必要時(shí)保持機(jī)密,直到缺陷得到緩解或經(jīng)過(guò)預(yù)先商定的披露期限。

f.不威脅利用信息進(jìn)行非法或脅迫目的:不得威脅利用缺陷信息對(duì)提供商或用戶進(jìn)行非法或脅迫。

GPAI 系統(tǒng)提供商的行動(dòng)清單

  1. 法律訪問(wèn)保護(hù):
    GPAI 系統(tǒng)提供商的服務(wù)條款(ToS)和可接受使用策略(AUP)可能阻礙合法研究 (Longpre et al., 2024b; Council, 2023; Klyman, 2024; Lemley & Henderson, 2024)。例如,禁止“逆向工程”、“自動(dòng)數(shù)據(jù)收集”或“復(fù)制”的條款可能會(huì)無(wú)意中限制評(píng)估流程中的必要步驟。
    為了解決這個(gè)問(wèn)題,論文建議提供商在其服務(wù)條款中明確包含對(duì)遵循善意研究規(guī)則的研究的例外。這種例外可以 reassure 機(jī)構(gòu)審查委員會(huì)、出版商、法律團(tuán)隊(duì)和資助者,他們通常擔(dān)心授權(quán)或傳播可能與服務(wù)條款沖突的研究 (Longpre et al., 2024b; Harrington & Vermeulen, 2024)。
    此外,論文建議提供商提供明確的法律安全港 (HackerOne, 2023; Etcovich & van der Merwe, 2018; Pfefferkorn, 2022)。安全港應(yīng)承諾不對(duì)遵守既定規(guī)則的研究人員采取法律行動(dòng)。論文提供了建議的措辭,包括豁免條款和法律安全港條款。
    安全港應(yīng)基于善意研究規(guī)則,并廣泛涵蓋 AI 缺陷,而不僅僅是傳統(tǒng)的安全漏洞。
  2. GPAI 缺陷披露計(jì)劃:
    論文建議 AI 提供商支持專門(mén)的 GPAI 缺陷披露計(jì)劃,包括:
    論文引用了 Cattell et al. (2024b)、Humane Intelligence 和 Anthropic 的缺陷披露計(jì)劃作為示例。

a.報(bào)告缺陷的界面:提供一個(gè)機(jī)制,供第三方評(píng)估者匿名提交結(jié)構(gòu)化缺陷報(bào)告、與提供商互動(dòng)以及對(duì)報(bào)告進(jìn)行優(yōu)先級(jí)排序。

b.披露策略:詳細(xì)說(shuō)明 GPAI 缺陷的范圍、測(cè)試人員的行為準(zhǔn)則以及對(duì)遵循規(guī)則的評(píng)估者的服務(wù)條款和責(zé)任的例外。

  1. 無(wú)需審核的研究訪問(wèn):
    為了進(jìn)一步賦能善意安全研究,論文建議 GPAI 提供商建立無(wú)需審核的研究訪問(wèn)計(jì)劃,也稱為“技術(shù)安全港” (Longpre et al., 2024b; Bucknall & Trager, 2023)。
    這種計(jì)劃可以為經(jīng)過(guò)審查的研究人員提供更深入的系統(tǒng)訪問(wèn)權(quán)限,并確保他們的帳戶不會(huì)因測(cè)試活動(dòng)而被錯(cuò)誤地暫停。
    研究人員審查可以采用事前審查或事后審查的方式,并應(yīng)基于“what not who”原則,即根據(jù)研究人員的行為而非身份來(lái)決定是否授予訪問(wèn)權(quán)限。

披露協(xié)調(diào)中心的行動(dòng)清單

  1. 解決可轉(zhuǎn)移 AI 缺陷的披露問(wèn)題:
    AI 缺陷通常具有可轉(zhuǎn)移性,即一個(gè)模型或系統(tǒng)中的缺陷可能存在于其他模型或系統(tǒng)中 (Wallace et al., 2019; Carlini et al., 2021; Zou et al., 2023; Nasr et al., 2023a; Carlini et al., 2024b;a)。此外,AI 供應(yīng)鏈非常復(fù)雜,涉及多個(gè)利益相關(guān)者,包括數(shù)據(jù)提供商、模型開(kāi)發(fā)者、模型托管服務(wù)、應(yīng)用程序開(kāi)發(fā)者和分發(fā)平臺(tái) (Cen et al., 2023b)。
    當(dāng)前,可轉(zhuǎn)移缺陷的披露存在局限性,通常只向一個(gè)提供商披露或直接向公眾披露,這可能導(dǎo)致其他受影響的系統(tǒng)未能及時(shí)采取緩解措施。
  2. AI 披露協(xié)調(diào)中心的設(shè)計(jì)與功能:
    為了解決可轉(zhuǎn)移缺陷的披露問(wèn)題,論文提出了一個(gè) AI 披露協(xié)調(diào)中心(參見(jiàn)論文圖 1),其作用類似于 Cybersecurity and Infrastructure Security Agency’s (CISA) incident reporting hub。
    該中心將接收缺陷報(bào)告,并將其路由到相關(guān)的利益相關(guān)者,包括數(shù)據(jù)提供商、系統(tǒng)開(kāi)發(fā)者、模型托管服務(wù)、應(yīng)用程序開(kāi)發(fā)者、模型分發(fā)平臺(tái)、政府機(jī)構(gòu),以及在適當(dāng)?shù)呐镀谙藓螅鼜V泛的公眾。
    論文提出了一個(gè)輕量級(jí)的設(shè)計(jì),利益相關(guān)者可以訂閱缺陷報(bào)告卡中的特定標(biāo)簽,并接收包含這些標(biāo)簽的所有報(bào)告。例如,Meta 可以訂閱“Meta”或“Llama 3.3”標(biāo)簽,數(shù)據(jù)提供商可以訂閱“風(fēng)險(xiǎn)來(lái)源:預(yù)訓(xùn)練數(shù)據(jù)”標(biāo)簽,政府機(jī)構(gòu)(如 CISA)可以訂閱“影響:網(wǎng)絡(luò)安全”標(biāo)簽。
    該中心還將負(fù)責(zé)設(shè)置適當(dāng)?shù)呐镀谙蓿龠M(jìn)與利益相關(guān)者的溝通,并建立一個(gè)可查詢的歷史缺陷報(bào)告卡數(shù)據(jù)庫(kù)。

建議:促進(jìn)第三方 AI 評(píng)估生態(tài)系統(tǒng)

為了促進(jìn)第三方 AI 評(píng)估生態(tài)系統(tǒng)的發(fā)展,論文提出了七項(xiàng)政策建議:

  1. 發(fā)布關(guān)于第三方 AI 評(píng)估的指南:為研究人員提供關(guān)于何時(shí)以及如何進(jìn)行第三方評(píng)估的明確指導(dǎo),包括最佳實(shí)踐、行為準(zhǔn)則和標(biāo)準(zhǔn)化報(bào)告模板。
  2. 將法律保護(hù)擴(kuò)展到 AI 安全和可信度研究:修改現(xiàn)有法律框架,將目前適用于 AI 安全研究的保護(hù)擴(kuò)展到 AI 安全和可信度研究,例如,澄清《數(shù)字千年版權(quán)法案》(DMCA)第 1201 條和《計(jì)算機(jī)欺詐和濫用法案》(CFAA)在 AI 安全和可信度方面的適用性。
  3. 要求 GPAI 提供商提高透明度:要求 GPAI 系統(tǒng)提供商披露關(guān)于其系統(tǒng)構(gòu)建、內(nèi)部評(píng)估、部署規(guī)模和影響的信息。
  4. 要求平臺(tái)提供安全港:要求向數(shù)百萬(wàn)用戶分發(fā) GPAI 系統(tǒng)的平臺(tái)(如云服務(wù)提供商或主要的封閉開(kāi)發(fā)者)為遵守行為準(zhǔn)則的研究人員提供法律和技術(shù)安全港。
  5. 資助和開(kāi)發(fā)集中式披露基礎(chǔ)設(shè)施:支持建立一個(gè)集中式的 AI 缺陷披露和協(xié)調(diào)中心,確保獨(dú)立評(píng)估者和研究人員可以系統(tǒng)地報(bào)告漏洞并跟蹤緩解措施。
  6. 鼓勵(lì)采用缺陷賞金:建立明確的 GPAI 系統(tǒng)缺陷賞金計(jì)劃指南,借鑒軟件系統(tǒng)漏洞賞金計(jì)劃的成功經(jīng)驗(yàn),激勵(lì)研究人員主動(dòng)識(shí)別缺陷。
  7. 優(yōu)先采購(gòu)經(jīng)過(guò)第三方評(píng)估的系統(tǒng):要求政府機(jī)構(gòu)優(yōu)先采購(gòu)經(jīng)過(guò)第三方評(píng)估的 GPAI 系統(tǒng),將問(wèn)責(zé)制和嚴(yán)格評(píng)估的原則納入公共部門(mén)的 GPAI 部署。

論文引用了相關(guān)的現(xiàn)有法規(guī)(參見(jiàn)論文表 A1),包括 NIST AI 600-1、NIST AI 800-1、NIST SP 800-53 r5、NIST Cybersecurity Framework 2.0、NTIA Safety Working Group Vulnerability Disclosure Template v1.1、《數(shù)字千年版權(quán)法案》(DMCA)、《計(jì)算機(jī)欺詐和濫用法案》(CFAA)、CISA Binding Operational Directive 20-01、《關(guān)鍵基礎(chǔ)設(shè)施網(wǎng)絡(luò)事件報(bào)告法案》(CIRCIA)、《物聯(lián)網(wǎng)網(wǎng)絡(luò)安全改進(jìn)法案》、歐盟《網(wǎng)絡(luò)彈性法案》和歐盟 NIS 2 指令。

內(nèi)部評(píng)估作用有限:通用人工智能需要第三方缺陷披露機(jī)制-AI.x社區(qū)

不同觀點(diǎn):對(duì)第三方評(píng)估和協(xié)調(diào)漏洞披露的質(zhì)疑

論文討論了兩種常見(jiàn)的反對(duì)第三方評(píng)估和協(xié)調(diào)漏洞披露的觀點(diǎn)。

  1. 觀點(diǎn) 1:第一方和第二方評(píng)估,加上第三方對(duì)部署系統(tǒng)的廉價(jià)商業(yè)訪問(wèn),足以發(fā)現(xiàn)和解決主要缺陷。
    這種觀點(diǎn)認(rèn)為,GPAI 系統(tǒng)提供商進(jìn)行的內(nèi)部評(píng)估和合同評(píng)估,以及第三方通過(guò)廉價(jià) API 訪問(wèn) GPAI 系統(tǒng),已經(jīng)足夠發(fā)現(xiàn)和解決主要缺陷。
    論文反駁了這種觀點(diǎn),指出它未能考慮到:
    論文強(qiáng)調(diào),機(jī)器學(xué)習(xí)社區(qū)、政策制定者和民間社會(huì)對(duì)更廣泛的風(fēng)險(xiǎn)具有專業(yè)知識(shí)和關(guān)注,而不僅僅是 GPAI 系統(tǒng)提供商和第二方評(píng)估者關(guān)注的風(fēng)險(xiǎn)。
  • 因害怕報(bào)復(fù)而未進(jìn)行安全研究的研究人員。
  • 在社交媒體上報(bào)告(或根本未報(bào)告)的大量缺陷。
  • 缺乏對(duì)嚴(yán)重缺陷采取集體行動(dòng)的基礎(chǔ)設(shè)施。
  • 法律或程序上的不確定性帶來(lái)的障礙。
  1. 觀點(diǎn) 2:?jiǎn)⒂玫谌皆u(píng)估和協(xié)調(diào)漏洞披露的努力給資源有限的公司帶來(lái)了困難的權(quán)衡。
    這種觀點(diǎn)認(rèn)為,GPAI 系統(tǒng)提供商在競(jìng)爭(zhēng)激烈的商業(yè)環(huán)境中資源有限,沒(méi)有足夠的帶寬來(lái)管理研究人員訪問(wèn)計(jì)劃,而且通常只有少數(shù)人負(fù)責(zé)協(xié)調(diào)數(shù)千名感興趣的研究人員的訪問(wèn)。
    論文反駁了這種觀點(diǎn),指出:
    論文強(qiáng)調(diào),隨著 AI 系統(tǒng)變得越來(lái)越強(qiáng)大,其在社會(huì)中的應(yīng)用也越來(lái)越廣泛,優(yōu)先考慮缺陷發(fā)現(xiàn)、緩解和披露是至關(guān)重要的。
  • 領(lǐng)先的 GPAI 系統(tǒng)開(kāi)發(fā)商擁有數(shù)十億美元的資金,足以雇傭更多員工來(lái)幫助研究人員發(fā)現(xiàn)系統(tǒng)中的缺陷。
  • 精心設(shè)計(jì)的缺陷披露生態(tài)系統(tǒng)(如圖 1 所示)對(duì)供應(yīng)鏈中的每個(gè)參與者來(lái)說(shuō)成本都很低,而且每個(gè)參與者都可以從通用基礎(chǔ)設(shè)施中受益。
  • 從長(zhǎng)遠(yuǎn)來(lái)看,為協(xié)調(diào)漏洞披露基礎(chǔ)設(shè)施做出貢獻(xiàn)的投資回報(bào)將是巨大的。

未來(lái)發(fā)展:開(kāi)放性的問(wèn)題與解決方案

論文指出了三個(gè)主要的未來(lái)發(fā)展方向:

  1. 統(tǒng)一缺陷定義與責(zé)任:
    缺陷報(bào)告者和 GPAI 系統(tǒng)提供商之間在缺陷定義和責(zé)任方面可能存在分歧。例如,某些提示可能使用戶能夠生成看似構(gòu)成版權(quán)侵權(quán)的圖像,而提供商和用戶都可能認(rèn)為對(duì)方應(yīng)對(duì)侵權(quán)負(fù)責(zé) (Lee et al., 2024)。
    論文建議系統(tǒng)提供商維護(hù)明確的策略和系統(tǒng)文檔,并要求 GPAI 缺陷報(bào)告基于這些策略和文檔。未來(lái)的研究應(yīng)探討公司如何最好地調(diào)整和更新其策略和文檔,以促進(jìn)協(xié)調(diào)缺陷披露。
  2. 缺陷緩解與補(bǔ)救流程:
    一旦缺陷被披露,如何緩解或補(bǔ)救這些缺陷仍然不確定。一個(gè)有效的協(xié)調(diào)缺陷披露機(jī)制將大大增加系統(tǒng)提供商收到的缺陷報(bào)告數(shù)量,并使觀察提供商是否真正緩解或補(bǔ)救這些缺陷變得更容易。
    未來(lái)的研究應(yīng)幫助提供商選擇如何對(duì)缺陷進(jìn)行優(yōu)先級(jí)排序,并確定緩解范圍的選項(xiàng)。
  3. 披露協(xié)調(diào)中心的治理:
    如何確保披露協(xié)調(diào)中心獲得 AI 生態(tài)系統(tǒng)中關(guān)鍵私營(yíng)部門(mén)參與者的支持,同時(shí)保持其在第三方評(píng)估者中的公信力,是一個(gè)潛在的挑戰(zhàn)。
    未來(lái)的研究應(yīng)構(gòu)建披露協(xié)調(diào)中心的關(guān)鍵功能,并朝著更大的問(wèn)責(zé)制邁進(jìn)。

總結(jié)與展望

該論文提出了一個(gè)全新的 GPAI 安全范式,強(qiáng)調(diào)了第三方評(píng)估和協(xié)調(diào)缺陷披露對(duì)于提高 GPAI 系統(tǒng)安全、保障和可信度的重要性。

論文的核心觀點(diǎn)是,僅靠?jī)?nèi)部評(píng)估不足以保障 GPAI 系統(tǒng)的安全。需要建立一個(gè)穩(wěn)健的第三方缺陷披露機(jī)制,鼓勵(lì)研究人員參與缺陷發(fā)現(xiàn),并為其提供法律和技術(shù)保護(hù),同時(shí)確保缺陷信息能夠及時(shí)、準(zhǔn)確地傳遞給所有受影響的利益相關(guān)者。

這個(gè)思路其實(shí)對(duì)于國(guó)內(nèi)實(shí)施監(jiān)管的網(wǎng)信辦發(fā)布的管理辦法有著非常大的借鑒意義。監(jiān)管與治理從來(lái)都不是一個(gè)靜態(tài)的過(guò)程,而是需要進(jìn)行持續(xù)有力且有抓手的監(jiān)督。這個(gè)三方缺陷披露的框架就是一個(gè)很好的可供參考的設(shè)計(jì)。

論文為第三方 AI 評(píng)估者、GPAI 系統(tǒng)提供商和披露協(xié)調(diào)中心分別制定了行動(dòng)清單,并提出了七項(xiàng)政策建議,以促進(jìn)第三方 AI 評(píng)估生態(tài)系統(tǒng)的發(fā)展。

論文還討論了兩種常見(jiàn)的反對(duì)觀點(diǎn),并對(duì)其進(jìn)行了反駁。

最后,論文指出了三個(gè)主要的未來(lái)研究領(lǐng)域,包括統(tǒng)一缺陷定義與責(zé)任、優(yōu)化缺陷緩解與補(bǔ)救流程以及披露協(xié)調(diào)中心的治理。

參考論文: arXiv:2503.16861v1 [cs.AI] 21 Mar 2025

本文轉(zhuǎn)載自??上堵吟??,作者:一路到底的孟子敬


已于2025-4-15 09:36:10修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦