Bengio參與的首個《AI安全指數(shù)報告》出爐,最高分僅C、國內(nèi)一家公司上榜
圖片
安全話題,在人工智能(AI)行業(yè)一向備受關(guān)注。
尤其是諸如 GPT-4 這樣的大語言模型(LLM)出現(xiàn)后,有不少業(yè)內(nèi)專家呼吁「立即暫停訓(xùn)練比 GPT-4 更強大的人工智能模型」,包括馬斯克在內(nèi)的數(shù)千人紛紛起身支持,聯(lián)名簽署了一封公開信。
這封公開信便來自生命未來研究所(Future of Life Institute),該機構(gòu)由麻省理工學(xué)院教授、物理學(xué)家、人工智能科學(xué)家、《生命 3.0》作者 Max Tegmark 等人聯(lián)合創(chuàng)立,是最早關(guān)注人工智能安全問題的機構(gòu)之一,其使命為 “引導(dǎo)變革性技術(shù)造福生活,避免極端的大規(guī)模風(fēng)險”。
公開信息顯示,生命未來研究所的顧問委員會成員陣容強大,包括理論物理學(xué)家霍金、企業(yè)家馬斯克、哈佛大學(xué)遺傳學(xué)教授 George Church、麻省理工學(xué)院物理學(xué)教授 Frank Wilczek 以及演員、科學(xué)傳播者 Alan Alda、Morgan Freeman 等。
圖片
日前,生命未來研究所邀請圖靈獎得主 Yoshua Bengio、加州大學(xué)伯克利分校計算機科學(xué)教授 Stuart Russell 等 7 位人工智能專家和治理專家,評估了 6 家人工智能公司(Anthropic、Google DeepMind、Meta 、OpenAI、x.AI、智譜)在 6 大關(guān)鍵領(lǐng)域的安全實踐,并發(fā)布了他們的第一份《人工智能安全指數(shù)報告》(FLI AI Safety Index 2024)。
報告顯示,盡管 Anthropic 獲得了最高的安全性評級,但分?jǐn)?shù)僅為 “C”,包括 Anthropic 在內(nèi)的 6 家公司在安全實踐方面仍有提升空間。
圖片
報告鏈接:https://futureoflife.org/document/fli-ai-safety-index-2024/
關(guān)于這份報告,Tegmark 在 X 上甚至一針見血地指出:Anthropic first and Meta last,即:Anthropic 的安全性最高,而堅持開源的 Meta 在這方面卻墊底。但 Tegmark 也表示,“這樣做的目的不是羞辱任何人,而是激勵公司改進(jìn)。”
值得一提的是,生命未來研究所在報告中寫道,“入選公司的依據(jù)是其在 2025 年之前打造最強大模型的預(yù)期能力。此外,智譜的加入也反映了我們希望使該指數(shù)能夠代表全球領(lǐng)先企業(yè)的意圖。隨著競爭格局的演變,未來的迭代可能會關(guān)注不同的公司?!?/span>
6 大維度評估 AI 安全
據(jù)介紹,評審專家從風(fēng)險評估(Risk Assessment)、當(dāng)前危害(Current Harms)、安全框架(Safety Frameworks)、生存性安全策略(Existential Safety Strategy)、治理和問責(zé)制(Governance & Accountability)以及透明度和溝通(Transparency & Communication)分別對每家公司進(jìn)行評估,最后匯總得出安全指數(shù)總分。
維度 1:風(fēng)險評估
圖片
在風(fēng)險評估維度中,OpenAI、Google DeepMind 和 Anthropic 因在識別潛在危險能力(如網(wǎng)絡(luò)攻擊濫用或生物武器制造)方面實施更嚴(yán)格的測試而受到肯定。然而,報告也指出,這些努力仍存在顯著局限,AGI 的相關(guān)風(fēng)險尚未被充分理解。
OpenAI 的欺騙性能力評估和提升研究獲得了評審專家的關(guān)注;Anthropic 則因與國家人工智能安全機構(gòu)的深度合作被認(rèn)為表現(xiàn)尤為突出。Google DeepMind 和 Anthropic 是僅有的兩家維持針對模型漏洞的專項漏洞獎勵計劃的公司。Meta 盡管在模型部署前對危險能力進(jìn)行了評估,但對自治、謀劃和說服相關(guān)威脅模型的覆蓋不足。智譜的風(fēng)險評估相對不夠全面,而 x.AI 在部署前的評估幾乎缺失,大幅低于行業(yè)標(biāo)準(zhǔn)。
評審專家建議,行業(yè)應(yīng)擴大研究的規(guī)模與范圍,同時建立明確的可接受風(fēng)險閾值標(biāo)準(zhǔn),從而進(jìn)一步提高人工智能模型的安全性和可靠性。
維度 2:當(dāng)前危害
圖片
在當(dāng)前危害維度中,Anthropic 的人工智能系統(tǒng)在安全性與信任度基準(zhǔn)測試中得到了最高分,Google DeepMind 緊隨其后,該公司的 Synth ID 水印系統(tǒng)被認(rèn)可為減少人工智能生成內(nèi)容濫用的最佳實踐。
其他公司得分偏低,暴露出安全緩解措施的不足。例如,Meta 因公開前沿模型權(quán)重被批評,該做法可能被惡意行為者利用來移除安全防護(hù)。
此外,對抗性攻擊仍是一個主要問題,多數(shù)模型易受越獄攻擊,其中 OpenAI 的模型尤為脆弱,而 Google DeepMind 在此方面防御表現(xiàn)最佳。評審專家還指出,只有 Anthropic 和智譜在默認(rèn)設(shè)置下避免將用戶交互數(shù)據(jù)用于模型訓(xùn)練,這一實踐值得其他公司借鑒。
維度 3:安全框架
圖片
在安全框架(Safety Frameworks)方面,所有 6 家公司均簽署了《前沿人工智能安全承諾》,承諾制定安全框架,包括設(shè)置不可接受風(fēng)險閾值、高風(fēng)險場景下的高級防護(hù)措施,以及在風(fēng)險不可控時暫停開發(fā)的條件。
然而,截至本報告發(fā)布,僅有 OpenAI、Anthropic 和 Google DeepMind 公布了相關(guān)框架,評審專家僅能對這三家公司進(jìn)行評估。其中,Anthropic 因框架內(nèi)容最為詳盡而受到認(rèn)可,其也發(fā)布了更多實施指導(dǎo)。
專家一致強調(diào),安全框架必須通過強有力的外部審查和監(jiān)督機制支持,才能真正實現(xiàn)對風(fēng)險的準(zhǔn)確評估和管理。
維度 4:生存性安全策略
圖片
在生存性安全策略維度,盡管所有公司均表示有意開發(fā) AGI 或超級人工智能(ASI),并承認(rèn)此類系統(tǒng)可能帶來的生存性風(fēng)險,但僅有 Google DeepMind、OpenAI 和 Anthropic 在控制與安全性方面開展了較為嚴(yán)肅的研究。
評審專家指出,目前沒有公司提出官方策略以確保高級人工智能系統(tǒng)可控并符合人類價值觀,現(xiàn)有的技術(shù)研究在控制性、對齊性和可解釋性方面仍顯稚嫩且不足。
Anthropic 憑借其詳盡的 “Core Views on AI Safety” 博客文章獲得最高分,但專家認(rèn)為其策略難以有效防范超級人工智能的重大風(fēng)險。OpenAI 的 “Planning for AGI and beyond” 博客文章則僅提供了高層次原則,雖被認(rèn)為合理但缺乏實際計劃,且其可擴展監(jiān)督研究仍不成熟。Google DeepMind 的對齊團(tuán)隊分享的研究更新雖有用,但不足以確保安全性,博客內(nèi)容也不能完全代表公司整體戰(zhàn)略。
Meta、x.AI 和智譜尚未提出應(yīng)對 AGI 風(fēng)險的技術(shù)研究或計劃。評審專家認(rèn)為,Meta 的開源策略及 x.AI 的 “democratized access to truth-seeking AI” 愿景,可能在一定程度上緩解權(quán)力集中和價值固化的風(fēng)險。
維度 5:治理和問責(zé)制
圖片
在治理和問責(zé)制維度,評審專家注意到,Anthropic 的創(chuàng)始人在建立負(fù)責(zé)任的治理結(jié)構(gòu)方面投入了大量精力,這使其更有可能將安全放在首位。Anthropic 的其他積極努力,如負(fù)責(zé)任的擴展政策,也得到了積極評價。
OpenAI 最初的非營利結(jié)構(gòu)也同樣受到了稱贊,但最近的變化,包括解散安全團(tuán)隊和轉(zhuǎn)向營利模式,引起了人們對安全重要性下降的擔(dān)憂。
Google DeepMind 在治理和問責(zé)方面邁出了重要一步,承諾實施安全框架,并公開表明其使命。然而,其隸屬于 Alphabet 的盈利驅(qū)動企業(yè)結(jié)構(gòu),被認(rèn)為在一定程度上限制了其在優(yōu)先考慮安全性方面的自主性。
Meta 雖然在 CYBERSEC EVAL 和紅隊測試等領(lǐng)域有所行動,但其治理結(jié)構(gòu)未能與安全優(yōu)先級對齊。此外,開放源代碼發(fā)布高級模型的做法,導(dǎo)致了濫用風(fēng)險,進(jìn)一步削弱了其問責(zé)制。
x.AI 雖然正式注冊為一家公益公司,但與其競爭對手相比,在人工智能治理方面的積極性明顯不足。專家們注意到,該公司在關(guān)鍵部署決策方面缺乏內(nèi)部審查委員會,也沒有公開報告任何實質(zhì)性的風(fēng)險評估。
智譜作為一家營利實體,在符合法律法規(guī)要求的前提下開展業(yè)務(wù),但其治理機制的透明度仍然有限。
維度 6:透明度和溝通
圖片
在透明度和溝通維度,評審專家對 OpenAI、Google DeepMind 和 Meta 針對主要安全法規(guī)(包括 SB1047 和歐盟《人工智能法案》)所做的游說努力表示嚴(yán)重關(guān)切。與此形成鮮明對比的是,x.AI 因支持 SB1047 而受到表揚,表明了其積極支持旨在加強人工智能安全的監(jiān)管措施的立場。
除 Meta 公司外,所有公司都因公開應(yīng)對與先進(jìn)人工智能相關(guān)的極端風(fēng)險,以及努力向政策制定者和公眾宣傳這些問題而受到表揚。x.AI 和 Anthropic 在風(fēng)險溝通方面表現(xiàn)突出。專家們還注意到,Anthropic 不斷支持促進(jìn)該行業(yè)透明度和問責(zé)制的治理舉措。
Meta 公司的評級則受到其領(lǐng)導(dǎo)層一再忽視和輕視與極端人工智能風(fēng)險有關(guān)的問題的顯著影響,評審專家認(rèn)為這是一個重大缺陷。
專家們強調(diào),整個行業(yè)迫切需要提高透明度。x.AI 缺乏風(fēng)險評估方面的信息共享被特別指出為透明度方面的不足。
Anthropic 允許英國和美國人工智能安全研究所對其模型進(jìn)行第三方部署前評估,為行業(yè)最佳實踐樹立了標(biāo)桿,因此獲得了更多認(rèn)可。
專家是如何打分的?
在指數(shù)設(shè)計上,6 大評估維度均包含多個關(guān)鍵指標(biāo),涵蓋企業(yè)治理政策、外部模型評估實踐以及安全性、公平性和魯棒性的基準(zhǔn)測試結(jié)果。這些指標(biāo)的選擇基于學(xué)術(shù)界和政策界的廣泛認(rèn)可,確保其在衡量公司安全實踐上的相關(guān)性與可比性。
這些指標(biāo)的主要納入標(biāo)準(zhǔn)為:
- 相關(guān)性:清單強調(diào)了學(xué)術(shù)界和政策界廣泛認(rèn)可的人工智能安全和負(fù)責(zé)任行為的各個方面。許多指標(biāo)直接來自斯坦福大學(xué)基礎(chǔ)模型研究中心等領(lǐng)先研究機構(gòu)開展的相關(guān)項目。
- 可比較性:選擇的指標(biāo)能夠突出安全實踐中的有意義的差異,這些差異可以根據(jù)現(xiàn)有的證據(jù)加以確定。因此,沒有確鑿差異證據(jù)的安全預(yù)防措施被省略了。
選擇公司的依據(jù)是公司到 2025 年制造最強大模型的預(yù)期能力。此外,智譜的加入也反映了該指數(shù)希望能夠代表全球領(lǐng)先公司的意圖。隨著競爭格局的演變,未來可能會關(guān)注不同的公司。
圖|評價指標(biāo)概述。
此外,生命未來研究所在編制《AI 安全指數(shù)報告》時,構(gòu)建了全面且透明的證據(jù)基礎(chǔ),確保評估結(jié)果科學(xué)可靠。研究團(tuán)隊根據(jù) 42 項關(guān)鍵指標(biāo),為每家公司制作了詳細(xì)的評分表,并在附錄中提供了所有原始數(shù)據(jù)的鏈接,供公眾查閱與驗證。證據(jù)來源包括:
- 公開信息:主要來自研究論文、政策文件、新聞報道和行業(yè)報告等公開材料,增強透明度的同時,便于利益相關(guān)方追溯信息來源。
- 公司問卷調(diào)查:針對被評估公司分發(fā)了問卷,補充公開數(shù)據(jù)未覆蓋的安全結(jié)構(gòu)、流程與策略等內(nèi)部信息。
證據(jù)收集時間為 2024 年 5 月 14 日至 11 月 27 日,涵蓋了最新的人工智能基準(zhǔn)測試數(shù)據(jù),并詳細(xì)記錄了數(shù)據(jù)提取時間以反映模型更新情況。生命未來研究所致力于以透明和問責(zé)為原則,將所有數(shù)據(jù) —— 無論來自公開渠道還是公司提供 —— 完整記錄并公開,供審查與研究使用。
評分流程方面,在 2024 年 11 月 27 日完成證據(jù)收集后,研究團(tuán)隊將匯總的評分表交由獨立人工智能科學(xué)家和治理專家小組評審。評分表涵蓋所有指標(biāo)相關(guān)信息,并附有評分指引以確保一致性。
評審專家根據(jù)絕對標(biāo)準(zhǔn)為各公司打分,而非單純進(jìn)行橫向比較。同時,專家需附上簡短說明支持評分,并提供關(guān)鍵改進(jìn)建議,以反映證據(jù)基礎(chǔ)與其專業(yè)見解。生命未來研究所還邀請專家小組分工評估特定領(lǐng)域,如 “生存性安全策略” 和 “當(dāng)前危害” 等,保證評分的專業(yè)性和深度。最終,每一領(lǐng)域的評分均由至少四位專家參與打分,并匯總為平均分后展示在評分卡中。
這一評分流程既注重結(jié)構(gòu)化的標(biāo)準(zhǔn)化評估,又保留了靈活性,使專家的專業(yè)判斷與實際數(shù)據(jù)充分結(jié)合。不僅展現(xiàn)當(dāng)前安全實踐的現(xiàn)狀,還提出可行的改進(jìn)方向,激勵公司在未來達(dá)成更高的安全標(biāo)準(zhǔn)。