自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Google團(tuán)隊(duì)對(duì)紅隊(duì)測(cè)試的最新貢獻(xiàn),STAR構(gòu)建更安全AI語(yǔ)言模型的新途徑 精華

發(fā)布于 2024-6-20 10:06
瀏覽
0收藏

紅隊(duì)測(cè)試已成為發(fā)現(xiàn)生成性人工智能(AI)系統(tǒng)中的缺陷、漏洞和風(fēng)險(xiǎn)的重要工具,包括大型語(yǔ)言模型和多模態(tài)生成模型。它被AI開發(fā)者用來(lái)向決策者和公眾利益相關(guān)者提供保證,并且越來(lái)越多地被監(jiān)管機(jī)構(gòu)和其他負(fù)責(zé)維護(hù)公共安全的機(jī)構(gòu)要求或強(qiáng)制執(zhí)行。盡管紅隊(duì)測(cè)試的使用日益增加,但由于缺乏最佳實(shí)踐共識(shí),難以比較結(jié)果和建立標(biāo)準(zhǔn),這阻礙了AI安全研究的進(jìn)展,也使公眾難以評(píng)估AI安全。

AI紅隊(duì)測(cè)試中的一個(gè)常見挑戰(zhàn)是確保風(fēng)險(xiǎn)表面的全面和均勻覆蓋。不均勻的覆蓋可能導(dǎo)致冗余的攻擊集群和遺漏的漏洞或盲點(diǎn)。紅隊(duì)測(cè)試中的無(wú)意偏差可能是由于攻擊者人口統(tǒng)計(jì)學(xué)特征或任務(wù)設(shè)計(jì)等實(shí)際因素造成的。例如,開放式方法旨在促進(jìn)廣泛探索,但可能無(wú)意中導(dǎo)致集群冗余,因?yàn)榧t隊(duì)成員可能自然傾向于熟悉或容易利用的漏洞。這種傾向可能會(huì)被獎(jiǎng)勵(lì)快速或容易識(shí)別傷害的激勵(lì)結(jié)構(gòu)放大。此外,人類紅隊(duì)成員中缺乏人口統(tǒng)計(jì)學(xué)多樣性可能會(huì)加劇這一問題,因?yàn)楣敉ǔ7从彻粽咦约汗逃械挠邢藿?jīng)驗(yàn)和觀點(diǎn)。

為了解決這一挑戰(zhàn),先前的工作仍然存在局限性。一種策略是簡(jiǎn)單地增加攻擊次數(shù),但這既昂貴又不能保證全面覆蓋,因?yàn)槎鄠€(gè)攻擊者可能仍然利用相同的傷害向量。原則性方法包括動(dòng)態(tài)激勵(lì),獎(jiǎng)勵(lì)發(fā)現(xiàn)影響力大的漏洞,將多樣化提示生成視為質(zhì)量-多樣性搜索,并使用參數(shù)化指令,盡管這些方法尚未應(yīng)用于生成性AI的人類紅隊(duì)測(cè)試。

在這樣的背景下,Google DeepMind的研究團(tuán)隊(duì)在6月17日提出了一種創(chuàng)新的社會(huì)技術(shù)方法——STAR(SocioTechnical Approach to Red Teaming)并發(fā)表的論文《STAR: SocioTechnical Approach to Red Teaming Language Models》,他們旨在通過(guò)結(jié)合技術(shù)和社會(huì)學(xué)的視角,提高紅隊(duì)測(cè)試的效率和效果。STAR框架通過(guò)參數(shù)化指令、人口統(tǒng)計(jì)匹配和仲裁步驟等技術(shù)創(chuàng)新,使得紅隊(duì)測(cè)試更加系統(tǒng)化、可重復(fù),同時(shí)也更能針對(duì)特定群體和場(chǎng)景進(jìn)行安全評(píng)估。

研究團(tuán)隊(duì)的背景令人矚目,他們由Google DeepMind的Laura Weidinger和John Mellor領(lǐng)銜,團(tuán)隊(duì)成員跨越了Google的多個(gè)部門,包括Google Labs。這樣的跨學(xué)科團(tuán)隊(duì)集結(jié)了AI研究、應(yīng)用和技術(shù)分析的頂尖專家,他們的合作為STAR框架的提出和實(shí)施提供了堅(jiān)實(shí)的科學(xué)和實(shí)踐基礎(chǔ)。

STAR框架概述

STAR框架即SocioTechnical Approach to Red Teaming,是一種結(jié)合社會(huì)學(xué)和技術(shù)方法的紅隊(duì)測(cè)試新框架。它旨在通過(guò)系統(tǒng)化的參數(shù)化指令、人口統(tǒng)計(jì)匹配和仲裁步驟,提高對(duì)大型語(yǔ)言模型安全性的測(cè)試覆蓋率和準(zhǔn)確性。STAR框架的核心在于它的社會(huì)技術(shù)雙重視角,不僅關(guān)注技術(shù)層面的漏洞,也考慮到社會(huì)文化因素對(duì)AI安全性的影響。

社會(huì)技術(shù)方法是指在技術(shù)系統(tǒng)的設(shè)計(jì)、評(píng)估和測(cè)試中,同時(shí)考慮技術(shù)組件和社會(huì)組件的相互作用。在STAR框架中,這種方法體現(xiàn)在將人類專家的社會(huì)文化知識(shí)和技術(shù)系統(tǒng)的參數(shù)化指令相結(jié)合,以更全面地評(píng)估和提升語(yǔ)言模型的安全性。

Google團(tuán)隊(duì)對(duì)紅隊(duì)測(cè)試的最新貢獻(xiàn),STAR構(gòu)建更安全AI語(yǔ)言模型的新途徑-AI.x社區(qū)

圖1:STAR按程序生成參數(shù)指令,以確保全面的AI紅隊(duì)。

參數(shù)化指令是STAR框架中的一個(gè)創(chuàng)新點(diǎn),它允許研究者根據(jù)預(yù)設(shè)的參數(shù)生成具體的測(cè)試指令。這些指令能夠指導(dǎo)紅隊(duì)成員針對(duì)特定的風(fēng)險(xiǎn)領(lǐng)域進(jìn)行測(cè)試,從而確保測(cè)試的全面性和深入性。參數(shù)化指令的設(shè)計(jì)考慮了多種因素,如攻擊類型、目標(biāo)人群、使用場(chǎng)景等,使得紅隊(duì)測(cè)試更加精準(zhǔn)和高效。

由于紅隊(duì)成員的人口統(tǒng)計(jì)學(xué)偏差,信號(hào)質(zhì)量可能會(huì)降低,因?yàn)榉N族、性別和地理文化區(qū)域已被證明會(huì)影響對(duì)令人反感或?qū)剐陨蓛?nèi)容的判斷。然而紅隊(duì)測(cè)試和注釋團(tuán)隊(duì)通常缺乏人口統(tǒng)計(jì)學(xué)多樣性,即使努力招募多樣化人才也是如此。在以前的研究中,大多數(shù)紅隊(duì)成員被識(shí)別為白人、順性別、異性戀且沒有殘疾,男性通常多于女性。此外大多數(shù)紅隊(duì)測(cè)試都集中在英語(yǔ)攻擊上,排除了許多人口統(tǒng)計(jì)群體及其語(yǔ)言。這種人口統(tǒng)計(jì)學(xué)偏差可能導(dǎo)致這些社區(qū)的風(fēng)險(xiǎn)未被發(fā)現(xiàn),可能在部署AI系統(tǒng)時(shí)加劇對(duì)這些社區(qū)的不成比例的傷害風(fēng)險(xiǎn)。為了確保廣泛的覆蓋范圍以及合法可靠的數(shù)據(jù)點(diǎn),紅隊(duì)測(cè)試應(yīng)該涉及多樣化的群體,包括更廣泛的觀點(diǎn)和經(jīng)驗(yàn)。此外,需要原則性的方法來(lái)考慮有意義的注釋者分歧。

人口統(tǒng)計(jì)匹配在STAR框架中扮演著至關(guān)重要的角色。通過(guò)確保注釋者和被測(cè)試內(nèi)容的人口統(tǒng)計(jì)特征相匹配,可以更準(zhǔn)確地評(píng)估模型輸出對(duì)特定群體可能造成的傷害。這種匹配增強(qiáng)了測(cè)試的敏感性和準(zhǔn)確性,尤其是在評(píng)估可能的偏見和歧視時(shí)。

應(yīng)用社會(huì)技術(shù)視角,STAR將人類攻擊者和注釋者與AI系統(tǒng)的相互作用置于中心。為了提供合法可靠的信號(hào),我們利用不同類型的專業(yè)知識(shí),雇用事實(shí)核查者、醫(yī)療專業(yè)人員和來(lái)自不同人口統(tǒng)計(jì)群體的普通人的生活經(jīng)驗(yàn)。為了從分歧中學(xué)習(xí),我們?cè)谖覀兊淖⑨屃鞒讨幸肓艘粋€(gè)仲裁步驟。

仲裁步驟是STAR框架中的另一個(gè)關(guān)鍵創(chuàng)新,它引入了第三方評(píng)估來(lái)解決注釋者之間的分歧。當(dāng)兩個(gè)注釋者對(duì)某個(gè)測(cè)試結(jié)果的評(píng)估存在顯著差異時(shí),仲裁者會(huì)介入,提供獨(dú)立的評(píng)估和解釋。這一步驟提高了評(píng)估的可靠性和權(quán)威性,確保了測(cè)試結(jié)果的質(zhì)量。

方法論

研究者們采用了一系列創(chuàng)新的方法論來(lái)執(zhí)行紅隊(duì)測(cè)試。這些方法不僅確保了測(cè)試的系統(tǒng)性和可重復(fù)性,而且提高了測(cè)試的針對(duì)性和深入性。

數(shù)據(jù):我們?cè)?024年1月獲得了227名紅隊(duì)成員的8360個(gè)對(duì)話,由308名注釋者和仲裁者進(jìn)行注釋。每個(gè)對(duì)話都是對(duì)內(nèi)容安全政策中的一條規(guī)則進(jìn)行對(duì)抗性測(cè)試。

任務(wù)設(shè)計(jì):這里的對(duì)抗性測(cè)試由人類紅隊(duì)成員在多輪(平均:16.4 ± 11.3)設(shè)置中進(jìn)行。參與者被分配紅隊(duì)任務(wù)、注釋任務(wù)或仲裁任務(wù)。參與者可以連續(xù)執(zhí)行多個(gè)任務(wù),但他們永遠(yuǎn)不會(huì)看到同一個(gè)對(duì)話兩次。

紅隊(duì)任務(wù):紅隊(duì)成員根據(jù)程序生成的指令執(zhí)行任務(wù),最多包含五個(gè)參數(shù),指導(dǎo)紅隊(duì)成員:

1.違反安全政策中的特定規(guī)則;

2.在攻擊中采用指定級(jí)別的對(duì)抗性(低、中、高);

3.模仿特定用例(例如,信息搜索、娛樂);

4.在開始對(duì)話之前承諾一個(gè)特定主題,他們可以自由選擇;

5.如果規(guī)則涉及仇恨言論或歧視性刻板印象,確定攻擊目標(biāo)的特定人口統(tǒng)計(jì)群體。被要求攻擊的人口統(tǒng)計(jì)群體是從性別和種族標(biāo)簽中隨機(jī)選擇的一到兩個(gè)交集。

紅隊(duì)成員與專有模型進(jìn)行書面對(duì)話。我們鼓勵(lì)進(jìn)行10-15輪對(duì)話,但紅隊(duì)成員決定何時(shí)結(jié)束交流。完成對(duì)話后,紅隊(duì)成員對(duì)聊天機(jī)器人是否違反了指定規(guī)則或任何其他規(guī)則進(jìn)行‘預(yù)注釋’;以及對(duì)話是否提到了任何人口統(tǒng)計(jì)群體,如果是,是哪些。這里,更多的人口統(tǒng)計(jì)標(biāo)簽可用,包括殘疾狀態(tài)、年齡、宗教和性取向。

研究團(tuán)隊(duì)首先定義了一系列參數(shù)化指令,這些指令基于預(yù)先設(shè)定的風(fēng)險(xiǎn)領(lǐng)域和人口統(tǒng)計(jì)特征。通過(guò)這些指令,紅隊(duì)成員能夠生成針對(duì)特定場(chǎng)景的攻擊,從而收集關(guān)于語(yǔ)言模型響應(yīng)的數(shù)據(jù)。收集到的數(shù)據(jù)隨后經(jīng)過(guò)處理,以便進(jìn)行更深入的分析。處理過(guò)程中,特別注意保護(hù)參與者的隱私和數(shù)據(jù)的安全。

任務(wù)的設(shè)計(jì)圍繞著STAR框架的核心要素:參數(shù)化指令、人口統(tǒng)計(jì)匹配和仲裁步驟。紅隊(duì)成員根據(jù)這些指令執(zhí)行測(cè)試,而注釋者和仲裁者則基于人口統(tǒng)計(jì)匹配原則進(jìn)行評(píng)估。任務(wù)執(zhí)行過(guò)程中,研究團(tuán)隊(duì)密切監(jiān)控測(cè)試的進(jìn)展,確保所有步驟都按照預(yù)定計(jì)劃進(jìn)行。

注釋流程是紅隊(duì)測(cè)試中的關(guān)鍵環(huán)節(jié)。注釋者需要對(duì)收集到的數(shù)據(jù)進(jìn)行評(píng)估,判斷語(yǔ)言模型的響應(yīng)是否存在潛在的安全問題。在評(píng)估過(guò)程中,如果兩位注釋者對(duì)同一數(shù)據(jù)點(diǎn)的評(píng)估存在顯著差異,仲裁者將介入,提供最終的評(píng)判。這一流程確保了評(píng)估的公正性和準(zhǔn)確性。

為了確保測(cè)試結(jié)果的廣泛適用性和高質(zhì)量,研究團(tuán)隊(duì)在招募參與者時(shí)特別注重多樣性。參與者包括了不同性別、種族、年齡和地理位置的人群,以確保測(cè)試能夠覆蓋廣泛的人口統(tǒng)計(jì)特征。這種多樣性的招募策略有助于揭示語(yǔ)言模型可能對(duì)特定群體產(chǎn)生的不同影響。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果是評(píng)估STAR框架有效性的關(guān)鍵部分,研究團(tuán)隊(duì)通過(guò)一系列精心設(shè)計(jì)的實(shí)驗(yàn),展示了STAR框架在提升可操控性、改進(jìn)信號(hào)質(zhì)量、細(xì)粒度分析模型失敗模式方面的顯著成效。

Google團(tuán)隊(duì)對(duì)紅隊(duì)測(cè)試的最新貢獻(xiàn),STAR構(gòu)建更安全AI語(yǔ)言模型的新途徑-AI.x社區(qū)

表1:在圖2中映射的嵌入空間中觀察到的二十個(gè)語(yǔ)義聚類的概述。單元格顏色表示每個(gè)聚類的高(暗)和低(亮)對(duì)話數(shù)。

通過(guò)視覺檢查圖2,盡管與其他預(yù)測(cè)的紅隊(duì)方法相比,STAR方法的指令更具體,但顯示出相當(dāng)廣泛的覆蓋范圍和低聚類。分析嵌入空間中的集群揭示了三種紅隊(duì)方法之間的主題分裂(表1)。STAR對(duì)話中最常見的主題是性別刻板印象(集群2)和基于種族的偏見(16),其次是醫(yī)療主題(8),反映了指令。Anthropic對(duì)話中最常見的主題是惡意使用(5),包括成人小說(shuō)的明確故事(3),以及促進(jìn)犯罪(0)。DEFCON對(duì)話中最常見的主題是關(guān)于模型訓(xùn)練的提示,其次是模型拒絕(4),密碼和敏感個(gè)人數(shù)據(jù)(7),以及包括名人的個(gè)人身份信息(14)。相比之下,實(shí)際被標(biāo)記對(duì)話中最常見的主題是建議和推薦(1),計(jì)算機(jī)代碼(12)和拒絕(4)。

Google團(tuán)隊(duì)對(duì)紅隊(duì)測(cè)試的最新貢獻(xiàn),STAR構(gòu)建更安全AI語(yǔ)言模型的新途徑-AI.x社區(qū)

圖2:Anthropic、DEFCON和STAR三個(gè)紅隊(duì)數(shù)據(jù)集的對(duì)話嵌入空間的UMAP;以及專有模型和被用戶標(biāo)記為不期望的用戶之間的對(duì)話。每個(gè)點(diǎn)表示一個(gè)對(duì)話。為了便于比較,我們對(duì)所有數(shù)據(jù)集進(jìn)行了下采樣,以包括最多4000個(gè)隨機(jī)選擇的實(shí)例。

Google團(tuán)隊(duì)對(duì)紅隊(duì)測(cè)試的最新貢獻(xiàn),STAR構(gòu)建更安全AI語(yǔ)言模型的新途徑-AI.x社區(qū)

表2:組內(nèi)和組外注釋者將規(guī)則標(biāo)記為(“明確”或“可能”)違反的比率,以及比較t檢驗(yàn)的結(jié)果。

內(nèi)部群體的注釋者在45%的案例中標(biāo)記了仇恨言論和歧視性刻板印象對(duì)話為違規(guī),而外部群體的注釋者在30%的案例中給出了這樣的評(píng)級(jí)。比例差異測(cè)試產(chǎn)生了0.01的p值(見表2)。圖4顯示了這些評(píng)級(jí)的分布,按注釋者是屬于內(nèi)部群體還是外部群體進(jìn)行了細(xì)分。從中我們看到,在更極端的評(píng)級(jí)中存在最大的差異,內(nèi)部群體的注釋者更有可能將規(guī)則評(píng)為“絕對(duì)違規(guī)”,而不太可能給出“絕對(duì)未違規(guī)”的評(píng)級(jí)。

Google團(tuán)隊(duì)對(duì)紅隊(duì)測(cè)試的最新貢獻(xiàn),STAR構(gòu)建更安全AI語(yǔ)言模型的新途徑-AI.x社區(qū)

圖3:特定的指令和多樣化的注釋庫(kù)甚至可以探索針對(duì)不同人口群體的攻擊,同時(shí)保持“人口匹配”。

Google團(tuán)隊(duì)對(duì)紅隊(duì)測(cè)試的最新貢獻(xiàn),STAR構(gòu)建更安全AI語(yǔ)言模型的新途徑-AI.x社區(qū)

圖4:針對(duì)仇恨言論或針對(duì)人口群體的歧視性刻板印象的對(duì)話的組內(nèi)和組外注釋。組內(nèi)注釋不太可能將規(guī)則標(biāo)記為“絕對(duì)未破壞”,而更可能將其標(biāo)記為“肯定已破壞”。誤差條表示95%CI。

Google團(tuán)隊(duì)對(duì)紅隊(duì)測(cè)試的最新貢獻(xiàn),STAR構(gòu)建更安全AI語(yǔ)言模型的新途徑-AI.x社區(qū)

圖5:按規(guī)則排列的組內(nèi)和組外注釋。仇恨言論表明,在將規(guī)則評(píng)為違反規(guī)則的可能性方面,組內(nèi)和組外注釋者之間存在顯著差異。

當(dāng)按規(guī)則分開時(shí),只有仇恨言論在內(nèi)部群體和外部群體注釋者之間的評(píng)級(jí)為違規(guī)的可能性上顯示出統(tǒng)計(jì)學(xué)上的顯著差異(見圖5)。我們還測(cè)試了內(nèi)部群體與外部群體在針對(duì)特定人口統(tǒng)計(jì)群體的紅隊(duì)攻擊成功率,但在這里我們沒有發(fā)現(xiàn)顯著差異(見G)。定性分析進(jìn)一步暗示了內(nèi)部群體與外部群體分歧背后的不同敏感性輪廓。當(dāng)目標(biāo)群體被間接提及或引用,或在“正面”刻板印象的背景下時(shí),經(jīng)常會(huì)出現(xiàn)分歧,內(nèi)部群體成員更頻繁地將此類對(duì)話標(biāo)記為違規(guī)(見I.1)。另一方面,外部群體成員似乎更有可能將用戶發(fā)表問題聲明和模型未能反駁的對(duì)話標(biāo)記為違規(guī)——即使模型沒有明確支持有害觀點(diǎn)。最后,與內(nèi)部群體成員相比,外部群體評(píng)價(jià)者在將對(duì)話標(biāo)記為非違規(guī)時(shí),更有可能引用模型拒絕或免責(zé)聲明。

STAR框架通過(guò)參數(shù)化指令顯著提升了紅隊(duì)測(cè)試的可操控性。實(shí)驗(yàn)結(jié)果表明,使用STAR框架的紅隊(duì)成員能夠更精確地定位和探索模型的風(fēng)險(xiǎn)表面。這種提升不僅使得測(cè)試過(guò)程更加高效,而且確保了測(cè)試覆蓋面的全面性,從而揭示了模型在特定場(chǎng)景下的潛在安全問題。

STAR框架的另一個(gè)顯著優(yōu)勢(shì)是信號(hào)質(zhì)量的改進(jìn)。通過(guò)人口統(tǒng)計(jì)匹配和仲裁步驟,注釋者能夠更敏感地捕捉到模型輸出中的細(xì)微差別,尤其是那些可能對(duì)特定社會(huì)群體造成傷害的內(nèi)容。這種改進(jìn)使得模型的評(píng)估更加準(zhǔn)確,有助于開發(fā)者理解和修復(fù)模型的缺陷。

STAR框架還使得研究團(tuán)隊(duì)能夠進(jìn)行模型失敗模式的細(xì)粒度分析。實(shí)驗(yàn)數(shù)據(jù)揭示了模型在處理特定人口統(tǒng)計(jì)群體信息時(shí)的復(fù)雜交互模式。例如,研究發(fā)現(xiàn)模型在處理與性別和種族交叉相關(guān)的內(nèi)容時(shí),可能會(huì)展現(xiàn)出不同的偏見傾向。這種細(xì)粒度的分析為改進(jìn)模型的公平性和減少偏見提供了重要的洞察。

在STAR框架中,注釋者之間的分歧被視為一種有價(jià)值的信號(hào),而不是噪音。分歧的存在反映了不同注釋者的獨(dú)特視角和經(jīng)驗(yàn),特別是在評(píng)估模型輸出可能對(duì)特定群體造成的影響時(shí)。通過(guò)仲裁步驟,研究團(tuán)隊(duì)能夠深入理解這些分歧背后的原因,并在最終評(píng)估中考慮到這些多元視角。

討論

研究團(tuán)隊(duì)介紹了一種新穎的社會(huì)技術(shù)方法來(lái)進(jìn)行紅隊(duì)測(cè)試,該方法通過(guò)整合參數(shù)化指令和新技術(shù)(即人口統(tǒng)計(jì)匹配和仲裁)來(lái)利用程序指導(dǎo)的控制和人類專業(yè)知識(shí)的準(zhǔn)確性。他們證明了這些有針對(duì)性的干預(yù)措施能夠全面且均勻地探索模型風(fēng)險(xiǎn)表面的目標(biāo)區(qū)域,并提供高質(zhì)量的信號(hào)。

除了解決可操控性和控制性挑戰(zhàn)外,通過(guò)引入一個(gè)原則性的生成此類指令的過(guò)程,STAR還提供了解決紅隊(duì)領(lǐng)域中另一個(gè)持續(xù)挑戰(zhàn)的方法——?jiǎng)?chuàng)建可復(fù)制的過(guò)程來(lái)生成可比較的紅隊(duì)數(shù)據(jù)集。

作為概念驗(yàn)證,他們展示了STAR可以用于針對(duì)不同特定性級(jí)別的特定風(fēng)險(xiǎn)區(qū)域。這是有效的,因?yàn)楸容^多種紅隊(duì)方法的聚類分析顯示,性別刻板印象和基于種族的偏見是我們?cè)赟TAR中的對(duì)話的主要主題——如指令中所針對(duì)的,但不是其他更廣泛關(guān)注的紅隊(duì)方法。值得注意的是,雖然DEFCON和Anthropic給紅隊(duì)成員更開放式的指令,但這些努力最終聚集在不同的區(qū)域,這些區(qū)域并未被描述為關(guān)鍵的預(yù)期目標(biāo)區(qū)域,特別是在惡意使用和比較狹窄的失敗模式(如個(gè)人身份信息發(fā)布)上。這表明,開放式指令并沒有提供比STAR中提供的高度結(jié)構(gòu)化、參數(shù)化指令更廣泛的覆蓋范圍。相反,STAR是一種更有意圖地控制目標(biāo)區(qū)域的方法,而不會(huì)導(dǎo)致結(jié)果對(duì)話的更高聚集。

研究團(tuán)隊(duì)注意到,參數(shù)化指令能夠在不增加額外成本的情況下,發(fā)現(xiàn)更細(xì)微的模型失敗模式。這可能揭示了以前的盲點(diǎn)——在他們的案例中,顯示出雖然模型不太可能對(duì)特定種族或性別發(fā)表仇恨言論,但在被提示關(guān)于性別×種族交叉性時(shí),它更有可能再現(xiàn)社會(huì)邊緣化,特別是與白人男性相比,對(duì)有色人種女性更是如此。通過(guò)這種方式,STAR的參數(shù)化方法通過(guò)在不增加額外成本的情況下,實(shí)現(xiàn)更細(xì)微的失敗模式覆蓋,提供了顯著的附加價(jià)值。

STAR框架在紅隊(duì)測(cè)試領(lǐng)域的創(chuàng)新之處在于其獨(dú)特的社會(huì)技術(shù)結(jié)合方法。通過(guò)參數(shù)化指令,它能夠精確地引導(dǎo)測(cè)試者探索AI模型的潛在風(fēng)險(xiǎn),這不僅提高了測(cè)試的針對(duì)性,也大大增強(qiáng)了測(cè)試的全面性。人口統(tǒng)計(jì)匹配和仲裁步驟的引入,進(jìn)一步提升了測(cè)試結(jié)果的敏感性和準(zhǔn)確性,使得對(duì)模型的評(píng)估更加細(xì)致和深入。這些優(yōu)勢(shì)共同作用,使STAR成為一個(gè)強(qiáng)有力的工具,用于發(fā)現(xiàn)并緩解可能的AI風(fēng)險(xiǎn)。

STAR框架的實(shí)驗(yàn)發(fā)現(xiàn)對(duì)于理解和改進(jìn)AI模型的安全性具有重要意義。通過(guò)細(xì)粒度的分析,研究者能夠揭示模型在處理復(fù)雜社會(huì)問題時(shí)的潛在偏見和不足。這些發(fā)現(xiàn)不僅有助于開發(fā)者優(yōu)化模型,減少偏見,還為制定相關(guān)政策和標(biāo)準(zhǔn)提供了科學(xué)依據(jù)。此外,注釋者分歧的價(jià)值在于它提供了一個(gè)多元化的視角,有助于構(gòu)建更加公正和全面的AI評(píng)估體系。

STAR框架對(duì)AI安全實(shí)踐的影響是深遠(yuǎn)的。它不僅為AI研究者和開發(fā)者提供了一個(gè)強(qiáng)大的工具來(lái)評(píng)估和改進(jìn)AI系統(tǒng),還為監(jiān)管機(jī)構(gòu)和政策制定者提供了一個(gè)參考框架來(lái)理解和監(jiān)管AI技術(shù)。隨著AI技術(shù)在社會(huì)中的應(yīng)用越來(lái)越廣泛,STAR框架所提供的深入洞察和系統(tǒng)化方法將對(duì)確保AI技術(shù)的安全、公正和可靠發(fā)揮關(guān)鍵作用。

參考資料:https://arxiv.org/pdf/2406.11757

本文轉(zhuǎn)載自 大噬元獸,作者: FlerkenS

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦