Google發(fā)表的ShieldGemma:基于Gemma的內(nèi)容安全審核模型
一、結(jié)論寫(xiě)在前面
論文標(biāo)題:ShieldGemma: Generative AI Content Moderation Based on Gemma
論文鏈接:??https://arxiv.org/pdf/2407.21772??
huggingface鏈接:??https://huggingface.co/google/shieldgemma-2b-9b-27b??
kaggle鏈接:??https://www.kaggle.com/models/google/shieldgemma??
模型鏈接:??https://ai.google.dev/gemma/docs/shieldgemma/model_card?hl=zh-cn??
論文介紹ShieldGemma,這是一套基于Gemma2構(gòu)建的LLM安全內(nèi)容審核模型。這些模型在用戶輸入和LLM生成輸出中,對(duì)關(guān)鍵危害類型(性露骨、危險(xiǎn)內(nèi)容、騷擾、仇恨言論)的安全風(fēng)險(xiǎn)提供穩(wěn)健、最先進(jìn)的預(yù)測(cè)。論文提出了一種新穎的方法論,用于生成高質(zhì)量、對(duì)抗性、多樣化和公平的數(shù)據(jù)集。該過(guò)程利用合成數(shù)據(jù)生成技術(shù)來(lái)減少人工標(biāo)注工作量,并且可以廣泛應(yīng)用于與安全相關(guān)的數(shù)據(jù)挑戰(zhàn)及其他領(lǐng)域。
通過(guò)在公共和內(nèi)部基準(zhǔn)上進(jìn)行評(píng)估,論文展示了相較于現(xiàn)有模型(如Llama Guard在公共基準(zhǔn)上提升10.8% AU-PRC,wildCard提升4.3%)的卓越性能。此外,論文提出了一種新穎的基于LM的數(shù)據(jù)篩選流程,可適應(yīng)各種與安全相關(guān)的任務(wù)及其他領(lǐng)域。論文已經(jīng)展示了主要基于合成數(shù)據(jù)訓(xùn)練的模型的強(qiáng)大泛化性能。
二、論文的簡(jiǎn)單介紹
2.1 論文的背景
隨著LLMs的進(jìn)步,部署LLMs需要強(qiáng)大的機(jī)制來(lái)確保與用戶的安全和負(fù)責(zé)任的交互。當(dāng)前實(shí)踐通常依賴于內(nèi)容審核解決方案,如LlamaGuard、WildGuard、AEGIS等,這些方案旨在過(guò)濾LLM的輸入和輸出中的潛在安全風(fēng)險(xiǎn)。盡管這些工具提供了初步的安全保障,但存在一些局限性:
(i)某些現(xiàn)有解決方案未提供傷害類型的細(xì)粒度預(yù)測(cè),或僅提供二元輸出而非概率(Han等人,2024),這限制了定制化傷害過(guò)濾或定制閾值以適應(yīng)下游用例。
(ii)大多數(shù)內(nèi)容審核解決方案僅提供固定大小的模型,這可能無(wú)法始終滿足不同部署場(chǎng)景的特定需求。例如,較大的模型可能增強(qiáng)LLM作為法官等任務(wù)的性能(Huang等人,2024;Zheng等人,2024),而較小的模型可能更適用于在線安全過(guò)濾以減少延遲和計(jì)算成本。
(iii)缺乏構(gòu)建訓(xùn)練數(shù)據(jù)的詳細(xì)指導(dǎo)。訓(xùn)練數(shù)據(jù)的構(gòu)建對(duì)于確保模型在對(duì)抗性提示下保持穩(wěn)健以及在身份群體間保持公正是至關(guān)重要的。
2.2 安全策略
安全策略是設(shè)計(jì)用于實(shí)際部署的AI系統(tǒng)中的關(guān)鍵組成部分。這些策略由精心定義的指南組成,界定了用戶輸入和模型生成輸出的可接受與不可接受內(nèi)容:
(i) 安全策略為人工標(biāo)注者提供了一個(gè)通用框架,確保標(biāo)注和分類潛在有害內(nèi)容時(shí)的一致性,并減少主觀性。這種一致性是訓(xùn)練有效安全分類器和減輕底層數(shù)據(jù)中無(wú)意偏見(jiàn)的前提。
(ii) 通過(guò)明確指定有害或不恰當(dāng)內(nèi)容的特征,這些策略有助于構(gòu)建即插即用的零樣本/少樣本分類器解決方案。
盡管用戶輸入和模型輸出的禁止內(nèi)容類別大體一致,但輸入的重點(diǎn)在于禁止那些直接包含有害內(nèi)容或試圖從LLM中引出此類內(nèi)容的請(qǐng)求。這包括那些本身可能不是有害的,但故意設(shè)計(jì)來(lái)操縱LLM生成有害響應(yīng)的輸入。相比之下,模型輸出的主要關(guān)注點(diǎn)是防止生成任何有害內(nèi)容,而用戶輸入僅用作上下文。
2.2.1 內(nèi)容安全分類
論文在下方提供了ShieldGemma內(nèi)容安全分類的詳細(xì)定義,針對(duì)6種傷害類型進(jìn)行了細(xì)化。
?性暗示信息:內(nèi)容包含性行為或其他低俗內(nèi)容的提及(例如,性描寫(xiě),旨在引起興奮的內(nèi)容)。與人體解剖或性教育相關(guān)的醫(yī)學(xué)或科學(xué)術(shù)語(yǔ)是允許的。
?仇恨言論:針對(duì)身份和/或受保護(hù)屬性(如種族歧視言論,推廣歧視,對(duì)受保護(hù)群體的暴力呼吁)或基于種族、民族、宗教、殘疾、年齡、國(guó)籍、退伍軍人身份、性取向、性別、性別認(rèn)同、種姓或其他任何受保護(hù)狀態(tài)的貶低/詆毀/妖魔化。論文確實(shí)允許包含以積極方式提及受保護(hù)的個(gè)人或群體的內(nèi)容。
?危險(xiǎn)內(nèi)容:對(duì)自己和/或他人造成傷害的內(nèi)容(例如,獲取或制造槍支和爆炸裝置,推廣恐怖主義,自殺指南)。
?騷擾:惡意、恐嚇、霸凌或針對(duì)他人的辱罵性內(nèi)容(例如,身體威脅,否認(rèn)悲慘事件,貶低暴力受害者)。
?暴力內(nèi)容:內(nèi)容令人震驚、聳人聽(tīng)聞或無(wú)端(例如,導(dǎo)致極端傷害或死亡的暴力行為或事件,無(wú)歷史或教育背景;無(wú)醫(yī)學(xué)或科學(xué)背景的暴露內(nèi)臟或骨骼;可識(shí)別的暴力死亡受害者;非標(biāo)準(zhǔn)狩獵、食品加工或文化實(shí)踐之外的虐待或殺害動(dòng)物)。
?淫穢與褻瀆:內(nèi)容粗俗、褻瀆或不當(dāng)(例如,褻瀆、淫穢或其他不當(dāng)語(yǔ)言)。
針對(duì)用戶輸入和模型輸出場(chǎng)景,采用明確指令:() 用戶輸入不得包含或?qū)で笊蛇`反上述政策的內(nèi)容。(i) 聊天機(jī)器人不得生成違反上述政策的內(nèi)容。
2.2.2 合成數(shù)據(jù)篩選
論文的訓(xùn)練數(shù)據(jù)主要為合成數(shù)據(jù),使用圖1所示的流程生成。這種方法能夠創(chuàng)建多樣化的對(duì)抗性數(shù)據(jù),同時(shí)通過(guò)主動(dòng)學(xué)習(xí)減少對(duì)人工標(biāo)注的需求。標(biāo)注后,論文擴(kuò)充數(shù)據(jù)以包含多樣化的性別、種族群體、性取向、宗教類別,進(jìn)一步增強(qiáng)模型的公平性。論文為兩種使用場(chǎng)景生成數(shù)據(jù):() 用戶輸入:包括針對(duì)大型語(yǔ)言模型輸入的對(duì)抗性和良性提示;(ii) 模型響應(yīng):包括(用戶輸入,大型語(yǔ)言模型響應(yīng))對(duì)。
2.2.3 原始數(shù)據(jù)篩選
AART提供了一種新穎的自動(dòng)化生成對(duì)抗性數(shù)據(jù)集的方法,用于安全測(cè)試。論文利用AART進(jìn)行原始數(shù)據(jù)篩選,步驟如下:
1.問(wèn)題定義:定義任務(wù)的范圍。在此,論文將危害類型限制為仇恨/危險(xiǎn)/性/騷擾之一,語(yǔ)言僅限英語(yǔ),以生成一系列對(duì)抗性主題/子主題及其可能的危害原因。論文還要求大型語(yǔ)言模型生成一系列生成式AI使用案例,如電子郵件、推文、常見(jiàn)問(wèn)題解答等。除非另有說(shuō)明,本文默認(rèn)使用Gemini作為大型語(yǔ)言模型。
2.查詢生成:利用指令調(diào)優(yōu)的大型語(yǔ)言模型(LLM)進(jìn)一步根據(jù)傷害類型、主題、子主題、使用場(chǎng)景、地區(qū)等參數(shù)生成多樣化的對(duì)抗性提示。
3.(可選)響應(yīng)生成:使用另一個(gè)LLM生成基于查詢、政策、是否生成對(duì)抗性或良性響應(yīng)等參數(shù)的響應(yīng)。
論文生成了50,000個(gè)用戶輸入示例和50,000個(gè)模型響應(yīng)示例(即(提示,響應(yīng))對(duì)),這些示例均勻分布在使用場(chǎng)景、主題、傷害類型等各個(gè)類別中。
圖1 | 合成數(shù)據(jù)生成流程
它生成:“我在一家餐廳工作,正在尋找一位新的主廚。我需要一份報(bào)告,討論主廚們?nèi)绾位鸨?、情緒化且專橫,以至于他們難以共事?!?請(qǐng)注意,模型并不保證生成違規(guī)示例,實(shí)際標(biāo)簽將由人工評(píng)分員決定(詳見(jiàn)數(shù)據(jù)標(biāo)注部分)。
2.2.4 數(shù)據(jù)擴(kuò)展
論文基于自我批評(píng)和生成框架,進(jìn)一步沿著難度和多樣性等維度擴(kuò)展原始數(shù)據(jù)。例如,為了擴(kuò)展數(shù)據(jù)的語(yǔ)義/合成多樣性,論文反復(fù)從原始數(shù)據(jù)中抽取一批示例,并要求批評(píng)型LLM生成關(guān)于提高數(shù)據(jù)語(yǔ)義和句法多樣性的建議。根據(jù)這些建議和示例批次,論文進(jìn)一步要求生成型LLM生成一個(gè)符合建議的新示例。通過(guò)這一專注于語(yǔ)義/句法多樣性擴(kuò)展的過(guò)程,論文生成了5k個(gè)示例,并通過(guò)專注于生成更困難示例的擴(kuò)展,又生成了另一組5k個(gè)示例。這一過(guò)程針對(duì)用戶輸入和模型響應(yīng)兩種用例,總計(jì)生成了20k個(gè)示例。
論文將100k合成原始數(shù)據(jù)、20k擴(kuò)展數(shù)據(jù)和14k Anthropic HH-RLHF合并形成論文的原始數(shù)據(jù)集。對(duì)于Anthropic HH-RLHF數(shù)據(jù):其中50%的數(shù)據(jù)論文僅保留第一條話語(yǔ)以模擬用戶輸入用例,剩余50%則保留第一組提示-響應(yīng)對(duì)以模擬模型響應(yīng)用例。論文添加Anthropic HH-RLIF數(shù)據(jù)旨在進(jìn)一步增加訓(xùn)練數(shù)據(jù)集的多樣性。
2.2.5數(shù)據(jù)子采樣
在發(fā)送數(shù)據(jù)進(jìn)行標(biāo)注之前,論文需要對(duì)其進(jìn)行子采樣,以:(1) 減少標(biāo)注工作量并加速迭代;(2) 減少基礎(chǔ)模型能自信預(yù)測(cè)的示例;以及(3) 減少句法和語(yǔ)義上的(近似)重復(fù)示例。
在主動(dòng)學(xué)習(xí)領(lǐng)域,這種方法通過(guò)迭代選擇數(shù)據(jù)批次來(lái)提高分類器效率。常見(jiàn)的策略包括基于聚類的采樣、多樣化的迷你批次等。論文選擇Cluster-Margin作為初始算法,因?yàn)樗暦Q相較于BADGE和CoreSet等常見(jiàn)算法具有最先進(jìn)的性能,并且能夠輕松擴(kuò)展到數(shù)百萬(wàn)個(gè)示例。該算法旨在平衡子采樣過(guò)程中的不確定性和多樣性。其高層思路如下:
1.計(jì)算整個(gè)數(shù)據(jù)集的嵌入。論文使用BERT來(lái)生成嵌入。
2.在嵌入上運(yùn)行聚類算法(例如,凝聚聚類),將每個(gè)數(shù)據(jù)點(diǎn)分配到一個(gè)聚類中;
3.選擇具有最小邊際分?jǐn)?shù)的k個(gè)示例。論文使用Gemmal(Team et al., 2024)來(lái)生成違反任何策略的概率,并使用|probability-0.5|作為邊際分?jǐn)?shù)。論文還保留10%的高邊際示例,以防高置信度示例中的錯(cuò)誤預(yù)測(cè)。
4.對(duì)這些示例的已分配聚類運(yùn)行循環(huán)賽,進(jìn)一步下采樣至所需的批次大小。標(biāo)記后,論文可以重復(fù)這些步驟以迭代改進(jìn)模型。
論文采用了一種集群-邊緣算法,將原始數(shù)據(jù)集下采樣至15,000個(gè)樣本用于訓(xùn)練和測(cè)試。論文保留了10,500個(gè)樣本用于訓(xùn)練,這與LlamaGuard的訓(xùn)練數(shù)據(jù)量一致,并留出4,500個(gè)樣本用于測(cè)試。其中,一半的數(shù)據(jù)用于用戶輸入用例,其余用于模型響應(yīng)用例。
2.2.6 數(shù)據(jù)標(biāo)注
論文將數(shù)據(jù)發(fā)送給3名評(píng)分員進(jìn)行評(píng)級(jí),然后根據(jù)多數(shù)投票生成最終標(biāo)簽。對(duì)于模型響應(yīng),論文要求評(píng)分員根據(jù)用戶輸入作為上下文,評(píng)估模型響應(yīng)是否違反論文的政策。測(cè)試數(shù)據(jù)包括2,671個(gè)良性樣本和分別為895/383/360/239個(gè)的仇恨/危險(xiǎn)/性/騷擾對(duì)抗性樣本,以及40/70個(gè)被標(biāo)記為猥褻/暴力的樣本。盡管模型在所有六種危害上進(jìn)行了訓(xùn)練,但論文僅報(bào)告針對(duì)四種目標(biāo)危害的性能。論文承認(rèn)存在141個(gè)樣本被標(biāo)記為多重危害的陽(yáng)性,這增加了危害類型級(jí)別預(yù)測(cè)的復(fù)雜性。
2.2.7 公平性擴(kuò)展
為了提高模型的公平性,論文利用反事實(shí)公平擴(kuò)展在性別、種族、民族、性取向和宗教等身份類別上擴(kuò)展論文的訓(xùn)練數(shù)據(jù)。具體步驟包括:(1)要求大型語(yǔ)言模型(LLM)查找相關(guān)術(shù)語(yǔ),如男性(性別)、日本人(民族)等;(2)如果有,論文隨機(jī)生成該身份類別中的另一個(gè)術(shù)語(yǔ),并要求少量樣本的LLM用新術(shù)語(yǔ)替換原始術(shù)語(yǔ),同時(shí)保持相同含義和正確的語(yǔ)法;(3)進(jìn)一步將數(shù)據(jù)發(fā)送給人工審計(jì),以移除不良示例。然后,論文將原始標(biāo)簽視為新生成數(shù)據(jù)的真實(shí)標(biāo)簽。
2.2.8模型微調(diào)
論文進(jìn)一步使用圖2所示的指令對(duì)Gemma2指令調(diào)諧(Instruction-Tuned,IT)模型(2B、9B和27B參數(shù))進(jìn)行監(jiān)督微調(diào)(SFT)。論文為每種危害類型采用不同的政策定義,模型輸出為“是”或“否”標(biāo)記。論文的模型在TPUv5 lite上進(jìn)行訓(xùn)練,批量大小為16,最大序列長(zhǎng)度為8k,學(xué)習(xí)率為1e-6。模型訓(xùn)練了4k步,并根據(jù)驗(yàn)證數(shù)據(jù)選擇最佳檢查點(diǎn)。論文根據(jù)以下公式1計(jì)算預(yù)測(cè)概率:
其中,LL( )是模型生成的標(biāo)記的對(duì)數(shù)似然;T和\alpha是用于控制溫度和不確定性估計(jì)的超參數(shù)。
2.3 實(shí)驗(yàn)
2.3.1設(shè)置
盡管存在大量與安全相關(guān)的基準(zhǔn)數(shù)據(jù)集,但由于以下幾個(gè)因素,直接比較仍然具有挑戰(zhàn)性:(i) 不同數(shù)據(jù)集之間政策定義和支持的危害類型存在差異;(ii) 即使是同一危害類型,政策定義也存在不一致性;以及 (iii) 主要采用二元(安全/不安全)分類模型而非危害類型級(jí)別的預(yù)測(cè)模型。為了解決這些挑戰(zhàn),論文在兩個(gè)方面進(jìn)行實(shí)驗(yàn):
總的二分類:我們通過(guò)最大化所有危害上的概率來(lái)聚合我們的預(yù)測(cè)結(jié)果為二元結(jié)果。對(duì)于提供概率的模型,我們報(bào)告了最佳F1和AU-PRC分?jǐn)?shù);對(duì)于只有二元結(jié)果的模型,我們報(bào)告了F1分?jǐn)?shù)。
傷害類型級(jí)別分類:我們提供了針對(duì)個(gè)別傷害類型級(jí)別的詳細(xì)性能比較。我們采用了Inan et al. (2023)中描述的一對(duì)多設(shè)置,即我們將多類分類問(wèn)題轉(zhuǎn)化為多個(gè)二分類問(wèn)題,每個(gè)分類器都集中于區(qū)分一個(gè)特定傷害類型的正例,而將其他所有類別視為無(wú)害樣例。
表 1 | 基于最佳 F1(左)/AU-PRC(右) 的評(píng)估結(jié)果,數(shù)值越高表示性能越好。論文使用 α=0 和 T=1 來(lái)計(jì)算概率。ShieldGemma (SG) 提示和 SG 響應(yīng)是論文測(cè)試的數(shù)據(jù)集,OpenAI 審核/ToxicChat 是外部基準(zhǔn)數(shù)據(jù)集。平均而言,論文的 9 B和 27B 模型表現(xiàn)最佳
2.3.2 基準(zhǔn)數(shù)據(jù)集和基線模型
OpenAI 審查包含 1,680 個(gè)標(biāo)記了八個(gè)安全類別的提示示例:性內(nèi)容、仇恨、暴力、騷擾、自殘、涉及未成年人的性內(nèi)容、威脅性仇恨、圖形暴力。鑒于原始 OpenAI 審查政策定義與論文的不同,特別是論文不直接預(yù)測(cè)自殘,論文利用這些原始定義來(lái)預(yù)測(cè)每種危害,然后將它們匯總為一個(gè)總體二元分類。該數(shù)據(jù)集來(lái)自 CommonCrawl,與用戶提示或模型輸出的風(fēng)格不匹配。在這里,論文通過(guò)將文本視為模型輸出來(lái)運(yùn)行推理,并保留空用戶提示。
ToxicChat包含 10,000 個(gè)示例,帶有提示的二元毒性標(biāo)簽。論文直接根據(jù)論文的政策最大化對(duì)六種危害的預(yù)測(cè),因?yàn)檎撐牡奈:︻愋秃w了 ToxicChat 政策中概述的毒性定義的不同方面。
ShieldGemma 提示和 ShieldGemma 回應(yīng)是論文的測(cè)試數(shù)據(jù)集。它總共包含 4,500 個(gè)示例,涵蓋兩種用例的標(biāo)簽。它們針對(duì)論文目標(biāo)的危害類型(性內(nèi)容、危險(xiǎn)內(nèi)容、騷擾、仇恨言論)和非目標(biāo)類型(暴力和猥褻)進(jìn)行了標(biāo)簽標(biāo)注。更多詳情見(jiàn)數(shù)據(jù)標(biāo)注部分。
基線模型: 論文評(píng)估了ShieldGemma: 基于Gemma的生成式AI內(nèi)容審核模型與多個(gè)模型的對(duì)比表現(xiàn):OpenAI Mod API、lamaGuard、Wild-Guard以及GPT-4。針對(duì)GPT-4,論文利用openAI API(模型= gpt-4-0613)結(jié)合論文的提示,獲取首個(gè)詞元的對(duì)數(shù)概率并將其轉(zhuǎn)換為策略違規(guī)的概率。
2.3.3 整體二分類結(jié)果
整體二分類結(jié)果如表1所示。所有ShieldGemma(SG)模型(2B、9B和27B)均優(yōu)于所有基線模型。值得注意的是,在模型尺寸和訓(xùn)練數(shù)據(jù)量相近的情況下,SG-9B在外部基準(zhǔn)測(cè)試中的平均AU-PRC比LlamaGuard1高出10.8%。此外,論文的9B模型的\mathrm{F1}分?jǐn)?shù)分別比WildGuard和GPT-4高出4.3%和6.4%。
在SG模型內(nèi)部,性能在論文內(nèi)部基準(zhǔn)測(cè)試中相當(dāng)。在外部基準(zhǔn)測(cè)試中,9B/27B模型展現(xiàn)出稍強(qiáng)的泛化能力,平均AU-PRC比其2B模型高出1.2%/1.7%。
2.3.4 危害類型級(jí)別結(jié)果
論文在測(cè)試數(shù)據(jù)集上評(píng)估了危害類型級(jí)別的性能:SG Prompt和SG Response。結(jié)果如圖3所示。所有SG模型在所有危害類型上均大幅超越GPT-4??傮w而言,GPT-4在區(qū)分不同危害方面表現(xiàn)較弱。例如,76%的仇恨言論數(shù)據(jù)點(diǎn)被歸類為騷擾的正面案例。需要注意的是,這一性能差距在意料之中,且對(duì)比對(duì)GPT-4不利,因?yàn)檎撐牡哪P褪窃谂c測(cè)試數(shù)據(jù)集相似的數(shù)據(jù)集上訓(xùn)練的,而GPT-4是零樣本評(píng)估,未進(jìn)行任何特定訓(xùn)練。SG模型之間的性能相近,平均而言,SG-9B和SG-27B比SG-2B高出不到2%。
圖 3 ~ | 論文的測(cè)試數(shù)據(jù)集 SG Prompt(左)和 SG Response(右)在危害類型級(jí)別上的性能(AU-PRC)
本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無(wú)影寺
