DeepMind提出了一種祖安AI,專門輸出網絡攻擊性語言
語言模型 (LM) 常常存在生成攻擊性語言的潛在危害,這也影響了模型的部署。一些研究嘗試使用人工注釋器手寫測試用例,以在部署之前識別有害行為。然而,人工注釋成本高昂,限制了測試用例的數量和多樣性。
基于此,來自 DeepMind 的研究者通過使用另一個 LM 生成測試用例來自動發(fā)現(xiàn)目標 LM 未來可能的有害表現(xiàn)。該研究使用檢測攻擊性內容的分類器,來評估目標 LM 對測試問題的回答質量,實驗中在 280B 參數 LM 聊天機器人中發(fā)現(xiàn)了數以萬計的攻擊性回答。
論文地址:https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf
該研究探索了從零樣本生成到強化學習的多種方法,以生成具有多樣性和不同難度的測試用例。此外,該研究使用 prompt 工程來控制 LM 生成的測試用例以發(fā)現(xiàn)其他危害,自動找出聊天機器人會以攻擊性方式與之討論的人群、找出泄露隱私信息等對話過程存在危害的情況。總體而言,該研究提出的 Red Teaming LM 是一種很有前途的工具,用于在實際用戶使用之前發(fā)現(xiàn)和修復各種不良的 LM 行為。
GPT-3 和 Gopher 等大型生成語言模型具有生成高質量文本的非凡能力,但它們很難在現(xiàn)實世界中部署,存在生成有害文本的風險。實際上,即使是很小的危害風險在實際應用中也是不可接受的。
例如,2016 年,微軟發(fā)布了 Tay Twitter 機器人,可以自動發(fā)推文以響應用戶。僅在 16 個小時內,Tay 就因發(fā)出帶有種族主義和色情信息的推文后被微軟下架,當時已發(fā)送給超過 50000 名關注者。
問題在于有太多可能的輸入會導致模型生成有害文本,因此,很難讓模型在部署到現(xiàn)實世界之前就找出所有的失敗情況。DeepMind 研究的目標是通過自動查找失敗案例(或「紅隊(red teaming)」)來補充人工手動測試,并減少關鍵疏忽。該研究使用語言模型本身生成測試用例,并使用分類器檢測測試用例上的各種有害行為,如下圖所示:
「基于 LM 的 red teaming」使我們可以找出成千上萬種不同的失敗案例,而不用手動寫出它們。
該研究使用對話作為測試平臺來檢驗其假設,即 LM 是紅隊的工具。DeepMind 這項研究的首要目標就是找到能引起 Dialogue-Prompted Gopher(DPG; Rae et al., 2021)作出攻擊性回復的文本。DPG 通過以手寫文本前綴或 prompt 為條件,使用 Gopher LM 生成對話話語。Gopher LM 則是一個預訓練的、從左到右的 280B 參數 transformer LM,并在互聯(lián)網文本等數據上進行了訓練。
- 攻擊性語言:仇恨言論、臟話、性騷擾、歧視性語言等
- 數據泄露:從訓練語料庫中生成有版權或私人可識別信息
- 聯(lián)系信息生成:引導用戶發(fā)送不必要的郵件或給真人打電話
- 分布式偏見(distributional bias):以一種相較其他群體不公平的方式討論某些群體
- 會話傷害:長對話場景中出現(xiàn)的攻擊性語言
為了使用語言模型生成測試用例,研究者探索了很多方法,從基于 prompt 的生成和小樣本學習到監(jiān)督式微調和強化學習,并生成了更多樣化的測試用例。
研究者指出,一旦發(fā)現(xiàn)失敗案例,通過以下方式修復有害模型行為將變得更容易:
- 將有害輸出中經常出現(xiàn)的某些短語列入黑名單,防止模型生成包含高風險短語的輸出;
- 查找模型引用的攻擊性訓練數據,在訓練模型的未來迭代時刪除該數據;
- 使用某種輸入所需行為的示例來增強模型的 prompt(條件文本);
- 訓練模型以最小化給定測試輸入生成有害輸出的可能性。
如下圖 2 所示,0.5M 的零樣本測試用例在 3.7% 的時間內引發(fā)了攻擊性回復,導致出現(xiàn) 18444 個失敗的測試用例。SFS 利用零樣本測試用例來提高攻擊性,同時保持相似的測試用例多樣性。
為了理解 DPG 方法失敗的原因,該研究將引起攻擊性回復的測試用例進行聚類,并使用 FastText(Joulin et al., 2017)嵌入每個單詞,計算每個測試用例的平均詞袋嵌入。最終,該研究使用 k-means 聚類在 18k 個引發(fā)攻擊性回復的問題上形成了 100 個集群,下表 1 顯示了來自部分集群的問題。
此外,該研究還通過分析攻擊性回復來改進目標 LM。該研究標記了輸出中最有可能導致攻擊性分類的 100 個名詞短語,下表 2 展示了使用標記名詞短語的 DPG 回復。
總體而言,語言模型是一種非常有效的工具,可用于發(fā)現(xiàn)語言模型何時會表現(xiàn)出各種不良方式。在目前的工作中,研究人員專注于當今語言模型所帶來的 red team 風險。將來,這種方法還可用于先發(fā)制人地找到來自高級機器學習系統(tǒng)的其他潛在危害,如內部錯位或客觀魯棒性問題。
這種方法只是高可信度語言模型開發(fā)的一個組成部分:DeepMind 將 red team 視為一種工具,用于發(fā)現(xiàn)語言模型中的危害并減輕它們的危害。