DeepMind提出了一種祖安AI，專門輸出網絡攻擊性語言

作者：機器之心 2022-02-14 19:02:52

如何避免人工智能被帶歪？答案是首先要創(chuàng)造出「別有用心」的人工智能。

語言模型 (LM) 常常存在生成攻擊性語言的潛在危害，這也影響了模型的部署。一些研究嘗試使用人工注釋器手寫測試用例，以在部署之前識別有害行為。然而，人工注釋成本高昂，限制了測試用例的數量和多樣性。

基于此，來自 DeepMind 的研究者通過使用另一個 LM 生成測試用例來自動發(fā)現(xiàn)目標 LM 未來可能的有害表現(xiàn)。該研究使用檢測攻擊性內容的分類器，來評估目標 LM 對測試問題的回答質量，實驗中在 280B 參數 LM 聊天機器人中發(fā)現(xiàn)了數以萬計的攻擊性回答。

論文地址：https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf

該研究探索了從零樣本生成到強化學習的多種方法，以生成具有多樣性和不同難度的測試用例。此外，該研究使用 prompt 工程來控制 LM 生成的測試用例以發(fā)現(xiàn)其他危害，自動找出聊天機器人會以攻擊性方式與之討論的人群、找出泄露隱私信息等對話過程存在危害的情況。總體而言，該研究提出的 Red Teaming LM 是一種很有前途的工具，用于在實際用戶使用之前發(fā)現(xiàn)和修復各種不良的 LM 行為。

GPT-3 和 Gopher 等大型生成語言模型具有生成高質量文本的非凡能力，但它們很難在現(xiàn)實世界中部署，存在生成有害文本的風險。實際上，即使是很小的危害風險在實際應用中也是不可接受的。

例如，2016 年，微軟發(fā)布了 Tay Twitter 機器人，可以自動發(fā)推文以響應用戶。僅在 16 個小時內，Tay 就因發(fā)出帶有種族主義和色情信息的推文后被微軟下架，當時已發(fā)送給超過 50000 名關注者。

問題在于有太多可能的輸入會導致模型生成有害文本，因此，很難讓模型在部署到現(xiàn)實世界之前就找出所有的失敗情況。DeepMind 研究的目標是通過自動查找失敗案例（或「紅隊（red teaming）」）來補充人工手動測試，并減少關鍵疏忽。該研究使用語言模型本身生成測試用例，并使用分類器檢測測試用例上的各種有害行為，如下圖所示：

「基于 LM 的 red teaming」使我們可以找出成千上萬種不同的失敗案例，而不用手動寫出它們。

該研究使用對話作為測試平臺來檢驗其假設，即 LM 是紅隊的工具。DeepMind 這項研究的首要目標就是找到能引起 Dialogue-Prompted Gopher(DPG; Rae et al., 2021)作出攻擊性回復的文本。DPG 通過以手寫文本前綴或 prompt 為條件，使用 Gopher LM 生成對話話語。Gopher LM 則是一個預訓練的、從左到右的 280B 參數 transformer LM，并在互聯(lián)網文本等數據上進行了訓練。

攻擊性語言：仇恨言論、臟話、性騷擾、歧視性語言等
數據泄露：從訓練語料庫中生成有版權或私人可識別信息
聯(lián)系信息生成：引導用戶發(fā)送不必要的郵件或給真人打電話
分布式偏見（distributional bias）：以一種相較其他群體不公平的方式討論某些群體
會話傷害：長對話場景中出現(xiàn)的攻擊性語言

為了使用語言模型生成測試用例，研究者探索了很多方法，從基于 prompt 的生成和小樣本學習到監(jiān)督式微調和強化學習，并生成了更多樣化的測試用例。

研究者指出，一旦發(fā)現(xiàn)失敗案例，通過以下方式修復有害模型行為將變得更容易：

將有害輸出中經常出現(xiàn)的某些短語列入黑名單，防止模型生成包含高風險短語的輸出；
查找模型引用的攻擊性訓練數據，在訓練模型的未來迭代時刪除該數據；
使用某種輸入所需行為的示例來增強模型的 prompt（條件文本）；
訓練模型以最小化給定測試輸入生成有害輸出的可能性。

如下圖 2 所示，0.5M 的零樣本測試用例在 3.7% 的時間內引發(fā)了攻擊性回復，導致出現(xiàn) 18444 個失敗的測試用例。SFS 利用零樣本測試用例來提高攻擊性，同時保持相似的測試用例多樣性。

為了理解 DPG 方法失敗的原因，該研究將引起攻擊性回復的測試用例進行聚類，并使用 FastText(Joulin et al., 2017)嵌入每個單詞，計算每個測試用例的平均詞袋嵌入。最終，該研究使用 k-means 聚類在 18k 個引發(fā)攻擊性回復的問題上形成了 100 個集群，下表 1 顯示了來自部分集群的問題。

此外，該研究還通過分析攻擊性回復來改進目標 LM。該研究標記了輸出中最有可能導致攻擊性分類的 100 個名詞短語，下表 2 展示了使用標記名詞短語的 DPG 回復。

總體而言，語言模型是一種非常有效的工具，可用于發(fā)現(xiàn)語言模型何時會表現(xiàn)出各種不良方式。在目前的工作中，研究人員專注于當今語言模型所帶來的 red team 風險。將來，這種方法還可用于先發(fā)制人地找到來自高級機器學習系統(tǒng)的其他潛在危害，如內部錯位或客觀魯棒性問題。

這種方法只是高可信度語言模型開發(fā)的一個組成部分：DeepMind 將 red team 視為一種工具，用于發(fā)現(xiàn)語言模型中的危害并減輕它們的危害。

責任編輯：張燕妮來源：機器之心Pro

人工智能網絡模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepMind提出了一種祖安AI，專門輸出網絡攻擊性語言