無(wú)需訓(xùn)練實(shí)現(xiàn)價(jià)值觀實(shí)時(shí)動(dòng)態(tài)對(duì)齊:上交開(kāi)源價(jià)值觀對(duì)齊方法OPO,閉源與開(kāi)源大模型均適用
隨著人工智能技術(shù)的發(fā)展,以 GPT-4 為代表的大語(yǔ)言模型依靠其強(qiáng)大的能力正在對(duì)社會(huì)產(chǎn)生深遠(yuǎn)的影響。與此同時(shí),大模型本身的安全性問(wèn)題也變得尤為重要。如何確保大語(yǔ)言模型可以和人類(lèi)的價(jià)值、真實(shí)的意圖相一致,防止模型被濫用、輸出有害的信息,這是大模型安全治理的核心問(wèn)題。之前的大多數(shù)對(duì)齊方法需要收集新數(shù)據(jù)重新訓(xùn)練模型,然而對(duì)訓(xùn)練數(shù)據(jù)質(zhì)量要求高以及優(yōu)化模型參數(shù)耗時(shí)耗力是對(duì)齊中的痛點(diǎn)。除此之外,待對(duì)齊的價(jià)值觀可能是動(dòng)態(tài)變化的,這進(jìn)一步給大模型價(jià)值觀對(duì)齊帶來(lái)了挑戰(zhàn)。
有鑒于此,上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 GAIR 迅速采取行動(dòng),推出了一種全新的價(jià)值對(duì)齊方法:OPO (On-the-fly Preference Optimization,實(shí)時(shí)偏好優(yōu)化)。OPO 無(wú)需訓(xùn)練即可實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)對(duì)齊,而且因其即插即用的特性,適用于所有的開(kāi)源與閉源大模型。研究者透過(guò) OPO 實(shí)現(xiàn)了大模型對(duì)于法律與道德標(biāo)準(zhǔn)的對(duì)齊,展示了 OPO 的動(dòng)態(tài)性以及優(yōu)越性。
相比于之前工作中的對(duì)齊方法(i.e., SFT、PPO 和 DPO),OPO 方法有如下優(yōu)勢(shì):
- 無(wú)需訓(xùn)練即可實(shí)現(xiàn)價(jià)值觀對(duì)齊;
- 舍棄獎(jiǎng)勵(lì)模型,并對(duì)任意大模型均適用,包括開(kāi)源與閉源大模型;
- 容易更新待對(duì)齊的價(jià)值觀。考慮到價(jià)值觀可能會(huì)隨著時(shí)間發(fā)生變化(比如法律),OPO 能方便快捷地通過(guò)替換相應(yīng)的準(zhǔn)則完成價(jià)值觀的更新,而其他對(duì)齊方法則需要收集數(shù)據(jù)重新訓(xùn)練模型。
表 1:OPO 與 SFT、PPO、DPO 等對(duì)齊方法的對(duì)比。
目前,該項(xiàng)目開(kāi)源了大量資源,包括:
- OPO 代碼(使用方法和測(cè)試流程也已經(jīng)在 GitHub 上給出);
- 5 種類(lèi)型的測(cè)試數(shù)據(jù)集,包括人出的法考題目、《道德與法治》考試題目(只保留了道德相關(guān)的題目)和從 NormBank 數(shù)據(jù)的測(cè)試集中隨機(jī)采樣的題目,以及利用大模型自動(dòng)生成的法律題目和職業(yè)道德題目;
- 2 大類(lèi)價(jià)值觀準(zhǔn)則,分別是法律準(zhǔn)則和道德準(zhǔn)則。法律準(zhǔn)則包括截止到 2023 年 7 月中國(guó)現(xiàn)行有效的所有法律法規(guī)(約 95 萬(wàn)條)。道德準(zhǔn)則:①?gòu)闹袑W(xué)的《道德與法治》教材里收集的基礎(chǔ)道德準(zhǔn)則;②從網(wǎng)上收集多家不同公司 / 行業(yè)的職業(yè)道德準(zhǔn)則;③從 NormBank 訓(xùn)練集數(shù)據(jù)中隨機(jī)抽取得到的社會(huì)道德規(guī)則;
- 用于自動(dòng)生成測(cè)試數(shù)據(jù)的 prompt 以及評(píng)估生成的測(cè)試數(shù)據(jù)質(zhì)量的 prompt;
- 用 OpenAI embedding 模型提取的法律和道德準(zhǔn)則文本對(duì)應(yīng)的向量。
- 論文:Align on the Fly: Adapting Chatbot Behavior to Established Norms
- 論文地址:https://arxiv.org/abs/2312.15907
- 項(xiàng)目地址:https://gair-nlp.github.io/OPO/
- 代碼地址:https://github.com/GAIR-NLP/OPO
方法
OPO 框架包含 3 部分,準(zhǔn)則構(gòu)建模塊、對(duì)齊模塊和評(píng)估模塊。
圖 1:OPO 框架。
準(zhǔn)則構(gòu)建模塊:
收集原始的準(zhǔn)則文檔,清洗文本數(shù)據(jù),統(tǒng)一準(zhǔn)則的格式,分別得到一個(gè)法律準(zhǔn)則語(yǔ)料庫(kù)和道德準(zhǔn)則語(yǔ)料庫(kù)。具體而言,對(duì)于法律準(zhǔn)則,研究者從國(guó)家法律法規(guī)數(shù)據(jù)庫(kù)中收集憲法、行政法規(guī)、地方性法規(guī)等法律法規(guī),從國(guó)家規(guī)章庫(kù)中收集部門(mén)規(guī)章與地方政府規(guī)章。這 2 個(gè)數(shù)據(jù)庫(kù)涵蓋了中國(guó)現(xiàn)行有效的所有法律。對(duì)于道德準(zhǔn)則,研究者從中學(xué)的《道德與法治》教材里收集剔除法治內(nèi)容后的文本作為基礎(chǔ)道德準(zhǔn)則,從網(wǎng)上收集了 57 家不同公司 / 行業(yè)的職業(yè)道德準(zhǔn)則。除了收集顯式的道德準(zhǔn)則外,研究者也嘗試從人標(biāo)注好的道德數(shù)據(jù)里提取道德準(zhǔn)則。從 NormBank 的訓(xùn)練集里隨機(jī)選了 1000 條數(shù)據(jù),每一條數(shù)據(jù)均是一個(gè)結(jié)構(gòu)化的社會(huì)道德場(chǎng)景,之后研究者利用 ChatGPT 從每條數(shù)據(jù)里提取一條社會(huì)道德準(zhǔn)則。
表 2:收集的道德準(zhǔn)則與法律準(zhǔn)則的分析。
表 3:收集的法律準(zhǔn)則、基礎(chǔ)道德準(zhǔn)則、職業(yè)道德準(zhǔn)則和社會(huì)道德準(zhǔn)則的示例。
對(duì)齊模塊:
對(duì)齊模塊基于檢索增強(qiáng)生成(RAG),旨在通過(guò)提供相應(yīng)的準(zhǔn)則,引導(dǎo)大模型在遵守準(zhǔn)則的前提下更好地回答用戶(hù)的問(wèn)題。研究者利用 OpenAI 的 text-embedding-ada-002 embedding 模型將每條準(zhǔn)則都表征為稠密向量并存儲(chǔ)在一個(gè)向量庫(kù)里。給定一個(gè)提問(wèn),首先也將問(wèn)詢(xún)轉(zhuǎn)換為一個(gè)稠密向量,然后利用 Faiss 作為檢索器在向量庫(kù)里檢索和問(wèn)詢(xún)最相關(guān)的 k 條準(zhǔn)則,接下來(lái),大模型會(huì)通過(guò)設(shè)計(jì)的 prompt 利用檢索回來(lái)的準(zhǔn)則作為行為規(guī)范回答問(wèn)詢(xún)。
圖 2:利用檢索信息回答問(wèn)詢(xún)的 prompt。
評(píng)估模塊:
評(píng)估模塊是一個(gè)通用可擴(kuò)展的問(wèn)題自動(dòng)生成工具,能夠輕松擴(kuò)展評(píng)測(cè)范圍、擴(kuò)大評(píng)測(cè)數(shù)據(jù)數(shù)量,還能緩解測(cè)試數(shù)據(jù)泄露的問(wèn)題。大模型在預(yù)訓(xùn)練和有監(jiān)督微調(diào)階段通常會(huì)涉及大量的非公開(kāi)文本,之前的一些研究表明這可能會(huì)造成測(cè)試數(shù)據(jù)泄露的問(wèn)題,進(jìn)而影響大模型性能對(duì)比的公平性。此外,研究者觀察到人出的法考題目只涵蓋一小部分法律,很多法律尤其是地方性法律沒(méi)有被覆蓋到,而對(duì)于這部分法律又很難收集到相應(yīng)的測(cè)試題目。并且,職業(yè)道德作為道德的一個(gè)重要組成部分,目前沒(méi)有對(duì)應(yīng)的測(cè)試基準(zhǔn)。為了解決上述問(wèn)題,研究者提出了一個(gè)評(píng)估模塊,該模塊利用 GPT-4 自動(dòng)生成帶有答案的單項(xiàng)選擇題。評(píng)估模塊共包含 3 步:
1. 自動(dòng)出題:收集人出的單項(xiàng)選擇題并從中隨機(jī)抽取一道題作為 seed quesiton,同時(shí)從收集的準(zhǔn)則庫(kù)里隨機(jī)選擇準(zhǔn)則,要求 GPT-4 參考 seed quesiton 并依據(jù)準(zhǔn)則和出題要求生成一道合理的包含題目、備選項(xiàng)、選項(xiàng)分析和答案的單項(xiàng)選擇題;
2. 自動(dòng)檢測(cè)題目質(zhì)量:將第一步的準(zhǔn)則和生成的題目輸入到 GPT-4,對(duì)單項(xiàng)選擇題的 4 個(gè)部分(題目、備選項(xiàng)、選項(xiàng)分析和答案)依次核驗(yàn),篩掉任意一部分不符合要求的題目;
3. 人工檢測(cè)題目質(zhì)量:研究者發(fā)現(xiàn)利用 GPT-4 并不能去掉所有質(zhì)量差的自動(dòng)生成的題目。為了確保評(píng)估的可靠性,研究者邀請(qǐng)了 3 個(gè)人類(lèi)標(biāo)注者,對(duì)第二步保留的題目作進(jìn)一步的篩選。如果 2 個(gè)及以上的標(biāo)注者都認(rèn)為某道題不合理,則去掉這道題。
實(shí)驗(yàn)和結(jié)果
為了驗(yàn)證 OPO 的有效性,研究者構(gòu)建了三個(gè)由人類(lèi)標(biāo)注的測(cè)試基準(zhǔn),以及兩個(gè)由模型自動(dòng)生成的測(cè)試基準(zhǔn)。這些基準(zhǔn)涵蓋了法律和道德兩大類(lèi)別,包括中文和英文基準(zhǔn)。測(cè)試基準(zhǔn)中的每一條數(shù)據(jù)均為單項(xiàng)選擇題。
表4:測(cè)試基準(zhǔn)的分析。
在 H-Law 和 A-Law 測(cè)試基準(zhǔn)上,OPO 能顯著提高大多數(shù)模型的準(zhǔn)確率。尤其值得一提的是,OPO 能在 A-Law 測(cè)試基準(zhǔn)上為許多大型模型帶來(lái) 10 個(gè)百分點(diǎn)的準(zhǔn)確率提升。例如,經(jīng)過(guò) OPO 優(yōu)化后,GPT-4 的準(zhǔn)確度從 84.83% 提升至 94.65%。此外,國(guó)產(chǎn)大模型 Qwen-Chat-14B 和 XuanYuan-70B 在應(yīng)用 OPO 后的表現(xiàn)不僅與 GPT-4 不相上下,而且略微優(yōu)勝。
表5:各個(gè)大模型在 H-Law 與 A-Law 上的原始準(zhǔn)確率(Base)、應(yīng)用 OPO 后的準(zhǔn)確率(OPO)、將生成題目用到的準(zhǔn)則替換 OPO 中檢索得到的準(zhǔn)則后的準(zhǔn)確率(Oracle)。 表示 OPO 相比 Base 的絕對(duì)提升,而
表示 Oracle 相比 Base 的絕對(duì)提升。
在 H-Basic-Morality、H-Social-Morality 和 A-Professional-Morality 等 3 個(gè)道德測(cè)試基準(zhǔn)上,能觀察到類(lèi)似的現(xiàn)象。OPO 能提升所有模型在 A-Professional-Morality 上的表現(xiàn),提升大部分模型在 H-Basic-Morality 和 H-Social-Morality 上的分?jǐn)?shù)。
表6:各個(gè)大模型在 H-Basic-Morality、H-Social-Morality 和 A-Professional-Morality 上的原始準(zhǔn)確率(Base)、應(yīng)用 OPO 后的準(zhǔn)確率(OPO)、將生成選擇題用到的準(zhǔn)則替換 OPO 中檢索得到的準(zhǔn)則后的準(zhǔn)確率(Oracle)。 表示 OPO 相比 Base 的絕對(duì)提升,而
表示 Oracle 相比 Base 的絕對(duì)提升。
同時(shí),研究者還探索了不同檢索長(zhǎng)度對(duì) OPO 方法的影響。檢索回來(lái)的文本長(zhǎng)度最大值分別設(shè)置成 200、500、1000、1500、2000,發(fā)現(xiàn)大部分模型在不同的測(cè)試基準(zhǔn)上均具有相似的趨勢(shì):隨著檢索長(zhǎng)度的增加,模型的性能先上升后下降??赡艿迷蚴牵^短的文本提供了有益信息,而更長(zhǎng)的檢索內(nèi)容引入了噪聲。
圖 3:在 H-law 基準(zhǔn)上,改變檢索長(zhǎng)度對(duì) OPO 效果的影響。
圖 4:在 A-law 基準(zhǔn)上,改變檢索長(zhǎng)度對(duì) OPO 效果的影響。
圖 5:在 H-Basic-Morality 基準(zhǔn)上,改變檢索長(zhǎng)度對(duì) OPO 效果的影響。
圖 6:在 H-Social-Morality 基準(zhǔn)上,改變檢索長(zhǎng)度對(duì) OPO 效果的影響。
圖 7:在 A-Professional-morality 基準(zhǔn)上,改變檢索長(zhǎng)度對(duì) OPO 效果的影響。
總結(jié)
總結(jié)來(lái)說(shuō),GAIR 研究組提出了一個(gè)無(wú)需訓(xùn)練實(shí)現(xiàn)價(jià)值觀實(shí)時(shí)動(dòng)態(tài)對(duì)齊的方法 OPO,能夠作用于開(kāi)源模型與閉源模型。同時(shí),為了緩解測(cè)試數(shù)據(jù)泄露的問(wèn)題并擴(kuò)大測(cè)試數(shù)據(jù)的數(shù)量與覆蓋范圍,研究者介紹了一個(gè)可擴(kuò)展的評(píng)估模塊用于根據(jù)準(zhǔn)則自動(dòng)生成測(cè)試問(wèn)題。實(shí)驗(yàn)證明 OPO 能夠顯著提升不同大模型在 5 個(gè)測(cè)試基準(zhǔn)上的性能。此外,也公開(kāi)了收集的所有法律準(zhǔn)則與道德準(zhǔn)則,以及 5 個(gè)測(cè)試基準(zhǔn)中所使用的所有數(shù)據(jù)。