無需RLHF? 基于圖增強(qiáng)的大模型可控生成框架
引言
可控文本生成(Controlled Text Generation, CTG)是大語言模型(Large Language Models, LLMs)文本生成的一個(gè)重要研究領(lǐng)域,旨在創(chuàng)造出符合特定標(biāo)準(zhǔn)或?qū)傩缘奈谋?。這包括調(diào)整文本的情緒傾向、確保內(nèi)容安全性、或滿足具體主題要求等。
目前 CTG 實(shí)現(xiàn)的主流方式是結(jié)合有監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)和人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)的范式,通過直接改變模型參數(shù)以適應(yīng)特定的輸出要求。但 SFT+RLHF 范式通常要求對(duì)基座模型進(jìn)行專門的微調(diào),限制了其在不同模型間的遷移能力。
另一種策略是在解碼階段調(diào)整概率,這種策略提供了更高的靈活性,允許在不修改模型本身的前提下控制文本的生成,使其可廣泛應(yīng)用于各種 LLMs。已有嘗試?yán)眯⌒驼Z言模型來影響大模型的解碼過程,從而控制輸出文本的特定條件。
但是,這種外部控制可能會(huì)影響文本的質(zhì)量,使其失去自然性和流暢性。近期研究 Air-decoding 指出,過度控制解碼過程可能會(huì)損害文本的自然性和流暢性,導(dǎo)致生成文本的質(zhì)量下降。
因此,CTG 的一個(gè)關(guān)鍵挑戰(zhàn)是,如何在保持文本流暢性的同時(shí),有效地實(shí)現(xiàn)對(duì)生成文本的控制。這需要一種能夠在不影響 LLMs 固有生成能力的前提下,對(duì)文本的特定屬性進(jìn)行精確控制的方法。
論文標(biāo)題:Controlled Text Generation for Large Language Model with Dynamic Attribute Graphs
論文地址:https://arxiv.org/abs/2402.11218
代碼地址:https://github.com/IAAR-Shanghai/DATG
本文提出了一種動(dòng)態(tài)屬性圖(Dynamic Attribute Graphs-based, DATG)引導(dǎo)的可控文本生成方法,旨在在解碼階段實(shí)現(xiàn)對(duì)文本屬性的精確控制,同時(shí)保持文本的自然流暢性。該方法利用動(dòng)態(tài)屬性圖來評(píng)估和調(diào)整與目標(biāo)屬性相關(guān)的關(guān)鍵詞,通過調(diào)整關(guān)鍵屬性詞的出現(xiàn),在不犧牲文本質(zhì)量的情況下,實(shí)現(xiàn)對(duì)生成文本屬性的有效控制。
DATG方法介紹
文章提出,文本屬性往往由少量與目標(biāo)屬性密切相關(guān)的關(guān)鍵詞定義。通過精確調(diào)整這些關(guān)鍵詞,可以在不損害文本流暢性的基礎(chǔ)上,精確地控制輸出文本的屬性。這些屬性可以被視作語義空間中的獨(dú)立維度。
通過策略性地調(diào)節(jié)這些關(guān)鍵詞,可以指導(dǎo)大型語言模型(LLM)產(chǎn)生的文本在語義空間中朝預(yù)期的方向移動(dòng),同時(shí)保持在其他維度的穩(wěn)定。這意味著可以在保留文本其他特質(zhì)的同時(shí),實(shí)現(xiàn)對(duì)特定屬性的精確控制。
DATG解碼處理框架介紹
基于此發(fā)現(xiàn),作者提出了 DATG 的解碼處理框架:
『語境語料庫構(gòu)建(Contextual Corpus Construction)』LLMs 根據(jù)特定 prompt 生成文本序列,以創(chuàng)建一個(gè)與語境相關(guān)的初始文本集合。
『屬性分類器評(píng)分(Attribute Classifier Scoring)』生成的語境相關(guān)文本序列隨后通過屬性分類器進(jìn)行評(píng)估,這些分類器可能專注于毒性、情感或其他與目標(biāo)屬性相關(guān)的分類。分類器的主要功能是評(píng)估每個(gè)文本序列與目標(biāo)屬性的一致程度。
『動(dòng)態(tài)屬性圖構(gòu)建(Dynamic Attribute Graphs Construction)』將文本序列轉(zhuǎn)換成有向加權(quán)圖。根據(jù)屬性分類器的評(píng)分,生成一個(gè)正向?qū)傩詧D和一個(gè)負(fù)向?qū)傩詧D,這兩個(gè)屬性圖分別代表文本在語義空間內(nèi)與目標(biāo)屬性維度的一致性和偏離情況。
『動(dòng)態(tài)邊界控制下的文本重生成(ReGeneration with Dynamic Boundary Controlling)』利用圖排名算法在兩個(gè)屬性圖中選出兩組關(guān)鍵節(jié)點(diǎn)。通過 Logits-Boost 或前綴提示策略,調(diào)整這些關(guān)鍵節(jié)點(diǎn)的出現(xiàn)頻率,并進(jìn)行文本的再生成。
問題定義
在大型語言模型(LLMs)的文本生成過程中,每個(gè)新生成的詞匯都基于前面生成的所有詞序列,這使得 LLMs 能夠創(chuàng)造出既多樣又邏輯連貫的文本。
在可控文本生成(CTG)中,特定的控制條件被引入以指導(dǎo)文本表達(dá)預(yù)定的特性,例如情緒或安全性。這些條件整合進(jìn)文本生成流程,構(gòu)建了一個(gè)新的概率模型,以確保生成的文本體現(xiàn)所需屬性。CTG 面臨的關(guān)鍵挑戰(zhàn)在于如何自然地將這些控制條件融入到生成過程中,同時(shí)不影響 LLMs 的本質(zhì)文本生成能力。
為了界定這一問題,作者將 CTG 框架抽象化到語義空間中進(jìn)行表示,其中 LLMs 輸出的文本可以在該空間內(nèi)被嵌入成向量。在理想的語義空間框架內(nèi),CTG 的目標(biāo)是調(diào)整與控制條件相關(guān)的維度,促進(jìn)文本向期望屬性方向的發(fā)展,同時(shí)保持其在其他語義維度的完整性和豐富性。
語境語料庫構(gòu)建
最近的研究 LIMA 和 Re-Align 發(fā)現(xiàn),大型語言模型(LLMs)的核心知識(shí)和生成能力主要在預(yù)訓(xùn)練階段形成。這表明,即使是未經(jīng)特定屬性微調(diào)的模型,也有能力生成符合特定需求的文本。
因此,DATG 利用 LLMs 的這一固有能力,自由地生成一組文本序列,這些序列與 Prompt 上下文和情境相關(guān)。生成的文本集合由一系列獨(dú)立的句子組成,每個(gè)句子都是對(duì)給定 Prompt 的一個(gè)獨(dú)立續(xù)寫。這樣就建立了一個(gè)基于特定上下文的文本集合。
屬性分類器評(píng)分
為了確保生成文本符合特定屬性(例如毒性或情緒水平),作者采用了屬性分類器來評(píng)估和量化這些屬性的存在及其強(qiáng)度。每一段文本都會(huì)接受分類模型的評(píng)分。這個(gè)評(píng)分反映了每段文本表現(xiàn)出的目標(biāo)屬性程度,以及它在語義空間內(nèi)符合控制條件的程度。
動(dòng)態(tài)屬性圖構(gòu)建
在動(dòng)態(tài)屬性圖構(gòu)建的階段,首先將來自文本集合的每個(gè)句子分解成單獨(dú)的詞匯,這些詞匯在圖中作為節(jié)點(diǎn)。屬性圖的有向邊按照句子中詞匯的自然順序連接,這些邊的指向反映了句子內(nèi)部詞匯的自然流向。在這個(gè)過程中,不同句子中相同的節(jié)點(diǎn)和邊完成了聚合。
之后為上述有向圖賦予權(quán)重,從而構(gòu)建兩個(gè)關(guān)鍵的動(dòng)態(tài)屬性圖:正向?qū)傩詧D和負(fù)向?qū)傩詧D。這些圖通過表示詞匯與目標(biāo)控制屬性之間的關(guān)系。在這兩個(gè)圖中,每條邊的權(quán)重是基于前一步中屬性分類器給出的評(píng)分。
在正向?qū)傩詧D中,邊的權(quán)重是根據(jù)屬性評(píng)分賦予的,這意味著高評(píng)分(即與目標(biāo)屬性緊密相關(guān)的評(píng)分)會(huì)增強(qiáng)圖中相應(yīng)邊的權(quán)重。相反,在負(fù)向?qū)傩詧D中,邊的權(quán)重是基于評(píng)分的補(bǔ)數(shù)賦予的,這意味著低評(píng)分(即與目標(biāo)屬性不太相關(guān)的評(píng)分)會(huì)增強(qiáng)圖中相應(yīng)邊的權(quán)重。
正向?qū)傩詧D和負(fù)向?qū)傩詧D有效地捕捉了文本與目標(biāo)屬性的對(duì)齊程度。應(yīng)用圖排名算法后,方法能夠識(shí)別出那些對(duì)文本屬性對(duì)齊有顯著影響的關(guān)鍵詞匯,這些關(guān)鍵詞匯被標(biāo)記為正向或負(fù)向節(jié)點(diǎn)。通過調(diào)整這些關(guān)鍵詞匯的出現(xiàn)頻率,可以對(duì)文本的語義完成控制,確保其更加符合期望的屬性,同時(shí)遠(yuǎn)離不希望表現(xiàn)的屬性。
動(dòng)態(tài)邊界控制下的文本重生成
在動(dòng)態(tài)屬性圖的應(yīng)用中,通過圖排名算法在兩個(gè)屬性圖中選出關(guān)鍵正向和負(fù)向節(jié)點(diǎn),這實(shí)際上定義了大型語言模型(LLMs)生成文本時(shí)的語義邊界。這些節(jié)點(diǎn)作為錨點(diǎn),引導(dǎo)生成文本的語義向靠近特定屬性的方向移動(dòng)。
作者通過兩種策略:Logits-Boost 和前綴提示,精確地控制生成句子的語義,確保生成的文本既符合期望的屬性,又避免了不希望的特性。
- Logits-Boost:作者通過調(diào)整 LLM 解碼過程中少數(shù)關(guān)鍵詞匯的 logits 來影響與正向和負(fù)向節(jié)點(diǎn)相關(guān)的詞匯概率。通過這種方法,能夠在不顯著影響文本流暢性的同時(shí),確保輸出文本與所設(shè)定的控制條件相匹配。
- 前綴提示:通過給提示添加特定的前綴來進(jìn)一步引導(dǎo)語言模型。例如 “接下來的文本經(jīng)常討論(正向詞)但不提及(負(fù)向詞)?!?/li>
綜合這兩種策略,使 DATG 能夠精細(xì)地控制生成文本的語義方向,使其既符合期望的屬性,又能保持高質(zhì)量和自然性。這種方法的應(yīng)用,確保了生成文本不僅符合目標(biāo)屬性,而且在整個(gè)生成過程中保持了邏輯連貫和語義一致性。
實(shí)驗(yàn)結(jié)果
『數(shù)據(jù)集』包括了 2 類任務(wù),4 個(gè)數(shù)據(jù)集。情感轉(zhuǎn)換任務(wù)使用的是 SST5 數(shù)據(jù)集拆解的積極情感轉(zhuǎn)換 Neg2Pos 和消極情感轉(zhuǎn)換 Pos2Neg,毒性去除任務(wù)使用的是 RealToxicityPrompts 數(shù)據(jù)集拆解的隨機(jī)毒性任務(wù) RandomToxic 和最高毒性任務(wù) TopToxic。
『基座大模型』評(píng)測(cè)了. Phi2-2.7B,OPT-6.7B,Alpaca-7B,F(xiàn)alcon-7B,LLaMA2-13B 共計(jì) 5 個(gè)模型。
『分類器模型』使用 bge-large-en-v1.5 分別在 Jigsaw Toxic Comment Classification Challenge 和 IMDB 數(shù)據(jù)集上微調(diào)獲取毒性和情感分類器。
『基線方法』共包括 4 種方法,CONTINUATION,LLMs 根據(jù) Prompt 直接進(jìn)行續(xù)寫;INJECTION,在 Prompt 前注入任務(wù)相關(guān)指令,讓 LLMs 進(jìn)行續(xù)寫;FUDGE,利用分類器在解碼過程的每一步進(jìn)行指導(dǎo);PREADD,通過獲取負(fù)向前綴的提示生成文本的 logits,對(duì)解碼過程的 logits 進(jìn)行調(diào)整。同時(shí)我們的 DATG 方法采用兩種調(diào)整策略,分別為 Logits-Boost 策略的 DATG-L 和前綴提示策略的 DATG-P。
『評(píng)估指標(biāo)』(1)毒性,使用 Jigsaw 的 Perspective API 來評(píng)估生成文本的毒性;(2)成功率,使用經(jīng)過 SST-5 數(shù)據(jù)集微調(diào)的 RoBERTa 模型來評(píng)估情感轉(zhuǎn)換任務(wù)的成功轉(zhuǎn)換比例;(3)困惑度,衡量文本流暢性,采用 GPT-2 large 模型進(jìn)行評(píng)估;(4)相關(guān)性,通過計(jì)算提示和生成文本之間的嵌入向量的余弦相似度。
『結(jié)果分析』DATG 實(shí)現(xiàn)了控制效果的顯著提高,在最佳任務(wù)中相對(duì)于基線方法實(shí)現(xiàn)了 19.29% 的提高。此外,生成文本困惑度顯著下降,提高了文本流暢性。也驗(yàn)證了作者對(duì)于屬性詞對(duì)于文本屬性影響的猜想。
評(píng)價(jià)
這項(xiàng)工作將 LLMs 生成的控制聚焦在解碼階段,提出了一種可插拔的靈活處理框架。通過調(diào)整部分屬性關(guān)鍵詞的概率,實(shí)現(xiàn)了對(duì)于控制條件的控制。同時(shí)還出色地維持了 LLMs 生成文本的流暢性。利用動(dòng)態(tài)屬性圖精確操控與屬性相關(guān)的詞匯,實(shí)現(xiàn)了控制內(nèi)容生成與語言自然性之間的平衡。
DATG 的應(yīng)用不僅展示了圖模型在構(gòu)建靈活且有效的可控文本生成(CTG)系統(tǒng)方面的潛力,而且為圖模型在處理更廣泛的屬性、適應(yīng)更大的模型規(guī)模及解決更復(fù)雜的語言任務(wù)提供了全新的視角和方法。
本文轉(zhuǎn)載自PaperWeekly
