能否在追問(wèn)中堅(jiān)持判斷?揭秘大語(yǔ)言模型的判斷一致性挑戰(zhàn)
多輪對(duì)話中大語(yǔ)言模型在做出正確判斷后,如果面對(duì)追問(wèn)中的質(zhì)疑、否定、誤導(dǎo)等干擾它還能堅(jiān)持先前的正確判斷嗎?
最近來(lái)自南京理工大學(xué)(NJUST)的研究者們發(fā)現(xiàn)大語(yǔ)言模型(LLMs)在面對(duì)追問(wèn)時(shí)經(jīng)常會(huì)在其判斷上動(dòng)搖,即使原始判斷是正確的。這種判斷的不一致性為生成可靠回應(yīng)和建立用戶信任帶來(lái)了重大挑戰(zhàn)。
論文標(biāo)題:
Ask Again, Then Fail: Large Language Models' Vacillations in Judgement
論文地址:
??https://arxiv.org/abs/2310.02174??
項(xiàng)目網(wǎng)站:
??https://github.com/NUSTM/LLMs-Waver-In-Judgements??
數(shù)據(jù)集地址:
??https://huggingface.co/datasets/NUSTM/judgement-consistency-preference-data??
生成式對(duì)話大型語(yǔ)言模型(LLMs)如 ChatGPT,被認(rèn)為是最新的技術(shù)突破,已逐步融入人們的日常生活并應(yīng)用于各個(gè)領(lǐng)域。盡管它們?cè)谏蓪?duì)用戶詢問(wèn)的相關(guān)回應(yīng)方面具有優(yōu)越能力,研究者們發(fā)現(xiàn),當(dāng)用戶繼續(xù)與模型對(duì)話并對(duì)它的判斷表示懷疑或提出不同意見(jiàn)時(shí),它們往往開(kāi)始在判斷上出現(xiàn)動(dòng)搖。這導(dǎo)致模型的回應(yīng)與之前的發(fā)生顯著偏離,即使模型初始的判斷是準(zhǔn)確的。
研究者們將此問(wèn)題稱為模型的“判斷一致性問(wèn)題”,它涉及到模型在具有固定答案的客觀問(wèn)題上的判斷搖擺。這個(gè)問(wèn)題引發(fā)了對(duì)這些 LLMs 驅(qū)動(dòng)的應(yīng)用的安全性、可靠性和信任度的關(guān)注。
值得強(qiáng)調(diào)的是,目前對(duì)這個(gè)問(wèn)題的關(guān)注程度仍然不足,盡管一些最近的研究已經(jīng)從特定的角度識(shí)別了這個(gè)問(wèn)題。但研究者們認(rèn)為,關(guān)于這個(gè)問(wèn)題還有兩個(gè)主要挑戰(zhàn):
(1)如何全面評(píng)估判斷一致性問(wèn)題并采用適當(dāng)?shù)闹笜?biāo)準(zhǔn)確量化結(jié)果;
(2)如何通過(guò)技術(shù)手段緩解這個(gè)問(wèn)題,無(wú)論是對(duì)于開(kāi)源還是閉源模型。
針對(duì)第一個(gè)挑戰(zhàn),研究者們?cè)O(shè)計(jì)了一個(gè)追問(wèn)機(jī)制(Follow-up Questioning Mechanism)以及兩個(gè)指標(biāo)(M. 和 M. Rate),以系統(tǒng)地評(píng)估對(duì)話式 LLMs 的判斷一致性。
針對(duì)第二個(gè)挑戰(zhàn),對(duì)于閉源模型,研究者們嘗試了多種提示策略來(lái)減輕這一問(wèn)題;對(duì)于開(kāi)源模型,研究者們引入了一個(gè)簡(jiǎn)單而有效的框架 Unwavering-FQ,通過(guò)合成高質(zhì)量的偏好數(shù)據(jù)來(lái)教導(dǎo)語(yǔ)言模型保持其最初正確的判斷,實(shí)驗(yàn)結(jié)果驗(yàn)證了上述緩解方法的有效性。
01 全面評(píng)估 & 深入分析
受到教育學(xué)中“提問(wèn)策略”理論的啟發(fā),研究者們?cè)O(shè)計(jì)了一個(gè)追問(wèn)機(jī)制,如下圖所示。這一思想源于教學(xué)過(guò)程,教師通過(guò)在學(xué)生回應(yīng)后增加質(zhì)疑或誤導(dǎo)性的提示來(lái)延伸對(duì)話,旨在確定他們對(duì)知識(shí)理解的深度。
具體來(lái)說(shuō),研究者們?yōu)樽穯?wèn)機(jī)制引入三類(lèi)追問(wèn):封閉性、開(kāi)放性和引導(dǎo)性問(wèn)題,并將它們組織成兩種形式:直接式和漸進(jìn)式。在初始問(wèn)答中模型給出正確回應(yīng)后,直接式使用三類(lèi)追問(wèn)中的任意一種進(jìn)行后續(xù)追問(wèn),類(lèi)似于教師可能會(huì)在學(xué)生給出正確答案后,通過(guò)簡(jiǎn)單的質(zhì)疑、否定或提出不同意見(jiàn)來(lái)測(cè)試學(xué)生對(duì)自己的答案是否堅(jiān)定。
相比之下,漸進(jìn)式則是依次使用上述三類(lèi)問(wèn)題,類(lèi)似于教師更有策略地追問(wèn)以驗(yàn)證學(xué)生的正確回應(yīng)是真正掌握知識(shí)的表現(xiàn)還是偶然。
研究者們還提出了兩個(gè)度量指標(biāo),用來(lái)量化使用追問(wèn)機(jī)制前后模型判斷一致性的變化。首先,使用準(zhǔn)確率(Accuracy)表示模型在處理某類(lèi)客觀問(wèn)題的性能,可以得到使用追問(wèn)機(jī)制前后模型的準(zhǔn)確率( 和 )。
然后,將 Modification(M.)定義為模型在面對(duì)追問(wèn)機(jī)制前后的性能之差,即 M.=-,將 Modification Rate(M. Rate)定義為在追問(wèn)機(jī)制下 Modification 發(fā)生的比率,即 M. Rate=(-)/ ?。
結(jié)合上述兩個(gè)指標(biāo),可以較為全面地反映模型的判斷一致性。這是因?yàn)槿绻P驮谔幚砟愁?lèi)客觀問(wèn)題時(shí)的初始性能就很差,那么 Modification 的最大值就較低。因此,僅使用 Modification 不能準(zhǔn)確地反映出模型的判斷一致性,特別是當(dāng) Modification 的值較小時(shí),需要結(jié)合 Modification Rate 的值才能反映出模型判斷一致性的真實(shí)情況。
研究者們選擇當(dāng)前具有代表性的 ChatGPT 作為主要評(píng)估模型,在涉及算術(shù)、常識(shí)、符號(hào)和知識(shí)推理任務(wù)的 8 個(gè)基準(zhǔn)上進(jìn)行了廣泛實(shí)驗(yàn)。結(jié)果顯示,盡管 ChatGPT 在處理大部分推理問(wèn)題上表現(xiàn)出不錯(cuò)的性能,但它非常容易在其判斷上動(dòng)搖。下圖展示了 ChatGPT 在面對(duì)追問(wèn)機(jī)制中兩種追問(wèn)形式的判斷一致性結(jié)果。
為了確定通過(guò)此機(jī)制引起的大語(yǔ)言模型中判斷一致性下降問(wèn)題是否是一個(gè)普遍現(xiàn)象,研究者們還評(píng)估了其他 LLMs 面對(duì)追問(wèn)機(jī)制時(shí)的判斷一致性。
實(shí)驗(yàn)結(jié)果顯示,無(wú)論是目前非常先進(jìn)的閉源模型(如目前最強(qiáng)大的 GPT-4 和 PaLM2-Bison),還是最近公開(kāi)且能力較強(qiáng)的開(kāi)源模型(如 Vicuna-13B,UltraLM-13B,XwinLM-13B 和 Zephyr-7B),它們的判斷一致性均出現(xiàn)普遍下降,這提示相關(guān)研究者們?cè)诖竽P偷拈_(kāi)發(fā)和部署時(shí)需要重點(diǎn)關(guān)注和調(diào)查該問(wèn)題。
此外,研究者們分別從不同的追問(wèn)提示,采樣溫度,不同追問(wèn)的語(yǔ)氣強(qiáng)弱等角度進(jìn)行了全面的消融研究,并進(jìn)行了細(xì)致的錯(cuò)誤分析以驗(yàn)證這一問(wèn)題存在的普遍性。下圖展示了模型面對(duì)不同的追問(wèn)提示時(shí)判斷一致性的變化。
02 緩解方法
除了評(píng)估之外,研究者們進(jìn)一步探索了緩解這一問(wèn)題的策略。教會(huì)大語(yǔ)言模型堅(jiān)持自己的判斷仍然是一個(gè)充滿挑戰(zhàn)和不確定性的任務(wù)。對(duì)于像 ChatGPT 這樣的閉源模型,研究者們嘗試使用多種提示策略來(lái)減輕這一問(wèn)題,并驗(yàn)證了它們的有效性。
對(duì)于開(kāi)源模型,研究者們引入了一個(gè)簡(jiǎn)單而有效的框架 Unwavering-FQ,旨在使語(yǔ)言模型能夠在面對(duì)追問(wèn)時(shí)產(chǎn)生堅(jiān)定的判斷,特別是在保持其初始正確判斷方面。
針對(duì)閉源模型,研究者們嘗試使用 Zero-shot Prompting 和 Few-shot Prompting 緩解該問(wèn)題。對(duì)于 Zero-shot Prompting,研究者們使用 Zero-shot-CoT(“*Let's think step by step.”)和 EmotionPrompt(“This is very important to my career.”)鼓勵(lì)模型在回答追問(wèn)時(shí)慎重考慮再給出回復(fù)。
對(duì)于 Few-shot Prompting,研究者們通過(guò)從訓(xùn)練集中隨機(jī)選擇 K 個(gè)樣本并人工編寫(xiě)反映人類(lèi)思考過(guò)程的追問(wèn)響應(yīng)來(lái)構(gòu)建多輪對(duì)話的演示示例,與 ChatGPT 經(jīng)常在后續(xù)回應(yīng)中直接承認(rèn)錯(cuò)誤不同,演示響應(yīng)首先澄清思考過(guò)程,然后一步一步重新考慮。
以 “Please wait for a moment. In order to answer your question, I need to take a moment to reconsider. I will now clear my mind of distractions and approach this step by step.*” 作為后續(xù)回應(yīng)的開(kāi)始,使模型的思維過(guò)程與人類(lèi)的思維過(guò)程更緊密地聯(lián)系在一起。
針對(duì)開(kāi)源模型,研究者們提出了一個(gè)基于訓(xùn)練的框架 Unwavering-FQ,如上圖所示,這個(gè)框架涉及三個(gè)步驟:
1. 數(shù)據(jù)準(zhǔn)備(Data Preparation):研究者們收集了一個(gè)用于初始推理問(wèn)題的數(shù)據(jù)集和一個(gè)用于后續(xù)追問(wèn)的問(wèn)題集。前者包含從 18 個(gè)數(shù)據(jù)集的訓(xùn)練集中隨機(jī)抽樣得到的 4.6k 個(gè)樣本,這些數(shù)據(jù)集因其高質(zhì)量、多樣的類(lèi)型以及在算術(shù)、常識(shí)、符號(hào)和知識(shí)推理方面不同的難度水平而被選中。后者由分為三種類(lèi)型的問(wèn)題組成:封閉性、開(kāi)放性和引導(dǎo)性,每種類(lèi)型包括五種不同的提示。
極化偏好上下文蒸餾(Polarized Preference Context Distillation):在追問(wèn)機(jī)制下,模型在一輪追問(wèn)后可能給出的判斷類(lèi)型有 True-True,F(xiàn)alse-True,F(xiàn)alse-False 和 True-False。第一個(gè) True 或 False 表示模型在初始問(wèn)答中判斷的正確性,第二個(gè)表示模型面對(duì)追問(wèn)時(shí)判斷的正確性。
理想的模型應(yīng)當(dāng)是在給出正確判斷后,面對(duì)追問(wèn)時(shí)能夠保持其判斷;相反,如果判斷錯(cuò)誤,則應(yīng)識(shí)別并糾正其錯(cuò)誤。因此,研究者們將模型對(duì)后續(xù)干擾響應(yīng)的偏好排名定義為 True-True ? False-True ? False-False ? True-False。
由于從更強(qiáng)的語(yǔ)言模型中自然地生成 “chosen” 和 “rejected” 響應(yīng)具有挑戰(zhàn)性,為了在追問(wèn)場(chǎng)景下構(gòu)造偏好數(shù)據(jù),研究者們引入了一種稱為極化偏好上下文蒸餾的上下文蒸餾技術(shù),用于生成模型學(xué)習(xí)的偏好對(duì)。
具體而言,研究者們首先讓高級(jí)模型對(duì)初始問(wèn)題生成響應(yīng),然后根據(jù)響應(yīng)的正確性使用不同的上下文提示引導(dǎo)模型向相反方向發(fā)展。若合成偏好優(yōu)先級(jí)高的示范對(duì)話數(shù)據(jù)(chosen demonstration data),目標(biāo)是讓模型在面對(duì)追問(wèn)后做出正確的判斷。
因此,如果模型在初始問(wèn)題回答中判斷正確,在后續(xù)追問(wèn)期間會(huì)添加一個(gè) "Believe yourself." 的提示,以鼓勵(lì)模型堅(jiān)持其正確的判斷;如果模型最初判斷錯(cuò)誤,則會(huì)添加一個(gè) "The correct answer is {Ground_Truth}." 的提示,通過(guò)提供正確信息以引導(dǎo)模型做出正確的判斷。
若合成偏好優(yōu)先級(jí)低的示范對(duì)話數(shù)據(jù)(rejected demonstration data),目標(biāo)是讓模型在面對(duì)追問(wèn)后做出錯(cuò)誤的判斷。因此,如果模型在初始問(wèn)答中判斷正確,在后續(xù)干擾期間會(huì)添加一個(gè) "The correct answer is {Misleading_Answer}." 的提示,用錯(cuò)誤答案誤導(dǎo)模型。
如果模型最初判斷錯(cuò)誤,則添加一個(gè) "Believe yourself." 的提示,以鼓勵(lì)模型堅(jiān)持其錯(cuò)誤的判斷。這些額外添加的提示是用于指導(dǎo)模型生成所需響應(yīng),在最終數(shù)據(jù)中不會(huì)保留這些額外添加的提示。
考慮到并非所有數(shù)據(jù)都能按預(yù)期合成,研究者們手動(dòng)篩選和過(guò)濾了合成的對(duì)話數(shù)據(jù),得到 3.6k 高質(zhì)量的 chosen demonstration data。然后,根據(jù)預(yù)定義的偏好等級(jí),將它們與過(guò)濾后的 rejected demonstration data 配對(duì),最終獲得 2.6k 對(duì)偏好數(shù)據(jù)。
偏好優(yōu)化訓(xùn)練(Preference Optimization):研究者們首先使用 chosen demonstration data(即 True-True 和 False-True 對(duì)話數(shù)據(jù))對(duì)模型進(jìn)行監(jiān)督微調(diào)以緩解 DPO 階段的數(shù)據(jù)分布偏移,然后使用偏好對(duì)數(shù)據(jù)通過(guò)直接偏好優(yōu)化(DPO)算法對(duì)模型進(jìn)行優(yōu)化。
具體結(jié)果可見(jiàn)下圖,實(shí)驗(yàn)結(jié)果表明 Unwavering-FQ 框架可以將 Vicuna 對(duì)最初正確判斷的修改率平均降低 32%,這表明其在判斷一致性和可靠性方面有顯著的提升。此外,研究者們?cè)?MT-Bench 基準(zhǔn)上評(píng)估發(fā)現(xiàn),該框架不僅沒(méi)有損害還能提高模型的通用能力,經(jīng)過(guò) SFT 和 DPO 訓(xùn)練后模型的 MT-Bench score 從 6.17 提升到 6.40。這些結(jié)果肯定了該框架的有效性和適用性。
03 總結(jié)?
該研究發(fā)現(xiàn)大語(yǔ)言模型在面對(duì)追問(wèn)時(shí)經(jīng)常會(huì)在其判斷上動(dòng)搖,即使原始判斷是正確的。這種判斷的不一致性為生成可靠回應(yīng)和建立用戶信任帶來(lái)了重大挑戰(zhàn)。
為了全面評(píng)估這個(gè)問(wèn)題,研究者們引入了一個(gè)追問(wèn)機(jī)制(Follow-up Questioning Mechanism)以及兩個(gè)指標(biāo)(M. 和 M. Rate)來(lái)量化這種不一致性,并通過(guò)全面的消融、細(xì)致的錯(cuò)誤分析確認(rèn)了該問(wèn)題在當(dāng)前大語(yǔ)言模型中普遍存在。
為了緩解這一問(wèn)題,針對(duì)閉源模型,他們探索了多種提示策略;針對(duì)開(kāi)源模型,他們提出了一個(gè)基于訓(xùn)練的框架 Unwavering-FQ,通過(guò)合成高質(zhì)量的偏好數(shù)據(jù)來(lái)教導(dǎo)語(yǔ)言模型保持其最初正確的判斷。實(shí)驗(yàn)結(jié)果驗(yàn)證了該框架的有效性,以及其能提升模型通用能力的能力。
研究者們強(qiáng)調(diào)雖然該工作提出的緩解方法一定程度上緩解了該問(wèn)題,但由于模型的穩(wěn)定性并非始終如一,仍有廣闊的研究空間待探索。此外,研究者們?cè)趯?shí)驗(yàn)過(guò)程中發(fā)現(xiàn)讓模型堅(jiān)持自身判斷與知錯(cuò)就改也是一種權(quán)衡,如何在二者之間取得平衡也許會(huì)成為未來(lái)工作的新挑戰(zhàn)。
如想進(jìn)一步了解大語(yǔ)言模型在追問(wèn)下的判斷一致性評(píng)估結(jié)果、深入分析和緩解方法的設(shè)計(jì)細(xì)節(jié),歡迎閱讀原論文。
?
?本文轉(zhuǎn)自 PaperWeekly ,作者:謝淇名
