NeurIPS 2024 | 可信大模型新挑戰(zhàn):噪聲思維鏈提示下的魯棒推理,準(zhǔn)確率直降40%
當(dāng)前,大語言模型(Large Language Model, LLM)借助上下文學(xué)習(xí)(In-context Learning)和思維鏈提示(Chain of Thoughts Prompting),在許多復(fù)雜推理任務(wù)上展現(xiàn)出了強大的能力。
然而,現(xiàn)有研究表明,LLM 在應(yīng)對噪聲輸入時存在明顯不足:當(dāng)輸入的問題包含無關(guān)內(nèi)容,或者遭到輕微修改時,模型極容易受到干擾,進而偏離正確的推理方向。如圖 1 左所示,Q1 中的「We know 6+6=12 and 3+7=10 in base 10」 是關(guān)于 base-9 計算的噪聲信息,該信息容易誤導(dǎo)模型輸出錯誤的結(jié)果。
圖 1. 噪聲問題(Noisy Questions)和噪聲思維鏈(Noisy Rationales)的示例
已有的魯棒研究大多側(cè)重于噪聲問題(Noisy Questions),然而,LLM 在噪聲思維鏈(Noisy Rationales)下的推理還沒有得到充分的探究。在本工作中,我們將噪聲思維鏈定義為:包含不相關(guān)或者不準(zhǔn)確推理步驟的思維鏈,如圖 1 右側(cè) R1 中的「13 + 8 = 21」步驟,對于 base-9 計算來說,是錯誤的推理步驟。
這些噪聲思維鏈通常源自 LLM 的實際應(yīng)用,比如眾包平臺、對話系統(tǒng)、機器生成數(shù)據(jù)等場景,人類和機器在推理中都會不可避免地犯錯,從而產(chǎn)生噪聲思維鏈。因此,噪聲思維鏈的實際影響和技術(shù)挑戰(zhàn)不容小覷。當(dāng)前,我們?nèi)匀徊磺宄?LLM 在面對噪聲思維鏈提示時的魯棒性能如何,也缺少有效的應(yīng)對策略。因此,非常有必要構(gòu)建一個新的數(shù)據(jù)集,用于系統(tǒng)評估當(dāng)前 LLM 在噪聲思維鏈場景下的魯棒性,以及驗證相應(yīng)的魯棒推理策略。
對此,我們構(gòu)建了 NoRa 數(shù)據(jù)集,并進行了大量的實驗評測。結(jié)果表明,GPT-3.5-Turbo、Gemini-Pro、Llama2-70B 和 Mixtral-8x7B 等開源或閉源 LLM 都極容易受到噪聲思維鏈的影響。其中,GPT-3.5-Turbo 的準(zhǔn)確率至多可降低 40.4%。因此,我們也呼吁大家更多地關(guān)注大模型推理的魯棒性問題。
我們的主要貢獻有如下三點:
- 新問題:對當(dāng)前流行的思維鏈提示技術(shù),我們提出了尚未充分探究的噪聲思維鏈問題(Noisy Rationales),并給出了詳細(xì)的問題定義和統(tǒng)一的問題建模;
- 新數(shù)據(jù)集:我們構(gòu)建了 NoRa 數(shù)據(jù)集,用于評測 LLM 在噪聲思維鏈提示下的推理魯棒性。我們使用 NoRa 數(shù)據(jù)集對 LLM 展開系統(tǒng)評估,揭露了 LLM 推理的魯棒性不足,數(shù)據(jù)去噪能力非常有限的問題;
- 新方法:我們設(shè)計了一種簡單有效的方法(CD-CoT),基于單個正確的思維鏈?zhǔn)纠?,去糾正噪聲思維鏈并完成推理,并通過大量實驗驗證了方法的有效性。
接下來將從新問題、新數(shù)據(jù)集、新方法這三個角度,簡要地介紹我們關(guān)于大模型推理魯棒性的研究結(jié)果,相關(guān)論文已發(fā)表于 NeurIPS 2024 會議。
- 論文標(biāo)題:Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales?
- 論文鏈接:https://arxiv.org/pdf/2410.23856
- 代碼鏈接:https://github.com/tmlr-group/NoisyRationales
- slides 鏈接:https://andrewzhou924.github.io/_pages/data/slides-NoRa.pdf
新問題:Noisy Rationales
思維鏈可以有效提升大模型的推理能力 [1]。具體來說,通過給出帶有中間推理步驟的示例,LLM 可以很快地適應(yīng)到新任務(wù)上,而無需進行參數(shù)修改(見圖 2 右上角)?,F(xiàn)有工作中,通常假設(shè)思維鏈包含清楚且正確的推理步驟,但實際情況可能并非如此。
圖 2. 各種 setting 下的模型輸入
目前,已經(jīng)有許多工作探索了 Noisy Questions 對 LLM 推理性能的影響(見圖 2 左下角),揭示了 LLM 對輸入中微小修改的敏感性 [2,3]。
然而,在人工標(biāo)注或機器生成的思維鏈中,可能會包含一些與問題不相關(guān)或不準(zhǔn)確的推理步驟(見圖 2 右下角),這些噪聲思維鏈可能會對推理性能產(chǎn)生負(fù)面影響,但目前 LLM 對噪聲思維鏈(Noisy Rationales)的魯棒性依舊未知。
因此,本文提出了新的研究問題 Noisy Rationales:當(dāng)示例的推理步驟中包含無關(guān)的或者不準(zhǔn)確的內(nèi)容時,LLM 的推理魯棒性如何?對這一問題的探索,有助于深入理解和提升 LLM 在非完備場景中的推理能力。
新數(shù)據(jù)集:NoRa
為了評估 LLM 在噪聲思維鏈下的魯棒性,我們構(gòu)建了 NoRa(Noisy Rationales)數(shù)據(jù)集,NoRa 涵蓋了 3 種推理任務(wù)類型:數(shù)學(xué)推理、符號推理和常識推理,共包含 26391 個問題以及 5 種子任務(wù)。
一條思維鏈(Rationale)包含多個連續(xù)的推理步驟(Thoughts);噪聲思維鏈(Noisy Rationale)包含的噪聲推理步驟(Noisy Thoughts)被定義為如下兩類(示例見圖 3):
- 不相關(guān)噪聲(Irrelevant Thoughts)是指對解決問題無用的信息,如在推斷親屬關(guān)系時討論探討兄弟姐妹之間的基因重疊情況;
- 不準(zhǔn)確噪聲(Inaccurate Thoughts)則是推理中的事實性錯誤,如在特定進制計算中使用錯誤的計算規(guī)則。
圖 3. NoRa 數(shù)據(jù)集的樣本
在構(gòu)建數(shù)據(jù)集時,我們通過插入 Noisy Thoughts 來生成噪聲思維鏈,這些噪聲僅影響推理鏈的細(xì)節(jié),而不改變問題和最終答案的正確性。此外,我們使用不同的噪聲比例(Noise Ratio,即 Noisy Thoughts 占所 Thoughts 的比例,如 0.3、0.5、0.8)來控制任務(wù)的困難程度,Noise Ratio 越大任務(wù)難度也越大。NoRa 數(shù)據(jù)集的統(tǒng)計信息如圖 4 所示。
圖 4. NoRa 數(shù)據(jù)集的統(tǒng)計信息
NoRa 數(shù)據(jù)集 測評結(jié)果
我們以 GPT-3.5-Turbo 為 base model,測試了其在 NoRa 上的表現(xiàn),并且對比了多種去噪方法。這些去噪方法可以分為兩類:
- 自我糾正方法(Self-correction):包括 Intrinsic Self-correction (ISC) [4] 和 Self-polish (SP) [5];
- 自我一致性方法(Self-consistency):包括 SmoothLLM (SM) [6],Self-denoise (SD) [7] 和 Self-consistency (SC) [8]。
圖 5. 各種去噪方法 在 NoRa 數(shù)據(jù)集上的測評結(jié)果
實驗結(jié)果(圖 5)表明:
- 無論采取哪種現(xiàn)有方法,LLM 都會受到噪聲思維鏈的嚴(yán)重影響。具體來說,存在不相關(guān)噪聲時,各方法的性能下降了 0.2% - 25.3%;存在不準(zhǔn)確噪聲時,各方法的性能下降了 0.1% - 54.0%;
- 在 NoRa 的大多數(shù)任務(wù)中,自我糾正方法的表現(xiàn)不佳;
- 自一致性方法可以在一定程度上緩解噪聲的影響,但無法做到真正的數(shù)據(jù)去噪。
此外,我們還進行了各種消融研究,來探索不同因素對 NoRa 數(shù)據(jù)集評估結(jié)果的影響(見圖 6),我們發(fā)現(xiàn):
- 調(diào)整溫度系數(shù)可以改善模型在噪聲思維鏈下的推理性能;
- 使用更多的噪聲示例可以提高大多數(shù)任務(wù)的推理性能;
- 不同的大語言模型普遍容易受到噪聲思維鏈的影響。
圖 6. 消融實驗:(左) 溫度系數(shù)對性能的影響;(中) 示例個數(shù)對性能的影響;(右) 各種模型的性能
新方法:CD-CoT
根據(jù)測評結(jié)果,大語言模型在應(yīng)對噪聲思維鏈提示時,其自身的去噪能力非常有限;即便使用自我糾正或自一致性方法,效果仍不理想。
因此,我們認(rèn)為有必要引入外部監(jiān)督信號來增強模型魯棒性,且這種監(jiān)督信號既要足以實現(xiàn)去噪,又要在實際應(yīng)用中切實可行。對此,我們提出了一種簡單有效的去噪推理方法, CD-CoT(Contrastive Denoising with Noisy Chain of Thoughts)。
CD-CoT 借鑒了對比學(xué)習(xí)的思路,通過讓 LLM 顯式地對比有噪和干凈的思維鏈,從而識別出噪聲信息。方法主要包括四個關(guān)鍵步驟,步驟 1&2 進行顯式的去噪,步驟 3&4 進行精細(xì)推理并獲得最終答案。
四個步驟具體如下:
- 改寫思維鏈:借助一個干凈的思維鏈?zhǔn)纠?,引?dǎo) LLM 通過對比改寫和糾正噪聲思維鏈,并生成多個改寫的思維鏈(見圖 7 step1);
- 選擇思維鏈:通過答案匹配,篩選出改寫后答案不變的思維鏈,形成精煉的候選集;再從中隨機選取一定數(shù)量的思維鏈,用于后續(xù)的推理(見圖 7 step2);
- 探索推理鏈:將選取的思維鏈排列成不同的上下文,與目標(biāo)問題一同輸入給 LLM,并采用較高的溫度參數(shù)進行多次重復(fù)推理,以探索多樣的推理路徑(見圖 8 step3);
- 答案投票:將所有得到的答案進行投票,得到最終答案(見圖 8 step4)。
完整的 CD-CoT 算法請見圖 9。
圖 7. CD-CoT 算法的步驟 1&2
圖 8. CD-CoT 算法的步驟 3&4
圖 9. 完整的 CD-CoT 算法
CD-CoT 實驗結(jié)果
我們在 NoRa 數(shù)據(jù)集上全面測試了 CD-CoT,并對比了多個需要額外監(jiān)督信息的去噪方法(見圖 10),我們發(fā)現(xiàn):
- 當(dāng)面對噪聲思維鏈時,與 base model 相比,CD-CoT 在所有數(shù)據(jù)集上的性能均有顯著提升,準(zhǔn)確率平均提升幅度達到 17.8%;
- CD-CoT 對高噪聲表現(xiàn)出顯著的抵抗力,尤其在更具挑戰(zhàn)的數(shù)學(xué)推理任務(wù)中。
圖 10. 各種需要額外監(jiān)督信息的方法 在 NoRa 數(shù)據(jù)集上的測評結(jié)果
此外,通過諸多消融實驗,我們發(fā)現(xiàn):
- 關(guān)于 CD-CoT 超參數(shù)的消融實驗結(jié)果顯示,干凈的思維鏈?zhǔn)纠?CD-CoT 中扮演著關(guān)鍵的角色;當(dāng)變化 N,M,C 等超參數(shù)的取值時,準(zhǔn)確性僅呈現(xiàn)出細(xì)微的變化(見圖 11)。在論文中,我們默認(rèn)采用 M 設(shè)為 2 的 CD-CoT 示例,以在效率和效果之間取得平衡;
- CD-CoT 在不同的 LLM 上具有良好的泛化能力,與 base model(GPT-3.5-Turbo 和 Gemini-Pro)相比,其準(zhǔn)確率分別提高了 23.4% 和 21.6%,并超越了所有基線方法(見圖 12)。
圖 11. 關(guān)于 CD-CoT 超參數(shù)的消融研究
圖 12. 關(guān)于 CD-CoT 在不同 LLM 上的效果的消融研究
更多的實驗分析和技術(shù)細(xì)節(jié),請移步參閱我們的論文及源碼,我們也將持續(xù)更新本工作的內(nèi)容。
我們希望通過這項工作,呼吁人們更多地關(guān)注 LLM 推理的魯棒性問題,并開展關(guān)于大模型推理魯棒性的探討與研究。非常感謝大家關(guān)注我們的工作!