「think step by step」還不夠,讓模型「think more steps」更有用
如今,大型語言模型(LLM)及其高級(jí)提示策略的出現(xiàn),標(biāo)志著對(duì)語言模型的研究取得了重大進(jìn)展,尤其是在經(jīng)典的 NLP 任務(wù)中。這其中一個(gè)關(guān)鍵的創(chuàng)新是思維鏈(CoT)提示技術(shù),該技術(shù)因其在多步驟問題解決中的能力而聞名。這項(xiàng)技術(shù)遵循了人類的順序推理,在各種挑戰(zhàn)中表現(xiàn)出了優(yōu)秀的性能,其中包括跨域、長泛化和跨語言的任務(wù)。CoT 及其富有邏輯的、循序漸進(jìn)的推理方法,在復(fù)雜的問題解決場景中提供了至關(guān)重要的可解釋性。
盡管 CoT 取得了長足的進(jìn)展,但研究界尚未就 CoT 及其變體的具體機(jī)制和有效原因達(dá)成共識(shí)。這種知識(shí)差距意味著提高 CoT 性能仍是一個(gè)探索領(lǐng)域。而這種探索主要依賴于試錯(cuò),因?yàn)槟壳斑€缺乏改進(jìn) CoT 效果的系統(tǒng)性方法論,研究人員只能依賴猜測和實(shí)驗(yàn)。但是這也同時(shí)表明該領(lǐng)域存在著重要的研究機(jī)遇:對(duì) CoT 的內(nèi)部運(yùn)作形成更深入、更結(jié)構(gòu)化的理解。如果實(shí)現(xiàn)這個(gè)目標(biāo),不僅能揭開當(dāng)前 CoT 過程的神秘面紗,還能為在各種復(fù)雜的 NLP 任務(wù)中更可靠、更高效地應(yīng)用這種技術(shù)鋪平道路。
來自美國西北大學(xué)、利物浦大學(xué)和新澤西理工大學(xué)等的研究者們,進(jìn)一步探討了推理步驟的長度與結(jié)論準(zhǔn)確性之間的關(guān)系,幫助人們加深關(guān)于如何有效解決 NLP 問題的理解。下面這篇文章探索了推理步驟是否是促使 CoT 發(fā)揮作用的 prompt 中最關(guān)鍵的部分(見圖 1)。本文實(shí)驗(yàn)中嚴(yán)格的控制變量,特別是在加入新的推理步驟時(shí),研究者會(huì)確保不會(huì)引入額外的知識(shí)。在零樣本實(shí)驗(yàn)中,研究者將初始 prompt 從「請(qǐng)逐步思考」調(diào)整為「請(qǐng)逐步思考,并且盡可能思考出更多的步驟」。對(duì)于小樣本問題,研究者設(shè)計(jì)了一個(gè)實(shí)驗(yàn),在保持所有其他因素不變的情況下,擴(kuò)展基礎(chǔ)推理步驟。
- 論文標(biāo)題:The Impact of Reasoning Step Length on Large Language Models
- 論文鏈接:https://arxiv.org/pdf/2401.04925.pdf
本文的第一組實(shí)驗(yàn)評(píng)估了在上述策略下,使用 Auto-CoT 技術(shù),在零樣本和小樣本任務(wù)中推理性能的提高情況。隨后,本文評(píng)估了不同方法在不同推理步數(shù)下的準(zhǔn)確性。接著,研究者擴(kuò)大了調(diào)研對(duì)象,比較了本文提出的策略在不同 LLM(如 GPT-3.5 和 GPT-4)上的有效性。研究結(jié)果表明,在一定范圍內(nèi),推理鏈的長度與 LLM 的能力之間存在明顯的相關(guān)性。但耐人尋味的是,當(dāng)研究者在推理鏈中引入誤導(dǎo)信息時(shí),性能仍然有所提高。這推導(dǎo)出了一個(gè)重要結(jié)論:影響性能的關(guān)鍵因素似乎是思維鏈的長度,而不是其準(zhǔn)確性。
本文的主要發(fā)現(xiàn)如下所示:
- 對(duì)于小樣本 CoT,推理步數(shù)和精度之間存在直接的線性關(guān)系。這為優(yōu)化復(fù)雜推理中的 CoT 提示提供了一種可量化的方法。具體來說,增加 prompt 中的推理步驟大大提高了 LLM 在多個(gè)數(shù)據(jù)集上的推理能力。反過來,即使在保留了關(guān)鍵信息的情況下,縮短推理步驟也會(huì)顯著削弱模型的推理能力。
- 即使是不正確的推理,如果能保持必要的推理長度,也能產(chǎn)生有利的結(jié)果。例如,在數(shù)學(xué)問題等任務(wù)中,過程中產(chǎn)生的中間數(shù)字出錯(cuò)也不太會(huì)影響最終結(jié)果。
- 增加推理步驟所產(chǎn)生的收益大小受限于任務(wù)本身:更簡單的任務(wù)需要更少的步驟,而更復(fù)雜的任務(wù)則從更長的推理序列中獲得顯著收益。
- 增加零樣本 CoT 中的推理步驟也可以顯著提高 LLM 的準(zhǔn)確性。
研究方法
研究者通過分析來檢驗(yàn)推理步驟與 CoT 提示性能之間的關(guān)系。方法的核心假設(shè)是,推理過程中的序列化步驟是 CoT 提示中最關(guān)鍵的組成部分,能夠使語言模型在生成回復(fù)內(nèi)容時(shí)應(yīng)用更多的邏輯進(jìn)行推理。為了測試這一觀點(diǎn),本文設(shè)計(jì)了一個(gè)實(shí)驗(yàn),在 CoT 的推理過程中先后擴(kuò)展和壓縮基礎(chǔ)推理步驟,同時(shí)保持所有其他因素不變。具體而言,研究者只系統(tǒng)地改變推理步驟的數(shù)量,不引入新的推理內(nèi)容或刪除已有的推理內(nèi)容。研究者在下文中評(píng)估了零樣本和少樣本的 CoT 提示。整個(gè)實(shí)驗(yàn)過程如圖 2 所示。通過這種控制變量分析的方法,研究者闡明了 CoT 如何影響 LLM 生成邏輯健全的應(yīng)答能力。
零樣本 CoT 分析
在零樣本場景中,研究者將最初的 prompt 從「請(qǐng)逐步思考」修改為「請(qǐng)逐步思考,并且盡可能思考出更多的步驟」。之所以做出這一改變,是因?yàn)榕c少樣本 CoT 環(huán)境不同,使用者不能在使用過程中引入額外的推理步驟。通過改變初始 prompt,研究者引導(dǎo) LLM 進(jìn)行了更廣泛的思考。這種方法的重要性在于能夠提高模型的準(zhǔn)確性,而且不需要少樣本場景中的典型方案:增量訓(xùn)練或額外的示例驅(qū)動(dòng)優(yōu)化方法。這種精細(xì)化策略確保了更全面、更詳細(xì)的推理過程,顯著提高了模型在零樣本條件下的性能。
小樣本 CoT 分析
本節(jié)將通過增加或壓縮推理步驟來修改 CoT 中的推理鏈。其目的是研究推理結(jié)構(gòu)的變化如何影響 LLM 決策。在推理步驟的擴(kuò)展過程中,研究者需要避免引入任何新的任務(wù)相關(guān)信息。這樣,推理步驟就成了唯一的研究變量。
為此,研究者設(shè)計(jì)了以下研究策略,以擴(kuò)展不同 LLM 應(yīng)用程序的推理步驟。人們思考問題的方式通常有固定的模式,例如,一遍又一遍地重復(fù)問題以獲得更深入的理解、創(chuàng)建數(shù)學(xué)方程以減輕記憶負(fù)擔(dān)、分析問題中單詞的含義以幫助理解主題、總結(jié)當(dāng)前狀態(tài)以簡化對(duì)主題的描述。基于零樣本 CoT 和 Auto-CoT 的啟發(fā),研究者期望 CoT 的過程成為一種標(biāo)準(zhǔn)化的模式,并通過在 prompt 部分限制 CoT 思維的方向來獲得正確的結(jié)果。本文方法的核心是模擬人類思維的過程,重塑思維鏈。表 6 中給出了五種通用的 prompt 策略。
- 單詞思維:這種策略是要求模型解釋單詞并重建知識(shí)庫。通常情況下,一個(gè)單詞有多種不同的含義,這樣做的效果是讓模型跳出條條框框,根據(jù)生成的解釋重新解釋問題中的單詞。這一過程不會(huì)引入新的信息。在 prompt 中,研究者給出了模型正在思考的單詞的例子,模型會(huì)根據(jù)新問題自動(dòng)挑選單詞進(jìn)行這一過程。
- 問題重載:反復(fù)閱讀問題,減少其他文本對(duì)思維鏈的干擾。簡而言之,讓模型記住問題。
- 重復(fù)狀態(tài):與反復(fù)閱讀類似,在一長串推理之后加入一個(gè)當(dāng)前狀態(tài)的小結(jié),目的是幫助模型簡化記憶,減少其他文本對(duì) CoT 的干擾。
- 自我驗(yàn)證:人類在回答問題時(shí)會(huì)檢查自己的答案是否正確。因此,在模型得到答案之前,研究者增加了一個(gè)自我驗(yàn)證過程,根據(jù)一些基本信息來判斷答案是否合理。
- 方程制備:對(duì)于數(shù)學(xué)問題,制作公式可以幫助人類總結(jié)和簡化記憶。對(duì)于一些需要假設(shè)未知數(shù) x 的問題,建立方程是一個(gè)必不可少的過程。研究者模擬了這個(gè)過程,并讓模型嘗試在數(shù)學(xué)問題中建立方程。
總體而言,本文的即時(shí)策略都在模型有所體現(xiàn)。表 1 展示的內(nèi)容是其中一個(gè)例子,其他四種策略的示例可以在原論文中查看。
實(shí)驗(yàn)及結(jié)果
推理步驟與準(zhǔn)確性的關(guān)系
表 2 比較了使用 GPT-3.5-turbo-1106 在三類推理任務(wù)的八個(gè)數(shù)據(jù)集上的準(zhǔn)確性。
得益于研究者能夠?qū)⑺季S鏈過程標(biāo)準(zhǔn)化,接下來就可以量化在 CoT 的基本流程中增加步驟而對(duì)準(zhǔn)確性的提高程度。本實(shí)驗(yàn)的結(jié)果可以回答之前提出的問題:推理步驟與 CoT 性能之間的關(guān)系是什么?該實(shí)驗(yàn)基于 GPT-3.5-turbo-1106 模型。研究者發(fā)現(xiàn),有效的 CoT 過程,例如在 CoT 過程中增加多達(dá)六個(gè)步驟的額外思維過程,會(huì)讓大型語言模型推理能力都會(huì)得到提高,并且是在所有的數(shù)據(jù)集上都有體現(xiàn)。換句話說,研究者發(fā)現(xiàn)準(zhǔn)確性和 CoT 復(fù)雜性之間存在一定的線性關(guān)系。
錯(cuò)誤答案的影響
推理步驟是影響 LLM 性能的唯一因素嗎?研究者做了以下嘗試。將 prompt 中的一個(gè)步驟更改為不正確的描述,看看它是否會(huì)影響思維鏈。對(duì)于這個(gè)實(shí)驗(yàn),本文研究者在所有 prompt 中添加一個(gè)錯(cuò)誤。有關(guān)具體示例,請(qǐng)看表 3。
對(duì)于算術(shù)類型的問題,即使其中一個(gè) prompt 結(jié)果出現(xiàn)偏差,對(duì)推理過程中思維鏈的影響也是微乎其微的,因此研究者認(rèn)為在解決算術(shù)類型的問題時(shí),大語言模型對(duì)提示中思維模式鏈的學(xué)習(xí)要多于單一計(jì)算。對(duì)于類似硬幣數(shù)據(jù)的邏輯問題,prompt 結(jié)果中的一個(gè)偏差往往會(huì)帶來整個(gè)思維鏈的支離破碎。研究者同樣使用 GPT-3.5-turbo-1106 完成這項(xiàng)實(shí)驗(yàn),并根據(jù)之前實(shí)驗(yàn)得出的每個(gè)數(shù)據(jù)集的最佳步數(shù)保證了性能。結(jié)果如圖 4 所示。
壓縮推理步驟
先前的實(shí)驗(yàn)已經(jīng)證明了增加推理步驟可以提高 LLM 推理的準(zhǔn)確性。那么在小樣本問題中壓縮基礎(chǔ)推理步驟會(huì)損害 LLM 的性能嗎?為此,研究者進(jìn)行了推理步驟壓縮實(shí)驗(yàn),并采用實(shí)驗(yàn)設(shè)置中概述的技術(shù),將推理過程濃縮成 Auto CoT 和 Few-Shot-CoT,減少推理步驟數(shù)。結(jié)果如圖 5 所示。
結(jié)果顯示,模型的性能顯著下降,回歸到與零樣本方法基本相當(dāng)?shù)乃?。這個(gè)結(jié)果進(jìn)一步表明,增加 CoT 推理步驟可以提高 CoT 性能,反之亦然。
不同規(guī)格模型的性能對(duì)比
研究者還提出疑問,我們能否觀察到縮放現(xiàn)象,即所需的推理步驟與 LLM 的大小有關(guān)?研究者研究了各種模型(包括 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4)中使用的平均推理步驟數(shù)。通過在 GSM8K 上的實(shí)驗(yàn)計(jì)算出了每個(gè)模型達(dá)到峰值性能所需的平均推理步驟。在 8 個(gè)數(shù)據(jù)集中,該數(shù)據(jù)集與 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4 的性能差異最大??梢钥闯?,在初始性能最差的 text-davinci-002 模型中,本文提出的策略具有最高的提升效果。結(jié)果如圖 6 所示。
協(xié)同工作實(shí)例中問題的影響
問題對(duì) LLM 推理能力的影響是什么?研究者想探討改變 CoT 的推理是否會(huì)影響 CoT 的性能。由于本文主要研究推理步驟對(duì)性能的影響,所以研究者需要確認(rèn)問題本身對(duì)性能沒有影響。因此,研究者選擇了數(shù)據(jù)集 MultiArith 和 GSM8K 和兩種 CoT 方法(auto-CoT 和 few-shot-CoT)在 GPT-3.5-turbo-1106 中進(jìn)行實(shí)驗(yàn)。本文的實(shí)驗(yàn)方法包括對(duì)這些數(shù)學(xué)數(shù)據(jù)集中的樣本問題進(jìn)行有意的修改,例如改變表 4 中問題的內(nèi)容。
值得注意的是,初步觀察表明,這些對(duì)于問題本身的修改對(duì)性能的影響是幾個(gè)要素里最小的,如表 5 所示。
這一初步發(fā)現(xiàn)表明,推理過程中步驟的長度是大模型的推理能力最主要的影響因素,問題本身的影響并不是最大的。
更多詳細(xì)內(nèi)容,請(qǐng)閱讀原論文。