簡(jiǎn)潔思考:輸出長(zhǎng)度對(duì)大型語言模型推理和成本的影響 原創(chuàng)
一、結(jié)論寫在前面
論文標(biāo)題:Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost
論文鏈接:??https://arxiv.org/pdf/2407.19825??
當(dāng)今的大型語言模型(LLMs)能夠解決具有挑戰(zhàn)性的問答任務(wù),而諸如思維鏈(CoT)等提示工程技術(shù)因其增強(qiáng)輸出解釋和正確性而受到關(guān)注。然而,模型生成附帶詳細(xì)推理細(xì)節(jié)的答案需要大量時(shí)間。
為了解決這一問題,本文分析了輸出長(zhǎng)度對(duì)LLM推理管道的影響,并提出了新的指標(biāo)來評(píng)估其正確簡(jiǎn)潔性。同時(shí),通過一種精細(xì)的提示工程策略——約束CoT(constrained-CoT,CCoT),探討了控制輸出長(zhǎng)度的影響,該策略鼓勵(lì)模型限制輸出長(zhǎng)度。
在預(yù)訓(xùn)練LLMs上的實(shí)驗(yàn)證明了所提出指標(biāo)的益處以及CCoT在不同模型中的有效性。從所進(jìn)行實(shí)驗(yàn)的結(jié)果中,首先可以觀察到并非所有模型都能控制其輸出的長(zhǎng)度(RQ2)。具體而言,小型模型如Falcon-7b、LLama2-7b和Vicuna-13b在遵守CCoT提示中的長(zhǎng)度約束方面存在更多困難,而大型模型如Falcon-40b和Llama2-70b則展現(xiàn)出更強(qiáng)的控制能力。這種小型大型語言模型(LLMs)的困難可能受到多種因素的影響,例如訓(xùn)練過程中使用的數(shù)據(jù)集和模型參數(shù)的數(shù)量。理解這些問題并評(píng)估將所提議的指標(biāo)整合到微調(diào)過程中的可能性,需要更深入的研究,這是論文未來工作的一部分。
另一方面,對(duì)于大型模型,例如Falcon-40b和LLaMA2-70b,CCoT能夠提高LLMs相對(duì)于普通提示和CoT的準(zhǔn)確性和效率(RQ1)。某些模型(LLaMA2-70b和Vicuna-13b)在準(zhǔn)確性上的提升,雖然超出了本研究的范圍,但暗示了未來研究分析簡(jiǎn)潔性對(duì)潛在幻覺現(xiàn)象或錯(cuò)誤推理影響的有趣方向。此外,另一個(gè)有趣的后續(xù)方向可能是將提出的指標(biāo)與使用評(píng)判模型評(píng)估LLMs正確簡(jiǎn)潔性的最新評(píng)估技術(shù)相結(jié)合。
總之,本研究強(qiáng)調(diào)了需要更多關(guān)注LLMs的簡(jiǎn)潔性,提出了能夠評(píng)估輸出與其長(zhǎng)度正確性的新型性能指標(biāo)。此外,提出的CCoT提示方法提供了一種簡(jiǎn)單但有趣的策略來解決簡(jiǎn)潔性問題,這可能開啟新的研究方向,使LLMs更加可預(yù)測(cè)和高效:
?提出了三種新穎的指標(biāo),用于評(píng)估LLM輸出正確性的同時(shí)考慮輸出推理的簡(jiǎn)潔性,強(qiáng)調(diào)簡(jiǎn)潔和效率的重要性。
?本文介紹了一種新穎的提示工程策略——約束鏈?zhǔn)剿季S(Constrained-Chain-of-Thought, CCoT),該策略鼓勵(lì)大型語言模型(LLMs)限制其推理長(zhǎng)度,從而提高其時(shí)間可預(yù)測(cè)性。
?報(bào)告了針對(duì)預(yù)訓(xùn)練LLMs的若干實(shí)驗(yàn),展示了CCoT在提升大型模型準(zhǔn)確性和響應(yīng)時(shí)間方面的有效性,同時(shí)強(qiáng)調(diào)了不同模型規(guī)模下的局限性。
二、論文的簡(jiǎn)單?介紹
2.1 論文的背景
思維鏈(CoT)提示通過鼓勵(lì)LLM通過中間推理步驟闡述其答案,增強(qiáng)了輸出的解釋和正確性。但CoT提示法可能導(dǎo)致輸出更長(zhǎng),從而增加了模型生成響應(yīng)所需的時(shí)間。這是由于自回歸變換器的本質(zhì)特性,它們逐字解碼文本,每次運(yùn)行解碼器模塊的新推理過程。這意味著生成響應(yīng)所需的時(shí)間很大程度上受所提供推理長(zhǎng)度的影響,而推理長(zhǎng)度又可根據(jù)提示的不同而變化。在大型語言模型(LLM)需要通過交互式對(duì)話與用戶交流時(shí),這種長(zhǎng)且可變的響應(yīng)延遲是不理想的。這一問題凸顯了考慮以下兩點(diǎn)的必要性:i) 評(píng)估輸出簡(jiǎn)潔性的指標(biāo);ii) 避免過度冗長(zhǎng)推理鏈的解決方案。
論文的第一部分展示了一些動(dòng)機(jī)實(shí)驗(yàn),以表明輸出長(zhǎng)度與LLM推理時(shí)間之間的關(guān)系。隨后,提出了三個(gè)新穎的指標(biāo),以考量生成答案的簡(jiǎn)潔性和正確性。所提出指標(biāo)的目標(biāo)是通過考慮影響模型推理時(shí)間和其時(shí)間可預(yù)測(cè)性的輸出長(zhǎng)度相關(guān)方面,來重新加權(quán)給定模型的準(zhǔn)確性。
為了應(yīng)對(duì)鏈?zhǔn)剿伎迹–oT)技術(shù)導(dǎo)致的輸出長(zhǎng)度顯著增加的問題,論文的第二部分探討了如何通過特定的提示請(qǐng)求來控制CoT推理的長(zhǎng)度。具體而言,論文引入了一種名為約束CoT(constrained-CoT,CCoT)的精細(xì)化提示工程策略,旨在促使大型語言模型(LLM)限制輸出長(zhǎng)度并控制推理過程。其核心思想是明確要求模型提供一個(gè)長(zhǎng)度小于給定界限的輸出,從而推動(dòng)LLM生成簡(jiǎn)潔的推理。在此過程中,論文必須確保模型輸出的準(zhǔn)確性和時(shí)效性。
2.2. 動(dòng)機(jī)考慮
LLM的輸出生成時(shí)間受多種因素影響,包括模型架構(gòu)、預(yù)處理和后處理步驟、答案解碼過程以及所提出的問題,同時(shí)還要考慮使用提示工程方法。雖然計(jì)算成本的影響已被充分理解,但其他方面對(duì)整體生成時(shí)間的影響尚不明確,需要進(jìn)一步研究。更正式地,LLM可以表示為一個(gè)函數(shù) f,它接受一個(gè)包含 N ( x ) 個(gè)詞元的提示 x 作為輸入,并生成一個(gè)包含 N ( y^ ) 個(gè)詞元的輸出 y^=f ( x ),其中 N 是一個(gè)簡(jiǎn)單的詞元計(jì)數(shù)操作符。輸入 x 可以看作由原始用戶輸入 x 和根據(jù)所用技術(shù)生成的提示工程文本 x_p 組成。例如,在零樣本CoT設(shè)置中,提示可以計(jì)算為 x=concat ( x_us, x_p ),其中 x_p 是明確要求在答案中提供推理步驟的文本,而 concat ( a, b ) 是將兩個(gè)向量 a 和 b 合并為一個(gè)的連接操作符。
圖 1 展示了三個(gè)LLM在不同數(shù)據(jù)集(CNN/dailynews、squad組合、FELM和AG)的幾個(gè)樣本中,響應(yīng)時(shí)間與輸出長(zhǎng)度之間的關(guān)系,這些數(shù)據(jù)集包括了總結(jié)、問答、先上下文后問答以及主題建模等下游任務(wù)。
在Transformer使用的編碼器-解碼器架構(gòu)中,設(shè) f_e ( x ) 和 f_d ( x ) 分別表示與編碼器和解碼器相關(guān)的函數(shù)。那么,輸出 y^ 是一個(gè)詞元列表 [ a^( 1 ), ..., a^( N ( y^ ) ) ],其中每個(gè) a^( i ) 是基于先前生成的詞元和編碼器的嵌入表示 f_e ( x ) 計(jì)算得出的。即:
從公式 (1) 可以看出,答案中輸出詞元集合越大,模型生成答案所需的時(shí)間就越長(zhǎng),這是因?yàn)榻獯a器被調(diào)用的次數(shù)增加了。
為了突顯這種依賴關(guān)系,論文對(duì)四個(gè)不同規(guī)模的模型進(jìn)行了初步測(cè)試,具體是Falcon 7b/40b和Llama2-7b/70b,測(cè)試了不同的下游任務(wù),如摘要生成、問答、上下文問答和主題建模,使用了來自CNN/dailynews、squad組合、FELM)和AG數(shù)據(jù)集的少量樣本。測(cè)試結(jié)果如圖1所示。如圖所示,對(duì)于每個(gè)大型語言模型,總響應(yīng)時(shí)間(生成時(shí)間)與各種任務(wù)中答案的長(zhǎng)度密切相關(guān),隨著輸出長(zhǎng)度的增加而顯著增加。
圖2 Falcon-40b 效率中 CoT 影響的分析:(a) 響應(yīng)時(shí)間與輸出長(zhǎng)度關(guān)系,無 CoT(藍(lán)點(diǎn))與有 CoT(紅點(diǎn)),跨越 GSM8K 測(cè)試集的 100 個(gè)問題。(b) 使用 GSM8K 測(cè)試集的 50 個(gè)隨機(jī)樣本,CoT 與無 CoT 輸出長(zhǎng)度之間的輸出詞變化
在不同下游任務(wù)上,如摘要、QA、上下文然后 QA 和主題建模,使用 CNN/每日新聞、squad 組合、FELM和 AG等數(shù)據(jù)集的幾個(gè)樣本,對(duì) 7b/40b 和 Llama2-7b/70b進(jìn)行了測(cè)試。測(cè)試結(jié)果如圖 1 所示。如圖所示,對(duì)于每個(gè) LLM,總響應(yīng)時(shí)間(生成時(shí)間)與答案長(zhǎng)度在各種任務(wù)中密切相關(guān),隨著輸出長(zhǎng)度的增加顯著增加。
還在 Falcon-40B 上進(jìn)行了另一項(xiàng)測(cè)試,以評(píng)估 CoT 方法在回答算術(shù)問題中的影響,使用 GSM8K 數(shù)據(jù)集的 100 個(gè)隨機(jī)問題子集。測(cè)試結(jié)果如圖 2a 所示,其中紅色和藍(lán)色點(diǎn)分別表示使用和不使用 CoT 給出的答案。
散點(diǎn)圖顯示,CoT顯著增加了輸出長(zhǎng)度和生成時(shí)間。這表明,盡管CoT提高了響應(yīng)的正確性,但應(yīng)更多關(guān)注其引入的時(shí)間成本。為了更好地理解CoT對(duì)輸出長(zhǎng)度的影響,圖2b報(bào)告了Falcon-40b在一組50個(gè)GSM8K問題上的輸出長(zhǎng)度(以生成的單詞數(shù)量表示),無CoT(藍(lán)色條)和有CoT(粉色條)。注意,紫色區(qū)域表示兩個(gè)條形重疊的區(qū)域。
2.3. 簡(jiǎn)潔正確性的度量
受前述考慮的啟發(fā),本節(jié)提出了三個(gè)新穎的度量標(biāo)準(zhǔn),用于評(píng)估LLM提供正確且簡(jiǎn)潔響應(yīng)的能力。其思想是將簡(jiǎn)潔性方面重新定義經(jīng)典的準(zhǔn)確性度量標(biāo)準(zhǔn),以整合到LLM輸出正確性中。形式上,如果通過后處理函數(shù)Gamma提取的結(jié)論與給定的真實(shí)值y匹配,則認(rèn)為答案y^是正確的。因此,LLM的準(zhǔn)確性可以計(jì)算為
其中N是測(cè)試樣本的數(shù)量,I ( u, v )是指示函數(shù),如果u=v則返回1,否則返回0。請(qǐng)注意,Gamma表示一個(gè)用戶定義的函數(shù),可以根據(jù)正則表達(dá)式(例如,通過從句子中提取特定模式)或使用偽判斷方法(例如,使用次級(jí)大型模型作為判斷)來實(shí)現(xiàn)。
從公式 (2) 出發(fā),通過將指示函數(shù)乘以一個(gè)懲罰項(xiàng) p ( y_i ) ∈[ 0, 1 ],可以綜合考慮輸出 y_i 的簡(jiǎn)潔性和正確性,該懲罰項(xiàng)對(duì)于長(zhǎng)輸出會(huì)降低其值:
以下通過設(shè)置適當(dāng)?shù)膽土P函數(shù)來定義三種特定的度量標(biāo)準(zhǔn)。
硬 k簡(jiǎn)潔準(zhǔn)確率(Hard-k Concise Accuracy):HCA ( k )。它衡量不超過用戶指定長(zhǎng)度 k 的正確輸出所占的比例:
該度量標(biāo)準(zhǔn)不考慮超過指定最大長(zhǎng)度的響應(yīng),從而促進(jìn)簡(jiǎn)潔性。論文認(rèn)為在嚴(yán)格遵守長(zhǎng)度約束至關(guān)重要的場(chǎng)景中,例如實(shí)時(shí)系統(tǒng)或計(jì)算資源有限的環(huán)境中,它可能特別有用。
軟性 k 簡(jiǎn)潔準(zhǔn)確率(Soft-k Concise Accuracy):SCA ( k, α)。它通過懲罰超過最大長(zhǎng)度 k 的正確答案并引入一個(gè)隨衰減因子α 呈指數(shù)下降的項(xiàng)來推廣先前的度量標(biāo)準(zhǔn):
在該公式中,用戶定義的衰減 α≥0 可以視為一種容差,它控制長(zhǎng)度對(duì)總體準(zhǔn)確性的影響程度;α 值越高,對(duì)超過指定長(zhǎng)度 k 的答案的容忍度就越高。注意,當(dāng)α=0 時(shí),SCA ( k, 0 ) 簡(jiǎn)化為HCA ( k )。
一致簡(jiǎn)潔準(zhǔn)確率(Consistent Concise Accuracy):CCA (k, α, β)。它通過考慮所有獲得輸出的長(zhǎng)度變化進(jìn)一步推廣了先前的度量標(biāo)準(zhǔn):
在公式 (6) 中,σ表示輸出長(zhǎng)度分布的標(biāo)準(zhǔn)差,而β是一個(gè)控制對(duì)長(zhǎng)度變化容忍度的參數(shù);β值越高,容忍度越高。注意,給定一個(gè)容忍度 β,當(dāng)σ ≤ β時(shí),p_var (σ, β)=1,而當(dāng)σ> β 時(shí),它會(huì)呈指數(shù)下降。
CCA 度量標(biāo)準(zhǔn)旨在促進(jìn)響應(yīng)長(zhǎng)度的一致性。較低的標(biāo)準(zhǔn)差 σ表示模型產(chǎn)生的響應(yīng)長(zhǎng)度均勻。相反,較高的 σ值表示模型響應(yīng)變化大,使得預(yù)測(cè)其響應(yīng)時(shí)間變得困難。
2.4. CCoT 提示
輸出長(zhǎng)度與推理時(shí)間之間的關(guān)系需要更深入的認(rèn)識(shí)。為此,這里重點(diǎn)關(guān)注改進(jìn)思維鏈(CoT)的使用,旨在保留該技術(shù)的優(yōu)點(diǎn),同時(shí)更加注意答案的長(zhǎng)度,以在效率和準(zhǔn)確性之間取得更好的平衡。
為此,論文引入了受限思維鏈(CCoT)提示,該提示包含一個(gè)明確句子,限制生成輸出的最大詞匯數(shù),鼓勵(lì)模型壓縮推理過程并在較短時(shí)間內(nèi)產(chǎn)生更簡(jiǎn)潔的答案。如第3節(jié)所述,CoT提示可計(jì)算為 x=concat(x_us, x_p),其中 x_p 是生成答案中要求提供推理步驟的明確請(qǐng)求(例如,“讓論文一步步思考”)。從技術(shù)上講,為了鼓勵(lì)大型語言模型(LLMs)返回更簡(jiǎn)潔的推理,CCoT提示被形式化為 x=concat(x_us, x_p, x_l),其中 x_l 表示指定輸出長(zhǎng)度約束的句子(例如,“并將答案長(zhǎng)度限制在30詞以內(nèi)”)。
圖3展示了一個(gè)示例,說明了CoT提示與CCoT提示之間的差異。請(qǐng)注意,使用CoT提示生成的特定問題的答案包含67個(gè)單詞,而使用CCoT提示(指定45個(gè)單詞的約束)生成的相同問題的答案包含34個(gè)單詞,并且仍然是正確的。
2.5. 實(shí)驗(yàn)
這里展示了一系列實(shí)驗(yàn),旨在評(píng)估所提出的CCoT方法在經(jīng)典指標(biāo)下的有效性,并說明所提出指標(biāo)在評(píng)估簡(jiǎn)潔正確性方面的優(yōu)勢(shì)。具體而言,在接下來的實(shí)驗(yàn)中探討了以下研究問題:
?(RQ1) CCoT方法在效率和準(zhǔn)確性方面是否有益?
?(RQ2) 與經(jīng)典CoT相比,哪些模型能從CCoT中獲益?
?(RQ3) 大型語言模型(LLM)根據(jù)明確的提示請(qǐng)求控制輸出長(zhǎng)度的能力如何?
?(RQ4) 所提出的指標(biāo)是否有助于解決效率和準(zhǔn)確性方面的問題?CCoT的影響是否體現(xiàn)在所提出的指標(biāo)中?
2.5.1. 實(shí)驗(yàn)設(shè)置
所有實(shí)驗(yàn)均在配備8塊NVIDIA A100 GPU的文本生成推理(TGI)平臺(tái)上進(jìn)行。具體而言,論文評(píng)估了來自Hugging Face的五個(gè)公開可用的預(yù)訓(xùn)練大型語言模型(LLM),例如Vicuna-13b-v1.5(Zheng et al., 2024),指令調(diào)優(yōu)模型Falcon-40b-instruct、Falcon-7b-instruct(Almazrouei et al., 2023),以及利用私有數(shù)據(jù)訓(xùn)練和增強(qiáng)的兩個(gè)模型,即Llama2-7b-chat-hf和Llama2-70b-chat-hf(Touvron et al., 2023)。
所有實(shí)驗(yàn)均在GSM8k測(cè)試集上進(jìn)行,該測(cè)試集包含約1.3k個(gè)數(shù)學(xué)問題,占總數(shù)8,000個(gè)問題的約16%。此數(shù)據(jù)集常用于評(píng)估模型處理數(shù)學(xué)推理及綜合計(jì)算步驟的能力。為比較CCoT的效果,所選大型語言模型(LLMs)在有無CoT(基礎(chǔ)模式)的情況下均進(jìn)行了評(píng)估。
2.5.2. CCoT的成本與性能評(píng)估
本實(shí)驗(yàn)旨在評(píng)估CCoT對(duì)計(jì)算時(shí)間和準(zhǔn)確性的影響,進(jìn)而為不同LLM架構(gòu)的適用性提供見解。
CCoT的影響(RQ1)。每個(gè)選定的LLM在GSM8K測(cè)試數(shù)據(jù)集上通過普通提示(基礎(chǔ))、CoT和CCoT(不同長(zhǎng)度約束,即15、30、45、60、100)進(jìn)行了評(píng)估。所得結(jié)果如圖4所示。具體而言,圖4a展示了不同提示設(shè)置對(duì)生成時(shí)間的影響,而圖4b展示了相應(yīng)的準(zhǔn)確性。
圖4 展示了在GSM8K測(cè)試數(shù)據(jù)集上,五個(gè)大型語言模型(Llama2-7b、Llama2-70b、Falcon-7b、Falcon-40b和Vicuna-13b)的生成時(shí)間(a)和準(zhǔn)確性(b)。每個(gè)模型都通過不同長(zhǎng)度約束的普通提示(基礎(chǔ))、CoT和CCoT進(jìn)行評(píng)估。
如圖4a所示,相對(duì)于CoT,CCoT提示能夠減少所有大型模型和大多數(shù)中型模型的生成時(shí)間,并且在大多數(shù)情況下也相對(duì)于普通提示(基礎(chǔ))。例如,對(duì)于使用經(jīng)典CoT的Llama2-70b模型,平均生成時(shí)間為30.09秒,而使用長(zhǎng)度為15的CCoT時(shí),生成時(shí)間幾乎減半,達(dá)到長(zhǎng)度約束為100時(shí)的最大值23.86秒。
雖然在某些應(yīng)用中減少生成時(shí)間很重要,但在減少輸出長(zhǎng)度的同時(shí)保持模型答案的正確性也至關(guān)重要。為了評(píng)估這一方面,圖4b報(bào)告了針對(duì)不同類型提示的相同LLMs的準(zhǔn)確性。請(qǐng)注意,在Llama2-70b和Vicuna-13b中,CCoT能夠提高準(zhǔn)確性,甚至相對(duì)于CoT。例如,Llama2-70b的準(zhǔn)確性從使用CCoT-30的37.07%到使用CCoT-100的41.77%不等,而相比之下,使用CoT的準(zhǔn)確性為36.01%。對(duì)于其他LLMs,如Falcon-40b和Llama2-7b,使用CCoT達(dá)到的準(zhǔn)確性隨著長(zhǎng)度約束的增加而提高,得分介于基礎(chǔ)和經(jīng)典CoT得分之間。最后,需要注意的是,F(xiàn)alcon-7b作為最小的模型,無法利用CCoT提示來減少生成時(shí)間,并且在較大的長(zhǎng)度約束下,其準(zhǔn)確性也比CoT和基礎(chǔ)低。
關(guān)于CCoT提示的有效性(RQ2)。圖4中展示的CCoT提示對(duì)輸出長(zhǎng)度和準(zhǔn)確性的不同影響,可歸因于多種因素,如訓(xùn)練數(shù)據(jù)、模型訓(xùn)練方法、模型規(guī)模以及訓(xùn)練過程中采用的技術(shù)。例如,Llama2-70b是一個(gè)經(jīng)過人類反饋微調(diào)的自回歸大型語言模型,訓(xùn)練數(shù)據(jù)集結(jié)合了通用和開源數(shù)據(jù)。這些技術(shù)措施有助于CCoT在控制輸出長(zhǎng)度的同時(shí)提高模型準(zhǔn)確性。相比之下,F(xiàn)alcon-40b模型規(guī)模小于Llama2-70b,并采用了不同的訓(xùn)練數(shù)據(jù)集(專門的RefinedWeb數(shù)據(jù)(Penedo et al., 2023))。盡管CCoT并未相對(duì)于CoT提升模型準(zhǔn)確性,但它仍優(yōu)于基礎(chǔ)的簡(jiǎn)單提示,通過減少生成時(shí)間與CoT相比提供了折中方案。Vicuna-13b作為L(zhǎng)lama2的微調(diào)版本,規(guī)模小于之前的Llama2-70b,在不同提示下也提供了有競(jìng)爭(zhēng)力的結(jié)果。
相反,小規(guī)模LLMs,如Falcon-7b和Llama2,無法妥善處理CCoT中的約束提示條件,導(dǎo)致生成時(shí)間增加(如Falcon-7b在CCoT中長(zhǎng)度值較大所示)或在Llama2-7b中出現(xiàn)短CCoT值下的錯(cuò)誤答案。這表明模型規(guī)模和訓(xùn)練策略嚴(yán)重影響了CCoT的有效性。
考慮到上述觀察結(jié)果,論文著重后續(xù)在大模型上的實(shí)驗(yàn)表明,如 Llama2-70b 和 Falcon-40b 等模型能夠從 CCoT 中受益。
圖 5. 不同模型和提示策略在 GSM8K 測(cè)試集上輸出的長(zhǎng)度分布(5th 至 95th 百分位數(shù))。
2.5.3. 控制輸出長(zhǎng)度的能力(RQ3)
前述實(shí)驗(yàn)考察了 CCoT 策略如何影響平均準(zhǔn)確度和生成時(shí)間。然而,盡管存在討論的益處,理解 CCoT 提示如何有效限制每個(gè)處理樣本的輸出長(zhǎng)度也至關(guān)重要。這對(duì)于更好地調(diào)整 CCoT 提示中的長(zhǎng)度參數(shù)或識(shí)別所提出的提示策略未能壓縮輸出的條件具有實(shí)用價(jià)值。
為了評(píng)估大型語言模型(LLM)在特定提示方法下生成簡(jiǎn)潔回答的能力,論文分析了在不同 CCoT 長(zhǎng)度約束下每個(gè)樣本的輸出長(zhǎng)度。圖 5 展示了三個(gè)模型(Vicuna-13b、Falcon-40b 和 Llama2-70b)在采用 GSM8K 測(cè)試集所有輸入的情況下,使用不同提示策略(基礎(chǔ)、CoT 和 CCoT)提供的回答長(zhǎng)度統(tǒng)計(jì)數(shù)據(jù)。如前一實(shí)驗(yàn)所述,CCoT 提示針對(duì)不同的長(zhǎng)度約束(15、30、45、60、100)進(jìn)行了測(cè)試。每個(gè)箱形圖表示所有測(cè)試樣本在 5th 至 95th 百分位數(shù)之間的輸出長(zhǎng)度,藍(lán)色線代表提供的 CCoT 長(zhǎng)度約束,紅色線表示中位數(shù),而綠色點(diǎn)表示平均值。理想情況下,一個(gè)模型若能遵守每個(gè)測(cè)試樣本給定的長(zhǎng)度約束,其整個(gè)分布應(yīng)位于藍(lán)色線下方。
從圖5可以清楚地看出,使用CoT而不明確要求長(zhǎng)度會(huì)產(chǎn)生冗長(zhǎng)的答案,這會(huì)顯著影響生成時(shí)間。CCoT提示中施加的長(zhǎng)度約束對(duì)輸出長(zhǎng)度有顯著影響,盡管在實(shí)踐中,LLM并不總能遵守給定的限制,尤其是對(duì)于較小的值,如15、30或40,這對(duì)LLM來說更具挑戰(zhàn)性。
總結(jié)來說,鑒于CCoT提示的性質(zhì),在遵守請(qǐng)求長(zhǎng)度時(shí)考慮一定的容差范圍是合理的。為此,在下文中,論文通過第+節(jié)中提出的指標(biāo)來評(píng)估所考慮的模型,這些指標(biāo)通過考慮簡(jiǎn)潔性來擴(kuò)展準(zhǔn)確性。
2.5.4. 正確簡(jiǎn)潔性的評(píng)估(RQ)
HCA評(píng)估。Hard-k簡(jiǎn)潔準(zhǔn)確性僅評(píng)估長(zhǎng)度小于指定值k的正確答案的準(zhǔn)確性。圖6報(bào)告了在Llama2-70b(圖6a)和Falcon-40b(圖6b)上使用不同提示方法和不同k值時(shí)達(dá)到的這一性能指標(biāo)值。請(qǐng)注意,k=\infty等同于基礎(chǔ)準(zhǔn)確性。
正如預(yù)期,HCA值始終小于或等于經(jīng)典準(zhǔn)確度(k=\infty)所對(duì)應(yīng)的值,但在應(yīng)用CCoT提示的情況下,這種降低并不顯著。具體而言,對(duì)于Llama2-70b,無論k取何值,CCoT的使用相較于基礎(chǔ)提示和CoT提示均有益,尤其是在k等于100、80和60時(shí),提升更為顯著。這表明,若長(zhǎng)度限制不過于嚴(yán)格,模型生成正確答案的能力在CCoT下更高。相反,對(duì)于較低的k值,CoT提示會(huì)導(dǎo)致性能大幅下降,主要是因?yàn)樗鼈兇偈鼓P驮谳敵鲋挟a(chǎn)生推理部分,而未關(guān)注其長(zhǎng)度。
類似的情況也適用于Falcon-40b,其中CCoT的應(yīng)用在CoT和基礎(chǔ)提示之間實(shí)現(xiàn)了良好的平衡。值得注意的是,即使在較小的k值(例如60和40)下,CCoT下的HCA值也高于CoT下的值,這表明CCoT提示對(duì)這一模型同樣有效。
圖 6。(a) 和 (b) 中的條形圖分別展示了 Llama2-70b 和 Falcon-40b 在五個(gè) k 值(Oo, 100, 80, 60, 和 40)下獲得的 H C ! A ( k ) 分?jǐn)?shù),以及 x 軸上指示的提示方法。
SCA 評(píng)估。論文還使用軟簡(jiǎn)潔準(zhǔn)確度 ( S C A ) 評(píng)估了 Llama2-70b 模型,針對(duì)不同的 k 和 α 值,其中 α 表示接受超過期望限制 k 的答案的容忍度。該指標(biāo)是 H C A 的泛化,更靈活地考慮了雖大但仍接近期望長(zhǎng)度 k 的正確答案。
圖 7 報(bào)告了 Llama2-70b 和 Falcon-40b 在 GSM8K 測(cè)試集問題上的 SCA 值,針對(duì)不同的 k 值和兩個(gè)不同的容忍度值 ( α=1 和 α=1 0 )。對(duì)于這兩個(gè)模型,在 CCoT 設(shè)置下的 SCA 值通常與高 k 值(如 8 0 或 100)的 HCA 值相當(dāng)。這是因?yàn)?,如圖 5 所示,在這些長(zhǎng)度下,CCoT 提示能夠有效地返回低于期望限制的輸出,使得容忍度變得不那么必要。
反之,對(duì)于較小的k值,例如k = 40,SCA開始超過HCA,表明某些正確答案的長(zhǎng)度大于k。對(duì)于這些k值,使用更大的α?xí)?dǎo)致CCoT提示相較于Base和CoT有更顯著的改進(jìn)。這意味著,盡管許多正確輸出長(zhǎng)度超過k,在CCoT下,模型仍被鼓勵(lì)將其長(zhǎng)度約束在接近k,從而獲得更高的分?jǐn)?shù)。這種效應(yīng)在Llama2-70b上尤為明顯,它比Falcon-40b更能控制長(zhǎng)度并生成正確輸出。
CCA評(píng)估。一致簡(jiǎn)潔準(zhǔn)確度(Consistent Concise Accuracy)衡量模型生成正確答案的能力,這些答案的長(zhǎng)度變化不大,因此與指定約束一致。CCA需要第三個(gè)參數(shù)β(除了k和α之外),表示對(duì)輸出長(zhǎng)度變異性的容忍度。具體來說,如果σ是長(zhǎng)度分布的標(biāo)準(zhǔn)差,論文有:若σ ≤ β,則CCA(k, α, β) = SCA(k, α);否則,當(dāng)σ > β時(shí),CCA會(huì)隨著σ的增加而呈指數(shù)級(jí)下降。
圖 8 繪制了在 Llama2-70b 和 Falcon-40b 上針對(duì) α=10, β=20 以及不同 k 值的各種提示方法獲得的 CCA 分?jǐn)?shù)。根據(jù)這一指標(biāo),CCoT 相較于 CoT 和基礎(chǔ)提示,在 Llama2-70b 和 Falcon-40b 上,以及所有 k 值下,均實(shí)現(xiàn)了顯著提升。然而,對(duì)于較高的 CCoT 長(zhǎng)度約束(例如 100),CCA 分?jǐn)?shù)往往下降,這在其他兩個(gè)指標(biāo)中并未出現(xiàn)。這可以解釋為,增加長(zhǎng)度約束使得模型有更多自由生成具有更高變異性的輸出。
值得注意的是,圖 8 所示的結(jié)果與圖 5 中報(bào)告的輸出長(zhǎng)度分布一致,其中基礎(chǔ)和 CoT 提示在 Falcon-40b 和 Llama2-70b 上顯示出更大的輸出長(zhǎng)度方差??傮w而言,這一實(shí)驗(yàn)證實(shí),當(dāng)輸出長(zhǎng)度變化成為關(guān)注點(diǎn)時(shí),CCA 可以是一個(gè)有用的性能指標(biāo)。
2.5.5. CCoT 的圖解
為了更好地說明 CCoT 的益處,圖 9 展示了 Llama2-70b 在應(yīng)用基礎(chǔ)、CoT 和 CCoT 提示(長(zhǎng)度約束分別為 15, 45 和 100)時(shí)對(duì)來自 GSM8K 的兩個(gè)不同問題的回答。在這兩個(gè)問題中,論文觀察到在基礎(chǔ)情況下,由于所用模型的特性(特別是 Llama2-70B-chat),模型自動(dòng)提出了一個(gè)推理過程。然而,在 CoT 下,推理過程被擴(kuò)展,失去了對(duì)其長(zhǎng)度的控制。
圖7. 柱狀圖展示了在α=1和α=10的情況下,Llama2-70b(上部)和Falcon-40b(下部)在基礎(chǔ)(base)、思維鏈(CoT)和約束思維鏈(CCoTs)之間的SCA得分比較。
特別是,在第一個(gè)例子(圖9a)中,盡管在不同設(shè)置下使用了CCoT,響應(yīng)仍然保持正確,同時(shí)還提供了更好的輸出長(zhǎng)度控制。在第二個(gè)例子(圖9b)中,使用基礎(chǔ)和CoT提示的模型響應(yīng)提供了正確的推理過程,但最終計(jì)算結(jié)果不正確。相比之下,CCoT技術(shù)使論文能夠在提供正確響應(yīng)的同時(shí)控制輸出長(zhǎng)度。
圖8. Llama2-70b (a) 和 Falcon-40b (b) 在 α = 10.0, β = 20.0 以及不同 k 值和提示方法下的CCA得分。
?
本文轉(zhuǎn)載自 ??AI帝國(guó)???,作者: 無影寺
