自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大語言模型自動(dòng)思維鏈提示 原創(chuàng)

發(fā)布于 2024-7-1 13:01
瀏覽
0收藏

摘要:大型語言模型(LLMs)可以通過生成中間推理步驟來執(zhí)行復(fù)雜推理。為提示演示提供這些步驟被稱為思維鏈(CoT)提示。CoT提示有兩種主要范式。一種利用簡(jiǎn)單的提示,如“讓我們一步一步地思考”,以促進(jìn)在回答問題之前逐步思考。另一種使用一些手動(dòng)演示,每個(gè)演示由一個(gè)問題和一個(gè)推理鏈組成,該鏈導(dǎo)致一個(gè)答案。第二種范式的優(yōu)越性能依賴于逐個(gè)手工制作任務(wù)特定的演示。我們展示了通過利用LLMs使用“讓我們一步一步地思考”的提示來生成推理鏈,以逐個(gè)生成演示,即,讓我們不僅一步一步地思考,還要逐個(gè)思考。然而,這些生成的鏈經(jīng)常伴隨著錯(cuò)誤。為了減輕這些錯(cuò)誤的影響,我們發(fā)現(xiàn)多樣性對(duì)于自動(dòng)構(gòu)建演示至關(guān)重要。我們提出了一種自動(dòng)CoT提示方法:Auto-CoT。它以多樣性采樣問題,并生成推理鏈來構(gòu)建演示。在GPT-3的十個(gè)公共基準(zhǔn)推理任務(wù)中,Auto-CoT始終匹配或超過了需要手動(dòng)設(shè)計(jì)演示的CoT范式的性能。代碼可在 ??https://github.com/amazon-research/auto-cot ???上獲取。

1 引言

大型語言模型(LLMs)[Brown等人,2020年,Thoppilan等人,2022年,Rae等人,2021年,Chowdhery等人,2022年]通過將多步驟問題分解為中間步驟,然后產(chǎn)生答案,在復(fù)雜推理任務(wù)上表現(xiàn)出色。這種推理過程是通過一種非常新的技術(shù)激發(fā)的:思維鏈(CoT)提示[Wei等人,2022a]。

CoT提示可以分為兩大范式。一種是在測(cè)試問題后添加一個(gè)簡(jiǎn)單的提示,如“讓我們一步一步地思考”,以促進(jìn)LLMs中的推理鏈[Kojima等人,2022年]。由于這種提示范式是任務(wù)不可知的,不需要輸入輸出演示,因此被稱為零樣本CoT(圖1左側(cè))。有了零樣本CoT,LLMs已經(jīng)顯示出是不錯(cuò)的零樣本推理者。另一種范式是使用手動(dòng)推理演示的少量提示[Wei等人,2022a]。每個(gè)演示都有一個(gè)問題和一個(gè)推理鏈。推理鏈由理由(一系列中間推理步驟)和預(yù)期答案組成。所有演示都是手工設(shè)計(jì)的,這種范式被稱為手動(dòng)CoT(圖1右側(cè))。

 

大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

圖1:零樣本CoT [Kojima等人,2022年](使用“讓我們一步一步地思考”的提示)和手動(dòng)CoT [Wei等人,2022a](逐個(gè)使用手動(dòng)設(shè)計(jì)的演示)以及LLM的示例輸入和輸出。

在實(shí)踐中,手動(dòng)CoT的性能比零樣本CoT更強(qiáng)[Wei等人,2022a,Kojima等人,2022年]。然而,這種優(yōu)越的性能依賴于手工起草有效演示的努力。具體來說,手工起草涉及在設(shè)計(jì)問題及其推理鏈的演示方面的非平凡努力。此外,設(shè)計(jì)任務(wù)特定演示的人力工作甚至更多:不同的任務(wù),如算術(shù)[Roy和Roth,2015年]和常識(shí)推理[Talmor等人,2019年],需要不同的演示方式。

為了消除這種手工設(shè)計(jì),我們提倡另一種自動(dòng)CoT范式,以自動(dòng)構(gòu)建帶有問題和推理鏈的演示。具體來說,自動(dòng)CoT利用LLMs使用“讓我們一步一步地思考”的提示,逐個(gè)生成推理鏈,即,讓我們不僅一步一步地思考,還要逐個(gè)思考。

然而,我們發(fā)現(xiàn)這個(gè)挑戰(zhàn)不能通過簡(jiǎn)單的解決方案有效解決。例如,給定數(shù)據(jù)集的測(cè)試問題,檢索語義相似的問題并調(diào)用零樣本CoT生成推理鏈將會(huì)失敗。盡管LLMs是不錯(cuò)的零樣本推理者,但它們并不完美:零樣本CoT在推理鏈中仍然可能出錯(cuò)。

為了減輕零樣本CoT推理鏈錯(cuò)誤的影響,我們的分析表明,演示問題的多樣性是關(guān)鍵?;谶@一洞見,我們提出了一種自動(dòng)CoT方法來自動(dòng)構(gòu)建演示。自動(dòng)CoT由兩個(gè)主要步驟組成。首先,將給定數(shù)據(jù)集的問題劃分為幾個(gè)簇。其次,從每個(gè)簇中選擇一個(gè)代表性問題,并使用簡(jiǎn)單的啟發(fā)式方法使用零樣本CoT生成其推理鏈。

我們?cè)谑畟€(gè)基準(zhǔn)推理任務(wù)上評(píng)估了自動(dòng)CoT,包括:(i)算術(shù)推理(MultiArith[Roy和Roth,2015年],GSM8K[Cobbe等人,2021年],AQUA-RAT[Ling等人,2017年],SVAMP[Patel等人,2021年]);(ii)常識(shí)推理(CSQA[Talmor等人,2019年],StrategyQA[Geva等人,2021年]);(iii)符號(hào)推理(最后字母串聯(lián),硬幣翻轉(zhuǎn))[Wei等人,2022a]。實(shí)驗(yàn)結(jié)果表明,使用GPT-3,自動(dòng)CoT始終匹配或超過需要手工設(shè)計(jì)的手動(dòng)CoT的性能。這表明LLMs可以通過自動(dòng)構(gòu)建演示來執(zhí)行CoT推理。

2 相關(guān)工作

本節(jié)回顧了構(gòu)成這項(xiàng)工作基礎(chǔ)的兩條研究線:用于多步推理的思維鏈(CoT)提示和通過示例引導(dǎo)LLMs學(xué)習(xí)的上下文學(xué)習(xí)。

2.1 思維鏈提示

CoT提示是一種無需梯度的技術(shù),用于引導(dǎo)LLMs產(chǎn)生導(dǎo)致最終答案的中間推理步驟。Wei等人[2022a]正式研究了語言模型中的CoT提示主題。這項(xiàng)技術(shù)激發(fā)了LLMs生成一系列連貫的中間推理步驟,這些步驟導(dǎo)致問題最終的答案。研究表明,LLMs可以通過零樣本提示(Zero-Shot-CoT)[Kojima等人,2022年]或手動(dòng)編寫的少量示例(Manual-CoT)[Wei等人,2022a]執(zhí)行CoT推理。

零樣本CoT。Kojima等人[2022年]表明,LLMs是不錯(cuò)的零樣本推理者,其生成的理由已經(jīng)反映了CoT推理。這一發(fā)現(xiàn)激發(fā)了我們的工作,利用自生成的理由進(jìn)行演示。在最近的一項(xiàng)工作中,LLMs生成理由被證明是實(shí)用的[Zelikman等人,2022年]。在他們的工作中,LLMs被提示生成理由,并選擇那些導(dǎo)致正確答案的理由。

選擇需要一個(gè)帶有注釋答案的問題的訓(xùn)練數(shù)據(jù)集。相比之下,我們的工作考慮了一個(gè)更具挑戰(zhàn)性的場(chǎng)景,即只給定一組測(cè)試問題(沒有訓(xùn)練數(shù)據(jù)集),遵循Wei等人[2022a]和Kojima等人[2022年]的CoT提示研究。

手動(dòng)CoT。通過有效的手動(dòng)演示,手動(dòng)CoT通過激發(fā)CoT推理能力實(shí)現(xiàn)了更強(qiáng)的性能。推理過程的演示是手動(dòng)設(shè)計(jì)的。然而,設(shè)計(jì)問題及其推理鏈的人力工作并非易事。與解決這一限制不同,最近的研究主要關(guān)注手工制作更復(fù)雜的演示或利用類似集成的方法。一種趨勢(shì)是問題分解。在最少到最多的提示[Zhou等人,2022年]中,復(fù)雜問題被簡(jiǎn)化為子問題,然后按順序解決子問題。另一種趨勢(shì)是為測(cè)試問題投票多個(gè)推理路徑。Wang等人[2022a]引入了一種自我一致性解碼策略,以采樣LLMs的多個(gè)輸出,然后對(duì)最終答案進(jìn)行多數(shù)投票。Wang等人[2022b]和Li等人[2022年]在輸入空間引入了隨機(jī)性,以產(chǎn)生更多樣化的輸出進(jìn)行投票。他們使用手動(dòng)設(shè)計(jì)的演示作為種子集,并生成額外的理由:留下種子集中的一個(gè)問題,并使用其余的演示通過LLMs為這個(gè)問題生成理由。與依賴手動(dòng)設(shè)計(jì)演示的前述研究線不同,我們的工作旨在以競(jìng)爭(zhēng)性能消除手動(dòng)設(shè)計(jì)。

2.2 上下文學(xué)習(xí)

CoT提示與上下文學(xué)習(xí)(ICL)[Radford等人,2019年,Brown等人,2020年]密切相關(guān)。ICL通過將一些提示示例作為輸入的一部分,使LLMs能夠執(zhí)行目標(biāo)任務(wù)。ICL不進(jìn)行梯度更新,允許單一模型普遍執(zhí)行各種任務(wù)。有各種研究線來提高ICL的性能:(i)檢索與測(cè)試實(shí)例相關(guān)的演示,其中流行的實(shí)踐是動(dòng)態(tài)檢索給定測(cè)試輸入的相關(guān)訓(xùn)練示例[Rubin等人,2022年,Su等人,2022年];(ii)通過添加細(xì)粒度信息進(jìn)行增強(qiáng),例如整合任務(wù)指令[Mishra等人,2022年,Wei等人,2022b,Sanh等人,2022年];(iii)操作LLMs的輸出概率而不是直接計(jì)算目標(biāo)標(biāo)簽的可能性[Holtzman等人,2021年,Zhao等人,2021年,Min等人,2022a]。

(注釋:為了提高上下文學(xué)習(xí)的效果,研究人員采取了幾種策略:

1. 檢索相關(guān)演示:這種方法類似于我們?cè)跍?zhǔn)備考試時(shí),會(huì)查找和當(dāng)前題目類似的過往題目來幫助理解。在機(jī)器學(xué)習(xí)中,這意味著動(dòng)態(tài)地找到與當(dāng)前測(cè)試輸入相關(guān)的訓(xùn)練示例,以幫助模型更好地理解和解決問題。

2. 添加細(xì)粒度信息:這就像是在解題時(shí),除了題目本身,我們還會(huì)提供一些額外的指導(dǎo)信息,比如題目的解題步驟或者注意事項(xiàng),幫助模型更精確地完成任務(wù)。

3. 操作輸出概率:這涉及到調(diào)整模型輸出的概率,而不是直接計(jì)算目標(biāo)標(biāo)簽的可能性??梢灶惐葹樵谕镀边x舉中,不是簡(jiǎn)單地計(jì)算每個(gè)候選人的得票數(shù),而是通過一些策略來影響最終的投票結(jié)果。)

盡管ICL取得了成功,但研究[Liu等人,2022a,Lu等人,2022年]表明,ICL的強(qiáng)度可能會(huì)因上下文演示的選擇而大相徑庭[Liu等人,2022b]。具體來說,提示的格式,如措辭或演示的順序,可能導(dǎo)致性能波動(dòng)[Webson和Pavlick,2022年,Zhao等人,2021年]。最近的一項(xiàng)工作[Min等人,2022b]甚至質(zhì)疑了真實(shí)輸入輸出映射的必要性:在示例中使用錯(cuò)誤的標(biāo)簽只會(huì)略微降低性能。然而,現(xiàn)有的ICL分析主要基于具有簡(jiǎn)單<input→output>映射的標(biāo)準(zhǔn)分類和多項(xiàng)選擇數(shù)據(jù)集。我們發(fā)現(xiàn),這些發(fā)現(xiàn)可能不適用于具有更復(fù)雜<input→rationale→output>映射的CoT提示場(chǎng)景。例如,無論是<input→rationale>映射還是<rationale→output>映射中的錯(cuò)誤都會(huì)導(dǎo)致性能急劇下降(附錄A.1)。

3 自動(dòng)CoT的挑戰(zhàn)

正如剛剛討論的,ICL的性能依賴于手工制作的示例演示。如在手動(dòng)CoT [Wei等人,2022a]中報(bào)告的,使用不同注釋者編寫的演示在符號(hào)推理任務(wù)中帶來了高達(dá)28.2%的準(zhǔn)確度差異,而改變演示的順序在大多數(shù)任務(wù)中導(dǎo)致不到2%的變化。這表明自動(dòng)CoT的關(guān)鍵挑戰(zhàn)在于自動(dòng)構(gòu)建具有好問題及其推理鏈的演示。

回想一下,手動(dòng)CoT手工制作了一些(例如,8個(gè))演示中的問題?;谙嗨菩缘臋z索方法被廣泛采用來提示LLMs [Rubin等人,2022年,Su等人,2022年],一個(gè)有希望的候選解決方案是使用基于相似性的檢索來采樣演示問題。我們遵循CoT研究中更具挑戰(zhàn)性的假設(shè)[Wei等人,2022a,Kojima等人,2022年],即只給定一組測(cè)試問題(沒有訓(xùn)練數(shù)據(jù)集)。

按照Liu等人[2022a]的做法,我們使用Sentence-BERT [Reimers和Gurevych,2019]對(duì)問題進(jìn)行編碼。對(duì)于測(cè)試數(shù)據(jù)集中的每個(gè)問題qtest,我們從其余問題中采樣演示問題qidemo(i = 1,...,k)。

我們?cè)O(shè)計(jì)了一個(gè)檢索Q-CoT方法,根據(jù)余弦相似度檢索top-k(例如,k = 8)相似的問題。

為了與這種基于相似性的方法進(jìn)行比較,我們還測(cè)試了一個(gè)相對(duì)更基于多樣性的方法:隨機(jī)Q-CoT,它為每個(gè)測(cè)試問題隨機(jī)采樣k個(gè)其他測(cè)試問題。

檢索Q-CoT和隨機(jī)Q-CoT都調(diào)用零樣本CoT [Kojima等人,2022年]為每個(gè)采樣的問題qidemo生成推理鏈cdemoi(理由和答案),因?yàn)長LMs是不錯(cuò)的零樣本推理者[Kojima等人,2022年]。除非另有說明,我們使用具有175B參數(shù)的GPT-3 [Brown等人,2020](text-davinci-002)作為LLM。

在高層次上,檢索Q-CoT和隨機(jī)Q-CoT都以qidemo,cdemoi對(duì)(i = 1,...,k)和qtest的串聯(lián)作為輸入,以預(yù)測(cè)qtest的推理鏈,該鏈最終包含答案(如圖1右側(cè)所示)。令我們驚訝的是,檢索Q-CoT在算術(shù)數(shù)據(jù)集MultiArith [Roy和Roth,2015](表1)上的表現(xiàn)不如隨機(jī)Q-CoT。請(qǐng)注意,檢索方法最初是在有注釋標(biāo)簽的任務(wù)中提出的[Rubin等人,2022年,Su等人,2022年],然而,調(diào)用零樣本CoT并不能保證完全正確的推理鏈。因此,我們假設(shè)檢索Q-CoT的較差性能是由零樣本CoT的錯(cuò)誤推理鏈引起的。為了測(cè)試這個(gè)假設(shè),我們?cè)诹硗鈨蓚€(gè)有帶注釋推理鏈的訓(xùn)練集的數(shù)據(jù)集GSM8K [Cobbe等人,2021]和AQuA [Ling等人,2017]上進(jìn)行了檢索Q-CoT的實(shí)驗(yàn)。結(jié)果在表1中用?顯示。在有注釋推理鏈的設(shè)置下,檢索Q-CoT甚至超過了手動(dòng)CoT。結(jié)果表明,當(dāng)有人工注釋可用時(shí),檢索Q-CoT是有效的。

表1:不同抽樣方法的準(zhǔn)確率(%)。符號(hào)?表示使用帶有標(biāo)注推理鏈的訓(xùn)練集。


大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

盡管人工注釋很有用,但這種手工努力并非易事。然而,通過零樣本CoT自動(dòng)生成推理鏈的表現(xiàn)不如手動(dòng)CoT,特別是當(dāng)沒有解決問題采樣的挑戰(zhàn)時(shí)。為了設(shè)計(jì)更有效的自動(dòng)CoT,我們需要更好地理解其挑戰(zhàn)。

3.1 檢索-Q-CoT因相似性誤導(dǎo)而失敗

由于檢索-Q-CoT使用像手冊(cè)-CoT中那樣的少量提示性示例,檢索-Q-CoT預(yù)期也將表現(xiàn)出競(jìng)爭(zhēng)力。然而,在檢索-Q-CoT中,推理鏈(包括理由和答案)是由零樣本-CoT生成的:它們可能存在錯(cuò)誤,導(dǎo)致錯(cuò)誤的答案。讓我們簡(jiǎn)單地將帶有錯(cuò)誤答案的示例稱為錯(cuò)誤示例。直觀地說,在檢索到與測(cè)試問題相似的問題后,由零樣本-CoT引起的錯(cuò)誤示例可能會(huì)誤導(dǎo)相同的大型語言模型(LLM)以錯(cuò)誤的答案(例如,復(fù)制錯(cuò)誤)進(jìn)行類似的推理。我們將這種現(xiàn)象稱為相似性誤導(dǎo)。我們將研究相似性誤導(dǎo)是否導(dǎo)致檢索-Q-CoT性能不佳的原因。

首先,我們?cè)贛ultiArith數(shù)據(jù)集的所有600個(gè)問題上調(diào)用零樣本-CoT。其中,我們收集了128個(gè)問題(記為Q),在這些問題上零樣本-CoT生成了錯(cuò)誤的答案(錯(cuò)誤率:21.3% = 128/600)。正如我們提到的,有了額外的示例,檢索-Q-CoT和隨機(jī)-Q-CoT預(yù)期會(huì)比零樣本-CoT表現(xiàn)得更有競(jìng)爭(zhēng)力。在零樣本-CoT失敗的Q中,我們稱檢索-Q-CoT或隨機(jī)-Q-CoT仍然失敗的那些問題為它們的未解決的問題。我們將未解決的問題數(shù)量除以128(Q中問題的數(shù)量)來計(jì)算未解決率。更高的未解決率意味著一種方法更可能像零樣本-CoT一樣仍然犯錯(cuò)誤。

圖2顯示,檢索-Q-CoT(46.9%)的未解決率遠(yuǎn)高于隨機(jī)-Q-CoT(25.8%)。這表明,在為測(cè)試問題抽樣相似問題時(shí),檢索-Q-CoT受到相似性誤導(dǎo)的負(fù)面影響。


大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

為了證明檢索-Q-CoT的未解決問題傾向于相似,我們?cè)诒?中展示了一個(gè)案例研究。在左側(cè)部分,檢索到的示例問題與測(cè)試問題相似,并詢問“他還需要多長時(shí)間才能煮熟剩下的?”由零樣本-CoT生成的推理鏈產(chǎn)生的答案涉及“總數(shù)”而不是“剩下的”。遵循示例,檢索-Q-CoT也因誤解“剩下的”的含義而失敗。相比之下,隨機(jī)-Q-CoT在沒有在示例中犯類似錯(cuò)誤的情況下,更好地正確理解了“剩下的”,這得益于相對(duì)多樣化(隨機(jī))的示例。

3.2 錯(cuò)誤頻繁出現(xiàn)在同一個(gè)簇中

受表2觀察結(jié)果的啟發(fā),我們使用k-means將所有600個(gè)測(cè)試問題分成k=8個(gè)簇,每個(gè)簇包含相似的問題。有了這些簇和零樣本-CoT(在3.1節(jié)中)生成的推理鏈,現(xiàn)在我們好奇某些簇是否包含零樣本-CoT經(jīng)常失敗的問題。因此,我們計(jì)算每個(gè)簇的錯(cuò)誤率(零樣本-CoT答案錯(cuò)誤的問題數(shù)/總問題數(shù))。

表2:檢索-Q-CoT和隨機(jī)-Q-CoT構(gòu)建示例和預(yù)測(cè)的示例。上半部分包含自動(dòng)構(gòu)建的示例,下半部分包含測(cè)試問題以及預(yù)測(cè)的推理鏈。


大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

如圖3所示,存在一個(gè)簇(簇2)零樣本-CoT錯(cuò)誤頻繁(52.3%)。這種現(xiàn)象可能是普遍的,因?yàn)榱銟颖?CoT可能缺乏解決目標(biāo)任務(wù)中某些常見問題的技能。為了方便描述,讓我們將錯(cuò)誤率最高的簇稱為頻繁錯(cuò)誤簇(例如,圖3中的簇2)。因此,以零樣本方式生成的推理鏈的不完美性質(zhì),使用基于相似性的方法檢索多個(gè)頻繁錯(cuò)誤簇內(nèi)的類似問題存在風(fēng)險(xiǎn)。對(duì)于頻繁錯(cuò)誤簇中的測(cè)試問題,檢索-Q-CoT更容易構(gòu)建包含多個(gè)類似錯(cuò)誤的示例。結(jié)果,檢索-Q-CoT經(jīng)常像零樣本-CoT一樣犯類似的錯(cuò)誤,這一點(diǎn)在圖2中的更高未解決率中得到了重申。


大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

3.3 多樣性可能減輕相似性誤導(dǎo)

到目前為止的分析有力地表明,LLMs(大型語言模型)仍然不是完美的零樣本推理器;因此,我們的目標(biāo)是減輕它們的零樣本-CoT錯(cuò)誤的影響,特別是減輕Auto-CoT設(shè)計(jì)中的相似性誤導(dǎo)。

正如我們稍后將展示的(第5.5節(jié)),展示一小部分錯(cuò)誤(例如,8個(gè)中的1或2個(gè)錯(cuò)誤示例)不會(huì)損害測(cè)試問題的整體推理性能。假設(shè)所有錯(cuò)誤示例的問題都落入同一個(gè)頻繁錯(cuò)誤簇;那么從每個(gè)不同的簇中抽取一個(gè)問題將導(dǎo)致構(gòu)建所有8個(gè)正確示例的機(jī)會(huì)超過7/8 = 87.5%。由于不同的簇反映了問題的多樣性語義,這種基于聚類的抽樣方法可以被視為基于多樣性的,與基于相似性的檢索-Q-CoT形成鮮明對(duì)比。一方面,以多樣性抽樣問題可能減輕相似性誤導(dǎo)的影響(第3.1節(jié))。另一方面,如果我們將每個(gè)示例視為一種技能,多樣化的示例似乎涵蓋了更多解決目標(biāo)問題的替代技能:即使示例中仍然存在一小部分(例如,1/8)的錯(cuò)誤,性能也不會(huì)受到負(fù)面影響(將在圖6中展示)。

盡管如此,基于聚類的抽樣方法可能仍然會(huì)構(gòu)建一小部分錯(cuò)誤的示例,例如來自頻繁錯(cuò)誤簇中的問題。正如我們稍后將展示的,這些錯(cuò)誤示例中的一些可能通過啟發(fā)式方法被排除。例如,錯(cuò)誤的示例通常伴隨著長問題和長理由。使用簡(jiǎn)單通用的啟發(fā)式方法,例如只考慮帶有較短理由的較短問題,進(jìn)一步幫助減輕零樣本-CoT能力的不完美(附錄C.2)。

4 自動(dòng)CoT:自動(dòng)構(gòu)建思維鏈提示

基于第3節(jié)中的觀察和考慮,我們提出了一種自動(dòng)CoT(Auto-CoT)方法,用于自動(dòng)構(gòu)建包含問題和推理鏈的示例。自動(dòng)CoT由兩個(gè)主要階段組成:(i)問題聚類:將給定數(shù)據(jù)集的問題劃分為幾個(gè)簇;(ii)示例抽樣:從每個(gè)簇中選擇一個(gè)代表性問題,并使用簡(jiǎn)單的啟發(fā)式方法通過零樣本CoT生成其推理鏈。整個(gè)過程在圖4中進(jìn)行了說明。


大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

圖4:自動(dòng)CoT方法的概覽。與圖1中的手動(dòng)CoT不同,示例(右側(cè))是使用帶有“讓我們一步一步思考”提示的LLM逐個(gè)自動(dòng)構(gòu)建的(總數(shù):k)。

4.1 問題聚類

因?yàn)榛诙鄻有缘木垲惪赡軠p輕相似性誤導(dǎo)(第3.3節(jié)),我們對(duì)給定的問題集Q執(zhí)行聚類分析。我們首先通過Sentence-BERT[Reimers和Gurevych,2019]為Q中的每個(gè)問題計(jì)算一個(gè)向量表示。上下文化的向量被平均化以形成一個(gè)固定大小的問題表示。然后,通過k-means聚類算法處理問題表示,以產(chǎn)生k個(gè)問題簇。對(duì)于每個(gè)簇i中的問題,將它們按距離簇i中心的升序排列成一個(gè)列表q(i) = [q(i)1, q(i)2, ...]。這個(gè)問題聚類階段在算法1中進(jìn)行了總結(jié)。

4.2 示例抽樣

在第二階段,我們需要為這些抽樣問題生成推理鏈,然后抽樣滿足我們選擇標(biāo)準(zhǔn)的示例。

更具體地說,我們?yōu)槊總€(gè)簇i(i = 1, ..., k)構(gòu)建一個(gè)示例d(i)(問題的串聯(lián),一個(gè)理由和答案)。對(duì)于簇i,我們?cè)谂判蛄斜?strong>q(i) = [q(i)1, q(i)2, ...](由算法1獲得)中迭代問題,直到滿足我們的選擇標(biāo)準(zhǔn)。換句話說,更靠近簇i中心的問題會(huì)被更早地考慮。假設(shè)正在考慮第j個(gè)最近的問題qj(i)。一個(gè)提示輸入被制定為:[Q: qj(i). A: [P]],其中[P]是一個(gè)單一提示“讓我們一步一步地思考”。這個(gè)形成的輸入被輸入到LLM中,使用零樣本CoT[Kojima等人,2022]輸出由理由rj(i)和提取的答案aj(i)組成的推理鏈。然后,通過串聯(lián)問題、理由和答案構(gòu)建第i個(gè)簇的候選示例dj(i):[Q: qj(i), A: rj(i)?aj(i)]。

類似于Wei等人[2022a]中手工制作示例的標(biāo)準(zhǔn),我們的選擇標(biāo)準(zhǔn)遵循簡(jiǎn)單的啟發(fā)式方法,以鼓勵(lì)抽樣更簡(jiǎn)單的問題和理由:如果它有一個(gè)問題qj(i),不超過60個(gè)token和一個(gè)理由rj(i),不超過5個(gè)推理步驟,則將選定的示例d(i)設(shè)置為dj(i)。

大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

正如算法2所總結(jié)的,在對(duì)所有k個(gè)簇進(jìn)行示例抽樣后,將構(gòu)建k個(gè)示例[d(1), ..., d(k)]。構(gòu)建的示例用于增強(qiáng)測(cè)試問題qtest的上下文學(xué)習(xí)。具體來說,輸入是所有示例[d(1), ..., d(k)]的串聯(lián),然后是[Q: qtest. A: [P]]。這個(gè)輸入被輸入到LLM中,以獲得qtest的最終答案的推理鏈(圖4右側(cè))。

5 實(shí)驗(yàn)

我們簡(jiǎn)要描述實(shí)驗(yàn)設(shè)置,并展示主要的實(shí)驗(yàn)結(jié)果。更多的實(shí)驗(yàn)細(xì)節(jié)和結(jié)果可以在附錄中找到。

5.1 實(shí)驗(yàn)設(shè)置

任務(wù)和數(shù)據(jù)集。我們的方法在來自三個(gè)推理任務(wù)類別的十個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了評(píng)估:

(i)算術(shù)推理(MultiArith [Roy和Roth, 2015], GSM8K [Cobbe等人, 2021], AddSub [Hosseini等人, 2014], AQUA-RAT [Ling等人, 2017], SingleEq [Koncel-Kedziorski等人, 2015], SVAMP [Patel等人, 2021]);(ii)常識(shí)推理(CSQA [Talmor等人, 2019], StrategyQA [Geva等人, 2021]);(iii)符號(hào)推理(最后字母串聯(lián),硬幣翻轉(zhuǎn))[Wei等人, 2022a]。

實(shí)現(xiàn)。我們使用公共的GPT-3 [Brown等人, 2020] 文本davinci-002版本,擁有175B參數(shù)作為LLM [Ouyang等人, 2022],除非另有說明。我們選擇這個(gè)LLM是因?yàn)樗诠睱LM中擁有最強(qiáng)的CoT推理性能,如Kojima等人 [2022] 和Wei等人 [2022a] 報(bào)告的。我們還評(píng)估了Codex模型 [Chen等人, 2021] (code-davinci-002) 作為LLM。按照Wei等人 [2022a],示例的數(shù)量k是8,除了AQuA和Letter (4),CSQA (7),和StrategyQA (6)。

基線。我們將我們的方法與四種基線方法進(jìn)行比較:零樣本 [Kojima等人, 2022],零樣本CoT [Kojima等人, 2022],少樣本 [Wei等人, 2022a],和手動(dòng)CoT [Wei等人, 2022a]。零樣本CoT和手動(dòng)CoT在圖1中進(jìn)行了說明。零樣本基線將測(cè)試問題與提示“答案是”串聯(lián)作為LLM輸入。少樣本基線與手動(dòng)CoT的LLM輸入相同,除了從所有示例中移除了理由。

5.2 自動(dòng)CoT在十個(gè)數(shù)據(jù)集上的競(jìng)爭(zhēng)性能

表3比較了來自三個(gè)推理任務(wù)類別的十個(gè)數(shù)據(jù)集上的準(zhǔn)確性。零樣本和零樣本CoT的結(jié)果取自Kojima等人[2022],少樣本和手動(dòng)CoT的結(jié)果取自Wei等人[2022a],自動(dòng)CoT的結(jié)果是在三次隨機(jī)運(yùn)行中平均得出的。總體而言,自動(dòng)CoT始終匹配或超過了需要手動(dòng)設(shè)計(jì)示例的CoT范式的表現(xiàn)。由于手動(dòng)設(shè)計(jì)的成本,手動(dòng)CoT可能會(huì)為多個(gè)數(shù)據(jù)集設(shè)計(jì)相同的示例(例如,5/6的算術(shù)數(shù)據(jù)集)。相比之下,自動(dòng)CoT更加靈活和任務(wù)適應(yīng)性:每個(gè)單獨(dú)的數(shù)據(jù)集都獲得了自動(dòng)構(gòu)建的自己的示例。

表3:來自三個(gè)推理任務(wù)類別的十個(gè)數(shù)據(jù)集上的準(zhǔn)確性


大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

5.3 問題聚類的可視化

圖5通過PCA投影可視化了十個(gè)數(shù)據(jù)集上的問題聚類。圖示表明存在通用模式,不同的模式可能由不同簇中的問題所特征化。我們?cè)诟戒汥中展示了自動(dòng)CoT構(gòu)建的示例。


大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

圖5:在十個(gè)推理任務(wù)數(shù)據(jù)集上的問題聚類。星號(hào)表示簇中心。

5.4 使用Codex LLM的普遍有效性

為了評(píng)估使用不同LLM的自動(dòng)CoT的普遍有效性,這里我們將LLM更改為Codex模型[Chen等人, 2021]。如表4所示,與使用GPT-3(text-davinci-002)LLM的表3相比,Codex LLM在手動(dòng)CoT上帶來了性能提升。盡管如此,使用Codex LLM,自動(dòng)CoT的整體性能與手動(dòng)CoT相比仍然具有競(jìng)爭(zhēng)力,為自動(dòng)CoT的有效性提供了額外的經(jīng)驗(yàn)證據(jù)。


大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

5.5 錯(cuò)誤示例的影響

回想我們?cè)诘?.3節(jié)中的討論,可能會(huì)有錯(cuò)誤的示例(其答案是錯(cuò)誤的)。為了看看多樣性是否減輕了這種影響,我們?cè)O(shè)計(jì)了一個(gè)In-Cluster Sampling基線,它通過從包含測(cè)試問題的同一簇中隨機(jī)抽樣問題來構(gòu)建示例。圖6比較了在MultiArith上不同錯(cuò)誤示例數(shù)量下的準(zhǔn)確性。與In-Cluster Sampling相比,auto-CoT(使用基于多樣性的聚類)受錯(cuò)誤示例的影響較?。杭词乖诔尸F(xiàn)50%錯(cuò)誤示例時(shí),其性能仍然沒有顯著下降。


大語言模型自動(dòng)思維鏈提示 -AI.x社區(qū)

5.6 更具挑戰(zhàn)性的流式設(shè)置

CoT(Chain of Thought,思維鏈)研究通常假設(shè)給定了一個(gè)帶有測(cè)試問題的完整數(shù)據(jù)集[Wei等人, 2022a, Kojima等人, 2022]。基于給定的數(shù)據(jù)集,自動(dòng)CoT會(huì)抽樣問題來構(gòu)建示例。盡管如此,現(xiàn)在我們考慮一個(gè)更具挑戰(zhàn)性的流式設(shè)置,其中一小批測(cè)試問題(比如說m個(gè)問題)一次到來,就像在數(shù)據(jù)流中一樣。

為了應(yīng)對(duì)這一挑戰(zhàn),我們將自動(dòng)CoT擴(kuò)展為自舉版本自動(dòng)CoT*:(i)初始化一個(gè)空集M0;(ii)當(dāng)?shù)谝慌鷨栴}q1(1), ..., qm(1)到達(dá)時(shí),調(diào)用零樣本CoT(由于m很小,不進(jìn)行聚類)為每個(gè)qi(1)獲得其推理鏈c(1)i。將問題-推理鏈對(duì)(q1(1), c(1)1), ..., (qm(1), c(1)m)添加到M0中,并稱新集合為M1;(iii)當(dāng)?shù)赽批(b > 1)問題q(b)1, ..., q(b)m到達(dá)時(shí),在Mb?1中使用現(xiàn)有問題和推理鏈構(gòu)建示例(像自動(dòng)CoT一樣),并使用這些示例對(duì)每個(gè)qi(b)進(jìn)行上下文推理。將問題-推理鏈對(duì)(q(b)1, c(b)1), ..., (q(b)m, c(b)m)添加到Mb?1中,并稱新集合為Mb。

圖7比較了在這個(gè)流式設(shè)置中每個(gè)批次(m = 30)在MultiArith上的準(zhǔn)確性(擴(kuò)展版本:附錄中的圖11)。正如預(yù)期的那樣,對(duì)于第一批,自動(dòng)CoT*和零樣本CoT獲得相同的準(zhǔn)確性。從第二批開始,自動(dòng)CoT*的表現(xiàn)與手動(dòng)CoT相當(dāng)。這一結(jié)果表明,我們的方法在更具挑戰(zhàn)性的流式設(shè)置中仍然有效。

6 結(jié)論

LLMs(大型語言模型)已經(jīng)通過CoT(思維鏈)提示顯示出推理能力。手動(dòng)CoT的優(yōu)越性能依賴于手工制作的示例。為了消除這種手工設(shè)計(jì),我們提出了自動(dòng)CoT來自動(dòng)構(gòu)建示例。它通過抽樣多樣性的問題并生成推理鏈來構(gòu)建示例。在十個(gè)公共基準(zhǔn)推理數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,使用GPT-3,自動(dòng)CoT始終匹配或超過了需要手工設(shè)計(jì)示例的CoT范式的表現(xiàn)。

Zhang Z, Zhang A, Li M, et al. Automatic chain of thought prompting in large language models[J]. arXiv preprint arXiv:2210.03493, 2022.

Shanghai Jiao Tong University, ?Amazon Web Services


本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/iDGJLvKgaydJbCi3ySo1QQ??




?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦