自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) 原創(chuàng)

發(fā)布于 2024-7-1 12:29
瀏覽
0收藏

?摘要:思維鏈推理,作為人類(lèi)智能的基本認(rèn)知過(guò)程,在人工智能和自然語(yǔ)言處理領(lǐng)域引起了極大的關(guān)注。然而,這一領(lǐng)域仍然缺乏全面的綜述。為此,我們邁出了第一步,全面而廣泛地呈現(xiàn)了這一研究領(lǐng)域的深入調(diào)查。我們使用X-of-Thought(思維X)來(lái)廣泛地指代思維鏈推理。具體來(lái)說(shuō),我們根據(jù)方法的分類(lèi)系統(tǒng)地組織了當(dāng)前的研究,包括XoT構(gòu)建、XoT結(jié)構(gòu)變體和增強(qiáng)的XoT。此外,我們描述了XoT在前沿應(yīng)用中的使用,涵蓋了規(guī)劃、工具使用和蒸餾。此外,我們討論了挑戰(zhàn)并探討了一些未來(lái)的發(fā)展方向,包括忠實(shí)度、多模態(tài)和理論。我們希望這份綜述能夠成為尋求在思維鏈推理領(lǐng)域創(chuàng)新的研究者的寶貴資源。

1 引言

預(yù)訓(xùn)練語(yǔ)言模型(PLMs)能夠自動(dòng)從無(wú)標(biāo)簽文本中學(xué)習(xí)通用表示,并通過(guò)在下游任務(wù)上的微調(diào)實(shí)現(xiàn)出色的性能(Devlin等人,2019年;Raffel等人,2020年;Radford和Narasimhan,2018年)。最近,擴(kuò)大語(yǔ)言模型的規(guī)模顯著提高了性能,并帶來(lái)了許多驚喜,例如突現(xiàn)能力(Wei等人,2022a;Schaeffer等人,2023年)。因此,自然語(yǔ)言處理的范式正從預(yù)訓(xùn)練加微調(diào)轉(zhuǎn)變?yōu)轭A(yù)訓(xùn)練加上下文學(xué)習(xí)。然而,到目前為止,大規(guī)模語(yǔ)言模型(LLMs)在復(fù)雜推理任務(wù)上,如數(shù)學(xué)推理(Cobbe等人,2021年;Patel等人,2021年)、常識(shí)推理(Talmor等人,2021年;Mihaylov等人,2018年)等,仍有相當(dāng)大的改進(jìn)空間。

為了利用LLMs解決復(fù)雜推理任務(wù),Wei等人(2022b)通過(guò)逐步推理過(guò)程擴(kuò)展了上下文學(xué)習(xí),首先引入了思維鏈(CoT)提示的概念。Kojima等人(2022年)發(fā)現(xiàn),簡(jiǎn)單地在提示中添加一個(gè)魔法短語(yǔ)“讓我們一步步來(lái)”就能使LLMs在沒(méi)有任何人類(lèi)注釋的情況下執(zhí)行零樣本思維鏈推理。這些研究突出了思維鏈在增強(qiáng)模型復(fù)雜推理能力以及提高其推理和規(guī)劃能力方面的重要性。

隨后,關(guān)于X-of-thought(XoT)的大量工作像雨后的蘑菇一樣在NLP社區(qū)迅速涌現(xiàn),例如自動(dòng)XoT構(gòu)建(Kojima等人,2022年;Zhang等人,2023f;Xu等人,2023年),XoT結(jié)構(gòu)變體(Chen等人,2022a;Ning等人,2023年;Lei等人,2023a;Yao等人,2023b)等。請(qǐng)注意,為了與原始的CoT區(qū)分開(kāi)來(lái),我們使用XoT來(lái)廣泛地指代CoT,這是一個(gè)集體術(shù)語(yǔ),用于指代逐步推理方法的使用。

然而,這些方法和數(shù)據(jù)集尚未經(jīng)過(guò)系統(tǒng)性的回顧和分析。為了填補(bǔ)這一空白,我們提出這項(xiàng)工作來(lái)進(jìn)行對(duì)XoT家族的全面和詳細(xì)分析。盡管已經(jīng)有一些綜述討論了思維鏈,但它們僅限于特定方面,例如使用提示的LLM推理(Qiao等人,2023年)和思維鏈提示策略(Yu等人,2023c)。相比之下,我們的綜述不僅提供了對(duì)他們已經(jīng)涵蓋的主題的更全面和全面的討論,還包括了額外的主題和討論,如XoT構(gòu)建、XoT結(jié)構(gòu)變體和前沿應(yīng)用等。具體來(lái)說(shuō),在本文中,我們首先介紹了相關(guān)背景和初步知識(shí)(第2節(jié))。此外,我們從多個(gè)角度仔細(xì)分類(lèi)了XoT系列工作,并完成了深入分析(第4節(jié)),包括XoT構(gòu)建方法(4.1節(jié))、XoT結(jié)構(gòu)變體(4.2節(jié))和XoT增強(qiáng)方法(4.3節(jié))。然后,我們提供了XoT在前沿領(lǐng)域的實(shí)際應(yīng)用(第5節(jié))。為了激發(fā)XoT后續(xù)工作的靈感,我們提供了對(duì)這一領(lǐng)域未來(lái)研究潛在途徑的見(jiàn)解(第6節(jié))。最后,我們比較并討論了現(xiàn)有的方法(第7節(jié))。


大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)

2 背景和初步

2.1 背景

近年來(lái),隨著計(jì)算能力的不斷擴(kuò)展,大規(guī)模語(yǔ)言模型如雨后春筍般涌現(xiàn)(Brown等人,2020年;OpenAI,2023年;Touvron等人,2023a;Scao等人,2022年;Touvron等人,2023b;Zhao等人,2023b),隨著模型規(guī)模的持續(xù)增長(zhǎng),許多新能力已經(jīng)出現(xiàn),例如上下文學(xué)習(xí)和思維鏈推理(Brown等人,2020年;Wei等人,2022b,a;Schaeffer等人,2023年)。

Brown等人(2020年)發(fā)現(xiàn),大規(guī)模語(yǔ)言模型具有出色的上下文學(xué)習(xí)(ICL)能力。ICL將輸入-輸出演示融入到提示文本中。通過(guò)ICL,現(xiàn)成的LLMs可以在不進(jìn)行額外微調(diào)的情況下使用,同時(shí)實(shí)現(xiàn)可比的性能。然而,這種端到端的方法在面對(duì)復(fù)雜推理任務(wù)時(shí)往往會(huì)表現(xiàn)不佳。

Wei等人(2022b)發(fā)現(xiàn),通過(guò)在演示中添加逐步推理過(guò)程,可以提高LLMs的推理能力,這被稱(chēng)為思維鏈提示。CoT提示使模型能夠更精確地理解問(wèn)題的復(fù)雜性和推理過(guò)程。此外,模型生成了一系列推理步驟,這為我們提供了對(duì)模型認(rèn)知過(guò)程的透明視圖,進(jìn)一步提高了可解釋性。

2.2 基礎(chǔ)

在本節(jié)中,我們介紹了使用LLMs進(jìn)行思維鏈推理的初步知識(shí),并引用了(Qiao等人,2023年)中的公式定義。假設(shè)有一個(gè)問(wèn)題Q,一個(gè)提示T和一個(gè)概率語(yǔ)言模型PLM。模型將問(wèn)題和提示作為輸入,給出理由R和答案A。我們首先考慮上下文場(chǎng)景,其中演示不包含推理鏈。我們需要最大化答案A的可能性,如公式(1,2)所示。


大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)

在思維鏈推理場(chǎng)景中,演示包含推理過(guò)程,我們需要最大化答案A和理由R的可能性,如公式(3,4,5,6)所示。


大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)

3 基準(zhǔn)測(cè)試

3.1 數(shù)學(xué)推理

數(shù)學(xué)推理通常用來(lái)衡量模型的推理能力。早期的基準(zhǔn)測(cè)試包含簡(jiǎn)單的算術(shù)運(yùn)算(Hosseini等人,2014年;Koncel-Kedziorski等人,2015年;Roy和Roth,2015年;Koncel-Kedziorski等人,2016年)。Ling等人(2017年)以自然語(yǔ)言形式標(biāo)記了推理過(guò)程,而Amini等人(2019年)在AQUA的基礎(chǔ)上,通過(guò)以程序形式標(biāo)記推理過(guò)程進(jìn)行了構(gòu)建。后來(lái)的基準(zhǔn)測(cè)試(Miao等人,2020年;Patel等人,2021年;Cobbe等人,2021年;Gao等人,2023年)包含了更復(fù)雜和多樣化的問(wèn)題。(Zhu等人,2021年;Chen等人,2021年,2022b年)需要基于表格內(nèi)容進(jìn)行推理。還有一些通用基準(zhǔn)測(cè)試(Hendrycks等人,2021年;Mishra等人,2022a,b年)和閱讀理解形式的基準(zhǔn)測(cè)試(Dua等人,2019年;Chen等人,2023年)。最近,(Yu等人,2021a年)通過(guò)使用層次推理和知識(shí),賦予了預(yù)訓(xùn)練模型數(shù)學(xué)推理的能力。


大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)

3.2 常識(shí)推理

常識(shí)推理是基于通常在日常生活世界中普遍知曉和普遍感知的知識(shí)進(jìn)行推斷、判斷和理解的過(guò)程。如何獲取和理解常識(shí)知識(shí)是模型面對(duì)常識(shí)推理時(shí)面臨的主要障礙。許多基準(zhǔn)測(cè)試和任務(wù)都集中在常識(shí)理解上(Talmor等人,2019年,2021年;Bhakthavatsalam等人,2021年;Mihaylov等人,2018年;Geva等人,2021年;Huang等人,2019年;Bisk等人,2020年),事件時(shí)間常識(shí)推理(Rashkin等人,2018年;Zhou等人,2019年)和常識(shí)驗(yàn)證(Wang等人,2019年)。

3.3 符號(hào)推理

這里的符號(hào)推理特指模擬一些對(duì)人類(lèi)來(lái)說(shuō)簡(jiǎn)單但對(duì)LLMs來(lái)說(shuō)具有挑戰(zhàn)性的簡(jiǎn)單操作。最后一個(gè)字母串聯(lián)、拋硬幣和反轉(zhuǎn)列表(Wei等人,2022b年)是最常用的符號(hào)推理任務(wù)。此外,協(xié)作基準(zhǔn)測(cè)試BigBench(Srivastava等人,2022年)和BigBench-Hard(Suzgun等人,2023年)也包含了幾個(gè)符號(hào)推理數(shù)據(jù)集,如狀態(tài)跟蹤和對(duì)象計(jì)數(shù)。

3.4 邏輯推理

邏輯推理分為演繹推理、歸納推理和溯因推理(Yu等人,2023a年)。演繹推理從一般前提中推導(dǎo)出結(jié)論(Liu等人,2020年;Yu等人,2020年;Tafjord等人,2021年;Han等人,2022年)。歸納推理從特殊案例中推導(dǎo)出一般結(jié)論(Yang等人,2022年)。溯因推理為觀察到的現(xiàn)象提供合理的解釋?zhuān)⊿aparov和He,2023年)。

3.5 多模態(tài)推理

在現(xiàn)實(shí)世界中,推理還涉及除文本之外的其他模態(tài)信息,其中視覺(jué)模態(tài)最為普遍。為此,提出了許多視覺(jué)多模態(tài)推理的基準(zhǔn)測(cè)試(Zellers等人,2019年;Park等人,2020年;Dong等人,2022年;Lu等人,2022年),其中ScienceQA(Lu等人,2022年)注釋了推理過(guò)程,是使用最廣泛的視覺(jué)多模態(tài)推理基準(zhǔn)測(cè)試。視頻多模態(tài)推理(Lei等人,2020年;Yi等人,2020年;Wu等人,2021年;Xiao等人,2021年;Li等人,2022a年;Gupta和Gupta,2022年)更具挑戰(zhàn)性,因?yàn)樗c視覺(jué)多模態(tài)推理相比引入了額外的時(shí)間信息。

3.6 指標(biāo)

準(zhǔn)確率 準(zhǔn)確率用于評(píng)估模型在分類(lèi)任務(wù)上的能力,通常用于多項(xiàng)選擇(Ling等人,2017年;Mihaylov等人,2018年;Liu等人,2020年;Lu等人,2022年)和是非(Talmor等人,2021年;Geva等人,2021年;Han等人,2022年)任務(wù)。


大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)

EM和F1 EM和F1是用于評(píng)估自由形式(Mishra等人,2022a年;Wang等人,2019年;Yi等人,2020年)和跨度提?。―ua等人,2019年;Zhu等人,2021年;Mishra等人,2022b年)任務(wù)的指標(biāo)。兩者都在詞符級(jí)別上計(jì)算。


大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)

其中P和R分別代表精確度和召回率,EM計(jì)算預(yù)測(cè)和答案完全相同的比例。

4 方法

在本節(jié)中,我們通過(guò)三種不同的分類(lèi)探討X-of-thought(思維X)推理:X-of-thought的構(gòu)建(4.1節(jié))、X-of-thought的結(jié)構(gòu)變體(4.2節(jié))以及X-of-thought的增強(qiáng)方法(4.3節(jié))。

4.1 構(gòu)建方法

經(jīng)過(guò)深入分析,我們將X-of-thought的構(gòu)建分為三類(lèi):1)手動(dòng)XoT,2)自動(dòng)XoT,3)半自動(dòng)XoT,具體描述如下。

4.1.1 手動(dòng)XoT

盡管大型語(yǔ)言模型通過(guò)提示進(jìn)行少量樣本的上下文學(xué)習(xí),但在推理任務(wù)中仍有限制。為了探索大型語(yǔ)言模型的潛在推理能力,一種標(biāo)準(zhǔn)方法是在示例中提供不同形式的思考。

Wei等人(2022b)首次提出思維鏈提示(Few-shot CoT),通過(guò)手動(dòng)提供自然語(yǔ)言形式的理由來(lái)演示。為了進(jìn)一步確保推理過(guò)程中的確定性并減少推理路徑和答案之間的不一致性,PAL(Gao等人,2023)、PoT(Chen等人,2022a)和NLEP(Zhang等人,2023e)利用編程語(yǔ)言作為注釋理由,將問(wèn)題解決轉(zhuǎn)化為可執(zhí)行的Python程序。同時(shí),為了同時(shí)利用自然語(yǔ)言和編程語(yǔ)言的優(yōu)勢(shì)并提高推理輸出的置信度,MathPrompter(Imani等人,2023)使用零樣本思維鏈提示生成多個(gè)代數(shù)表達(dá)式或Python函數(shù),這些可以相互驗(yàn)證并提高結(jié)果的可靠性。此外,由于示例中的推理復(fù)雜性,如包含更多推理步驟的鏈,會(huì)導(dǎo)致性能提升,F(xiàn)u等人(2023a)提出了基于復(fù)雜度的提示,其中在高復(fù)雜度理由之間進(jìn)行投票以得出最終答案。

手動(dòng)構(gòu)建的X-of-thought方法通過(guò)向示例中添加不同類(lèi)型的逐步中間推理過(guò)程來(lái)擴(kuò)展上下文學(xué)習(xí)。它們?cè)试SLLMs模仿并生成推理路徑。盡管手動(dòng)XoT方法為人類(lèi)理解和復(fù)雜任務(wù)(如數(shù)學(xué)推理、常識(shí)推理、符號(hào)推理等)提供了更大的可解釋性和可靠性,但手動(dòng)注釋理由需要顯著的成本,并存在諸如示范選擇困難和任務(wù)泛化等缺點(diǎn)。具體來(lái)說(shuō),不同的任務(wù)需要不同方式的示范。因此,其他工作嘗試自動(dòng)構(gòu)建推理路徑,如在§4.1.2中討論的。

4.1.2 自動(dòng)XoT

思維鏈提示(Wei等人,2022b)通過(guò)在少量樣本設(shè)置中使用特定任務(wù)示例激發(fā)了LLMs的復(fù)雜推理能力,這限制了可擴(kuò)展性和泛化能力。為了減少手工制作的少量樣本示例的成本,Kojima等人(2022)提出了零樣本CoT,通過(guò)在問(wèn)題后引入一個(gè)魔法短語(yǔ)“讓我們一步步來(lái)”,使LLMs能夠以零樣本的方式生成推理鏈。然而,零樣本CoT存在推理路徑質(zhì)量差、錯(cuò)誤多的問(wèn)題。由于示范的多樣性在推理鏈生成中起著至關(guān)重要的作用,Auto-CoT(Zhang等人,2023f)通過(guò)聚類(lèi)和代表性示例選擇自動(dòng)生成示范,提高了多樣性并一致性地匹配或超過(guò)了Few-shot CoT的性能。COSP(Wan等人,2023)引入了問(wèn)題的輸出熵來(lái)輔助示范選擇。Xu等人(2023)提出了Reprompting,通過(guò)迭代使用Gibbs采樣來(lái)找到有效的CoT提示。同時(shí),推理鏈中的一些錯(cuò)誤來(lái)自遺漏步驟的錯(cuò)誤,Wang等人(2023f)將零樣本CoT擴(kuò)展到計(jì)劃和解決(PS)提示,通過(guò)設(shè)計(jì)一個(gè)計(jì)劃將整個(gè)任務(wù)劃分為更小的子任務(wù),并根據(jù)計(jì)劃執(zhí)行子任務(wù),帶有更詳細(xì)的指令。LogiCoT(Zhao等人,2023c)使用符號(hào)邏輯來(lái)驗(yàn)證零樣本推理過(guò)程,從而減少推理中的錯(cuò)誤。此外,PoT(Chen等人,2022a)也探索了語(yǔ)言模型,如Codex,通過(guò)添加“讓我們一步步編寫(xiě)Python程序...”,在零樣本設(shè)置中生成可執(zhí)行的Python程序來(lái)解決數(shù)學(xué)問(wèn)題,這減少了中間推理步驟中的錯(cuò)誤。一些工作引入了代理來(lái)解決推理問(wèn)題。例如,Agent Instruct(Crispino等人,2023a)利用代理生成與任務(wù)相關(guān)的、有信息量的指令,指導(dǎo)LLMs執(zhí)行零樣本推理。

與手動(dòng)XoT不同,自動(dòng)XoT使用零樣本提示工程或采樣,是可擴(kuò)展的,并且可以在沒(méi)有人類(lèi)干預(yù)的情況下在領(lǐng)域之間泛化。然而,由于缺乏人類(lèi)對(duì)齊,自動(dòng)生成的思維鏈面臨質(zhì)量差、幻覺(jué)和事實(shí)不一致等挑戰(zhàn)。因此,以半自動(dòng)方式構(gòu)建XoT是必要的,這在§4.1.3中介紹。

4.1.3 半自動(dòng)XoT

半自動(dòng)XoT方法結(jié)合了手動(dòng)和自動(dòng)構(gòu)建方法的優(yōu)點(diǎn)。Shao等人(2023)提出了合成提示,利用少數(shù)人工注釋的示例來(lái)提示模型通過(guò)交替的前向-后向過(guò)程生成更多示例,并選擇有效的示范以激發(fā)更好的推理,緩解了AutoCoT中缺乏人類(lèi)對(duì)齊的問(wèn)題。盡管之前的工作解決了手動(dòng)注釋的問(wèn)題,示范選擇也可以顯著影響性能。Automate-CoT(Shum等人,2023)采用強(qiáng)化學(xué)習(xí)與方差降低的策略梯度策略來(lái)估計(jì)黑盒語(yǔ)言模型中每個(gè)示例的重要性,激發(fā)更好的示范選擇。同樣,Lu等人(2023b)提出了PromptPG,它利用策略梯度來(lái)學(xué)習(xí)在表格推理中選擇示范。Ye和Durrett(2023)最初使用兩個(gè)代理指標(biāo)來(lái)評(píng)估每個(gè)示例,然后在示例中搜索以找到在銀標(biāo)開(kāi)發(fā)集中產(chǎn)生最佳性能的示范。同時(shí),Pitis等人(2023)提出了Boosted Prompting,這是一種提示集成方法來(lái)提高性能,它在遇到當(dāng)前示范難以處理的問(wèn)題時(shí),通過(guò)迭代擴(kuò)展示例。Zou等人(2023)引入了Meta-CoT,它根據(jù)問(wèn)題類(lèi)別自動(dòng)選擇示范,消除了特定任務(wù)提示設(shè)計(jì)的需求。

半自動(dòng)XoT方法減少了手動(dòng)標(biāo)記的工作量,同時(shí)引入了人類(lèi)對(duì)齊信號(hào)和示范選擇策略,增強(qiáng)了推理的能力和穩(wěn)定性。此外,它還實(shí)現(xiàn)了成本效益高的領(lǐng)域泛化。然而,示范選擇問(wèn)題尚未完全解決,需要更多的努力和研究。

4.2 XoT結(jié)構(gòu)變體

最原始的思維鏈?zhǔn)且粋€(gè)鏈?zhǔn)浇Y(jié)構(gòu),用自然語(yǔ)言描述中間推理步驟。在本節(jié)中,我們介紹修改原始鏈?zhǔn)浇Y(jié)構(gòu)的結(jié)構(gòu)變體,包括鏈?zhǔn)浇Y(jié)構(gòu)變體、樹(shù)狀結(jié)構(gòu)變體和圖狀結(jié)構(gòu)變體。


大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)

圖2展示了推理的發(fā)展過(guò)程,從直接的輸入/輸出,到鏈?zhǔn)浇Y(jié)構(gòu),再到樹(shù)和圖結(jié)構(gòu)。

鏈?zhǔn)浇Y(jié)構(gòu) PAL(Gao等人,2023年)和 PoT(Chen等人,2022a)引入編程語(yǔ)言來(lái)描述推理過(guò)程,從而將推理問(wèn)題轉(zhuǎn)化為可執(zhí)行程序的實(shí)現(xiàn),以獲得最終答案。由于程序執(zhí)行是確定性的并且能夠準(zhǔn)確執(zhí)行算術(shù)計(jì)算,這種方法在數(shù)學(xué)推理中表現(xiàn)出色。此外,符號(hào)序列是另一種思維表示類(lèi)型。符號(hào)鏈(Chain-of-Symbol,Hu等人,2023a)在規(guī)劃期間用簡(jiǎn)化的符號(hào)鏈表示表示復(fù)雜環(huán)境,這減少了模擬環(huán)境的復(fù)雜性。鏈?zhǔn)浇Y(jié)構(gòu)變體如圖2(c,d)所示。思維算法(Algorithm of Thought,Sel等人,2023)將算法能力注入模型,通過(guò)添加基于算法的示例使模型的推理更加邏輯化。它沒(méi)有樹(shù)搜索(Long,2023;Yao等人,2023b)的巨大搜索空間,節(jié)省了計(jì)算資源并取得了出色的性能。

樹(shù)狀結(jié)構(gòu) 原始的鏈?zhǔn)浇Y(jié)構(gòu)本質(zhì)上限制了探索范圍。通過(guò)結(jié)合樹(shù)狀結(jié)構(gòu)和樹(shù)搜索算法,模型獲得了在推理過(guò)程中有效探索和回溯的能力(Long,2023;Yao等人,2023b),如圖2(e)所示。結(jié)合對(duì)中間思維的自我評(píng)估,模型可以實(shí)現(xiàn)全局最優(yōu)解。ToT(思維鏈)的推理過(guò)程涉及不確定性,這可能導(dǎo)致級(jí)聯(lián)錯(cuò)誤。TouT(Mo和Xin,2023)在推理中引入了蒙特卡洛dropout,考慮了不確定性。Yu等人(2023b)深入研究了類(lèi)似的問(wèn)題,利用它們的解決方案提升LLMs復(fù)雜的推理能力。這些類(lèi)似的問(wèn)題呈現(xiàn)出樹(shù)狀結(jié)構(gòu),最終匯聚解決主要問(wèn)題。然而,當(dāng)前的思維樹(shù)在選擇任務(wù)上有很大的局限性,需要為每個(gè)任務(wù)設(shè)計(jì)特定的提示,這阻礙了它的廣泛應(yīng)用。SoT(Ning等人,2023)是樹(shù)狀結(jié)構(gòu)的另一種變體,它將問(wèn)題分解為可以并行處理并同時(shí)解決的子問(wèn)題,以加快推理速度。然而,它的實(shí)用性僅限于可并行分解的問(wèn)題,不適用于復(fù)雜推理任務(wù)。

圖狀結(jié)構(gòu) 與樹(shù)相比,圖引入了循環(huán)和環(huán),帶來(lái)了更復(fù)雜的拓?fù)潢P(guān)系,并允許建模更復(fù)雜的推理,如圖2(f)所示。GoT(Besta等人,2023;Lei等人,2023a)將中間思維視為圖中的節(jié)點(diǎn),結(jié)合探索和回溯操作,并與思維樹(shù)相比額外引入了聚合和細(xì)化操作。額外的操作,聚合和細(xì)化,在復(fù)雜任務(wù)中激發(fā)了更好的推理。然而,它面臨著與思維樹(shù)相同的困境,即任務(wù)限制和較差的泛化能力。此外,它的推理成本增加了。與明確構(gòu)建思維圖的GoT不同,ResPrompt(Jiang等人,2023a)在提示文本中引入了思維之間的殘差連接,允許不同步驟的推理相互交互。

隨著模型從線性鏈過(guò)渡到層次化的樹(shù)和復(fù)雜的圖,思維的相互作用逐漸變得更加復(fù)雜,從而逐步增強(qiáng)了解決復(fù)雜問(wèn)題的能力。然而,隨著拓?fù)鋸?fù)雜性的增加,相關(guān)方法對(duì)任務(wù)選擇施加了更多限制,導(dǎo)致它們的泛化能力顯著降低,使其應(yīng)用變得困難。將基于復(fù)雜拓?fù)浣Y(jié)構(gòu)的方法擴(kuò)展到通用領(lǐng)域是未來(lái)研究面臨的一個(gè)主要挑戰(zhàn)。

4.3 XoT增強(qiáng)方法

在本節(jié)中,我們將介紹XoT增強(qiáng)方法。總共,我們將提供五個(gè)類(lèi)別的概述,分別是添加驗(yàn)證和細(xì)化(4.3.1節(jié))、問(wèn)題分解(4.3.2節(jié))、利用外部知識(shí)(4.3.3節(jié))、投票和排名(4.3.4節(jié))以及提高效率(4.3.5節(jié))。

4.3.1 驗(yàn)證和改進(jìn)

思維鏈推理往往傾向于產(chǎn)生幻覺(jué),產(chǎn)生錯(cuò)誤的推理步驟。中間推理步驟中的錯(cuò)誤又可能觸發(fā)一系列錯(cuò)誤。引入驗(yàn)證以獲得反饋,隨后根據(jù)這些反饋細(xì)化推理過(guò)程,可以有效地減輕這種現(xiàn)象,類(lèi)似于人類(lèi)反思的過(guò)程。圖3描述了驗(yàn)證和細(xì)化的概述。


大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)

圖3:驗(yàn)證和改進(jìn)減少推理中的級(jí)聯(lián)錯(cuò)誤。

VerifyCoT(Ling等人,2023年)設(shè)計(jì)了一種自然程序,這是一種演繹推理形式,允許模型產(chǎn)生準(zhǔn)確的推理步驟,每個(gè)后續(xù)步驟嚴(yán)格基于前一步。DIVERSE(Li等人,2022c)使用投票機(jī)制來(lái)排除錯(cuò)誤答案,然后對(duì)每個(gè)推理步驟進(jìn)行細(xì)粒度的驗(yàn)證。SCREWS(Shridhar等人,2023)認(rèn)為后修改的結(jié)果并不一定優(yōu)于原始結(jié)果,因此它引入了一個(gè)選擇模塊來(lái)在原始和修改之間選擇更好的結(jié)果。為了便于知識(shí)密集型任務(wù),Verify-and-Edit(Zhao等人,2023a)引入外部知識(shí)來(lái)重新推理不確定的示例,減少推理中的事實(shí)錯(cuò)誤。一些研究努力嘗試挖掘模型的內(nèi)部知識(shí)。為了解決事實(shí)錯(cuò)誤,一些研究嘗試挖掘LLMs的內(nèi)在知識(shí)。他們?cè)诨卮饐?wèn)題之前從模型中獲取知識(shí)(Dhuliawala等人,2023年;Zheng等人,2023年)。Ji等人(2023年)進(jìn)一步驗(yàn)證了內(nèi)在知識(shí)的正確性,Liu等人(2023b)通過(guò)強(qiáng)化學(xué)習(xí)提高了內(nèi)在知識(shí)獲取的準(zhǔn)確性。

不一致性是推理中的另一個(gè)主要挑戰(zhàn),Dua等人(2022年)迭代地使用先前的推理結(jié)果作為提示,直到模型給出一致的答案。Paul等人(2023年)訓(xùn)練一個(gè)批評(píng)模型來(lái)提供關(guān)于推理過(guò)程的結(jié)構(gòu)化反饋。Self-Refine(Madaan等人,2023)執(zhí)行迭代自我反饋和細(xì)化以減輕推理中的錯(cuò)誤。與Self-Refine相比,Reflexion(Shinn等人,2023)引入了強(qiáng)化學(xué)習(xí)進(jìn)行反思,這也帶來(lái)了決策能力。同時(shí),一些工作引入了反向推理(Yu等人,2023a)進(jìn)行驗(yàn)證。

RCoT(Xue等人,2023)根據(jù)推理鏈重構(gòu)問(wèn)題,其與原始問(wèn)題的不一致性暴露了推理過(guò)程中的錯(cuò)誤。FOBAR(Jiang等人,2023b)和Self Verification(Weng等人,2022)通過(guò)從答案中推斷問(wèn)題中的條件進(jìn)行驗(yàn)證。FOBAR推斷問(wèn)題中的變量,而Self Verification推斷問(wèn)題中的條件。然而,Huang等人(2023a)發(fā)現(xiàn)LLMs在沒(méi)有外部反饋的情況下難以自我糾正,甚至可能導(dǎo)致性能下降。

LLM推理是一個(gè)無(wú)監(jiān)督過(guò)程,在中間推理步驟中來(lái)自反饋信號(hào)的指導(dǎo)在提高推理中起著至關(guān)重要的作用。來(lái)自反饋信號(hào)的指導(dǎo)可以有效地減少推理中的幻覺(jué)現(xiàn)象。在獲取適當(dāng)?shù)姆答伈⒏鶕?jù)該反饋進(jìn)行準(zhǔn)確糾正方面仍有很大的研究空間。

4.3.2 問(wèn)題分解

X-of-thought推理的本質(zhì)在于其逐步解決問(wèn)題。然而,原始的思維鏈推理方法并沒(méi)有明確地剝離出逐步推理過(guò)程,仍然使用一次性生成。在本節(jié)中,我們將討論問(wèn)題分解方法,該方法明確地逐步解決問(wèn)題。概述如圖4所示。

大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)


圖 4:?jiǎn)栴}分解通過(guò)逐步解決簡(jiǎn)單的子問(wèn)題來(lái)解決復(fù)雜問(wèn)題。

Wang等人(2022a)迭代地從模型中獲取知識(shí),在多跳QA中取得進(jìn)展。Zhou等人(2023b)提出了Least-to-Most提示,最初以自頂向下的方式將問(wèn)題分解為子問(wèn)題,隨后,它一次解決一個(gè)子問(wèn)題,并利用它們的解決方案來(lái)促進(jìn)后續(xù)子問(wèn)題。Successive Prompting(Dua等人,2022)采取了與Least-to-Most提示類(lèi)似的方法,不同之處在于它采用了交錯(cuò)的子問(wèn)題和答案的分解,而不是兩階段分解。上述方法沒(méi)有為各種子問(wèn)題制定定制解決方案。Decomposed Prompting(Khot等人,2023)設(shè)計(jì)了一個(gè)模塊化共享庫(kù),每個(gè)庫(kù)專(zhuān)門(mén)針對(duì)一類(lèi)子問(wèn)題,可以為不同類(lèi)別的子問(wèn)題定制更有效的解決方案。除了一般任務(wù),一些工作專(zhuān)注于表格推理中的問(wèn)題分解。BINDER(Cheng等人,2023)以神經(jīng)符號(hào)方式將推理映射到程序,并通過(guò)程序執(zhí)行器(如Python或SQL)獲得最終答案。Ye等人(2023)引入了DATER,它將大型表格分解為較小的表格,將復(fù)雜問(wèn)題分解為簡(jiǎn)單問(wèn)題。前者減少了不相關(guān)信息,后者減少了推理的復(fù)雜性。

直接回答復(fù)雜問(wèn)題可能是具有挑戰(zhàn)性的。通過(guò)將問(wèn)題分解為簡(jiǎn)單的子問(wèn)題并逐步解決它們,難度降低了。此外,每個(gè)子問(wèn)題都可以追溯到特定的推理步驟,使推理過(guò)程更加透明和可解釋。當(dāng)前的工作大多使用自頂向下的分解策略,而基于反向推理的自底向上分解策略仍有待在未來(lái)的工作中探索。

4.3.3 利用外部知識(shí)

模型內(nèi)參數(shù)化的知識(shí)是有限的且過(guò)時(shí)的。因此,在面對(duì)知識(shí)密集型任務(wù)時(shí),經(jīng)常發(fā)生事實(shí)錯(cuò)誤。引入外部知識(shí)可以減輕這種現(xiàn)象,如圖5所示。

大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)

 圖5:引入外部知識(shí)可以減少推理中的事實(shí)錯(cuò)誤。

Lu等人(2023a)在提示中引入多語(yǔ)言詞典以增強(qiáng)機(jī)器翻譯。Li等人(2023d)提出了知識(shí)鏈(CoK-Li),通過(guò)查詢生成器從知識(shí)庫(kù)中獲取結(jié)構(gòu)化知識(shí)以執(zhí)行知識(shí)引導(dǎo)推理。Wang等人(2023b)(CoK-Wang)也從知識(shí)庫(kù)中檢索結(jié)構(gòu)化知識(shí)。此外,它估計(jì)了推理鏈的事實(shí)性和忠實(shí)度,并提示模型重新思考不可靠的推理,這減輕了CoK-Li中的知識(shí)檢索錯(cuò)誤。KD-CoT(Wang等人,2023c)通過(guò)多輪QA方法解決事實(shí)推理問(wèn)題。他們?cè)O(shè)計(jì)了一個(gè)反饋增強(qiáng)的檢索器,在每輪QA中檢索相關(guān)外部知識(shí)以校準(zhǔn)推理過(guò)程。其他研究使用模型自己的記憶作為外部知識(shí)。例如,Memory-of-Thought(Li和Qiu,2023)首先進(jìn)行預(yù)思考,將高置信度的思維保存到外部記憶,在推理期間,它讓LLM回憶相關(guān)記憶以輔助推理。

模型中的參數(shù)化知識(shí)在預(yù)訓(xùn)練結(jié)束時(shí)固定,這導(dǎo)致其在知識(shí)容量和知識(shí)更新方面的不足。雖然引入外部知識(shí)可以在一定程度上緩解這一點(diǎn),但它仍然是一個(gè)不完美的解決方案。要從根本上解決這個(gè)問(wèn)題,持續(xù)學(xué)習(xí)(Lange等人,2022年;Wang等人,2023g)是未來(lái)研究工作的一個(gè)有希望的途徑。

4.3.4 投票和排名

由于生成過(guò)程中固有的隨機(jī)性,LLM推理表現(xiàn)出隨機(jī)性和不確定性。通過(guò)多種抽樣策略,可以有效減輕這個(gè)問(wèn)題,如圖6所示。


大模型思維鏈推理的綜述:進(jìn)展、前沿和未來(lái) -AI.x社區(qū)

圖 6:投票和排序通過(guò)從多個(gè)采樣中選擇最終答案來(lái)減少不一致性。

一些方法采用排名,如(Cobbe等人,2021年),它訓(xùn)練一個(gè)驗(yàn)證器通過(guò)排名選擇高置信度的推理鏈。同時(shí),其他方法通過(guò)投票機(jī)制選擇推理鏈。Self-consistency(Wang等人,2023j)通過(guò)基于最終答案的采樣推理鏈的多數(shù)投票選擇最一致的答案。此外,(Fu等人,2023a)提出了Complex CoT,它利用基于復(fù)雜度的投票策略,傾向于選擇由更復(fù)雜的推理鏈生成的答案。然而,基于答案的投票機(jī)制沒(méi)有考慮推理鏈的正確性。

Miao等人(2023年)在投票時(shí)考慮了推理步驟,這可以同時(shí)獲得一致的答案和可信賴的推理過(guò)程。此外,為了考慮跨鏈中間步驟之間的關(guān)系,Yoran等人(2023年)在推理鏈之間混合信息,并選擇最相關(guān)的事實(shí)對(duì)多個(gè)推理鏈進(jìn)行元推理。GRACE(Khalifa等人,2023年)通過(guò)對(duì)比學(xué)習(xí)訓(xùn)練一個(gè)鑒別器,并使用這個(gè)鑒別器對(duì)每個(gè)中間推理步驟進(jìn)行排名。以前的方法基于概率分布進(jìn)行抽樣,而Diversity-of-Thought(Naik等人,2023年)通過(guò)使用不同的指令提示獲得多個(gè)推理路徑。

從集成學(xué)習(xí)中汲取靈感,隨后進(jìn)行投票和排名的多重抽樣做法有助于減少不確定性。此外,與單樣本方法相比,它展示了顯著的性能提升。多重抽樣與投票已成為當(dāng)前X-of-thought研究中的常用技術(shù)。將推理鏈整合到投票中仍然是未來(lái)研究的一個(gè)重要領(lǐng)域。

4.3.5 效率

LLM推理和手動(dòng)注釋的推理鏈帶來(lái)了昂貴的開(kāi)銷(xiāo)。Aggarwal等人(2023年)通過(guò)動(dòng)態(tài)調(diào)整樣本數(shù)量提高自一致性,這可以在邊際性能下降的情況下顯著降低推理成本。Ning等人(2023年)并行地分解問(wèn)題并同時(shí)處理它們,減少了推理時(shí)間開(kāi)銷(xiāo)。但它無(wú)法處理復(fù)雜問(wèn)題。Zhang等人(2023b)通過(guò)選擇性跳過(guò)一些中間層并隨后在另一個(gè)前向傳遞中驗(yàn)證草稿來(lái)加速推理。Diao等人(2023年)借鑒了主動(dòng)學(xué)習(xí)的思想,對(duì)具有高不確定性的示例進(jìn)行注釋?zhuān)瑴p少了人工注釋成本。大規(guī)模語(yǔ)言模型展示了巨大的能力,但它們也帶來(lái)了巨大的開(kāi)銷(xiāo)。在未來(lái)的研究工作中,平衡性能和開(kāi)銷(xiāo)之間的權(quán)衡可能需要大量的關(guān)注。

5 前沿應(yīng)用

5.1 工具使用

盡管大型語(yǔ)言模型(LLMs)展示了廣泛的知識(shí),但也伴隨著一些挑戰(zhàn)。這些挑戰(zhàn)包括無(wú)法訪問(wèn)最新新聞、在回答涉及領(lǐng)域外知識(shí)的查詢時(shí)傾向于產(chǎn)生幻覺(jué),以及缺乏復(fù)雜的推理能力,如數(shù)學(xué)計(jì)算或符號(hào)推理。通過(guò)賦予LLMs使用外部工具的能力,可以增強(qiáng)模型的推理能力并整合外部知識(shí),使其能夠進(jìn)行信息檢索和環(huán)境交互。

MRKL(Karpas等,2022年)引入了一種包含可擴(kuò)展模塊(稱(chēng)為專(zhuān)家)和路由器的新框架。這些專(zhuān)家可以是神經(jīng)網(wǎng)絡(luò)或符號(hào)形式。然而,這項(xiàng)研究主要集中在概念化和專(zhuān)門(mén)針對(duì)數(shù)學(xué)計(jì)算訓(xùn)練LLM,而沒(méi)有深入實(shí)現(xiàn)其他模塊內(nèi)容。TALM(Parisi等,2022年a)和Toolformer(Schick等,2023年)將文本為中心的方法與輔助工具結(jié)合,以增強(qiáng)語(yǔ)言模型的能力。他們采用自監(jiān)督機(jī)制啟動(dòng)性能增強(qiáng),從一組有限的工具提示開(kāi)始。類(lèi)似地,HuggingGPT(Shen等,2023年)利用視覺(jué)和語(yǔ)音模型處理來(lái)自不同模態(tài)的信息,從而賦予LLMs多模態(tài)理解和生成的能力。另一個(gè)問(wèn)題是如何選擇適當(dāng)?shù)墓ぞ?。LATM(Cai等,2023年)使LLMs能夠在不同任務(wù)中生成通用的API,而GEAR(Lu等,2023年c)則通過(guò)使用較小的模型來(lái)委派工具的基礎(chǔ)和執(zhí)行,從而考慮工具使用的效率。

然而,將用戶請(qǐng)求轉(zhuǎn)換為API格式通常并不容易。上述現(xiàn)有方法在促進(jìn)多次工具調(diào)用和糾正查詢錯(cuò)誤方面存在局限性。為了解決這個(gè)問(wèn)題,ReAct(Yao等,2023年c)整合了推理和行動(dòng)的優(yōu)勢(shì),相互增強(qiáng)和補(bǔ)充,提高了問(wèn)題解決能力。ART(Paranjape等,2023年)使用任務(wù)庫(kù)選擇相關(guān)的工具使用和推理鏈。MM-REACT(Yang等,2023年)進(jìn)一步利用視覺(jué)專(zhuān)家實(shí)現(xiàn)多模態(tài)推理和行動(dòng)。

上述研究工作集中在設(shè)計(jì)工具(或API)以增強(qiáng)LLMs在各個(gè)領(lǐng)域的能力。將XoT與工具結(jié)合有效應(yīng)對(duì)了LLMs面臨的挑戰(zhàn)。X-of-thought推理使模型能夠有效地引出、跟蹤和更新行動(dòng)計(jì)劃,同時(shí)管理異常情況。同時(shí),行動(dòng)操作促進(jìn)模型與外部資源(如知識(shí)庫(kù)和環(huán)境)的交互,使其能夠收集額外信息。為了評(píng)估工具的能力,API-Bank(Li等,2023年c)和MetaTool(Huang等,2023年c)引入了綜合基準(zhǔn),提供了評(píng)估工具增強(qiáng)型LLMs性能和有效性的堅(jiān)實(shí)基礎(chǔ)。

5.2 規(guī)劃

LLMs在直接提供復(fù)雜問(wèn)題的準(zhǔn)確答案方面面臨挑戰(zhàn),需要將其分解為連續(xù)的步驟和子任務(wù)。雖然思維鏈(CoT)提供了一種簡(jiǎn)單的規(guī)劃方法,但在解決高度復(fù)雜的問(wèn)題時(shí)卻顯得不足,且缺乏通過(guò)回溯評(píng)估和糾正錯(cuò)誤的能力。

許多研究將思維鏈的框架擴(kuò)展到各種形式,以進(jìn)一步增強(qiáng)規(guī)劃能力。樹(shù)形思維(Tree-of-Thought,Yao等,2023b)使LLMs能夠在樹(shù)中考慮多種推理路徑并自我評(píng)估以確定下一步行動(dòng)。在需要全局決策的情況下,ToT允許通過(guò)深度優(yōu)先搜索或廣度優(yōu)先搜索等技術(shù)進(jìn)行前向或后向探索。通過(guò)規(guī)劃進(jìn)行推理(Reasoning via Planning,RAP,Hao等,2023年)也將問(wèn)題劃分為樹(shù),并通過(guò)蒙特卡洛樹(shù)搜索算法進(jìn)行探索,使用LLMs作為世界模型和推理代理。另一種方法,圖形思維(Graph of Thought,GoT,Yao等,2023d),使用圖節(jié)點(diǎn)表示各個(gè)思維并利用外部圖神經(jīng)網(wǎng)絡(luò)進(jìn)行組織。LLM+P(Liu等,2023年a)和LLM+DP(Dagan等,2023年)促進(jìn)LLMs生成規(guī)劃域定義語(yǔ)言(PDDL)(Gerevini,2020)。PDDL有助于分解復(fù)雜問(wèn)題并利用專(zhuān)業(yè)模型進(jìn)行規(guī)劃,然后將結(jié)果轉(zhuǎn)換為自然語(yǔ)言供LLM處理。然而,需要注意的是,這些方法使用樹(shù)/圖/PDDL節(jié)點(diǎn)來(lái)表示思維,這在表示形式上有局限性,只能處理特定的規(guī)劃問(wèn)題。

另一種技術(shù)是提高模型糾正錯(cuò)誤和總結(jié)歷史經(jīng)驗(yàn)的能力。自我改進(jìn)(Self-Refine,Madaan等,2023年)采用了一種獨(dú)特的方法,即使用同一模型評(píng)估并反饋模型生成的輸出。反思(Reflexion,Shinn等,2023年)使模型能夠反思并糾正之前行動(dòng)中的錯(cuò)誤,類(lèi)似于文本格式的強(qiáng)化學(xué)習(xí),并將記憶劃分為長(zhǎng)期和短期成分。然而,當(dāng)出現(xiàn)計(jì)劃外錯(cuò)誤時(shí),Reflexion無(wú)法更新計(jì)劃。AdaPlanner(Sun等,2023年)引入了自適應(yīng)閉環(huán)計(jì)劃改進(jìn),根據(jù)環(huán)境反饋迭代細(xì)化任務(wù)計(jì)劃。ISR-LLM(Zhou等,2023年c)將自我改進(jìn)與PDDL結(jié)合,在長(zhǎng)時(shí)間順序任務(wù)中取得了更高的成功率。同時(shí),LATS(Zhou等,2023年a)利用基于語(yǔ)言模型的蒙特卡洛樹(shù)搜索進(jìn)行更靈活的規(guī)劃過(guò)程。

規(guī)劃可以靈活地與工具(Ruan等,2023年)或代理(Crispino等,2023年b)結(jié)合,以豐富推理能力。ToRA(Gou等,2023年)設(shè)計(jì)了帶有外部工具的數(shù)學(xué)專(zhuān)業(yè)代理,AutoUI(Zhang和Zhang,2023年)直接與多模態(tài)環(huán)境交互,而不是將視覺(jué)輸入轉(zhuǎn)換為文本,從而提高推理效率并減少錯(cuò)誤傳播。

規(guī)劃增強(qiáng)方法通過(guò)引入基于搜索、基于圖形和基于定義語(yǔ)言的方法,推動(dòng)了傳統(tǒng)順序規(guī)劃的發(fā)展。另一方面,一些方法結(jié)合了行動(dòng)、規(guī)劃、反思或工具,旨在增強(qiáng)LLMs的長(zhǎng)期規(guī)劃和抗錯(cuò)誤能力。

5.3 思維鏈蒸餾

通過(guò)蒸餾推理步驟,大型語(yǔ)言模型(LLM)可以自我改進(jìn)以解決復(fù)雜問(wèn)題。Huang等(2022年)采用了一種自一致性LLM,從未標(biāo)記數(shù)據(jù)生成思維鏈。隨后利用這些鏈條微調(diào)模型,增強(qiáng)其廣泛的推理能力。Zelikman等(2022年)提出了STaR,一種使用自循環(huán)引導(dǎo)策略改進(jìn)語(yǔ)言模型推理能力的小樣本學(xué)習(xí)方法。SECToR(Zhang和Parkes,2023年)使用思維鏈獲取算術(shù)答案,然后微調(diào)模型以直接生成答案而無(wú)需思維鏈。

思維鏈?zhǔn)且环N主要在大型語(yǔ)言模型中觀察到的新興能力,在小型模型中進(jìn)展有限。然而,通過(guò)蒸餾等技術(shù)提升小型模型的思維鏈能力是可行的。Magister等(2023年)展示了通過(guò)使用較大教師模型生成的推理鏈微調(diào)T5,并使用外部計(jì)算器解決答案,可以顯著提高各種數(shù)據(jù)集上的任務(wù)性能。Ho等(2023年)生成和篩選多條推理路徑以豐富多樣性。

許多努力旨在通過(guò)使用未標(biāo)注(或很少標(biāo)注)數(shù)據(jù)和自一致性(Wang等,2023j)來(lái)減少人工成本。Hsieh等(2023年)使用提示從少量標(biāo)注/未標(biāo)注數(shù)據(jù)生成答案,然后生成理由,提示語(yǔ)言模型為給定答案提供推理。SCoTD(Li等,2023年)發(fā)現(xiàn),從教師模型中為每個(gè)實(shí)例采樣多條推理鏈對(duì)于提高學(xué)生模型的能力至關(guān)重要。SCOTT(Wang等,2023h)在生成教師模型的理由時(shí)使用對(duì)比解碼(Li等,2022b;O'Brien和Lewis,2023年)。此外,為了解決快捷方式問(wèn)題,它在訓(xùn)練學(xué)生模型時(shí)采用反事實(shí)推理目標(biāo)。DialCoT(Han等,2023年)將推理步驟分解為多輪對(duì)話,并使用PPO算法選擇正確路徑。Jie等(2023年);Wang等(2023i)為數(shù)學(xué)問(wèn)題添加了特殊標(biāo)記。這種高層次信息提高了推理步驟的一致性。

上述研究采用了共享范式,通過(guò)具有更高推理能力的LLMs生成思維鏈,然后將這些思維鏈蒸餾到較小的模型中。通過(guò)增強(qiáng)較大模型的采樣策略,例如利用多條采樣路徑、一致性或?qū)Ρ冉獯a,蒸餾過(guò)程的有效性得以提高,這帶來(lái)了生成推理鏈的多樣性和準(zhǔn)確性,最終有利于向較小模型的蒸餾過(guò)程。值得注意的是,語(yǔ)言模型在多維能力上存在復(fù)雜的權(quán)衡和平衡。Fu等(2023年b)強(qiáng)調(diào),通過(guò)蒸餾增加任務(wù)特定的思維鏈能力可能會(huì)對(duì)模型解決廣泛?jiǎn)栴}的性能產(chǎn)生不利影響。

6 未來(lái)方向

雖然思維鏈推理在許多任務(wù)中表現(xiàn)出了顯著的性能,但仍有一些挑戰(zhàn)需要進(jìn)一步探索。在本節(jié)中,我們簡(jiǎn)要概述了未來(lái)研究的三個(gè)有前途的方向:多模態(tài)思維鏈推理(§6.1)、真實(shí)的思維鏈推理(§6.2)和思維鏈推理理論(§6.3)。

6.1 多模態(tài)思維鏈

從單一模態(tài)的文本到視覺(jué)-文本的多模態(tài)轉(zhuǎn)換引入了更豐富的信息,同時(shí)也帶來(lái)了更多的挑戰(zhàn)。一些研究嘗試通過(guò)微調(diào)多模態(tài)模型在多模態(tài)場(chǎng)景中生成高質(zhì)量的思維鏈來(lái)探索思維鏈推理。Multimodal-CoT(Zhang等,2023年g)首先微調(diào)多模態(tài)模型生成思維鏈,然后在這些理由上進(jìn)行推理以獲得最終答案。然而,它受到推理過(guò)程線性限制的影響,并且在不同模態(tài)之間的交互方面存在困難。為了解決Multimodal-CoT遇到的挑戰(zhàn),Yao等(2023年d)提出了思維圖(Graph-of-Thought,GoT),將思維過(guò)程建模為圖。它將推理鏈解析為思維圖,通過(guò)捕捉非順序的信息交互,使思維過(guò)程的表示更加真實(shí)。這一措施通過(guò)圖形結(jié)構(gòu)打破了線性結(jié)構(gòu)的限制,并進(jìn)一步提高了性能。此外,Yao等(2023年a)提出了超圖思維(Hypergraph-of-Thought,HoT),用超圖取代思維圖,使模型具有更好的高階多跳推理和多模態(tài)比較判斷能力。同時(shí),一些工作采用了基于知識(shí)蒸餾的方法。T-SciQ(Wang等,2023年d)從LLM生成高質(zhì)量的思維鏈理由作為微調(diào)信號(hào),并引入了一種新穎的數(shù)據(jù)混合策略,以生成適用于不同問(wèn)題的有效樣本。

上述研究在小模型和微調(diào)場(chǎng)景中探索了多模態(tài)推理,這被視為多模態(tài)思維鏈推理領(lǐng)域的初步嘗試。我們認(rèn)為,結(jié)合上下文學(xué)習(xí)的視頻多模態(tài)推理應(yīng)該成為未來(lái)研究的重點(diǎn)。一方面,與圖像相比,視頻引入了額外的時(shí)間信息,具有內(nèi)在的鏈條關(guān)系。通過(guò)思維鏈推理,可以自然地連接不同幀中的信息,顯式建模時(shí)間關(guān)系,這非常適合視頻多模態(tài)推理。另一方面,小模型在能力上有限,需要微調(diào)才能獲得思維鏈能力。更糟糕的是,多模態(tài)推理鏈難以獲取,這進(jìn)一步加劇了挑戰(zhàn)。相比之下,當(dāng)前的視覺(jué)-語(yǔ)言基礎(chǔ)模型(VLMs)(Alayrac等,2022年;Li等,2023年a;Wang等,2022年b;Huang等,2023年b;Peng等,2023年;Yu等,2021年b)具有強(qiáng)大的視覺(jué)-語(yǔ)言理解能力,已經(jīng)能夠在文本和圖像交錯(cuò)的上下文中進(jìn)行學(xué)習(xí)。它們?yōu)榻Y(jié)合上下文學(xué)習(xí)的思維鏈推理提供了堅(jiān)實(shí)基礎(chǔ)。利用思維鏈進(jìn)行視頻推理仍然是一個(gè)未被充分探索的領(lǐng)域,只有少數(shù)研究涉及。CoMT(Hu等,2023年b)在視頻推理中結(jié)合了快思維和慢思維,并引入了規(guī)劃的樹(shù)搜索策略,首次在視頻多模態(tài)推理中應(yīng)用了思維鏈。

盡管一些研究已經(jīng)開(kāi)始利用思維鏈推理解決多模態(tài)推理任務(wù),但之前的工作僅關(guān)注于如何構(gòu)建高質(zhì)量的微調(diào)數(shù)據(jù),仍有若干挑戰(zhàn)需要解決:

- 如何統(tǒng)一視覺(jué)和語(yǔ)言特征以引出更好的多模態(tài)理解。

- 如何在不進(jìn)行微調(diào)的情況下使用VLMs進(jìn)行思維鏈推理。

- 如何將圖像多模態(tài)推理適應(yīng)到視頻多模態(tài)推理。

6.2 真實(shí)度

大量研究表明,思維鏈推理可能導(dǎo)致幻覺(jué)現(xiàn)象,如事實(shí)錯(cuò)誤和上下文不一致??紤]到語(yǔ)言模型本質(zhì)上屬于統(tǒng)計(jì)模型,并且由于數(shù)據(jù)噪聲和知識(shí)遺忘等因素,幻覺(jué)現(xiàn)象是不可避免的。

一些工作專(zhuān)注于減輕事實(shí)錯(cuò)誤。He等(2023年a)引入外部知識(shí)來(lái)評(píng)估推理鏈,并通過(guò)投票過(guò)濾掉包含事實(shí)錯(cuò)誤的鏈條,但不進(jìn)行糾正。Wang等(2023年b)采用了類(lèi)似的方法,不同之處在于額外引入了反思機(jī)制以糾正低評(píng)分的推理。Zhao等(2023年a)通過(guò)一致性過(guò)濾掉低置信度的推理,并指導(dǎo)模型基于相關(guān)外部知識(shí)重新推理。雖然上述方法在知識(shí)密集型任務(wù)中表現(xiàn)良好,但在解決上下文不一致性挑戰(zhàn)方面卻有所不足。Zhang等(2023年d)探索了推理過(guò)程中幻覺(jué)滾雪球現(xiàn)象。其他一些研究旨在解決不一致性問(wèn)題。Radhakrishnan等(2023年)觀察到,模型在處理簡(jiǎn)單問(wèn)題時(shí)更為真實(shí)。因此,通過(guò)問(wèn)題分解來(lái)提高真實(shí)度。Faithful CoT(Lyu等,2023年)最初生成符號(hào)推理鏈,然后確定性地執(zhí)行符號(hào)函數(shù),以減輕推理不一致性。Lanham等(2023年)探討了影響真實(shí)度的因素,提供了經(jīng)驗(yàn)性視角。研究發(fā)現(xiàn),不同任務(wù)的真實(shí)度不同,隨著模型規(guī)模的增加,真實(shí)度下降。CoNLI(Lei等,2023年b)提出了一種后編輯策略以減少幻覺(jué)。SynTra(Jones等,2023年)在易引發(fā)幻覺(jué)的合成數(shù)據(jù)集上進(jìn)行前綴調(diào)優(yōu),然后將此能力轉(zhuǎn)移到實(shí)際任務(wù)中。

盡管在解決大型語(yǔ)言模型幻覺(jué)問(wèn)題上做出了許多努力,這些工作僅在某種程度上緩解了問(wèn)題。要完全提高大型語(yǔ)言模型的真實(shí)度還有很長(zhǎng)的路要走。我們總結(jié)了未來(lái)的研究方向如下:

- 提高識(shí)別推理過(guò)程中的幻覺(jué)現(xiàn)象的能力。

- 提高外部知識(shí)檢索和利用的準(zhǔn)確性,以減少事實(shí)錯(cuò)誤。

- 提高識(shí)別和糾正上下文不一致和邏輯錯(cuò)誤的能力,這更具挑戰(zhàn)性。

- 如何從根本上消除幻覺(jué)現(xiàn)象,例如通過(guò)特定的預(yù)訓(xùn)練方法。

6.3 思維鏈理論

盡管思維鏈推理表現(xiàn)出了令人印象深刻的能力,但仍然缺乏關(guān)于按照指令生成思維鏈的全面解釋。

一些研究從經(jīng)驗(yàn)角度入手,可作為實(shí)際指導(dǎo)。Madaan和Yazdanbakhsh(2022年)將提示分解為三個(gè)部分:符號(hào)、模式和文本,通過(guò)反事實(shí)提示探索思維鏈的影響。Wang等(2023年a)分析了示范選擇的影響。他們發(fā)現(xiàn),推理鏈的正確性影響很小,而與問(wèn)題的相關(guān)性和正確的推理順序很重要。Tang等(2023年)探索了語(yǔ)義的作用。研究發(fā)現(xiàn),思維鏈推理在很大程度上依賴于預(yù)訓(xùn)練期間引入的語(yǔ)義知識(shí),在符號(hào)推理方面表現(xiàn)不佳。

其他一些研究從理論上分析,探索潛在的原理和內(nèi)部機(jī)制。Li等(2023年e)將思維鏈推理解構(gòu)為一個(gè)多步驟組合函數(shù)。他們表明,思維鏈減少了上下文學(xué)習(xí)處理復(fù)雜問(wèn)題的復(fù)雜性。Feng等(2023年)理論證明了一個(gè)固定大小的Transformer足以完成計(jì)算任務(wù)和動(dòng)態(tài)規(guī)劃任務(wù),并支持思維鏈。Merrill和Sabharwal(2023年)觀察到,思維鏈可以增強(qiáng)推理能力,隨著中間推理步驟數(shù)量的增加,改進(jìn)幅度也增加。Wu等(2023年)利用基于梯度的特征歸因方法探索思維鏈對(duì)輸出的影響。結(jié)果表明,思維鏈對(duì)問(wèn)題中的擾動(dòng)和變化表現(xiàn)出魯棒性。此外,有一些觀點(diǎn)認(rèn)為,思維鏈能力源自預(yù)訓(xùn)練階段的代碼數(shù)據(jù)(Madaan等,2022年;Zhang等,2023年c),但目前沒(méi)有系統(tǒng)的工作來(lái)證實(shí)這一觀點(diǎn)。

當(dāng)前對(duì)思維鏈理論的研究仍處于初步探索階段。我們總結(jié)了未來(lái)的研究方向如下:

- 探索思維鏈能力的來(lái)源,以實(shí)現(xiàn)思維鏈推理的有針對(duì)性改進(jìn)。

- 從理論上分析思維鏈相對(duì)于上下文學(xué)習(xí)的優(yōu)勢(shì),并探索其能力邊界。

7 討論

7.1 思維鏈構(gòu)建比較

現(xiàn)有方法構(gòu)建思維鏈主要有三種方式:(1) 手動(dòng)標(biāo)注推理鏈。 (2) 模型自動(dòng)生成推理鏈。 (3) 半自動(dòng)生成,利用少量手動(dòng)標(biāo)注的推理鏈進(jìn)行自動(dòng)擴(kuò)展。

我們觀察到,手動(dòng)構(gòu)建方法(Wei等,2022b;Gao等,2023年)面臨與上下文學(xué)習(xí)類(lèi)似的挑戰(zhàn),即示范選擇、指令格式化等(Dong等,2023年)。這導(dǎo)致其應(yīng)用困難重重,并且阻礙了跨不同任務(wù)的轉(zhuǎn)移能力。自動(dòng)構(gòu)建方法(Zhang等,2023年f;Chen等,2022年a;Xu等,2023年)缺乏高質(zhì)量標(biāo)注的指導(dǎo),導(dǎo)致性能不足。得益于手動(dòng)標(biāo)注帶來(lái)的信號(hào),半自動(dòng)方法(Shum等,2023年;Shao等,2023年)可以通過(guò)自引導(dǎo)和類(lèi)似技術(shù)生成高質(zhì)量的推理鏈,有效解決了以往方法面臨的挑戰(zhàn)。在取得優(yōu)異性能的同時(shí),還能輕松實(shí)現(xiàn)跨不同任務(wù)的轉(zhuǎn)移。

7.2 驗(yàn)證/改進(jìn)與規(guī)劃的比較

規(guī)劃方法與基于驗(yàn)證/改進(jìn)的方法之間存在許多相似之處,因?yàn)閮烧叨家蕾囉谥虚g過(guò)程的反饋來(lái)調(diào)整和改進(jìn)行為。區(qū)別在于規(guī)劃方法包括決策過(guò)程,而基于驗(yàn)證/改進(jìn)的方法僅解決中間錯(cuò)誤,而不涉及更高層次的認(rèn)知過(guò)程。

LLM的推理過(guò)程通常存在幻覺(jué),導(dǎo)致事實(shí)和邏輯錯(cuò)誤?;隍?yàn)證和編輯的方法(Ling等,2023年;Zhao等,2023年a;Madaan等,2023年;Shinn等,2023年)驗(yàn)證推理過(guò)程的正確性并改進(jìn)可能導(dǎo)致幻覺(jué)的推理步驟。通過(guò)驗(yàn)證和改進(jìn),大大減少了推理過(guò)程中的連鎖錯(cuò)誤和幻覺(jué)現(xiàn)象。

規(guī)劃方法(Long,2023年;Yao等,2023年b,c;Liu等,2023年a;Shinn等,2023年)在推理中引入了決策過(guò)程。他們?cè)u(píng)估中間推理步驟以獲取反饋,并基于反饋進(jìn)行探索和回溯,以在全局層面上獲得更優(yōu)的解決方案。其專(zhuān)業(yè)化在于處理復(fù)雜問(wèn)題,特別是在面對(duì)復(fù)雜的多跳推理和規(guī)劃任務(wù)時(shí),能夠取得顯著的性能。

7.3 彌補(bǔ)固有缺陷

LLM在推理方面存在許多固有的局限性,例如無(wú)法訪問(wèn)外部信息、算術(shù)錯(cuò)誤和不一致的推理。這些問(wèn)題可以通過(guò)將特定職責(zé)委托給專(zhuān)用模塊或模型來(lái)巧妙地規(guī)避。

針對(duì)模型在訪問(wèn)外部信息方面的局限性,(Li等,2023年d;Wang等,2023年b;Lu等,2023年a;Schick等,2023年;Karpas等,2022年;Yoran等,2023年)利用知識(shí)庫(kù)、搜索引擎和開(kāi)放域問(wèn)答系統(tǒng)等外部知識(shí)資源。一些工作引入了計(jì)算器來(lái)解決算術(shù)錯(cuò)誤(Schick等,2023年;Karpas等,2022年;Parisi等,2022年b)。代碼執(zhí)行是確定性的,一些工作通過(guò)引入代碼執(zhí)行器提高推理過(guò)程的一致性(Gao等,2023年;Chen等,2022年a;Bi等,2023年;Imani等,2023年)。我們認(rèn)為,將LLM用作中央規(guī)劃和推理的代理,將特定子任務(wù)委托給專(zhuān)用子模型,是未來(lái)在復(fù)雜場(chǎng)景中應(yīng)用大模型的潛在途徑(Wang等,2023年e;Xi等,2023年)。

7.4 其他工作

在本章中,我們將列出其他代表早期嘗試思維鏈推理或?qū)樘囟I(lǐng)域設(shè)計(jì)的工作。Katz等(2022年);Zhang等(2022年)提供了基準(zhǔn)和資源。一些工作經(jīng)驗(yàn)性地證明了思維鏈提示的有效性(Lampinen等,2022年;Ye和Durrett,2022年;Arora等,2023年),Shi等(2023年)探索了多語(yǔ)言思維鏈推理。其他工作專(zhuān)注于特定領(lǐng)域,如機(jī)器翻譯(He等,2023年b)、情感分析(Fei等,2023年)、句子嵌入(Zhang等,2023年a)、摘要(Wang等,2023年k)、算術(shù)(Lee和Kim,2023年)和表格推理(Chen,2023年;Jin和Lu,2023年)等。此外,一些研究利用特定的預(yù)訓(xùn)練來(lái)增強(qiáng)某些能力,如數(shù)學(xué)推理(Lewkowycz等,2022年;Zhao等,2022年)。

8 結(jié)論

本文對(duì)現(xiàn)有的思維鏈推理研究進(jìn)行了廣泛的調(diào)查,提供了對(duì)該領(lǐng)域的全面回顧。我們介紹了廣義思維鏈(X-of-Thought)的概念,并從多個(gè)角度審視了X-of-Thought推理的進(jìn)展。此外,我們還探討了X-of-Thought在前沿領(lǐng)域的應(yīng)用。我們還強(qiáng)調(diào)了目前這一研究面臨的挑戰(zhàn),并展望了未來(lái)的前景。據(jù)我們所知,這項(xiàng)調(diào)查是對(duì)思維鏈推理的首次系統(tǒng)性探索。我們的目標(biāo)是為對(duì)思維鏈推理感興趣的研究人員提供全面的概述,希望這項(xiàng)調(diào)查能促進(jìn)該領(lǐng)域的進(jìn)一步研究。

Chu Z, Chen J, Chen Q, et al. A survey of chain of thought reasoning: Advances, frontiers and future[J]. arXiv preprint arXiv:2309.15402, 2023.

?

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt

原文鏈接:????https://mp.weixin.qq.com/s/X2lcVLFFlFgQCzacret4Vg??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦