o1帶火的CoT到底行不行?新論文引發(fā)了論戰(zhàn)
OpenAI ο1 的誕生極大地提升了人們對(duì) LLM 推理能力和思維鏈(CoT)的興趣。一時(shí)之間,似乎思維鏈很快就會(huì)成為所有 LLM 的標(biāo)配,但思維鏈并非萬(wàn)能,就連 OpenAI 自己也提到 o1 在某些任務(wù)上的表現(xiàn)并不比 GPT-4o 強(qiáng),尤其是以語(yǔ)言為中心的任務(wù)。
近日,一篇來(lái)自德克薩斯大學(xué)奧斯汀分校、約翰·霍普金斯大學(xué)和普林斯頓大學(xué)的論文引發(fā)了熱議,其模仿莎士比亞《哈姆雷特》的臺(tái)詞提出了一個(gè)對(duì) AI 研究者和實(shí)踐者來(lái)說(shuō)至關(guān)重要的問(wèn)題:To CoT or not to CoT?
論文標(biāo)題:To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
論文地址:https://arxiv.org/pdf/2409.12183
GitHub 庫(kù):https://github.com/Zayne-sprague/To-CoT-or-not-to-CoT (待更新)
簡(jiǎn)單來(lái)說(shuō),這篇論文研究了思維鏈(CoT)技術(shù)幫助 LLM 解決各式問(wèn)題的有效性。
首先,該團(tuán)隊(duì)分析了近期的相關(guān)文獻(xiàn),比較了 CoT 與直接回答方法(DA)的性能表現(xiàn)。
之后,他們使用 20 個(gè)數(shù)據(jù)集和 14 個(gè)當(dāng)今主流的 LLM 在零樣本提示和少樣本提示設(shè)置下進(jìn)行了實(shí)驗(yàn)。
圖 1 簡(jiǎn)單總結(jié)了這兩項(xiàng)研究的結(jié)果。
結(jié)果表明,CoT 能極大助益 LLM 解決涉及數(shù)學(xué)和符號(hào)推理的任務(wù),至于其它任務(wù),CoT 的效果并不顯著甚至可能有損模型性能。
另一個(gè)發(fā)現(xiàn)是 CoT 能幫助提升執(zhí)行計(jì)算和符號(hào)操作的執(zhí)行步驟,但卻比不上能使用外部工具的 LLM。這是什么意思呢?該團(tuán)隊(duì)發(fā)現(xiàn),相比于使用直接回答方法,使用 CoT 時(shí) LLM 能更好地生成可執(zhí)行的形式化方案規(guī)劃;但如果使用語(yǔ)言模型來(lái)生成方案規(guī)劃,然后再使用外部符號(hào)解算器來(lái)求解該規(guī)劃,性能表現(xiàn)還會(huì)更好一些。
這樣的結(jié)果忽然讓 CoT 的處境變得有點(diǎn)尷尬:在 CoT 有用的問(wèn)題上,我們能使用外部工具做得更好;在另一些問(wèn)題上,CoT 的能力又有限。
因此,該團(tuán)隊(duì)認(rèn)為:「第一,很多廣泛使用 CoT 解決的問(wèn)題其實(shí)根本沒(méi)必要使用 CoT:現(xiàn)在已有更高效方法,能以遠(yuǎn)遠(yuǎn)更低的推理成本取得相近的性能。第二,基于提示詞的 CoT 不夠用了,我們看到人們迫切地需要更復(fù)雜精妙的方法,比如基于搜索、交互式智能體或針對(duì) CoT 進(jìn)行過(guò)更好微調(diào)的模型的方法。」
文獻(xiàn)研究
首先,該團(tuán)隊(duì)調(diào)研了近期的相關(guān)文獻(xiàn),比較了使用或不用 CoT 的提示詞的效果。
具體指標(biāo)和流程這里就不多介紹了??傊?,他們從 110 篇論文(35 篇 ICLR 論文和 75 篇 NAACL 和 EACL 論文)中整理出了 1218 個(gè)實(shí)驗(yàn)結(jié)果,涉及 264 個(gè)數(shù)據(jù)集。之后,他們將這些相關(guān)任務(wù)分成了 14 類(lèi),表 1 展示了其中幾類(lèi)的定義。
文獻(xiàn)研究結(jié)果
圖 2 展示了 CoT 為不同類(lèi)型的任務(wù)帶來(lái)的性能增量,即使用 CoT 提示法取得的性能減去使用直接回答法取得的性能。
可以看到,在這些任務(wù)上,CoT 平均僅能帶來(lái) 3.75% 的提升。其中 CoT 帶來(lái)增益最大的三類(lèi)任務(wù)分別是:符號(hào)推理、數(shù)學(xué)、邏輯推理。在這三個(gè)任務(wù)上,CoT 實(shí)現(xiàn)的平均性能為 56.9,而不使用 CoT 的表現(xiàn)為 45.5。而在其它任務(wù)上表現(xiàn)較好的個(gè)例(圖中用黃色高亮標(biāo)記出了 10 個(gè)),也或多或少與這三個(gè)任務(wù)有關(guān)。
但在其它任務(wù)上,CoT 的表現(xiàn)就沒(méi)什么亮點(diǎn)了,平均成績(jī)僅有 56.8,而就算不使用 CoT,直接回答法也能得到 56.1。該團(tuán)隊(duì)認(rèn)為,這一點(diǎn)點(diǎn)提升甚至不能算作是提升,畢竟 CoT 的計(jì)算成本明顯更高。
實(shí)驗(yàn)研究
除了研究近期文獻(xiàn),該團(tuán)隊(duì)也執(zhí)行了實(shí)驗(yàn),其中涉及到 20 個(gè)數(shù)據(jù)集和 14 個(gè)模型,并測(cè)試了零樣本提示和少樣本提示兩種設(shè)置,見(jiàn)表 2。
實(shí)驗(yàn)研究結(jié)果
下面我們通過(guò)對(duì)一系列問(wèn)題的解答來(lái)了解實(shí)驗(yàn)結(jié)果。
1.在哪些任務(wù)上,零樣本 CoT 優(yōu)于直接提示?
圖 3 左展示了 CoT 在五個(gè)推理類(lèi)別(見(jiàn)圖 1 右)上帶來(lái)的平均性能增益;圖 3 右則是 CoT 在每個(gè)數(shù)據(jù)集上帶來(lái)的平均性能增益。
可以看到,在非符號(hào)推理類(lèi)別和數(shù)據(jù)集上,特別是那些主要包含常識(shí)(CSQA、PIQA、SiQA)、語(yǔ)言理解(WinoGrande)和閱讀理解(AGI LSAT、ARC-Easy、ARC-Challenge)的問(wèn)題上,零樣本 CoT 和零樣本直接回答的性能幾乎沒(méi)有區(qū)別。盡管這些數(shù)據(jù)集涉及推理,但 CoT 并沒(méi)有帶來(lái)增益。
相比之下,數(shù)學(xué)和符號(hào)類(lèi)別(以及符號(hào)和半符號(hào)數(shù)據(jù)集)獲得了更大的提升。CoT 在 MATH 和 GSM8k 上帶來(lái)的增益分別高達(dá) 41.6% 和 66.9%。在 ContextHub 和 MuSR Murder Mysteries 等半符號(hào)數(shù)據(jù)集上,CoT 表現(xiàn)出了中等程度的增益。這些數(shù)據(jù)集需要應(yīng)用邏輯規(guī)則才能得出答案,例如從簡(jiǎn)單的自然語(yǔ)言(ContextHub)或更復(fù)雜的常識(shí)性陳述(MuSR Murder Mysteries)中解析得到的一階邏輯。
在少樣本設(shè)置下得到的實(shí)驗(yàn)結(jié)果類(lèi)似。
2.回答格式是否會(huì)影響 CoT 的有用性?
除了數(shù)學(xué)之外,許多常用的數(shù)據(jù)集都是多項(xiàng)選擇題。該團(tuán)隊(duì)指出,對(duì)于兩個(gè)非多項(xiàng)選擇題的數(shù)據(jù)集(MuSiQue 和 BiGGen Bench,并且它們需要不同層級(jí)的非符號(hào)推理才能給出回答),CoT 的表現(xiàn)與直接回答相近。
因此,可以說(shuō)回答格式對(duì) CoT 的有用性的影響不大。并且,該團(tuán)隊(duì)還表示,預(yù)先針對(duì)正確響應(yīng)進(jìn)行規(guī)劃或推理甚至可能妨礙 LLM 自由響應(yīng)的能力。
3.CoT 在知識(shí)、軟推理和常識(shí)推理方面帶來(lái)的提升是否顯著?
在 13 個(gè)涉及知識(shí)、軟推理和常識(shí)推理的數(shù)據(jù)集上,該團(tuán)隊(duì)測(cè)試了 CoT 的表現(xiàn),結(jié)果發(fā)現(xiàn):答案是否定的,但 MMLU、StrategyQA 和 MuSR 是例外。在這三個(gè)數(shù)據(jù)集上,CoT 可以帶來(lái)比較顯著的增益。
詳細(xì)研究 MMLU 和 MMLU Pro
MMLU 和 MMLU Pro 是兩個(gè)范圍廣泛的數(shù)據(jù)集,因此很難簡(jiǎn)單地描述它們的特征。該團(tuán)隊(duì)詳細(xì)研究了 CoT 在 MMLU 中每個(gè)類(lèi)別上的性能表現(xiàn),以了解 CoT 在不同領(lǐng)域的性能差異。
表 3 給出了 CoT 能為 Llama 3.1 8B 和 70B 在 MMLU 和 MMLU Pro 上帶來(lái)最顯著提升的三個(gè)類(lèi)別。
可以看到,其中一些與數(shù)學(xué)有關(guān),這不出人意料,但也有的屬于「商業(yè)」等類(lèi)別。不過(guò)更進(jìn)一步研究發(fā)現(xiàn),這些類(lèi)別通常也涉及數(shù)學(xué)(比如資產(chǎn)計(jì)算等)。
因此,該團(tuán)隊(duì)對(duì) MMLU 進(jìn)行了更細(xì)粒度的研究(實(shí)例級(jí))。他們發(fā)現(xiàn)問(wèn)題或生成的響應(yīng)中是否包含 = 這個(gè)符號(hào)非常關(guān)鍵,可以說(shuō)是「符號(hào)推理的一個(gè)強(qiáng)有力的標(biāo)志」。結(jié)果見(jiàn)圖 4。
可以看到,當(dāng)有 = 時(shí),CoT 在 MMLU 和 MMLU Pro 上的表現(xiàn)明顯會(huì)更好。該團(tuán)隊(duì)認(rèn)為這是因?yàn)?= 通常出現(xiàn)在數(shù)學(xué)問(wèn)題中。所以歸根結(jié)底,CoT 依然是能在數(shù)學(xué)問(wèn)題上為 MMLU 和 MMLU Pro 帶來(lái)助益。
CoT 在形式推理方面的優(yōu)勢(shì)和劣勢(shì)
下面來(lái)解釋 CoT 有助于符號(hào)推理任務(wù)的原因。很多符號(hào)和半符號(hào)推理任務(wù)都可以分成兩個(gè)階段:規(guī)劃與執(zhí)行。該團(tuán)隊(duì)也基于此思路進(jìn)行了分析。
設(shè)置 1 和 2:少樣本直接回答和 CoT:使用之前的少樣本直接回答和 CoT 作為基線(xiàn)。圖 5 給出了在 GSM8K 上每個(gè)設(shè)置的示例。
設(shè)置 3 和 4:規(guī)劃 + 直接求解器以及計(jì)劃 + CoT 求解器。
設(shè)置 5:規(guī)劃+工具求解器。
評(píng)估結(jié)果
圖 6 展示了選出的代表性模型的結(jié)果。
可以看到,對(duì)于許多數(shù)據(jù)集和模型而言,僅僅有規(guī)劃不足以帶來(lái)明顯的性能增益。與直接回答相比,CoT 或規(guī)劃+ CoT 求解器是實(shí)現(xiàn)強(qiáng)大性能所必需的。使用其中一種方法跟蹤執(zhí)行情況可帶來(lái)最大的準(zhǔn)確性?xún)?yōu)勢(shì),尤其是對(duì)于含有大量數(shù)學(xué)內(nèi)容的數(shù)據(jù)集。
盡管 CoT 或規(guī)劃+ CoT 求解器比直接回答和規(guī)劃+直接回答更強(qiáng),但規(guī)劃+工具求解器在大多數(shù)情況下還要更優(yōu)。也就是說(shuō),很多時(shí)候,使用 CoT 還不如讓 LLM 使用工具。