擊敗思維鏈(CoT),草稿鏈(CoD)稱王!推理成本降低近94%,低時(shí)延,準(zhǔn)確率更高! 原創(chuàng)
編輯 | 言征
作者 | Ashish Bamania
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
推理 LLM 是當(dāng)今 AI 研究中的熱門話題。我們從 GPT-1 開始,一直到像 Grok-3 這樣的高級(jí)推理器。這段旅程非常了不起,一路上發(fā)現(xiàn)了一些非常重要的推理方法。其中之一是思維鏈 (CoT) 提示(Few-shot 和 Zero-shot),導(dǎo)致了我們今天看到的大部分 LLM 推理革命。
令人興奮的是,Zoom Communications 的研究人員現(xiàn)在發(fā)布了一種更好的技術(shù)。
圖片
這種技術(shù)稱為 Chain-of-Draft (CoD) Prompting,在準(zhǔn)確性上優(yōu)于 CoT Prompting,在回答查詢時(shí)僅使用所有推理Token的 7.6%。
圖片
使用直接答案 (Standard)、思維鏈 (CoT) 和草稿鏈 (CoD) 提示 Claude 3.5 Sonnet時(shí)的準(zhǔn)確性和標(biāo)記使用比較,以解決不同推理領(lǐng)域的任務(wù)
這對(duì)于推理目前非常冗長(zhǎng)、需要大量計(jì)算時(shí)間且具有高延遲的 LLM 來說是一個(gè)巨大的勝利,這是許多實(shí)際時(shí)間關(guān)鍵型應(yīng)用程序中的瓶頸。
接下來,我們深入探討了草稿鏈 (CoD) 提示的工作原理,以及如何使用它來使您的 LLM 比以往任何時(shí)候都更加準(zhǔn)確和Token效率。
提示研究員如何發(fā)現(xiàn)大模型的新方法的?
首先,讓我們談?wù)勌崾狙芯咳藛T不斷在 LLM 中發(fā)現(xiàn)新的方法。
Transformers 將我們帶到了生成式預(yù)訓(xùn)練 Transformers 或 GPT,我們很快發(fā)現(xiàn)將其擴(kuò)展到 GPT-2(15 億個(gè)參數(shù))使其充當(dāng)無監(jiān)督的多任務(wù)學(xué)習(xí)器(在沒有監(jiān)督學(xué)習(xí)/微調(diào)任務(wù)特定數(shù)據(jù)集的情況下執(zhí)行多項(xiàng)任務(wù))。
隨著進(jìn)一步擴(kuò)展到 GPT-3(1750 億個(gè)參數(shù)),發(fā)現(xiàn)該模型可以快速適應(yīng)并在新任務(wù)上表現(xiàn)良好,只需在輸入提示中提供幾個(gè)示例(Few-shot Prompting)。
然后發(fā)現(xiàn),將解決問題分解為中間推理步驟并促使大型語言模型 (LLM) 生成這些步驟,可以在算術(shù)、常識(shí)和符號(hào)推理任務(wù)中實(shí)現(xiàn)最先進(jìn)的性能。
這種方法稱為思維鏈 (CoT) 提示。
圖片
標(biāo)準(zhǔn)和思維鏈提示的示例(圖片來自 ArXiv 研究論文,標(biāo)題為“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”)
在 CoT 之后,很快發(fā)現(xiàn) LLM 是zero-shot推理器。
與原始的 CoT 提示方法一樣,他們不需要使用小樣本推理示例來提示他們以獲得更好的性能。
只需在提示中添加短語“Let's think step by step”就可以讓他們?cè)诮鉀Q問題時(shí)逐步推理。
這種方法稱為 Zero-shot Chain of Thought Prompting。
圖片
標(biāo)準(zhǔn) Zero-shot 和 Few-shot 提示、原始 CoT 提示(顯示為“(b) Few-shot-CoT”)和 Zero-shot CoT 提示之間的比較(圖片來自題為‘Large Language Models are Zero-Shot Reasoners’)
研究人員隨后意識(shí)到,鏈?zhǔn)酵评砗蛯?duì)答案的貪婪解碼是不夠的。
復(fù)雜的推理任務(wù)可能有多個(gè)推理路徑可以得出正確的答案,如果多條路徑導(dǎo)致相同的答案,我們可以確信最終答案是正確的。
這導(dǎo)致了一種稱為 Self-Consistency 的新解碼策略,該策略對(duì)模型進(jìn)行采樣以生成多個(gè)推理路徑,并從中選擇最一致的答案。
圖片
CoT 提示中的貪心解碼與自洽性(圖片來自 ArXiv 研究論文,標(biāo)題為“Self-Consistency Improves Chain of Thought Reasoning in Language Models”)
各種思維架構(gòu)的提出
遵循這種在解決問題時(shí)考慮多種推理路徑的方法,引入了 Tree-of-Thoughts (ToT) 框架,它使用樹狀思維過程探索解決方案空間。
圖片
Tree-of-Thought 框架(圖片來自 ArXiv 研究論文,標(biāo)題為“Large Language Model Guided Tree-of-Thought”)
它使用稱為 “Thoughts” 的語言序列作為解決問題的中間步驟。這些是在需要時(shí)使用具有 lookahead 和 backtracking 的搜索算法進(jìn)行評(píng)估和探索的。
圖片
各種推理方法的比較(圖片來自 ArXiv 研究論文,標(biāo)題為“‘Tree of Thoughts: Deliberate Problem Solving with Large Language Models’”)
Tree 架構(gòu)被 Graph 取代,從而產(chǎn)生了 Graph-of-Thoughts 框架,可以更好地對(duì)解決方案空間進(jìn)行建模。
圖片
CoD與其他推理方法的比較(圖片來自 ArXiv 研究論文,標(biāo)題為“Graph of Thoughts: Solving Elaborate Problems with Large Language Models”)
但這還不是全部!
提示并不是幫助 LLM 更好地推理的唯一方法,還有很多其他技術(shù),在下面這篇論文中還有很多新方法的提出。
圖片
但是延遲呢?
探索推理空間是一項(xiàng)計(jì)算成本高昂的任務(wù),會(huì)增加響應(yīng)延遲。
引入了一種稱為 Skeleton-of-Thought (SoT) 的減少延遲的解決方法,它首先指導(dǎo) LLM 生成答案的框架/大綱。
然后,它進(jìn)行并行 API 調(diào)用/批量解碼,以并行完成每個(gè)骨架點(diǎn)的內(nèi)容。
圖片
Skeleton-of-Thought (SoT) 與標(biāo)準(zhǔn)解碼的比較概述(圖片來自題為“Skeleton-of-Thought:Prompting LLMs for Efficient Parallel Generation”的 ArXiv 研究論文)
推理模型還可能過度思考簡(jiǎn)單的問題,生成不必要的推理Token,從而導(dǎo)致查詢到響應(yīng)時(shí)間過長(zhǎng)。
圖片
在問題 “2 加 3 的答案是什么?(圖片來自 ArXiv 研究論文,標(biāo)題為“Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs’
QwQ-32-B-Preview 模型如何解決這個(gè)加 2 和 3 的簡(jiǎn)單問題,這不是很瘋狂嗎?
圖片
QwQ-32-B-Preview 對(duì)一個(gè)簡(jiǎn)單的算術(shù)問題過度思考(圖片來自 ArXiv 研究論文,標(biāo)題為“不要為 2+3=想那么多?關(guān)于類似 o1 的 LLM 的過度思考')
研究人員試圖通過限制推理token預(yù)算來解決這個(gè)問題,但 LLM 通常無法遵守這一點(diǎn)。
在回答問題之前,還使用了額外的 LLM 根據(jù)問題的復(fù)雜性動(dòng)態(tài)估計(jì)不同問題的代幣預(yù)算,但這進(jìn)一步增加了響應(yīng)延遲。
圖片
帶有估計(jì)和提示的代幣預(yù)算感知 LLM 推理 (TALE) 概述(圖片來自題為“‘Token-Budget-Aware LLM Reasoning”的 ArXiv 研究論文)
我們能否將所有這些見解結(jié)合起來,并以某種方式簡(jiǎn)化它們以達(dá)到單一的方法?
草稿鏈“Chain-of-Draft” 提示的靈感
回到基礎(chǔ),思維鏈 (CoT) 是一種非常了不起的提示方法,可以更好地進(jìn)行 LLM 推理。
然而,它是冗長(zhǎng)的,LLM 在得出答案之前會(huì)產(chǎn)生數(shù)千個(gè)推理Token。
這與人類的思考和推理方式大不相同。
我們通常不會(huì)用冗長(zhǎng)的語言進(jìn)行推理,而是在思考時(shí)記下最重要的中間點(diǎn)(草稿)。
這就是 Chain-of-Draft (CoD) Prompting 的靈感來源。
它只是要求模型逐步思考,并將每個(gè)推理步驟限制為最多五個(gè)單詞。
為了確保模型理解這一點(diǎn),研究人員手動(dòng)編寫了這種 Chain-of-Drafts 的 Few-shot 示例,并在提示中給出。
令人驚訝的是,這樣的限制并沒有以任何方式強(qiáng)制執(zhí)行,模型只是作為一般準(zhǔn)則來提示。
這與標(biāo)準(zhǔn)的 few-shot prompting 形成鮮明對(duì)比,后者在提示中給出查詢-響應(yīng)對(duì),并要求模型直接返回最終答案,而無需任何推理或解釋。
這也不同于 Chain-of-Thought 提示,后者在提示的查詢-響應(yīng)對(duì)中給出了中間推理步驟,并要求模型回答問題。
在下圖中,可以更好地理解這些方法之間的差異,其中要求 LLM 解決一個(gè)簡(jiǎn)單的算術(shù)問題。
圖片
圖片
CoD 提示的效果如何?
為了評(píng)估 CoD 提示,GPT-4o 和 Claude 3.5 Sonnet 使用上述三種方法進(jìn)行提示。
下圖顯示了每種提示方法為這些模型提供的系統(tǒng)提示。
圖片
標(biāo)準(zhǔn)、CoT 和 CoD 提示效果對(duì)比
CoD 在算術(shù)推理 GSM8K 數(shù)據(jù)集上實(shí)現(xiàn)了 91% 的準(zhǔn)確率,同時(shí)使用的Token比 CoT 少 80%,減少了延遲而沒有任何重大的準(zhǔn)確率損失(CoD 為 91.1%,而 GPT-4o 為 CoT 為 95.4%)。
不同提示技術(shù)的 GSM8K 評(píng)估結(jié)果
在對(duì)日期和體育理解的BIG-Bench任務(wù)進(jìn)行常識(shí)推理測(cè)試后,CoD顯著減少了延遲和Token的使用量,同時(shí)與CoT具有相同/更高的準(zhǔn)確性。
日期理解 BIG-Bench任務(wù)的評(píng)估結(jié)果
請(qǐng)注意,當(dāng)與 Claude 3.5 Sonnet 一起用于體育理解任務(wù)時(shí),CoD 表現(xiàn)非常令人印象深刻,直接將 CoT 提示的平均輸出token從 189.4 降低到 14.3(減少 92.4%)!
體育理解 BIG Bench任務(wù)的評(píng)估結(jié)果
最后,當(dāng)對(duì)拋硬幣的符號(hào)推理任務(wù)(預(yù)測(cè)一系列拋硬幣后的最終硬幣狀態(tài))進(jìn)行評(píng)估時(shí),CoD 會(huì)產(chǎn)生 100% 的準(zhǔn)確率,并且Token比其他方法少得多。
研究人員創(chuàng)建的 Coin-flipping 數(shù)據(jù)集中的問題示例
圖片
在研究人員創(chuàng)建的包含 250 個(gè)測(cè)試用例的定制數(shù)據(jù)集上進(jìn)行硬幣翻轉(zhuǎn)評(píng)估
這些成績(jī)絕對(duì)是驚人的!
CoD 提示以最小的延遲實(shí)現(xiàn)驚人的高準(zhǔn)確性,從而減少響應(yīng)時(shí)間并有利于時(shí)間/計(jì)算關(guān)鍵型應(yīng)用程序。
此類 CoD 數(shù)據(jù)還可用于訓(xùn)練 LLM 更好地推理(基于 DeepSeek-R1 強(qiáng)化學(xué)習(xí)訓(xùn)練方法),使其更快、更便宜、更高效、更具可擴(kuò)展性。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征
