編輯 | 言征
作者 | Ashish Bamania
出品 | 51CTO技術棧(微信號:blog51cto)
推理 LLM 是當今 AI 研究中的熱門話題。我們從 GPT-1 開始,一直到像 Grok-3 這樣的高級推理器。這段旅程非常了不起,一路上發(fā)現(xiàn)了一些非常重要的推理方法。其中之一是思維鏈 (CoT) 提示(Few-shot 和 Zero-shot),導致了我們今天看到的大部分 LLM 推理革命。
令人興奮的是,Zoom Communications 的研究人員現(xiàn)在發(fā)布了一種更好的技術。
這種技術稱為 Chain-of-Draft (CoD) Prompting,在準確性上優(yōu)于 CoT Prompting,在回答查詢時僅使用所有推理Token的 7.6%。
使用直接答案 (Standard)、思維鏈 (CoT) 和草稿鏈 (CoD) 提示 Claude 3.5 Sonnet時的準確性和標記使用比較,以解決不同推理領域的任務
這對于推理目前非常冗長、需要大量計算時間且具有高延遲的 LLM 來說是一個巨大的勝利,這是許多實際時間關鍵型應用程序中的瓶頸。
接下來,我們深入探討了草稿鏈 (CoD) 提示的工作原理,以及如何使用它來使您的 LLM 比以往任何時候都更加準確和Token效率。
提示研究員如何發(fā)現(xiàn)大模型的新方法的?
首先,讓我們談談提示研究人員不斷在 LLM 中發(fā)現(xiàn)新的方法。
Transformers 將我們帶到了生成式預訓練 Transformers 或 GPT,我們很快發(fā)現(xiàn)將其擴展到 GPT-2(15 億個參數(shù))使其充當無監(jiān)督的多任務學習器(在沒有監(jiān)督學習/微調(diào)任務特定數(shù)據(jù)集的情況下執(zhí)行多項任務)。
隨著進一步擴展到 GPT-3(1750 億個參數(shù)),發(fā)現(xiàn)該模型可以快速適應并在新任務上表現(xiàn)良好,只需在輸入提示中提供幾個示例(Few-shot Prompting)。
然后發(fā)現(xiàn),將解決問題分解為中間推理步驟并促使大型語言模型 (LLM) 生成這些步驟,可以在算術、常識和符號推理任務中實現(xiàn)最先進的性能。
這種方法稱為思維鏈 (CoT) 提示。
標準和思維鏈提示的示例(圖片來自 ArXiv 研究論文,標題為“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”)
在 CoT 之后,很快發(fā)現(xiàn) LLM 是zero-shot推理器。
與原始的 CoT 提示方法一樣,他們不需要使用小樣本推理示例來提示他們以獲得更好的性能。
只需在提示中添加短語“Let's think step by step”就可以讓他們在解決問題時逐步推理。
這種方法稱為 Zero-shot Chain of Thought Prompting。
標準 Zero-shot 和 Few-shot 提示、原始 CoT 提示(顯示為“(b) Few-shot-CoT”)和 Zero-shot CoT 提示之間的比較(圖片來自題為‘Large Language Models are Zero-Shot Reasoners’)
研究人員隨后意識到,鏈式推理和對答案的貪婪解碼是不夠的。
復雜的推理任務可能有多個推理路徑可以得出正確的答案,如果多條路徑導致相同的答案,我們可以確信最終答案是正確的。
這導致了一種稱為 Self-Consistency 的新解碼策略,該策略對模型進行采樣以生成多個推理路徑,并從中選擇最一致的答案。
CoT 提示中的貪心解碼與自洽性(圖片來自 ArXiv 研究論文,標題為“Self-Consistency Improves Chain of Thought Reasoning in Language Models”)
各種思維架構的提出
遵循這種在解決問題時考慮多種推理路徑的方法,引入了 Tree-of-Thoughts (ToT) 框架,它使用樹狀思維過程探索解決方案空間。
Tree-of-Thought 框架(圖片來自 ArXiv 研究論文,標題為“Large Language Model Guided Tree-of-Thought”)
它使用稱為 “Thoughts” 的語言序列作為解決問題的中間步驟。這些是在需要時使用具有 lookahead 和 backtracking 的搜索算法進行評估和探索的。
各種推理方法的比較(圖片來自 ArXiv 研究論文,標題為“‘Tree of Thoughts: Deliberate Problem Solving with Large Language Models’”)
Tree 架構被 Graph 取代,從而產(chǎn)生了 Graph-of-Thoughts 框架,可以更好地對解決方案空間進行建模。
CoD與其他推理方法的比較(圖片來自 ArXiv 研究論文,標題為“Graph of Thoughts: Solving Elaborate Problems with Large Language Models”)
但這還不是全部!
提示并不是幫助 LLM 更好地推理的唯一方法,還有很多其他技術,在下面這篇論文中還有很多新方法的提出。
但是延遲呢?
探索推理空間是一項計算成本高昂的任務,會增加響應延遲。
引入了一種稱為 Skeleton-of-Thought (SoT) 的減少延遲的解決方法,它首先指導 LLM 生成答案的框架/大綱。
然后,它進行并行 API 調(diào)用/批量解碼,以并行完成每個骨架點的內(nèi)容。
Skeleton-of-Thought (SoT) 與標準解碼的比較概述(圖片來自題為“Skeleton-of-Thought:Prompting LLMs for Efficient Parallel Generation”的 ArXiv 研究論文)
推理模型還可能過度思考簡單的問題,生成不必要的推理Token,從而導致查詢到響應時間過長。
在問題 “2 加 3 的答案是什么?(圖片來自 ArXiv 研究論文,標題為“Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs’
QwQ-32-B-Preview 模型如何解決這個加 2 和 3 的簡單問題,這不是很瘋狂嗎?
QwQ-32-B-Preview 對一個簡單的算術問題過度思考(圖片來自 ArXiv 研究論文,標題為“不要為 2+3=想那么多?關于類似 o1 的 LLM 的過度思考')
研究人員試圖通過限制推理token預算來解決這個問題,但 LLM 通常無法遵守這一點。
在回答問題之前,還使用了額外的 LLM 根據(jù)問題的復雜性動態(tài)估計不同問題的代幣預算,但這進一步增加了響應延遲。
帶有估計和提示的代幣預算感知 LLM 推理 (TALE) 概述(圖片來自題為“‘Token-Budget-Aware LLM Reasoning”的 ArXiv 研究論文)
我們能否將所有這些見解結(jié)合起來,并以某種方式簡化它們以達到單一的方法?
草稿鏈“Chain-of-Draft” 提示的靈感
回到基礎,思維鏈 (CoT) 是一種非常了不起的提示方法,可以更好地進行 LLM 推理。
然而,它是冗長的,LLM 在得出答案之前會產(chǎn)生數(shù)千個推理Token。
這與人類的思考和推理方式大不相同。
我們通常不會用冗長的語言進行推理,而是在思考時記下最重要的中間點(草稿)。
這就是 Chain-of-Draft (CoD) Prompting 的靈感來源。
它只是要求模型逐步思考,并將每個推理步驟限制為最多五個單詞。
為了確保模型理解這一點,研究人員手動編寫了這種 Chain-of-Drafts 的 Few-shot 示例,并在提示中給出。
令人驚訝的是,這樣的限制并沒有以任何方式強制執(zhí)行,模型只是作為一般準則來提示。
這與標準的 few-shot prompting 形成鮮明對比,后者在提示中給出查詢-響應對,并要求模型直接返回最終答案,而無需任何推理或解釋。
這也不同于 Chain-of-Thought 提示,后者在提示的查詢-響應對中給出了中間推理步驟,并要求模型回答問題。
在下圖中,可以更好地理解這些方法之間的差異,其中要求 LLM 解決一個簡單的算術問題。
CoD 提示的效果如何?
為了評估 CoD 提示,GPT-4o 和 Claude 3.5 Sonnet 使用上述三種方法進行提示。
下圖顯示了每種提示方法為這些模型提供的系統(tǒng)提示。
標準、CoT 和 CoD 提示效果對比
CoD 在算術推理 GSM8K 數(shù)據(jù)集上實現(xiàn)了 91% 的準確率,同時使用的Token比 CoT 少 80%,減少了延遲而沒有任何重大的準確率損失(CoD 為 91.1%,而 GPT-4o 為 CoT 為 95.4%)。
不同提示技術的 GSM8K 評估結(jié)果
在對日期和體育理解的BIG-Bench任務進行常識推理測試后,CoD顯著減少了延遲和Token的使用量,同時與CoT具有相同/更高的準確性。
日期理解 BIG-Bench任務的評估結(jié)果
請注意,當與 Claude 3.5 Sonnet 一起用于體育理解任務時,CoD 表現(xiàn)非常令人印象深刻,直接將 CoT 提示的平均輸出token從 189.4 降低到 14.3(減少 92.4%)!
體育理解 BIG Bench任務的評估結(jié)果
最后,當對拋硬幣的符號推理任務(預測一系列拋硬幣后的最終硬幣狀態(tài))進行評估時,CoD 會產(chǎn)生 100% 的準確率,并且Token比其他方法少得多。
研究人員創(chuàng)建的 Coin-flipping 數(shù)據(jù)集中的問題示例
在研究人員創(chuàng)建的包含 250 個測試用例的定制數(shù)據(jù)集上進行硬幣翻轉(zhuǎn)評估
這些成績絕對是驚人的!
CoD 提示以最小的延遲實現(xiàn)驚人的高準確性,從而減少響應時間并有利于時間/計算關鍵型應用程序。
此類 CoD 數(shù)據(jù)還可用于訓練 LLM 更好地推理(基于 DeepSeek-R1 強化學習訓練方法),使其更快、更便宜、更高效、更具可擴展性。