自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

擊敗思維鏈（CoT），草稿鏈（CoD）稱王！推理成本降低近94%，低時延，準確率更高！

原創(chuàng) 精選

作者：言征 2025-03-24 13:45:56

推理 LLM 是當今 AI 研究中的熱門話題。我們從?GPT-1?開始，一直到像?Grok-3?這樣的高級推理器。這段旅程非常了不起，一路上發(fā)現(xiàn)了一些非常重要的推理方法。其中之一是思維鏈（CoT）提示（Few-shot?和?Zero-shot），導致了我們今天看到的大部分?LLM 推理革命。

編輯 | 言征

作者 | Ashish Bamania

出品 | 51CTO技術棧（微信號：blog51cto）

推理 LLM 是當今 AI 研究中的熱門話題。我們從 GPT-1 開始，一直到像 Grok-3 這樣的高級推理器。這段旅程非常了不起，一路上發(fā)現(xiàn)了一些非常重要的推理方法。其中之一是思維鏈（CoT）提示（Few-shot 和 Zero-shot），導致了我們今天看到的大部分 LLM 推理革命。

令人興奮的是，Zoom Communications 的研究人員現(xiàn)在發(fā)布了一種更好的技術。

這種技術稱為 Chain-of-Draft （CoD） Prompting，在準確性上優(yōu)于 CoT Prompting，在回答查詢時僅使用所有推理Token的 7.6%。

使用直接答案（Standard）、思維鏈（CoT）和草稿鏈（CoD）提示 Claude 3.5 Sonnet時的準確性和標記使用比較，以解決不同推理領域的任務

這對于推理目前非常冗長、需要大量計算時間且具有高延遲的 LLM 來說是一個巨大的勝利，這是許多實際時間關鍵型應用程序中的瓶頸。

接下來，我們深入探討了草稿鏈（CoD）提示的工作原理，以及如何使用它來使您的 LLM 比以往任何時候都更加準確和Token效率。

提示研究員如何發(fā)現(xiàn)大模型的新方法的？

首先，讓我們談談提示研究人員不斷在 LLM 中發(fā)現(xiàn)新的方法。

Transformers 將我們帶到了生成式預訓練 Transformers 或 GPT，我們很快發(fā)現(xiàn)將其擴展到 GPT-2（15 億個參數(shù)）使其充當無監(jiān)督的多任務學習器（在沒有監(jiān)督學習/微調(diào)任務特定數(shù)據(jù)集的情況下執(zhí)行多項任務）。

隨著進一步擴展到 GPT-3（1750 億個參數(shù)），發(fā)現(xiàn)該模型可以快速適應并在新任務上表現(xiàn)良好，只需在輸入提示中提供幾個示例（Few-shot Prompting）。

然后發(fā)現(xiàn)，將解決問題分解為中間推理步驟并促使大型語言模型（LLM）生成這些步驟，可以在算術、常識和符號推理任務中實現(xiàn)最先進的性能。

這種方法稱為思維鏈（CoT）提示。

標準和思維鏈提示的示例（圖片來自 ArXiv 研究論文，標題為“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”）

在 CoT 之后，很快發(fā)現(xiàn) LLM 是zero-shot推理器。

與原始的 CoT 提示方法一樣，他們不需要使用小樣本推理示例來提示他們以獲得更好的性能。

只需在提示中添加短語“Let's think step by step”就可以讓他們在解決問題時逐步推理。

這種方法稱為 Zero-shot Chain of Thought Prompting。

標準 Zero-shot 和 Few-shot 提示、原始 CoT 提示（顯示為“（b） Few-shot-CoT”）和 Zero-shot CoT 提示之間的比較（圖片來自題為‘Large Language Models are Zero-Shot Reasoners’)

研究人員隨后意識到，鏈式推理和對答案的貪婪解碼是不夠的。

復雜的推理任務可能有多個推理路徑可以得出正確的答案，如果多條路徑導致相同的答案，我們可以確信最終答案是正確的。

這導致了一種稱為 Self-Consistency 的新解碼策略，該策略對模型進行采樣以生成多個推理路徑，并從中選擇最一致的答案。

CoT 提示中的貪心解碼與自洽性（圖片來自 ArXiv 研究論文，標題為“Self-Consistency Improves Chain of Thought Reasoning in Language Models”）

各種思維架構的提出

遵循這種在解決問題時考慮多種推理路徑的方法，引入了 Tree-of-Thoughts (ToT) 框架，它使用樹狀思維過程探索解決方案空間。

Tree-of-Thought 框架（圖片來自 ArXiv 研究論文，標題為“Large Language Model Guided Tree-of-Thought”）

它使用稱為 “Thoughts” 的語言序列作為解決問題的中間步驟。這些是在需要時使用具有 lookahead 和 backtracking 的搜索算法進行評估和探索的。

各種推理方法的比較（圖片來自 ArXiv 研究論文，標題為“‘Tree of Thoughts: Deliberate Problem Solving with Large Language Models’”）

Tree 架構被 Graph 取代，從而產(chǎn)生了 Graph-of-Thoughts 框架，可以更好地對解決方案空間進行建模。

CoD與其他推理方法的比較（圖片來自 ArXiv 研究論文，標題為“Graph of Thoughts: Solving Elaborate Problems with Large Language Models”）

但這還不是全部！

提示并不是幫助 LLM 更好地推理的唯一方法，還有很多其他技術，在下面這篇論文中還有很多新方法的提出。

但是延遲呢？

探索推理空間是一項計算成本高昂的任務，會增加響應延遲。

引入了一種稱為 Skeleton-of-Thought （SoT）的減少延遲的解決方法，它首先指導 LLM 生成答案的框架/大綱。

然后，它進行并行 API 調(diào)用/批量解碼，以并行完成每個骨架點的內(nèi)容。

Skeleton-of-Thought （SoT）與標準解碼的比較概述（圖片來自題為“Skeleton-of-Thought：Prompting LLMs for Efficient Parallel Generation”的 ArXiv 研究論文）

推理模型還可能過度思考簡單的問題，生成不必要的推理Token，從而導致查詢到響應時間過長。

在問題 “2 加 3 的答案是什么？（圖片來自 ArXiv 研究論文，標題為“Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs’

QwQ-32-B-Preview 模型如何解決這個加 2 和 3 的簡單問題，這不是很瘋狂嗎？

QwQ-32-B-Preview 對一個簡單的算術問題過度思考（圖片來自 ArXiv 研究論文，標題為“不要為 2+3=想那么多？關于類似 o1 的 LLM 的過度思考'）

研究人員試圖通過限制推理token預算來解決這個問題，但 LLM 通常無法遵守這一點。

在回答問題之前，還使用了額外的 LLM 根據(jù)問題的復雜性動態(tài)估計不同問題的代幣預算，但這進一步增加了響應延遲。

帶有估計和提示的代幣預算感知 LLM 推理（TALE）概述（圖片來自題為“‘Token-Budget-Aware LLM Reasoning”的 ArXiv 研究論文）

我們能否將所有這些見解結(jié)合起來，并以某種方式簡化它們以達到單一的方法？

草稿鏈“Chain-of-Draft” 提示的靈感

回到基礎，思維鏈（CoT）是一種非常了不起的提示方法，可以更好地進行 LLM 推理。

然而，它是冗長的，LLM 在得出答案之前會產(chǎn)生數(shù)千個推理Token。

這與人類的思考和推理方式大不相同。

我們通常不會用冗長的語言進行推理，而是在思考時記下最重要的中間點（草稿）。

這就是 Chain-of-Draft （CoD） Prompting 的靈感來源。

它只是要求模型逐步思考，并將每個推理步驟限制為最多五個單詞。

為了確保模型理解這一點，研究人員手動編寫了這種 Chain-of-Drafts 的 Few-shot 示例，并在提示中給出。

令人驚訝的是，這樣的限制并沒有以任何方式強制執(zhí)行，模型只是作為一般準則來提示。

這與標準的 few-shot prompting 形成鮮明對比，后者在提示中給出查詢-響應對，并要求模型直接返回最終答案，而無需任何推理或解釋。

這也不同于 Chain-of-Thought 提示，后者在提示的查詢-響應對中給出了中間推理步驟，并要求模型回答問題。

在下圖中，可以更好地理解這些方法之間的差異，其中要求 LLM 解決一個簡單的算術問題。

CoD 提示的效果如何？

為了評估 CoD 提示，GPT-4o 和 Claude 3.5 Sonnet 使用上述三種方法進行提示。

下圖顯示了每種提示方法為這些模型提供的系統(tǒng)提示。

標準、CoT 和 CoD 提示效果對比

CoD 在算術推理 GSM8K 數(shù)據(jù)集上實現(xiàn)了 91% 的準確率，同時使用的Token比 CoT 少 80%，減少了延遲而沒有任何重大的準確率損失（CoD 為 91.1%，而 GPT-4o 為 CoT 為 95.4%）。

不同提示技術的 GSM8K 評估結(jié)果

在對日期和體育理解的BIG-Bench任務進行常識推理測試后，CoD顯著減少了延遲和Token的使用量，同時與CoT具有相同/更高的準確性。

日期理解 BIG-Bench任務的評估結(jié)果

請注意，當與 Claude 3.5 Sonnet 一起用于體育理解任務時，CoD 表現(xiàn)非常令人印象深刻，直接將 CoT 提示的平均輸出token從 189.4 降低到 14.3（減少 92.4%）！

體育理解 BIG Bench任務的評估結(jié)果

最后，當對拋硬幣的符號推理任務（預測一系列拋硬幣后的最終硬幣狀態(tài)）進行評估時，CoD 會產(chǎn)生 100% 的準確率，并且Token比其他方法少得多。

研究人員創(chuàng)建的 Coin-flipping 數(shù)據(jù)集中的問題示例

在研究人員創(chuàng)建的包含 250 個測試用例的定制數(shù)據(jù)集上進行硬幣翻轉(zhuǎn)評估

這些成績絕對是驚人的！

CoD 提示以最小的延遲實現(xiàn)驚人的高準確性，從而減少響應時間并有利于時間/計算關鍵型應用程序。

此類 CoD 數(shù)據(jù)還可用于訓練 LLM 更好地推理（基于 DeepSeek-R1 強化學習訓練方法），使其更快、更便宜、更高效、更具可擴展性。

想了解更多AIGC的內(nèi)容，請訪問：

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責任編輯：武曉燕來源： 51CTO技術棧

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="6qg1z"><track id="6qg1z"></track></legend>