全新CoD顛覆推理范式,準(zhǔn)確率接近但token消耗成倍降低
如今,OpenAI o1 和 DeepSeek R1 等推理模型的發(fā)展,顯著提升了思維鏈 (CoT) 之類的技術(shù)在大語言模型 (LLM) 推理任務(wù)上的表現(xiàn)。這種范式鼓勵模型將問題分解為逐步探索,模仿人類的結(jié)構(gòu)化推理過程。雖然這種方法有效,但它在推理時需要更多的計算資源,導(dǎo)致輸出冗長且延遲更高。
這種冗長與人類通常解決問題的方式形成了鮮明的對比:我們依靠簡潔的草稿或速記筆記來捕捉基本見解,而無需不必要的繁瑣。
受這種差異的啟發(fā),來自美國 Zoom 視頻通訊公司的研究團(tuán)隊提出了 Chain of Draft(CoD),這是一種新穎的提示策略,通過優(yōu)先考慮效率和極簡主義,更接近人類推理。
具體來講,CoD 鼓勵 LLM 在每個步驟生成簡潔、信息密集的輸出,而不是過度強(qiáng)調(diào)中間步驟。這種方法在不犧牲準(zhǔn)確性的情況下減少了延遲和計算成本,使 LLM 更適合效率至上的實際應(yīng)用。
- 論文標(biāo)題:Chain of Draft: Thinking Faster by Writing Less
- 論文地址:https://arxiv.org/pdf/2502.18600
針對大語言模型傳統(tǒng)推理范式中的效率瓶頸,該研究捕捉到了人類思維中「關(guān)鍵信息快照」的本質(zhì)特征,提出了 CoD。為了評估 CoD 的有效性,研究團(tuán)隊在數(shù)學(xué)推理、常識推理和符號推理等需要多步推理的基準(zhǔn)上進(jìn)行了實驗。
結(jié)果顯示,在符號推理任務(wù)中,CoD 的信息密度達(dá)到標(biāo)準(zhǔn) CoT 輸出的 14.7 倍,同時顯著減少了 token 的使用和延遲。
本文的研究貢獻(xiàn)包括:
- 設(shè)計稀疏的推理草稿,僅需 7.6% 的 token 量即可完成等效推理深度,開創(chuàng)了認(rèn)知啟發(fā)的模型壓縮新路徑;
- 端到端推理延遲壓縮與部署成本的降低,推理延遲從 0.9 秒壓縮至 0.7 秒,實現(xiàn)「降本增效」的雙重突破;
- 提出了新的大模型重構(gòu)推理架構(gòu),為金融高頻交易、自動駕駛決策等時延敏感型應(yīng)用提供了可行性驗證,標(biāo)志著 LLM 從實驗室模型向工業(yè)引擎的實質(zhì)性跨越。
方法概述
該研究創(chuàng)新性地提出了 CoD。CoD 提示將推理過程濃縮為最小的抽象表示。推理過程被提煉為一個簡潔的方程式,僅關(guān)注得出解決方案所需的基本數(shù)學(xué)運(yùn)算。通過抽象出不相關(guān)的上下文細(xì)節(jié),CoD 顯著減少了 token 數(shù)量,同時保持了透明度和正確性。
CoD 基于認(rèn)知科學(xué)中人類思維模式,其信息密度是傳統(tǒng) CoT 的 13.2 倍,在開發(fā)過程中,研究團(tuán)隊通過跨學(xué)科迭代:
- 首先基于思路鏈的結(jié)構(gòu)化提示,構(gòu)建端到端、簡化認(rèn)知等特征的思維稿;
- 繼而設(shè)計思維稿對大模型驅(qū)動推理賦能,在 Claude 3.5 Sonnet 上實現(xiàn)算術(shù)推理 token 消耗從 189.4 驟降至 14.3(節(jié)省 92.4%);
- 最終通過并行稀疏注意力框架(吞吐量 + 3.8 倍)和動態(tài)批處理技術(shù)(批次彈性擴(kuò)展 1-128)完成工業(yè)級優(yōu)化,實測端到端延遲從 3.1 秒壓縮至 1.6 秒(降幅 48.4%),為高頻金融交易等場景提供亞秒級(<0.5s)高效推理支持。
下圖展示了 CoT 與 CoD 提示的區(qū)別:
實驗結(jié)果
研究中較為全面、科學(xué)地評估其有效性和性能,設(shè)置了一系列嚴(yán)謹(jǐn)且針對性強(qiáng)的實驗:基準(zhǔn)測試實驗、效率驗證實驗和成本效益實驗。
- 基準(zhǔn)測試實驗選取了多個要求多步推理的基準(zhǔn)測試,涵蓋了數(shù)學(xué)推理、常識推理和符號推理等領(lǐng)域。
- 效率驗證實驗包括 token 消耗評估和推理延遲測試,其中 token 消耗評估包括精確測量 CoD 在各個基準(zhǔn)測試任務(wù)中所使用的 token 數(shù)量,并與 CoT 進(jìn)行對比;推理延遲測試通過 CoD 在不同任務(wù)中的端到端推理延遲,并與 CoT 進(jìn)行比較。
- 成本效益實驗基于 token 消耗和推理延遲等因素,計算 CoD 和 CoT 的單位推理成本。
推理試驗數(shù)據(jù)集考慮以下五個數(shù)學(xué)應(yīng)用題基準(zhǔn),(1) 數(shù)學(xué)應(yīng)用題的 GSM8K 數(shù)據(jù)集,(2) 結(jié)構(gòu)各異的數(shù)學(xué)應(yīng)用題的 SVAMP 數(shù)據(jù)集,(3) 各種數(shù)學(xué)應(yīng)用題的 ASDiv 數(shù)據(jù)集,(4) 代數(shù)應(yīng)用題的 AQuA 數(shù)據(jù)集,以及 (5) MAWPS 基準(zhǔn)。
研究中所提出的模型方法在 GSM8K 這一數(shù)學(xué)推理任務(wù)中,在 GPT-4o 下,CoD 的準(zhǔn)確率達(dá)到了 91.1%,CoT 的準(zhǔn)確率為 95.4%,CoT 的準(zhǔn)確率略高于 CoD。但 Token 消耗方面,CoD 僅需 14.3 個 Token,相比傳統(tǒng)模型的 161.2 個 Token。推理延遲也從傳統(tǒng)模型的 4.2 秒大幅壓縮至 1.0 秒,降低了 76.2%。
對于 Claude 3.5 Sonnet,CoD 和 CoT 的準(zhǔn)確率表現(xiàn)相近。在 Token 消耗方面,CoD 相較于 CoT 下降了 79.1%,推理速度提升至 1.6 秒,延遲降低了 48.4%。這表明 CoD 在保證較高準(zhǔn)確率的同時,極大地提升了推理效率,減少了計算資源的消耗。
對于常識推理任務(wù)(下表 2 日期理解),在 GPT-4o 下,CoD 的準(zhǔn)確率為 88.1%,低于 CoT 的 90.2%。Token 消耗上,CoD 為 30.2 個 Token,CoT 則達(dá)到 75.7 個 Token,節(jié)省了 60.1% 的 Token,時間也從 1.7 秒降低到 1.3 秒。
對于 Claude 3.5 Sonnet,CoD 的準(zhǔn)確率高達(dá) 89.7%,高于 CoT 的 87.0%,而 token 消耗相較于 CoT 下降了 82.0%,推理時間從 3.2 秒減少到 1.4 秒。CoD 在常識推理任務(wù)中同樣展現(xiàn)出高效性和準(zhǔn)確性,能夠更快速且精準(zhǔn)地處理常識性問題。
在原始 CoT 研究論文中提出的硬幣翻轉(zhuǎn)推理任務(wù)框架下,研究者要求大語言模型(LLM)根據(jù)一系列拋硬幣操作序列預(yù)測最終硬幣的正反面狀態(tài)。由于該研究的原始實驗數(shù)據(jù)集尚未開源,本研究嚴(yán)格遵循其方法論復(fù)現(xiàn)了包含 250 個測試樣本的基準(zhǔn)數(shù)據(jù)集。研究人員按照相同的設(shè)計合成了一個包含 250 個示例的測試集,基于 NameDataset 數(shù)據(jù)集,從美國地區(qū)排名前 1000 的名字中隨機(jī)選擇 4 個,并隨機(jī)決定是否對每個名字拋硬幣。評估數(shù)據(jù)的示例如下所示。
GPT-4o 和 Claude 3.5 Sonnet 的測試結(jié)果如表 4 所示。在標(biāo)準(zhǔn)提示方式下,這兩個模型的準(zhǔn)確率分別為 73.2% 和 85.2%。不過當(dāng)采用 CoT和 CoD提示策略時,兩個模型均達(dá)到了 100% 的完美準(zhǔn)確率。通過與 CoT 相比, CoD 顯著減少了 token 使用量,對于 GPT-4o 減少了 68%,對于 Claude 3.5 Sonnet 則減少了 86%。
更多實驗結(jié)果請參閱原論文。