草稿鏈代替思維鏈,推理token砍掉80%,顯著降低算力成本和延遲
推理token減少80%-90%,準(zhǔn)確率變化不大,某些任務(wù)還能增加。
Zoom團(tuán)隊(duì)提出思維鏈替代品“草稿鏈”,顯著降低延遲和算力成本。
原理很簡(jiǎn)單,要求模型為每個(gè)推理步驟生成簡(jiǎn)潔、信息密集的token。
這一思路受到人類解題過(guò)程啟發(fā),人類通常不會(huì)詳細(xì)闡述每一個(gè)細(xì)節(jié),只是簡(jiǎn)單幾下關(guān)鍵的中間結(jié)果,作為草稿來(lái)輔助思考。
此外,草稿鏈方法簡(jiǎn)單且易于實(shí)現(xiàn),不需要修改模型、微調(diào)或強(qiáng)化學(xué)習(xí),只需更新提示詞中的示例即可,相關(guān)代碼和數(shù)據(jù)已在GitHub上開源。
研究團(tuán)隊(duì)認(rèn)為,與另一種降低延遲和計(jì)算成本的方法“在連續(xù)潛空間推理”相比,草稿鏈保留了可解釋性,且可以應(yīng)用于閉源的黑盒模型。
第三方分析測(cè)算,對(duì)于每個(gè)月處理100萬(wàn)個(gè)推理請(qǐng)求的企業(yè), 可以將成本從思維鏈的3800美元降低到760美元,每月節(jié)省超過(guò)3000美元。
實(shí)驗(yàn)驗(yàn)證:準(zhǔn)確率不降,成本大幅降低
實(shí)驗(yàn)遵循原始思維鏈論文,評(píng)估3類任務(wù):算術(shù)推理、常識(shí)推理和符號(hào)推理。
算數(shù)推理任務(wù)選擇GSM8k數(shù)據(jù)集,從準(zhǔn)確率看,標(biāo)準(zhǔn)提示下GPT-4o和Claude 3.5 Sonnet的準(zhǔn)確率分別僅53.3%和64.6%,思維鏈?zhǔn)箖烧呔?5%,草稿鏈也達(dá)到91%左右。
在token使用上,思維鏈生成約200個(gè)token/響應(yīng),草稿鏈僅約40個(gè),減少約80%。
延遲方面,草稿鏈?zhǔn)笹PT-4o和Claude 3.5 Sonnet的平均延遲分別降低76.2%和48.4%。
常識(shí)推理選擇BIG-bench 的日期理解和運(yùn)動(dòng)理解任務(wù)也取得了相似的結(jié)果,特別值得注意的是Claude 3.5 Sonnet在草稿鏈下準(zhǔn)確率還有所上升。
符號(hào)推理選擇拋硬幣任務(wù),由于原數(shù)據(jù)集未公開,作者合成了250個(gè)示例的測(cè)試集。
草稿鏈在保持100%準(zhǔn)確率的情況下大幅減少了推理token和延遲。
但草稿鏈方法也有一定的局限性:在零樣本設(shè)置下有效性會(huì)顯著下降。
此外,在參數(shù)量小于30億的小模型上,雖然草稿鏈仍能有效減少每個(gè)回答所需的token數(shù)并提高準(zhǔn)確率,但與思維鏈相比,性能差距更大。
研究團(tuán)隊(duì)推測(cè),可能是由于訓(xùn)練數(shù)據(jù)中缺乏草稿鏈風(fēng)格的推理模式,在不提供few-shot樣本指導(dǎo)的情況下,很難生成簡(jiǎn)潔而有幫助的”草稿”。