AI話癆終結(jié)者!UCSD清華提出「思維掃描術(shù)」Dynasor-CoT,推理巨省token
這段時間,諸如DeepSeek-R1和OpenAI o1/o3這類的CoT推理模型,在復(fù)雜任務(wù)上展現(xiàn)出了驚人的性能。
然而,與早期模型相比,它們的token效率卻非常之低。即,需要消耗更多的token才能達(dá)到相同的準(zhǔn)確率。
下圖展示了傳統(tǒng)模型的token效率曲線比推理模型陡峭得多。
最近,來自加州大學(xué)圣地亞哥分校、清華等機(jī)構(gòu)的研究人員揪出了罪魁禍?zhǔn)住缸晕覒岩伞埂?/span>
論文地址:https://arxiv.org/abs/2412.20993
項(xiàng)目主頁:https://hao-ai-lab.github.io/blogs/dynasor-cot/
代碼地址:https://github.com/hao-ai-lab/Dynasor
Demo:https://hao-ai-lab.github.io/demo/dynasor-cot
換句話說就是,模型明明早就算出正確答案,卻要反復(fù)驗(yàn)算糾結(jié),白白耗費(fèi)海量計(jì)算資源!
以一個簡單問題 (1+2i)*6-3i測試為例:傳統(tǒng)Qwen-7B用180個token輕松解題,而升級后的Deepseek版Qwen-7B雖在第340個token就得出正確答案,卻硬生生續(xù)寫1000+token反復(fù)驗(yàn)證!
這種「學(xué)霸強(qiáng)迫癥」,讓DeepSeek等頂尖模型浪費(fèi)了高達(dá)70%的算力!
為了解決模型的「自我懷疑」問題,研究團(tuán)隊(duì)提出了Dynasor-CoT,一種無需訓(xùn)練、侵入性最小且簡單的方法,用于長鏈?zhǔn)酵评恚–oT)。
這種方法結(jié)合了基于確定性的啟發(fā)式方法與「思維CT掃描術(shù)」技術(shù),以動態(tài)確定(推理鏈的)終止點(diǎn)。在保持準(zhǔn)確性的同時有效地截斷推理鏈。
實(shí)現(xiàn)了高達(dá)29%的token減少,同時不影響準(zhǔn)確性,也不會給關(guān)鍵推理路徑帶來額外的延遲。
目前,團(tuán)隊(duì)已將這款「AI話癆終結(jié)者」系統(tǒng)全面開源,快來看看你的AI能省多少token吧!
值得一提的是,本文的作者組USCD張昊實(shí)驗(yàn)室還曾經(jīng)推出過諸多知名研究項(xiàng)目,包括如今風(fēng)靡全球的大模型競技場(LLM Arena、vLLM,Prefill-decode分離式服務(wù)架構(gòu)等。
AI「思維CT掃描術(shù)」
為了系統(tǒng)地研究這個現(xiàn)象,研究人員開發(fā)了一種「思維CT掃描術(shù)」(Probe-In-The-Middle)。
通過在模型推理過程中插入特定提示(比如「??!我悟了,答案是:」),來提取模型某一個中間思考節(jié)點(diǎn)的答案,從而確定到底模型最早在什么時候得到了正確答案。
就像考試時監(jiān)考老師突然抽走草稿紙,逼迫AI提前交卷!
下圖展示了不使用和使用「思維CT掃描術(shù)」兩種方式的準(zhǔn)確率對比分析。左邊采用標(biāo)準(zhǔn)推理。右邊使用「思維CT掃描術(shù)」技術(shù)提取早期答案,可以看出在50%的token減少下具有等效的準(zhǔn)確性。
在相同的token預(yù)算下,綠色區(qū)域越早出現(xiàn)表示正確答案到達(dá)得越早——明顯更綠的右側(cè)面板表明模型實(shí)際上知道答案的時間比標(biāo)準(zhǔn)推理中顯示的要早得多。
以AMC23數(shù)據(jù)集為例,推理模型通常在早期就得到了正確答案(中位數(shù):830個token),但由于「自我懷疑」會繼續(xù)生成不必要的token(中位數(shù):2.7K個token)。
這種自我懷疑現(xiàn)象嚴(yán)重影響了token效率,因?yàn)槟P图词箖?nèi)心已經(jīng)對答案有一定把握,還是會繼續(xù)推理。
基于信心值的早停策略,巧妙減少token消耗!
想象一下,我們給AI裝了一個智能「話癆終結(jié)者」。每當(dāng)AI說了一定數(shù)量的話(比如64個token),「思維CT掃描術(shù)」(probe-in-the-middle)就會悄悄啟動:
- 首先,像醫(yī)生做CT掃描一樣,給AI的思維來個「斷層掃描」,提取它當(dāng)前的答案。
- 有趣的是,AI完全不知道自己被「掃描」了!它會繼續(xù)自顧自地推理,繼續(xù)寫解題步驟。
- 如果AI連續(xù)N次的「CT掃描」結(jié)果都顯示同一個答案,系統(tǒng)就會判定AI非常自信,并果斷按下停止鍵。堅(jiān)定地告訴這位同學(xué):「你已經(jīng)答對了,不用再證明了!」
Dynasor-CoT通過三種關(guān)鍵機(jī)制提高長CoT LLM推理中的token效率:提取答案、確定性評估和生成后驗(yàn)證。
下圖展示了Dynasor-CoT方法。如果模型回答比較確定則退出(案例 1),遇到有猶豫含義的詞匯(例如,等等)則繼續(xù)生成(案例 3),如果模型推理不足夠確定也繼續(xù)生成(案例 2)。
中間探針
研究人員在模型生成過程中引入了名為「中間探針」(probe-in-the-middle)的戰(zhàn)略干預(yù)。
他們在模型推理的中間階段添加精心設(shè)計(jì)的引導(dǎo),以明確地提取出模型當(dāng)前的答案。
這種方法利用了他們的觀察,即推理LLM通常在完成其完整的推理鏈之前就能達(dá)到正確答案。
當(dāng)LLM已經(jīng)在其內(nèi)部得出結(jié)論時,這種早期提取技術(shù)顯著降低了計(jì)算成本。
通過答案一致性進(jìn)行確定性評估
研究人員實(shí)現(xiàn)了一種動態(tài)確定性評估機(jī)制,該機(jī)制定期(例如每32、64或128個標(biāo)記)監(jiān)控模型的輸出。
在每個間隔內(nèi),探測模型以提取和存儲當(dāng)前答案,然后允許LLM繼續(xù)其生成。重要的是,后續(xù)的生成不受探測標(biāo)記的影響,從而實(shí)現(xiàn)答案提取和原始生成的并行執(zhí)行。
當(dāng)模型在多個間隔內(nèi)產(chǎn)生一致的答案時,將其模式解釋為確定性的指標(biāo),遵循certaindex方法Dynasor。這種方法為模型的確定性提供了定量度量。
AI的微表情識別術(shù):揪出不自信的時刻!
研究人員發(fā)現(xiàn),AI也有自己的「微表情」!通過仔細(xì)觀察AI的語言習(xí)慣,他們找到了判斷AI是否自信的妙招:
- 當(dāng)AI說出「等等」、「嗯...」這樣的詞時,就像人類皺眉思考或撓頭的動作,說明它對自己的答案并不太有把握。
- 這時候,即使「思維CT掃描」得到了答案,我們也要對它保持警惕,不能輕易相信一個支支吾吾的回答。
- 這種語言習(xí)慣分析,就像是給AI裝了一個「情緒探測器」,能夠精準(zhǔn)捕捉到它的不自信時刻!
總的說來,這種方法利用了模型在中間階段得出結(jié)論的能力,也保持了針對過早或不確定響應(yīng)的強(qiáng)大保障措施。
Certaindex:一個更野心勃勃的目標(biāo)!
這套基于信心值的策略遠(yuǎn)不止于此,它還有更廣闊的應(yīng)用前景:
- 它可以推廣到各種高級推理算法中,比如自洽性檢驗(yàn)(self-consistency)、蒙特卡洛樹搜索(MCTS)等。
- 就像一個通用的「自信度測量儀」,能夠適應(yīng)不同的思維方式。
- 不管AI用什么方法思考,這個系統(tǒng)都能準(zhǔn)確判斷:「嗯,這個答案它是真的有把握?!?/span>
通過這種方式,研究人員不僅讓AI變得更高效,還讓它的思維過程變得更透明、更可控。并且,還能知道什么時候該停下來,而不是無休止地解釋、驗(yàn)證。
最重要的是,這個方法不需要重新訓(xùn)練模型,可以直接應(yīng)用到現(xiàn)有的AI系統(tǒng)中,堪稱即插即用的效率神器!
Dynasor:大模型推理的「調(diào)度大師」
簡單說,Dynasor就像是大模型推理任務(wù)的「智能調(diào)度系統(tǒng)」:
1. 智能資源分配
- 基于Certaindex(信心值系統(tǒng))動態(tài)分配計(jì)算資源
- 像調(diào)度員一樣安排每個推理任務(wù)的優(yōu)先級和資源
2. 結(jié)構(gòu)化管理
- 把復(fù)雜推理任務(wù)變成結(jié)構(gòu)化的程序
- 在應(yīng)用層和系統(tǒng)層實(shí)現(xiàn)高效調(diào)度
- 通過緩存優(yōu)化提升性能
總之,它就是讓AI推理既快又準(zhǔn)的效率神器!就像給大模型裝了個智能管家,讓推理過程更加高效有序。
下圖展示了該架構(gòu)通過本地應(yīng)用程序組件與服務(wù)器端系統(tǒng)管理之間的相互作用,實(shí)現(xiàn)了高效的資源分配。
實(shí)驗(yàn)結(jié)果:大幅提升推理效率!
研究團(tuán)隊(duì)在多個數(shù)學(xué)推理數(shù)據(jù)集(AIME24、AMC23和MATH500)上測試了這套系統(tǒng),使用了不同規(guī)模的DeepSeek模型(7B、14B和32B)。
下圖評估了不同的探測間隔(如32、64等),這些間隔通過不同顏色的線條表示,并且最大token預(yù)算為16K。
對于每個間隔,研究人員調(diào)整了早期終止參數(shù)N(所需的連續(xù)一致答案的數(shù)量),從而生成每條線上的不同點(diǎn)。所有配置都實(shí)現(xiàn)了顯著的token節(jié)省,在保持與基準(zhǔn)模型相當(dāng)?shù)臏?zhǔn)確度的同時,將token使用量減少了最多29%。
為了公平比較,適當(dāng)?shù)臏?zhǔn)確度閾值已根據(jù)模型規(guī)模進(jìn)行校準(zhǔn)——對于32B模型,使用嚴(yán)格的閾值標(biāo)準(zhǔn),而對于較小的模型,則使用較低的閾值,同時在較簡單的任務(wù)中設(shè)置更高的目標(biāo),以便達(dá)到更高的準(zhǔn)確度。
對于該方法在token減少方面表現(xiàn)最好的10%問題,研究人員觀察到AIME節(jié)省了34%的token,MATH500節(jié)省了53%。
在最優(yōu)的1%問題中效果更加顯著——AIME節(jié)省了53%,MATH500節(jié)省了高達(dá)81%!
這種表現(xiàn)顯示了這種動態(tài)方法相對于固定token預(yù)算的優(yōu)勢,因?yàn)椴煌瑔栴}在達(dá)到解決方案時對token的需求有所不同。
為了驗(yàn)證可擴(kuò)展性,研究人員將實(shí)驗(yàn)擴(kuò)展到更大的DeepSeek-R1模型。
下圖顯示了Dynasor-CoT在DeepSeek-R1上和較小蒸餾模型上表現(xiàn)一致,實(shí)現(xiàn)持續(xù)的效率提升:DeepSeek-R1在AIME問題上實(shí)現(xiàn)了12%的token節(jié)省,在AMC問題上實(shí)現(xiàn)了24%,同時保持了基線準(zhǔn)確率水平。