自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI話癆終結(jié)者!UCSD清華提出「思維掃描術(shù)」Dynasor-CoT,推理巨省token

人工智能 新聞
推理模型在復(fù)雜任務(wù)上表現(xiàn)驚艷,缺點(diǎn)是低下的token效率。UCSD 清華等機(jī)構(gòu)的研究人員發(fā)現(xiàn),問題根源在于模型的「自我懷疑」!研究團(tuán)隊(duì)提出了Dynasor-CoT,一種無需訓(xùn)練、侵入性小且簡單的方法。實(shí)驗(yàn)證明,Dynasor-CoT在保持準(zhǔn)確性的同時,能減少高達(dá)29%的token消耗,且不增加推理延遲。

這段時間,諸如DeepSeek-R1和OpenAI o1/o3這類的CoT推理模型,在復(fù)雜任務(wù)上展現(xiàn)出了驚人的性能。

然而,與早期模型相比,它們的token效率卻非常之低。即,需要消耗更多的token才能達(dá)到相同的準(zhǔn)確率。

下圖展示了傳統(tǒng)模型的token效率曲線比推理模型陡峭得多。

圖片

最近,來自加州大學(xué)圣地亞哥分校、清華等機(jī)構(gòu)的研究人員揪出了罪魁禍?zhǔn)住缸晕覒岩伞埂?/span>

圖片

論文地址:https://arxiv.org/abs/2412.20993

項(xiàng)目主頁:https://hao-ai-lab.github.io/blogs/dynasor-cot/

代碼地址:https://github.com/hao-ai-lab/Dynasor

Demo:https://hao-ai-lab.github.io/demo/dynasor-cot

換句話說就是,模型明明早就算出正確答案,卻要反復(fù)驗(yàn)算糾結(jié),白白耗費(fèi)海量計(jì)算資源!

以一個簡單問題 (1+2i)*6-3i測試為例:傳統(tǒng)Qwen-7B用180個token輕松解題,而升級后的Deepseek版Qwen-7B雖在第340個token就得出正確答案,卻硬生生續(xù)寫1000+token反復(fù)驗(yàn)證!

這種「學(xué)霸強(qiáng)迫癥」,讓DeepSeek等頂尖模型浪費(fèi)了高達(dá)70%的算力!

圖片

為了解決模型的「自我懷疑」問題,研究團(tuán)隊(duì)提出了Dynasor-CoT,一種無需訓(xùn)練、侵入性最小且簡單的方法,用于長鏈?zhǔn)酵评恚–oT)。

這種方法結(jié)合了基于確定性的啟發(fā)式方法與「思維CT掃描術(shù)」技術(shù),以動態(tài)確定(推理鏈的)終止點(diǎn)。在保持準(zhǔn)確性的同時有效地截斷推理鏈。

實(shí)現(xiàn)了高達(dá)29%的token減少,同時不影響準(zhǔn)確性,也不會給關(guān)鍵推理路徑帶來額外的延遲。

目前,團(tuán)隊(duì)已將這款「AI話癆終結(jié)者」系統(tǒng)全面開源,快來看看你的AI能省多少token吧!

值得一提的是,本文的作者組USCD張昊實(shí)驗(yàn)室還曾經(jīng)推出過諸多知名研究項(xiàng)目,包括如今風(fēng)靡全球的大模型競技場(LLM Arena、vLLM,Prefill-decode分離式服務(wù)架構(gòu)等。

AI「思維CT掃描術(shù)」

為了系統(tǒng)地研究這個現(xiàn)象,研究人員開發(fā)了一種「思維CT掃描術(shù)」(Probe-In-The-Middle)。

通過在模型推理過程中插入特定提示(比如「??!我悟了,答案是:」),來提取模型某一個中間思考節(jié)點(diǎn)的答案,從而確定到底模型最早在什么時候得到了正確答案。

就像考試時監(jiān)考老師突然抽走草稿紙,逼迫AI提前交卷!

下圖展示了不使用和使用「思維CT掃描術(shù)」兩種方式的準(zhǔn)確率對比分析。左邊采用標(biāo)準(zhǔn)推理。右邊使用「思維CT掃描術(shù)」技術(shù)提取早期答案,可以看出在50%的token減少下具有等效的準(zhǔn)確性。

在相同的token預(yù)算下,綠色區(qū)域越早出現(xiàn)表示正確答案到達(dá)得越早——明顯更綠的右側(cè)面板表明模型實(shí)際上知道答案的時間比標(biāo)準(zhǔn)推理中顯示的要早得多。

圖片

以AMC23數(shù)據(jù)集為例,推理模型通常在早期就得到了正確答案(中位數(shù):830個token),但由于「自我懷疑」會繼續(xù)生成不必要的token(中位數(shù):2.7K個token)。

這種自我懷疑現(xiàn)象嚴(yán)重影響了token效率,因?yàn)槟P图词箖?nèi)心已經(jīng)對答案有一定把握,還是會繼續(xù)推理。

基于信心值的早停策略,巧妙減少token消耗!

想象一下,我們給AI裝了一個智能「話癆終結(jié)者」。每當(dāng)AI說了一定數(shù)量的話(比如64個token),「思維CT掃描術(shù)」(probe-in-the-middle)就會悄悄啟動:

  1. 首先,像醫(yī)生做CT掃描一樣,給AI的思維來個「斷層掃描」,提取它當(dāng)前的答案。
  2. 有趣的是,AI完全不知道自己被「掃描」了!它會繼續(xù)自顧自地推理,繼續(xù)寫解題步驟。
  3. 如果AI連續(xù)N次的「CT掃描」結(jié)果都顯示同一個答案,系統(tǒng)就會判定AI非常自信,并果斷按下停止鍵。堅(jiān)定地告訴這位同學(xué):「你已經(jīng)答對了,不用再證明了!」

Dynasor-CoT通過三種關(guān)鍵機(jī)制提高長CoT LLM推理中的token效率:提取答案、確定性評估和生成后驗(yàn)證。

下圖展示了Dynasor-CoT方法。如果模型回答比較確定則退出(案例 1),遇到有猶豫含義的詞匯(例如,等等)則繼續(xù)生成(案例 3),如果模型推理不足夠確定也繼續(xù)生成(案例 2)。

圖片

中間探針

研究人員在模型生成過程中引入了名為「中間探針」(probe-in-the-middle)的戰(zhàn)略干預(yù)。

他們在模型推理的中間階段添加精心設(shè)計(jì)的引導(dǎo),以明確地提取出模型當(dāng)前的答案。

這種方法利用了他們的觀察,即推理LLM通常在完成其完整的推理鏈之前就能達(dá)到正確答案。

當(dāng)LLM已經(jīng)在其內(nèi)部得出結(jié)論時,這種早期提取技術(shù)顯著降低了計(jì)算成本。

通過答案一致性進(jìn)行確定性評估

研究人員實(shí)現(xiàn)了一種動態(tài)確定性評估機(jī)制,該機(jī)制定期(例如每32、64或128個標(biāo)記)監(jiān)控模型的輸出。

在每個間隔內(nèi),探測模型以提取和存儲當(dāng)前答案,然后允許LLM繼續(xù)其生成。重要的是,后續(xù)的生成不受探測標(biāo)記的影響,從而實(shí)現(xiàn)答案提取和原始生成的并行執(zhí)行。

當(dāng)模型在多個間隔內(nèi)產(chǎn)生一致的答案時,將其模式解釋為確定性的指標(biāo),遵循certaindex方法Dynasor。這種方法為模型的確定性提供了定量度量。

AI的微表情識別術(shù):揪出不自信的時刻!

研究人員發(fā)現(xiàn),AI也有自己的「微表情」!通過仔細(xì)觀察AI的語言習(xí)慣,他們找到了判斷AI是否自信的妙招:

  • 當(dāng)AI說出「等等」、「嗯...」這樣的詞時,就像人類皺眉思考或撓頭的動作,說明它對自己的答案并不太有把握。
  • 這時候,即使「思維CT掃描」得到了答案,我們也要對它保持警惕,不能輕易相信一個支支吾吾的回答。
  • 這種語言習(xí)慣分析,就像是給AI裝了一個「情緒探測器」,能夠精準(zhǔn)捕捉到它的不自信時刻!

總的說來,這種方法利用了模型在中間階段得出結(jié)論的能力,也保持了針對過早或不確定響應(yīng)的強(qiáng)大保障措施。

Certaindex:一個更野心勃勃的目標(biāo)!

這套基于信心值的策略遠(yuǎn)不止于此,它還有更廣闊的應(yīng)用前景:

  • 它可以推廣到各種高級推理算法中,比如自洽性檢驗(yàn)(self-consistency)、蒙特卡洛樹搜索(MCTS)等。
  • 就像一個通用的「自信度測量儀」,能夠適應(yīng)不同的思維方式。
  • 不管AI用什么方法思考,這個系統(tǒng)都能準(zhǔn)確判斷:「嗯,這個答案它是真的有把握?!?/span>

通過這種方式,研究人員不僅讓AI變得更高效,還讓它的思維過程變得更透明、更可控。并且,還能知道什么時候該停下來,而不是無休止地解釋、驗(yàn)證。

最重要的是,這個方法不需要重新訓(xùn)練模型,可以直接應(yīng)用到現(xiàn)有的AI系統(tǒng)中,堪稱即插即用的效率神器!

Dynasor:大模型推理的「調(diào)度大師」

簡單說,Dynasor就像是大模型推理任務(wù)的「智能調(diào)度系統(tǒng)」:

1. 智能資源分配

  • 基于Certaindex(信心值系統(tǒng))動態(tài)分配計(jì)算資源
  • 像調(diào)度員一樣安排每個推理任務(wù)的優(yōu)先級和資源

2. 結(jié)構(gòu)化管理

  • 把復(fù)雜推理任務(wù)變成結(jié)構(gòu)化的程序
  • 在應(yīng)用層和系統(tǒng)層實(shí)現(xiàn)高效調(diào)度
  • 通過緩存優(yōu)化提升性能

總之,它就是讓AI推理既快又準(zhǔn)的效率神器!就像給大模型裝了個智能管家,讓推理過程更加高效有序。

下圖展示了該架構(gòu)通過本地應(yīng)用程序組件與服務(wù)器端系統(tǒng)管理之間的相互作用,實(shí)現(xiàn)了高效的資源分配。

圖片

實(shí)驗(yàn)結(jié)果:大幅提升推理效率!

研究團(tuán)隊(duì)在多個數(shù)學(xué)推理數(shù)據(jù)集(AIME24、AMC23和MATH500)上測試了這套系統(tǒng),使用了不同規(guī)模的DeepSeek模型(7B、14B和32B)。

下圖評估了不同的探測間隔(如32、64等),這些間隔通過不同顏色的線條表示,并且最大token預(yù)算為16K。

對于每個間隔,研究人員調(diào)整了早期終止參數(shù)N(所需的連續(xù)一致答案的數(shù)量),從而生成每條線上的不同點(diǎn)。所有配置都實(shí)現(xiàn)了顯著的token節(jié)省,在保持與基準(zhǔn)模型相當(dāng)?shù)臏?zhǔn)確度的同時,將token使用量減少了最多29%。

為了公平比較,適當(dāng)?shù)臏?zhǔn)確度閾值已根據(jù)模型規(guī)模進(jìn)行校準(zhǔn)——對于32B模型,使用嚴(yán)格的閾值標(biāo)準(zhǔn),而對于較小的模型,則使用較低的閾值,同時在較簡單的任務(wù)中設(shè)置更高的目標(biāo),以便達(dá)到更高的準(zhǔn)確度。

圖片

對于該方法在token減少方面表現(xiàn)最好的10%問題,研究人員觀察到AIME節(jié)省了34%的token,MATH500節(jié)省了53%。

在最優(yōu)的1%問題中效果更加顯著——AIME節(jié)省了53%,MATH500節(jié)省了高達(dá)81%!

這種表現(xiàn)顯示了這種動態(tài)方法相對于固定token預(yù)算的優(yōu)勢,因?yàn)椴煌瑔栴}在達(dá)到解決方案時對token的需求有所不同。

為了驗(yàn)證可擴(kuò)展性,研究人員將實(shí)驗(yàn)擴(kuò)展到更大的DeepSeek-R1模型。

下圖顯示了Dynasor-CoT在DeepSeek-R1上和較小蒸餾模型上表現(xiàn)一致,實(shí)現(xiàn)持續(xù)的效率提升:DeepSeek-R1在AIME問題上實(shí)現(xiàn)了12%的token節(jié)省,在AMC問題上實(shí)現(xiàn)了24%,同時保持了基線準(zhǔn)確率水平。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-08-07 10:19:00

2012-09-10 09:28:51

2018-05-06 16:52:51

2011-09-06 14:36:34

觸摸菜單ipad應(yīng)用電子點(diǎn)菜

2013-11-15 10:15:55

HA系統(tǒng)張振倫HypervisorH

2017-11-13 09:00:44

寬帶服務(wù)DDoS

2013-12-30 10:37:59

2014-08-29 16:43:58

GitHubLinux

2015-12-09 10:41:51

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2009-08-04 21:46:53

IBM動態(tài)架構(gòu)DI

2011-10-11 10:02:48

2010-09-09 15:10:56

2016-01-15 11:39:46

物聯(lián)網(wǎng)互聯(lián)網(wǎng)

2021-08-28 09:04:54

死鎖順序鎖輪詢鎖

2009-08-24 15:22:37

云計(jì)算技術(shù)性工作

2025-04-29 08:15:41

2024-12-18 14:53:28

2009-03-21 10:16:46

微軟瀏覽器IE8

2011-11-28 10:03:29

HTML5移動應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號