自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI也要007?Letta、伯克利提出「睡眠時(shí)間計(jì)算」,推理效率翻倍還不加錢(qián)

人工智能 新聞
他們?cè)谧钚碌难芯空撐闹刑岢觥杆邥r(shí)間計(jì)算」。它為具備狀態(tài)性的 AI 系統(tǒng)(stateful AI systems)提供了一個(gè)令人興奮的全新擴(kuò)展路徑。

AI 也要 007 工作制了!

近日,AI 初創(chuàng)公司 Letta 和 UC 伯克利的研究人員提出了一種擴(kuò)展人工智能能力的新方式 —— 睡眠時(shí)間計(jì)算(Sleep-time Compute),讓模型在空閑時(shí)間「思考」,旨在提高大型語(yǔ)言模型(LLM)的推理效率,降低推理成本,同時(shí)保持或提升準(zhǔn)確性。

image.png

睡眠時(shí)間計(jì)算的核心理念在于:智能體即使在「睡眠」(即用戶(hù)未提出查詢(xún)時(shí)的閑置狀態(tài))時(shí)段,也應(yīng)持續(xù)運(yùn)行,利用這些非交互期重組信息、提前完成推理。當(dāng)前許多智能體都運(yùn)行于存在持久化上下文的環(huán)境中。例如,代碼智能體可以在編程請(qǐng)求到來(lái)前預(yù)先研習(xí)代碼庫(kù);對(duì)話智能體則可反思用戶(hù)過(guò)往的交流記錄,在交互前重新整理信息。

在睡眠時(shí)段執(zhí)行推理的過(guò)程將「原始上下文」(raw context)轉(zhuǎn)化為「學(xué)習(xí)到的上下文」(learned context)。與僅擁有原始上下文的智能體相比,具備預(yù)處理能力的智能體可在實(shí)際應(yīng)答時(shí)減少即時(shí)推理計(jì)算的負(fù)擔(dān),因?yàn)樗鼈円呀?jīng)提前進(jìn)行了思考。

image.png


  • 論文標(biāo)題: Sleep-time Compute: Beyond Inference Scaling at Test-time 
  • 論文地址:https://arxiv.org/pdf/2504.13171
  • 項(xiàng)目地址:https://github.com/letta-ai/sleep-time-compute

從測(cè)試時(shí)間擴(kuò)展到睡眠時(shí)間擴(kuò)展

在過(guò)去的一年里,我們見(jiàn)證了「推理模型」的崛起:這些模型在回答之前會(huì)進(jìn)行「思考」。例如,OpenAI 的 o1、DeepSeek 的 R1 和 Anthropic 的 Claude 3.7 等最新模型,不再即時(shí)給出回復(fù),而在返回最終回答前輸出一段詳細(xì)的推理過(guò)程。這種延遲輸出結(jié)構(gòu)在數(shù)學(xué)、編程等特定應(yīng)用領(lǐng)域中表現(xiàn)出顯著的智能提升。實(shí)踐證明,讓模型在測(cè)試時(shí)(test time)執(zhí)行更長(zhǎng)時(shí)間的推理計(jì)算(從幾秒至幾分鐘不等),能夠顯著提高模型的推理質(zhì)量。

這種策略被稱(chēng)為「測(cè)試時(shí)擴(kuò)展」,它已被廣泛證實(shí)是推動(dòng)基于大型語(yǔ)言模型(LLM)的 AI 系統(tǒng)邁向下一個(gè)智能層級(jí)的高效路徑 —— 測(cè)試時(shí)推理資源投入越多,系統(tǒng)表現(xiàn)往往越佳。

但這是否只是冰山一角?我們是否在嚴(yán)重低估當(dāng)前 AI 系統(tǒng)的潛力?假如僅在用戶(hù)觸發(fā)交互時(shí)才啟用智能體的推理能力,那是否意味著這些模型的絕大部分時(shí)間都未被有效利用?

研究人員相信,AI 系統(tǒng)中存在著一種尚未被充分釋放的范式轉(zhuǎn)變:不僅在響應(yīng)提示時(shí)被動(dòng)地進(jìn)行推理,而且在未被激活期間主動(dòng)加深其對(duì)世界和任務(wù)的理解 —— 這正是他們所提出的「睡眠時(shí)間」(sleep time)概念,即:AI 系統(tǒng)在不與用戶(hù)交互的漫長(zhǎng)空閑期間,也能深入處理和組織信息。

image.png

于是他們?cè)谧钚碌难芯空撐闹刑岢觥杆邥r(shí)間計(jì)算」。它為具備狀態(tài)性的 AI 系統(tǒng)(stateful AI systems)提供了一個(gè)令人興奮的全新擴(kuò)展路徑:通過(guò)在系統(tǒng)本應(yīng)用于空閑的時(shí)段啟用深層思維,我們可以前所未有地拓展模型的理解能力與推理方式,從而突破僅靠交互時(shí)計(jì)算資源所能實(shí)現(xiàn)的能力上限。

睡眠時(shí)間計(jì)算

在標(biāo)準(zhǔn)的測(cè)試時(shí)間計(jì)算應(yīng)用范式中,用戶(hù)向 LLM 輸入一個(gè)提示 p,然后 LLM 應(yīng)用測(cè)試時(shí)間計(jì)算來(lái)幫助回答用戶(hù)的問(wèn)題。

然而,提供給 LLM 的提示 p 通??梢苑纸鉃橐粋€(gè)已存在的上下文 c(例如一個(gè)代碼庫(kù))和一個(gè)用戶(hù)查詢(xún) q(例如關(guān)于代碼庫(kù)的問(wèn)題)。

當(dāng) LLM 沒(méi)有及時(shí)響應(yīng)用戶(hù)時(shí),它通常仍然可以訪問(wèn)現(xiàn)有的上下文 c。在這段時(shí)間里,LLM 通常處于閑置狀態(tài),錯(cuò)過(guò)了離線思考 c 的機(jī)會(huì):本文將這個(gè)過(guò)程稱(chēng)為睡眠時(shí)間計(jì)算。

image.png

測(cè)試時(shí)間計(jì)算:在測(cè)試時(shí)間計(jì)算設(shè)置中,用戶(hù)提供 q 和一些上下文 c,模型輸出推理跟蹤,后面跟著最終答案 a。

這個(gè)過(guò)程可以表示為:T_B(q, c)→a,其中 T 是在預(yù)算 B 下測(cè)試時(shí)間計(jì)算的方法,包括擴(kuò)展思維鏈或 best-of-N 等技術(shù)。

在實(shí)踐中,用戶(hù)可能對(duì)同一上下文有多個(gè)查詢(xún) q_1, q_2…q_N。在此設(shè)置下,模型將對(duì)每個(gè) q_i 進(jìn)行獨(dú)立的推理過(guò)程,即使它們與相同的上下文有關(guān)。

此外,在許多情況下,上下文信息 c 可能非常復(fù)雜,需要執(zhí)行大量的推理才能生成問(wèn)題 q 的答案。由于傳統(tǒng)測(cè)試時(shí)計(jì)算范式 T (q, c)→a 假定 c 與 q 同時(shí)獲取,標(biāo)準(zhǔn)測(cè)試時(shí)計(jì)算會(huì)在用戶(hù)提交查詢(xún)后才啟動(dòng)所有這些推理,導(dǎo)致用戶(hù)可能需要等待數(shù)分鐘才能獲得響應(yīng)。然而在實(shí)際應(yīng)用中,我們往往能夠提前獲取 c,并將大部分預(yù)處理工作前置完成。

睡眠時(shí)間計(jì)算:在睡眠時(shí)間,可以得到上下文 c 但沒(méi)有查詢(xún) q。僅基于這個(gè)上下文 c,可以使用 LLM 推理可能的問(wèn)題并推理上下文,最終產(chǎn)生一個(gè)更新的重新表示的上下文 c ′。研究者將這個(gè)過(guò)程表示為:S (c) → c ′,其中 S 可以是任何標(biāo)準(zhǔn)的測(cè)試時(shí)間擴(kuò)展技術(shù),用于在睡眠時(shí)間預(yù)處理上下文。

在這項(xiàng)工作中,S (c) 是通過(guò)提示模型進(jìn)行推理并以可能在測(cè)試時(shí)有用的方式重寫(xiě) c 來(lái)實(shí)現(xiàn)的。在對(duì)上下文進(jìn)行預(yù)處理之后,可以在測(cè)試時(shí)提供新的上下文 c ′ 代替 c 來(lái)生成對(duì)用戶(hù)查詢(xún)的最終答案:T_b (q, c ′) → a。由于在這種情況下,關(guān)于 c 的大部分推理已經(jīng)提前完成,就可以使用小得多的測(cè)試時(shí)間預(yù)算 b << B。此外,c ′ 可以在關(guān)于相同上下文的不同查詢(xún) q_i 之間共享,從而有效地?cái)備N(xiāo)在查詢(xún)之間得出 c ′ 所需的計(jì)算,從而節(jié)省總體成本。

實(shí)驗(yàn)及結(jié)果

本文通過(guò)實(shí)驗(yàn)來(lái)探究睡眠時(shí)計(jì)算的優(yōu)勢(shì),并重點(diǎn)回答了以下問(wèn)題:

1. 睡眠時(shí)計(jì)算能否改變測(cè)試時(shí)計(jì)算與準(zhǔn)確率之間的帕累托邊界?

2. 擴(kuò)展睡眠時(shí)計(jì)算規(guī)模能否進(jìn)一步優(yōu)化該帕累托邊界?

3. 當(dāng)單個(gè)上下文對(duì)應(yīng)多個(gè)關(guān)聯(lián)問(wèn)題時(shí),分?jǐn)倻y(cè)試時(shí)計(jì)算與睡眠時(shí)計(jì)算能否帶來(lái)總體 token 效率提升?

4. 睡眠時(shí)計(jì)算在哪些場(chǎng)景中能帶來(lái)最顯著的性能提升?

對(duì)于問(wèn)題 1:應(yīng)用睡眠時(shí)間計(jì)算改變帕累托邊界

圖 3 表明準(zhǔn)確率和測(cè)試時(shí)計(jì)算之間存在權(quán)衡,并且添加睡眠時(shí)間計(jì)算可以超越帕累托計(jì)算 - 準(zhǔn)確率曲線。

image.png

圖 4 展示了不同模型在 Stateful AIME 數(shù)據(jù)集上的結(jié)果。我們看到,應(yīng)用睡眠時(shí)間計(jì)算后,測(cè)試時(shí)間和準(zhǔn)確率都發(fā)生了顯著的帕累托偏移,但 o1 除外,它的增益有限。

2025-04-22_100744.png

對(duì)于問(wèn)題 2:擴(kuò)展睡眠時(shí)間計(jì)算

接下來(lái),作者想了解在睡眠時(shí)間內(nèi)擴(kuò)展計(jì)算量如何進(jìn)一步影響帕累托轉(zhuǎn)變。

在圖 7 中,我們看到進(jìn)一步擴(kuò)展睡眠時(shí)間計(jì)算會(huì)使帕累托曲線外移,在相似的測(cè)試時(shí)間預(yù)算下,性能提升高達(dá) 13%。

image.png

在圖 26 中,作者進(jìn)一步擴(kuò)展了睡眠時(shí)間計(jì)算。我們看到了相同的結(jié)果,擴(kuò)展睡眠時(shí)間計(jì)算通常會(huì)使帕累托曲線外移,性能提升高達(dá) 18%。

image.png

對(duì)于問(wèn)題 3:在具有共享上下文的查詢(xún)之間分?jǐn)偹邥r(shí)間計(jì)算

作者還希望了解如何通過(guò)在每個(gè)上下文都有多個(gè)查詢(xún)的設(shè)置中應(yīng)用睡眠時(shí)間計(jì)算來(lái)改善推理的總成本。我們看到,與單查詢(xún)基線相比,當(dāng)每個(gè)上下文有 10 個(gè)查詢(xún)時(shí),每個(gè)查詢(xún)的平均成本降低多達(dá) 2.5 倍。

image.png

對(duì)于問(wèn)題 4:可預(yù)測(cè)查詢(xún)從睡眠時(shí)間計(jì)算中獲益更多

在圖 10 中,我們看到隨著問(wèn)題從上下文中變得更加可預(yù)測(cè),睡眠時(shí)間計(jì)算和標(biāo)準(zhǔn)測(cè)試時(shí)間計(jì)算之間的準(zhǔn)確度差距不斷擴(kuò)大,這證實(shí)了本文的假設(shè),即當(dāng)問(wèn)題能夠通過(guò)上下文預(yù)測(cè)時(shí),睡眠時(shí)計(jì)算最能發(fā)揮其優(yōu)勢(shì)。

image.png

了解更多內(nèi)容,請(qǐng)參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-01-22 15:21:00

2025-01-20 13:08:25

2024-08-19 14:05:00

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2018-10-09 14:00:41

SQL深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2025-04-18 08:42:52

模型推理AI

2022-07-15 14:57:43

AI語(yǔ)言

2023-10-15 13:12:52

AI工具

2024-02-05 13:28:14

AI音頻虛擬人像

2024-11-29 09:18:01

2023-11-14 07:47:42

IGN擴(kuò)散模型

2023-06-21 13:20:14

系統(tǒng)模型

2023-12-04 13:52:00

模型數(shù)據(jù)

2023-05-31 16:15:51

模型圖像

2023-06-21 13:44:57

模型AI

2024-09-25 09:37:16

2024-07-31 15:38:00

2025-01-27 12:30:07

2023-04-04 13:17:00

GPUCMU開(kāi)源

2023-05-19 13:34:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)