自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

1.5B硬剛GPT-4o,CMU祭出LCPO提示可控思考!每token性能較S1暴漲2倍

人工智能 新聞
CMU團(tuán)隊用LCPO訓(xùn)練了一個15億參數(shù)的L1模型,結(jié)果令人震驚:在數(shù)學(xué)推理任務(wù)中,它比S1相對提升100%以上,在邏輯推理和MMLU等非訓(xùn)練任務(wù)上也能穩(wěn)定發(fā)揮。更厲害的是,要求短推理時,甚至擊敗了GPT-4o——用的還是相同的token預(yù)算!

一個只有15億參數(shù)的小模型,竟然能在相同token預(yù)算下挑戰(zhàn)GPT-4o的性能!

最近,CMU團(tuán)隊推出了「長度控制策略優(yōu)化」(LCPO),它讓AI的推理過程不再是「一刀切」,而是像個聰明管家,能根據(jù)任務(wù)需求靈活調(diào)整「思考」長度。

無論是啃下復(fù)雜的數(shù)學(xué)難題,還是快速解答簡單問題,這個名叫L1的模型都游刃有余。

更驚艷的是,它還能把長推理的智慧「濃縮」到短答案中,使模型的效率和準(zhǔn)確性雙雙飆升。

圖片

論文鏈接:https://arxiv.org/abs/2503.04697

推理型語言模型在測試時展現(xiàn)出了一種獨特的能力:「思考更久」可以提升表現(xiàn)。

也就是說更長的「思維鏈」(CoT)序列,通常意味著更高準(zhǔn)確性,但也意味著更高的計算成本。

然而,目前的CoT推理長度不可控,導(dǎo)致難以在測試時合理分配計算資源,以達(dá)到預(yù)期的性能水平。

研究團(tuán)隊首次證明:在相同token預(yù)算下,15億參數(shù)的模型能匹敵GPT-4o的性能。

GPT-4o的參數(shù)規(guī)模為2000億左右,是新模型的參數(shù)規(guī)模的133多倍數(shù)!

在數(shù)學(xué)推理任務(wù)上,條件完全相同時,L1比S1的相對提升高達(dá)100%,絕對提升20%。

圖片

除了在標(biāo)準(zhǔn)數(shù)學(xué)推理場景中更好地控制長度,LCPO訓(xùn)練的模型還能意外地泛化到分布外的任務(wù),包括邏輯推理和像MMLU這樣的通用知識基準(zhǔn)。而且泛化效果也很好。

更厲害的是在生成短推理時,研究團(tuán)隊發(fā)現(xiàn)用LCPO訓(xùn)練的「長思維鏈」(long-CoT)模型變得特別強(qiáng):當(dāng)提示要求短推理時,LCPO訓(xùn)練的模型比原始模型強(qiáng)很多(提升高達(dá)10%),即便生成長度相同。

問題背景

當(dāng)前的推理模型有一個關(guān)鍵局限性:它們的推理長度無法控制,這使得無法分配測試時計算預(yù)算以達(dá)到目標(biāo)性能水平。這導(dǎo)致了三大問題:

1 計算浪費:在某些情況下,生成的序列可能長達(dá)數(shù)萬個標(biāo)記,而在較短的推理已經(jīng)足夠的情況下,這會導(dǎo)致計算資源的浪費。

2 過早停止:如果沒有長度控制,模型可能會在復(fù)雜問題上過早停止,未能分配足夠的推理步驟。

3 未探索的權(quán)衡:目前無法根據(jù)目標(biāo)性能水平校準(zhǔn)推理計算預(yù)算,導(dǎo)致潛在效率提升未被探索。

在新研究中,在提示中加入一個目標(biāo)token長度來解決這個問題。

簡單來說,給定一個輸入提示和一個目標(biāo)長度,模型需要生成一個回答,讓它的長度盡量接近目標(biāo)長度,同時還得保證答案正確。

這種方式把準(zhǔn)確性和輸出長度直接掛鉤,確保生成的思維鏈符合用戶指定的限制。

此前的方法,試圖通過強(qiáng)制模型在生成過短或過長token時生成特殊token(例如「等待」、「最終答案」),實現(xiàn)長度控制。

然而,這種僵硬的、人為設(shè)計的策略與基礎(chǔ)模型相比,性能顯著下降(下圖1)。

圖片

其他研究探討了在指令遵循和一般領(lǐng)域中控制輸出長度。

然而,推理模型面臨著全新的挑戰(zhàn),例如輸出長度要長得多,以及需要在計算成本和性能提升之間進(jìn)行權(quán)衡。

研究人員提出了一個叫做「長度控制策略優(yōu)化」(LCPO)的簡單方法,它基于強(qiáng)化學(xué)習(xí)(RL),能讓推理語言模型精確地、靈活地控制輸出長度。

LCPO訓(xùn)練模型時有兩個目標(biāo):一是最終輸出的正確性,二是生成的推理序列要符合提示中指定的長度限制。

這樣,LCPO訓(xùn)練出來的模型既能滿足長度要求,又能優(yōu)化推理表現(xiàn),而不是依賴人為設(shè)計的規(guī)則。

研究人員試驗了兩種實用的長度限制方式:一是「LCPO-Exact」,要求生成的推理長度必須精確等于目標(biāo)長度;二是「LCPO-Max」,要求輸出長度不超過目標(biāo)長度。

他們用LCPO微調(diào)了一個15億參數(shù)的推理模型,這個模型基于Qwen-Distilled-R1-1.5B,得到了L1-Max和L1-Exact兩個版本。

這些L1模型能很好地在token預(yù)算和推理性能之間找到平衡,只要在提示中調(diào)整長度要求,就能平滑地在短而高效的推理和長而精準(zhǔn)的推理之間切換(見圖1)。

重要的是,在這個權(quán)衡曲線上有一個點能恢復(fù)原始基礎(chǔ)模型的性能,同時在所有推理長度范圍內(nèi)都比S1的表現(xiàn)更好(見圖1)。

解決方案:長度控制策略優(yōu)化

研究團(tuán)隊從一個預(yù)訓(xùn)練的推理模型LLM開始,用一個數(shù)據(jù)集D(包含N個樣本),每個樣本只有輸入提示和最終答案(沒有中間的推理過程)。

為了實現(xiàn)長度控制,給每個提示加上一個目標(biāo)長度的指令。這樣就得到了一個新的數(shù)據(jù)集Dnew,包含了帶長度指令的提示和對應(yīng)的答案。

接下來,用強(qiáng)化學(xué)習(xí)的目標(biāo)來更新模型LLM。在實驗中,研究人員選擇了GRPO方法。

獎勵函數(shù)包括兩部分:正確性獎勵rc和長度懲罰rlength。

這個獎勵函數(shù)有兩個作用:一是鼓勵模型給出正確答案,同時在要求短輸出時傾向于簡潔的推理過程;二是即使正確答案可以用更少的token生成,它也會持續(xù)推動模型盡量匹配指定的目標(biāo)長度。

根據(jù)目標(biāo)長度的指令和訓(xùn)練目標(biāo)不同,有兩類方法:

1 LCPO-Exact(或L1-Exact):要求生成的推理過程必須嚴(yán)格等于目標(biāo)長度;示例提示為:「Think for exactly 512 token」

2 LCPO-Max(或L1-Max):要求生成的輸出不得超過目標(biāo)長度,但可在該范圍內(nèi)靈活調(diào)整,以適應(yīng)不同問題的難度。示例提示為:「Think for maximum 1024 token」

精準(zhǔn)模式:L1-Exact

長度控制策略優(yōu)化(LCPO)是一種簡單RL方法,允許推理型語言模型僅使用提示(prompt),自適應(yīng)地控制生成文本的長度。

在推理階段,輸出長度通過在每個測試提示后統(tǒng)一加上一個固定的目標(biāo)長度(或者一組長度)來控制。

適用于下列場景:

1 基準(zhǔn)測試(Benchmarking):確保不同模型在相同token預(yù)算下進(jìn)行公平對比。

2 精確預(yù)算控制(Exact Token Budgeting):在受限資源環(huán)境下,嚴(yán)格控制生成內(nèi)容的長度。

1 問題定義:給定輸入提示詞x和目標(biāo)長度n_goal,生成一個長度n_y盡可能接近且答案正確的響應(yīng)y。目標(biāo)是最小化 |n_goal-n_y|的同時確保輸出正確。


2 提示詞增強(qiáng)(Prompt Augmentation):在每個提示詞中增加目標(biāo)長度指令:

圖片


3 強(qiáng)化學(xué)習(xí)(Reinforcement Learning):通過獎勵函數(shù)進(jìn)行優(yōu)化,在準(zhǔn)確性和長度匹配之間保持平衡:

圖片


其中, α用于平衡答案正確性和長度匹配的權(quán)重。

最大長度限制模式:L1-Max

最大長度限制模式,L-Max適用下列場景:

  • 計算資源受限場景:確保最大token消耗受控,防止超出計算預(yù)算。 
  • 適應(yīng)任務(wù)難度:允許較簡單任務(wù)使用更少token,而復(fù)雜任務(wù)可充分利用預(yù)算。

為了訓(xùn)練L1-Max,在L1-Exact的基礎(chǔ)上繼續(xù)微調(diào),用的是同一個強(qiáng)化學(xué)習(xí)框架,但改進(jìn)了獎勵函數(shù):

(1)逐步懲罰超過目標(biāo)長度的輸出,而不是直接硬性截斷(這在GRPO目標(biāo)中需要保證梯度傳播);


(2)鼓勵模型在不犧牲正確性的情況下,盡量少用token。

此外,L1-Max用雙重目標(biāo)訓(xùn)練:如果提示要求精確長度,就用長度控制策略優(yōu)化;否則默認(rèn)用最大長度限制模式。

具體而言,使用帶軟約束的獎勵函數(shù)進(jìn)行優(yōu)化,以平衡準(zhǔn)確性和token預(yù)算:

圖片

其中參數(shù)α控制減少token使用的激勵程度;δ確保輕微超出預(yù)算但正確的答案優(yōu)于錯誤答案。

結(jié)果與分析

L1表現(xiàn)遠(yuǎn)超其他長度控制模型,同時保持強(qiáng)勁性能。

下圖2比較了L1-Exact和L1-Max與其它基準(zhǔn)模型在不同生成長度下的表現(xiàn)。L1的兩個版本在所有token預(yù)算下都表現(xiàn)更好,同時還能精確控制長度。

相比專門為長度控制設(shè)計的S1方法,L1提升顯著,在512和1024 token預(yù)算下,相對性能提升100-150%,絕對性能提升20-25%。

圖片

這種顯著差異可以歸因于兩個關(guān)鍵原因:一是L1能智能調(diào)整思維鏈,讓它適應(yīng)指定的長度限制還不打斷推理過程,而S1經(jīng)常在中途被截斷;二是L1被明確訓(xùn)練來生成不同長度的高質(zhì)量推理鏈,能有效把長推理鏈的推理模式「濃縮」到短鏈中。

另外,研究團(tuán)隊還發(fā)現(xiàn)L1的性能隨生成推理鏈的對數(shù)長度呈現(xiàn)線性增長,和OpenAI的o1及S1類似。

L1能很好泛化到非訓(xùn)練領(lǐng)域(OOD)任務(wù)

研究團(tuán)隊測試了L1在訓(xùn)練分布外的領(lǐng)域控制長度的能力。

非訓(xùn)練領(lǐng)域數(shù)據(jù)集分兩類:一是通用推理數(shù)據(jù)集GPQA和LSAT,沒明確用于L1訓(xùn)練,但可能在DeepSeek-R1-1.5B的訓(xùn)練范圍內(nèi);二是MMLU,可能完全不在DeepSeek-R1-1.5B的訓(xùn)練分布內(nèi)。

下圖3顯示L1在新領(lǐng)域表現(xiàn)穩(wěn)?。涸诜怯?xùn)練通用推理數(shù)據(jù)集上,性能隨token預(yù)算正向增長,盡管有長度約束,也接近或匹配Agentica-4K的表現(xiàn)。

在GPQA和LSAT上,他們看到和主數(shù)據(jù)集一樣的線性性能增長趨勢,L1在相似token預(yù)算下能達(dá)到Agentica-4K的表現(xiàn)。

考慮到L1沒針對這些任務(wù)訓(xùn)練,這種泛化能力很驚人。在MMLU上,線性關(guān)系沒那么明顯(R2=0.66),可能是因為這些知識類問題從長推理中獲益較少。

圖片

L1能高精度遵循長度約束

研究團(tuán)隊在多個數(shù)學(xué)推理數(shù)據(jù)集上量化評估了L1遵循長度約束的能力。

下圖4顯示,他們的模型在所有token預(yù)算(512、1024、2048、3600)下都能保持一致控制,輸出長度通常很接近要求長度。

圖片

下圖5展示了平均誤差,反映了數(shù)據(jù)集中的平均偏離程度。結(jié)果顯示誤差很低,在數(shù)學(xué)推理數(shù)據(jù)集上接近3%。

雖然非訓(xùn)練數(shù)據(jù)集誤差更高(20-40%),但仍比無控制的提示更好。

圖片

長思維鏈模型暗藏短思維鏈實力

鑒于L1在低token預(yù)算下表現(xiàn)強(qiáng)勁,研究團(tuán)隊專門比較了它與基礎(chǔ)非推理模型(Qwen-2.5-1.5B-Instruct)和更大的非推理模型(GPT-4o和Llama-3.3-70B)在相同生成長度下的表現(xiàn)。

下表1顯示,L1在所有數(shù)據(jù)集上都持續(xù)超越或達(dá)到這些模型,盡管token預(yù)算相同。

平均來看,L1比非推理模型高5%,甚至比GPT-4o平均高2%。據(jù)研究者所知,這是首次證明一個15億參數(shù)模型能在相同生成長度下超過GPT-4o這樣的前沿模型。

總體來說,這表明通過適當(dāng)?shù)膹?qiáng)化學(xué)習(xí)訓(xùn)練,長思維鏈模型能靈活轉(zhuǎn)為短思維鏈模型,同時在相同生成長度下顯著超越基礎(chǔ)模型。

圖片

L1在不同token預(yù)算下采用不同推理策略

為了了解L1如何根據(jù)長度約束調(diào)整推理方法,研究團(tuán)隊分析了不同長度輸出中推理相關(guān)詞語的出現(xiàn)頻率。

具體來說,他們計算了512 token輸出和4096 token輸出中最常見推理詞的出現(xiàn)率,觀察模型在不同長度約束下的策略變化。

下圖6把這些關(guān)鍵詞分成四種推理模式:「自我糾正與驗證」、「探索與替代」、「上下文設(shè)定」和「得出結(jié)論」。

圖6顯示,在4096 token輸出中,自我糾正和驗證相關(guān)的詞出現(xiàn)頻率比512 token輸出高約2倍。得出結(jié)論的詞隨token預(yù)算增加2-10倍,表明更徹底的驗證和完成。

有趣的是,大多數(shù)探索相關(guān)詞在高token數(shù)時的相對頻率降低,「Alternatively」(或者)是個例外。

總體來看,短思維鏈的推理模式和長思維鏈相似,但頻率分布不同,長思維鏈更傾向于自我驗證和得出結(jié)論。

圖片

下圖7還展示了不同生成長度下思考token(<think>標(biāo)簽內(nèi))和答案token的比例。

他們發(fā)現(xiàn)這個比例在不同長度下相對穩(wěn)定。這意味著短思維鏈時,模型通常給出簡短答案(往往直接輸出最終答案),節(jié)省token。

隨著生成長度增加,最后兩欄的答案長度趨于穩(wěn)定,說明模型擴(kuò)展了思考token,但沒讓最終答案變得啰嗦。

圖片

結(jié)論

在這項工作中,研究人員提出了「長度控制策略優(yōu)化」(LCPO),一個簡單但強(qiáng)大的方法,用強(qiáng)化學(xué)習(xí)讓大語言模型能靈活控制推理鏈的長度。

他們用LCPO訓(xùn)練了L1,一個推理語言模型,優(yōu)化它生成符合提示中長度限制的輸出。LCPO比之前的測試時擴(kuò)展方法強(qiáng)得多,在數(shù)學(xué)推理任務(wù)上比以前的長度控制方法相對提升超過100%,絕對提升20%。

此外,他們還證明了L1能很好地泛化到訓(xùn)練分布之外的任務(wù),把長度控制能力擴(kuò)展到非訓(xùn)練領(lǐng)域。

更有趣的是,他們的分析發(fā)現(xiàn)了一個意外現(xiàn)象:訓(xùn)練生成更長推理鏈的模型,竟然在短思維鏈(short-CoT)推理上變得特別強(qiáng),在相同生成長度下甚至超過了像GPT-4o這樣的大得多的前沿模型。

通過使用簡單的提示進(jìn)行長度控制,LCPO為更高效、靈活和可擴(kuò)展的推理模型開辟了很有前景的道路。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-01-21 10:10:56

2024-05-15 09:58:06

谷歌大模型

2024-09-29 13:07:16

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2025-01-02 13:00:00

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-08-02 14:58:00

2024-05-15 07:54:12

GPT-4oAI助手人工智能

2025-02-11 16:17:42

2024-10-17 13:30:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-05-24 14:04:04

2025-01-22 16:57:32

字節(jié)跳動豆包大模型

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2025-04-08 02:26:00

2024-08-15 15:45:00

AI訓(xùn)練

2024-07-31 13:20:14

2024-05-14 08:23:27

GPT-4oAI技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號