自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

突破性創(chuàng)新:Genius框架實(shí)現(xiàn)大語(yǔ)言模型無(wú)監(jiān)督自我進(jìn)化 精華

發(fā)布于 2025-4-16 06:29
瀏覽
0收藏

在人工智能的發(fā)展歷程中,大語(yǔ)言模型(LLM)的推理能力一直是研究的核心焦點(diǎn)。然而,傳統(tǒng)的推理能力增強(qiáng)方法往往依賴于高質(zhì)量的監(jiān)督信號(hào),如標(biāo)注好的答案或外部獎(jiǎng)勵(lì)模型,這不僅成本高昂,而且難以擴(kuò)展。近期,來(lái)自上海人工智能實(shí)驗(yàn)室、西安交通大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案——Genius框架,這是一個(gè)可泛化、純無(wú)監(jiān)督的高級(jí)推理自訓(xùn)練框架,能夠讓大語(yǔ)言模型在沒(méi)有任何外部監(jiān)督的情況下自我提升推理能力。

突破性創(chuàng)新:Genius框架實(shí)現(xiàn)大語(yǔ)言模型無(wú)監(jiān)督自我進(jìn)化-AI.x社區(qū)

傳統(tǒng)方法的局限性

目前增強(qiáng)LLM推理能力的方法主要分為兩類:一類是監(jiān)督微調(diào)(SFT),需要與查詢配對(duì)的帶有良好注釋的響應(yīng);另一類是強(qiáng)化類方法,需要基本事實(shí)答案或驗(yàn)證。前者在數(shù)學(xué)和編碼等特定領(lǐng)域有效,但許多其他問(wèn)題缺乏明確的解決方案或基本事實(shí),難以推廣到更廣泛的推理任務(wù)。后者利用外部獎(jiǎng)勵(lì)模型進(jìn)行驗(yàn)證,但通用獎(jiǎng)勵(lì)模型的訓(xùn)練依賴昂貴的注釋,并可能引發(fā)獎(jiǎng)勵(lì)黑客問(wèn)題。

突破性創(chuàng)新:Genius框架實(shí)現(xiàn)大語(yǔ)言模型無(wú)監(jiān)督自我進(jìn)化-AI.x社區(qū)

這些限制促使研究者提出一個(gè)關(guān)鍵問(wèn)題:如何在沒(méi)有任何外部監(jiān)督的情況下提高LLM推理能力?

Genius:無(wú)監(jiān)督自訓(xùn)練的創(chuàng)新框架

Genius框架通過(guò)提出一種可泛化的自訓(xùn)練方法解決上述問(wèn)題。與傳統(tǒng)方法不同,Genius只需要策略LLM本身和一組無(wú)監(jiān)督查詢,無(wú)需外部輔助。它建立在自訓(xùn)練范式之上,即LLM首先根據(jù)輸入查詢生成響應(yīng),然后選擇最優(yōu)響應(yīng)進(jìn)行訓(xùn)練。

核心技術(shù)創(chuàng)新

1. 基于前瞻性重采樣的探索與利用

生成自訓(xùn)練數(shù)據(jù)的關(guān)鍵挑戰(zhàn)是如何在不依賴外部資源的情況下收集和自我獎(jiǎng)勵(lì)LLM響應(yīng)。Genius采用逐步采樣方法,通過(guò)前瞻性技術(shù)來(lái)尋求最優(yōu)響應(yīng)序列。

具體來(lái)說(shuō),Genius通過(guò)以下步驟工作:

  • 步驟展開與前瞻在每個(gè)時(shí)間戳,Genius首先展開一組候選步驟,并通過(guò)模擬未來(lái)步驟來(lái)自我獎(jiǎng)勵(lì)它們。
  • 基于前瞻的重采樣使用前瞻分?jǐn)?shù)來(lái)近似分布,然后對(duì)其進(jìn)行采樣以確定下一步(用于探索),并重新采樣以創(chuàng)建步驟級(jí)偏好對(duì)(用于開發(fā))。
  • 優(yōu)勢(shì)計(jì)算與數(shù)據(jù)構(gòu)建為正面和負(fù)面響應(yīng)序列計(jì)算優(yōu)勢(shì)值,并構(gòu)建訓(xùn)練偏好對(duì)。

突破性創(chuàng)新:Genius框架實(shí)現(xiàn)大語(yǔ)言模型無(wú)監(jiān)督自我進(jìn)化-AI.x社區(qū)

2. 優(yōu)勢(shì)校準(zhǔn)優(yōu)化(ACO)

雖然上述方法提供了一種質(zhì)量-效率平衡的解決方案,但基于少量展開計(jì)算前瞻分?jǐn)?shù)分布可能導(dǎo)致步驟值的偏差估計(jì),不可避免地為自監(jiān)督標(biāo)簽引入噪聲。為解決這一問(wèn)題,Genius引入了優(yōu)勢(shì)校準(zhǔn)優(yōu)化(ACO)損失函數(shù),通過(guò)懲罰前瞻分?jǐn)?shù)和步驟優(yōu)勢(shì)之間的不一致估計(jì)來(lái)提高自訓(xùn)練優(yōu)化的魯棒性。

突破性創(chuàng)新:Genius框架實(shí)現(xiàn)大語(yǔ)言模型無(wú)監(jiān)督自我進(jìn)化-AI.x社區(qū)

ACO損失函數(shù)可以分為兩個(gè)不同區(qū)域:正常區(qū)域校準(zhǔn)區(qū)域。在正常區(qū)域,負(fù)面響應(yīng)序列與正面響應(yīng)序列可區(qū)分;而在校準(zhǔn)區(qū)域,當(dāng)負(fù)面響應(yīng)序列提供更多實(shí)際優(yōu)勢(shì)時(shí),它將受到較少的懲罰(在自獎(jiǎng)勵(lì)計(jì)算中權(quán)重較?。?。

實(shí)驗(yàn)結(jié)果:無(wú)監(jiān)督自訓(xùn)練的有效性

研究團(tuán)隊(duì)在多個(gè)推理基準(zhǔn)測(cè)試上評(píng)估了Genius的性能,包括:

  • 數(shù)學(xué)推理:GSM8K、MATH、GPQA
  • 邏輯推理:ReClor、LogiQA
  • 一般推理:StrategyQA、ARC-Challenge
  • 通用基準(zhǔn):AlpacaEval、WildBench、ArenaHard、WikiBench、MMLU、MMLU-Pro
  • 競(jìng)賽級(jí)任務(wù):AIME2024

主要發(fā)現(xiàn)

  • 顯著提升推理能力僅使用25K無(wú)監(jiān)督訓(xùn)練查詢,Genius就將LLaMA3.1-8B-Instruct的平均CoT推理性能提高了7.43%。
  • 優(yōu)于強(qiáng)基線Genius在所有評(píng)估基準(zhǔn)上一致表現(xiàn)出最先進(jìn)的性能,平均優(yōu)勢(shì)>2%。
  • 在具挑戰(zhàn)性任務(wù)中表現(xiàn)更佳在MATH等具挑戰(zhàn)性任務(wù)上,Genius比Self-Rewarding表現(xiàn)更好,優(yōu)勢(shì)>4%。
  • 通用任務(wù)性能一致性Genius在通用領(lǐng)域保持了性能穩(wěn)定,大多數(shù)情況下略有改善。
  • 適用于不同骨干LLM在Qwen2.5系列模型上的實(shí)驗(yàn)表明,Genius可以作為一種通用的后訓(xùn)練技術(shù),既可以作為已后訓(xùn)練LLM的持續(xù)自訓(xùn)練方法,也可以作為模型本身的替代后訓(xùn)練策略。

突破性創(chuàng)新:Genius框架實(shí)現(xiàn)大語(yǔ)言模型無(wú)監(jiān)督自我進(jìn)化-AI.x社區(qū)

后訓(xùn)練擴(kuò)展規(guī)律

研究還探索了Genius的后訓(xùn)練擴(kuò)展規(guī)律。結(jié)果表明,Genius能夠隨著訓(xùn)練步驟的增加迅速自我改進(jìn),并且進(jìn)展平穩(wěn)。這表明使用Genius進(jìn)行自訓(xùn)練遠(yuǎn)未飽和,仍有改進(jìn)空間,而其他基線方法在擴(kuò)展時(shí)似乎面臨挑戰(zhàn)。

突破性創(chuàng)新:Genius框架實(shí)現(xiàn)大語(yǔ)言模型無(wú)監(jiān)督自我進(jìn)化-AI.x社區(qū)

技術(shù)深度解析

方法論詳解

預(yù)備知識(shí)

Genius的一個(gè)主要優(yōu)勢(shì)是它只需要無(wú)監(jiān)督自然語(yǔ)言(NL)查詢作為輸入。在自訓(xùn)練設(shè)置下,LLM πθ根據(jù)查詢生成響應(yīng),然后選擇最優(yōu)響應(yīng)來(lái)優(yōu)化自身。Genius的主要目標(biāo)分為兩部分:(1)合成和獎(jiǎng)勵(lì)響應(yīng);(2)使用響應(yīng)優(yōu)化LLM。

基于前瞻重采樣的探索與利用

為確保多樣性,Genius在逐步采樣過(guò)程中使用束搜索策略。步驟束大小定義為M,文章中展示了M=2的簡(jiǎn)單情況。

步驟展開與前瞻:在時(shí)間戳k-1,Genius保持M個(gè)前置路徑a<k,每個(gè)路徑由k-1個(gè)步驟組成。路徑中最后一步的值定義為Qk-1(m),其中m∈[1,M]。對(duì)于每個(gè)束m,Genius首先展開N個(gè)候選步驟ak,總共產(chǎn)生M*N個(gè)候選步驟。

為了解決自回歸生成的局限性并構(gòu)建全局感知的響應(yīng),Genius基于每個(gè)候選步驟ak執(zhí)行未來(lái)步驟的模擬,稱為"前瞻"。這允許我們導(dǎo)出響應(yīng)序列及其各自的前瞻分?jǐn)?shù),使用剩余步驟的平均對(duì)數(shù)概率計(jì)算:a'>k, fk ~ πθ(·|a<k; ak)

用于探索和利用的重采樣:基于前瞻技術(shù),Genius通過(guò)在分布Fk上采樣來(lái)為當(dāng)前時(shí)間戳k選擇步驟ak(m):{ak(m)}m=1^M ~ Categorical(Fk)

這樣,我們可以保持M個(gè)束用于下一步的探索。每個(gè)選定步驟ak(m)的Q值定義為前瞻分?jǐn)?shù):Qk(m) := fk(m)

除了探索外,Genius還利用每個(gè)時(shí)間戳k處的整個(gè)響應(yīng)序列Tk=(a<k, ak, a'>k)進(jìn)行優(yōu)化。為了鼓勵(lì)多樣性并避免在類似響應(yīng)上過(guò)擬合,我們基于分布Fk引入重采樣策略。

優(yōu)勢(shì)和數(shù)據(jù)構(gòu)建:由于推理序列是從不同的束完成的,僅用前瞻分?jǐn)?shù)fk評(píng)估每個(gè)步驟是不夠的。因此,Genius為正面和負(fù)面響應(yīng)序列導(dǎo)出優(yōu)勢(shì)值A(chǔ)k:Ak^w = fk^w - Qk-1^w, Ak^l = fk^l - Qk-1^l

從方程中可以看出,前瞻分?jǐn)?shù)通過(guò)前一步的Q值進(jìn)行校準(zhǔn)。

優(yōu)勢(shì)校準(zhǔn)優(yōu)化

給定構(gòu)建的偏好對(duì),我們可以通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化LLM。還有兩個(gè)關(guān)鍵步驟未解決:(i)制定自我獎(jiǎng)勵(lì)以進(jìn)行偏好優(yōu)化;(ii)導(dǎo)出優(yōu)化目標(biāo)。

將自我獎(jiǎng)勵(lì)制定為偏好:基于Bradley-Terry模型,偏好的測(cè)量可以表示為:p*(T^w ? T^l|x) = σ(r*(x,T^w) - r*(x,T^l))

其中r*(T|x)表示最優(yōu)獎(jiǎng)勵(lì)函數(shù),σ(·)表示sigmoid函數(shù)。在DPO的背景下,策略LLM πθ被用作隱式獎(jiǎng)勵(lì)模型,自我獎(jiǎng)勵(lì)函數(shù)φ建模為:φ(x,T) ∝ β·log(πθ(T|x)/πref(T|x))

ACO損失函數(shù):在無(wú)監(jiān)督設(shè)置下,訓(xùn)練對(duì)是基于前瞻分?jǐn)?shù)分布采樣的,這會(huì)在優(yōu)化過(guò)程中引入噪聲。上述自我獎(jiǎng)勵(lì)公式以相同的尺度處理每個(gè)偏好對(duì),難以檢測(cè)異常并提高魯棒性。因此,我們提出使用計(jì)算的優(yōu)勢(shì)值A(chǔ)來(lái)校準(zhǔn)自我獎(jiǎng)勵(lì)函數(shù)φ,為負(fù)面響應(yīng)序列的自我獎(jiǎng)勵(lì)添加松弛項(xiàng)w(x,A):

φl(shuí)(x,T^l) = β·w(x,A)·log(πθ(T^l|x)/πref(T^l|x))

w(x,A) = clip(exp(-(A^l-A^w)/α), 1)

其中A^l-A^w表示負(fù)面步驟和正面步驟帶來(lái)的優(yōu)勢(shì)差異,α是控制松弛項(xiàng)尺度的超參數(shù)。

將自我獎(jiǎng)勵(lì)函數(shù)φw和φl(shuí)代入方程并使用負(fù)對(duì)數(shù)似然形式優(yōu)化,得到ACO損失:

LACO = -E(x,T^w,T^l)~D log σ[β·log(πθ(T^w|x)/πref(T^w|x)) - β·clip(exp(-(A^l-A^w)/α), 1)·log(πθ(T^l|x)/πref(T^l|x))]

實(shí)現(xiàn)細(xì)節(jié)

訓(xùn)練語(yǔ)料庫(kù)

訓(xùn)練查詢分別來(lái)自兩個(gè)通用語(yǔ)料庫(kù):Magpie和OpenHermes-2.5??紤]到計(jì)算成本,研究者從Magpie隨機(jī)選擇25K查詢,從OpenHermes-2.5選擇32K查詢,分別用作自訓(xùn)練的來(lái)源。

基礎(chǔ)LLM

在主要實(shí)驗(yàn)中,研究者使用LLaMA3.1-8B-Instruct作為骨干。為驗(yàn)證泛化能力,還將自訓(xùn)練方法應(yīng)用于Qwen2.5-Instruct系列模型,包括3B和7B變體。

訓(xùn)練和推理設(shè)置

對(duì)于前瞻采樣配置,設(shè)置M=2,N=4,K=4?;诖?,Magpie和OpenHermes2.5的訓(xùn)練對(duì)總數(shù)分別為100K和128K。推理過(guò)程由vLLM引擎加速。

與其他方法的比較

研究者將Genius與多種基線方法進(jìn)行了比較:

  1. 需要監(jiān)督的方法
  • SFT:給定輸入查詢和標(biāo)記響應(yīng)對(duì)LLM進(jìn)行微調(diào)
  • SPIN:通過(guò)類似DPO的目標(biāo),迭代細(xì)化模型生成的響應(yīng)與標(biāo)記響應(yīng)
  1. 只需無(wú)監(jiān)督查詢的方法
  • STaR:通過(guò)微調(diào)從自構(gòu)建響應(yīng)持續(xù)引導(dǎo)
  • CoH:通過(guò)自我提示獲取正面和負(fù)面響應(yīng),并使用DPO損失函數(shù)優(yōu)化LLM
  • Self-Rewarding:利用LLM自身作為評(píng)判者為自生成的響應(yīng)打分,然后使用DPO損失在構(gòu)建的偏好對(duì)上優(yōu)化LLM
  • ScPO:生成多個(gè)軌跡并用自一致性標(biāo)記偏好

實(shí)驗(yàn)結(jié)果表明,Genius在所有評(píng)估基準(zhǔn)上一致優(yōu)于這些強(qiáng)基線方法。

消融研究:驗(yàn)證核心貢獻(xiàn)

為了揭示Genius核心貢獻(xiàn)的有效性,研究者分別對(duì)"采樣-獎(jiǎng)勵(lì)"策略和優(yōu)化目標(biāo)進(jìn)行了消融研究。

采樣策略消融

消融前瞻模塊導(dǎo)致平均性能下降3.17%-3.25%,說(shuō)明前瞻采樣策略緩解了語(yǔ)言模型生成的短視性,前瞻分?jǐn)?shù)的使用優(yōu)化了步驟值的自我獎(jiǎng)勵(lì)。將"采樣"替換為貪婪選擇也導(dǎo)致顯著下降,驗(yàn)證了"重采樣"策略在探索與利用之間取得了平衡。

優(yōu)化方法消融

研究者比較了各種優(yōu)化方法,包括DPO、SimPO、IPO、ROPO和SFT。在這些流行方法中,ACO損失函數(shù)脫穎而出,在7個(gè)推理基準(zhǔn)上顯示出顯著的平均性能改進(jìn)。與魯棒優(yōu)化策略ROPO相比,ACO更適合自訓(xùn)練場(chǎng)景。

潛在應(yīng)用與未來(lái)展望

Genius為L(zhǎng)LM推理能力的后訓(xùn)練提供了一個(gè)獨(dú)特的視角:LLM可以使用通用查詢自我改進(jìn)其一般推理能力,而無(wú)需任何形式的外部監(jiān)督。僅使用25K無(wú)監(jiān)督通用查詢,Genius就令人驚訝地提高了多個(gè)推理基準(zhǔn)的平均性能>7%。研究者還表明,通用查詢的擴(kuò)展規(guī)律隨著訓(xùn)練步驟的增加而持續(xù)改善。

考慮到可用的通用數(shù)據(jù)豐富,這種擴(kuò)展可以顯著增強(qiáng)推理能力,并進(jìn)一步推動(dòng)推理擴(kuò)展規(guī)律的邊界。Genius為實(shí)現(xiàn)基于通用查詢且無(wú)需監(jiān)督的自我改進(jìn)推理邁出了重要的第一步,鑒于通用查詢的廣泛可用性,它徹底改變了推理的擴(kuò)展規(guī)律。

結(jié)論

本文聚焦于解決增強(qiáng)LLM推理的挑戰(zhàn)性和關(guān)鍵任務(wù),而無(wú)需依賴任何外部監(jiān)督。提出的Genius框架是一個(gè)可泛化且純無(wú)監(jiān)督的自訓(xùn)練框架,解決了幾個(gè)關(guān)鍵技術(shù)挑戰(zhàn):(1)如何采樣響應(yīng);(2)如何在沒(méi)有外部輔助的情況下自我獎(jiǎng)勵(lì)響應(yīng);(3)如何使用自策劃的數(shù)據(jù)進(jìn)行魯棒優(yōu)化。

大量實(shí)驗(yàn)表明,Genius不僅顯著提升了LLM的推理能力,還在通用領(lǐng)域保持了性能穩(wěn)定。擴(kuò)展規(guī)律曲線的分析揭示了進(jìn)一步擴(kuò)展的巨大潛力,為L(zhǎng)LM推理能力的自我提升開辟了新的研究方向。

GitHub:???https://github.com/xufangzhi/Genius???

論文:????https://arxiv.org/abs/2504.08672???

本文轉(zhuǎn)載自??頓數(shù)AI???,作者:可可


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦