自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越DeepSeek V3!Ai2再祭開(kāi)源殺器Tülu 3,強(qiáng)化學(xué)習(xí)打破性能瓶頸

人工智能
當(dāng)我們?cè)跉g呼Deepseek超越ChatGPT時(shí),來(lái)自美國(guó)的艾倫人工智能研究所(Ai2)推出了基于強(qiáng)化學(xué)習(xí)的新一代開(kāi)源模型Tülu 3 405B,不僅能夠媲美GPT-4o,更在多項(xiàng)關(guān)鍵基準(zhǔn)測(cè)試中超越了DeepSeek v3。

2024年11月,艾倫人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等參數(shù)的Llama 3.1 Instruct版本,并在長(zhǎng)達(dá)82頁(yè)的論文中公布其訓(xùn)練細(xì)節(jié),訓(xùn)練數(shù)據(jù)、代碼、測(cè)試基準(zhǔn)一應(yīng)俱全。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2411.15124

1月30日,更大杯的Tülu 3 405B震撼登場(chǎng)。

Tülu 3 405B在許多標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試中均實(shí)現(xiàn)了與Deepseek v3和GPT-4o相當(dāng)或更優(yōu)的性能,而且也超越了許多先前發(fā)布的后訓(xùn)練開(kāi)源模型(同等參數(shù)規(guī)模),包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。

圖片圖片

各項(xiàng)基準(zhǔn)結(jié)果比較,最后一列是強(qiáng)化學(xué)習(xí)優(yōu)化過(guò)的Tülu 3 405B的表現(xiàn),在多項(xiàng)指標(biāo)上超越了Deepseek V3

不過(guò)在官網(wǎng)提供的體驗(yàn)版上試了試,效果也并不是那么好,對(duì)于經(jīng)典的數(shù)Strawberry中有幾個(gè)r的問(wèn)題,Tülu 3同樣撲街,不過(guò)之后需要推理的問(wèn)題,模型倒是給出了正確的回答思路。

圖片圖片

demo傳送門:https://playground.allenai.org/

至于其生成出的一些與蛇相關(guān)的格言,大多都沒(méi)有理解傳統(tǒng)文化中「蛇」的寓意,顯得牛頭不對(duì)馬嘴。

圖片圖片

對(duì)于想體驗(yàn)本地大模型的讀者,Tülu 3 8B和70B已支持ollama下載,可以方便地集成使用,相信405B也會(huì)盡快上線ollama平臺(tái)。

Tülu 3的煉丹術(shù)如何 

早期的語(yǔ)言模型后訓(xùn)練工作遵循了由InstructGPT等模型開(kāi)創(chuàng)的標(biāo)準(zhǔn)方法,包括指令微調(diào)(instruction-tuning)和偏好微調(diào)(preference fine-tuning)。

自此以后,后訓(xùn)練方法的復(fù)雜性和精密度不斷增加,但大多數(shù)成功的后訓(xùn)練模型對(duì)其訓(xùn)練數(shù)據(jù)、代碼或訓(xùn)練方法的披露非常有限。在眾多后訓(xùn)練研究中,Ai2罕見(jiàn)地選擇了完整發(fā)布訓(xùn)練數(shù)據(jù)、方法和研究成果,包括最新的Tülu 3在內(nèi)。

圖片圖片

倉(cāng)庫(kù)地址:https://github.com/allenai/open-instruct

Tülu 3的全部構(gòu)建流程如下圖所示,包括主要包括數(shù)據(jù)、訓(xùn)練和評(píng)估三部分。

圖片圖片

Tülu 3項(xiàng)目始于確定通用語(yǔ)言模型的關(guān)鍵期望能力,包括知識(shí)、推理、數(shù)學(xué)、編程、指令遵循、日常聊天和安全性。

其中最關(guān)鍵的模型訓(xùn)練,是在預(yù)訓(xùn)練語(yǔ)言模型(即Llama 3 Base)的基礎(chǔ)上采用四階段后訓(xùn)練配方,四階段依次是:

1)精心策劃和合成式提示(prompt);其使用的提示詞來(lái)源如下:

圖片圖片

2)在精心挑選的提示詞以及相應(yīng)生成內(nèi)容的混合數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào),以針對(duì)核心技能優(yōu)化模型;同時(shí)為了保證模型安全性,使用如下帶有攻擊性提示詞的數(shù)據(jù),訓(xùn)練Tülu 3讓其盡可能不會(huì)被攻破。

圖片圖片

3)結(jié)合離線和在線策略偏好數(shù)據(jù)以應(yīng)用偏好微調(diào);

圖片圖片

具體來(lái)說(shuō),就是在之前提示詞的基礎(chǔ)上,再生成一些不同的新提示詞,通過(guò)22種開(kāi)源大模型生成回答,讓GPT-4o對(duì)各模型給出的回答在有用程度、真實(shí)性、誠(chéng)實(shí)性及指令遵循上的表現(xiàn)進(jìn)行打分,決定是否接受該回答作為訓(xùn)練數(shù)據(jù)。

4)一種新的基于強(qiáng)化學(xué)習(xí)(RL)的方法,通過(guò)可驗(yàn)證獎(jiǎng)勵(lì)來(lái)增強(qiáng)特定技能;

具體來(lái)說(shuō),Tülu 3使用了一種獨(dú)創(chuàng)的后訓(xùn)練方法,稱為:可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards,簡(jiǎn)稱RLVR),流程圖如下所示。

這種新的訓(xùn)練方法專門針對(duì)具有可驗(yàn)證結(jié)果的任務(wù),例如數(shù)學(xué)問(wèn)題求解和指令遵循問(wèn)題。根據(jù)訓(xùn)練數(shù)據(jù)和提示詞,明確判斷問(wèn)題是否完成,從而更新策略函數(shù)。

圖片圖片

有趣的是,訓(xùn)練采用的可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)框架在更大規(guī)模(例如405B)上對(duì)數(shù)學(xué)性能的提升更為顯著,這與DeepSeek-R1報(bào)告中的發(fā)現(xiàn)類似,即相比70B和8B參數(shù)規(guī)模,405B模型由強(qiáng)化學(xué)習(xí)帶來(lái)的提升更為明顯。

對(duì)此,可能的解釋是小型模型從更多樣化的數(shù)據(jù)中受益更多,而大型模型更適合處理需要專門數(shù)據(jù)的復(fù)雜任務(wù)。

訓(xùn)練Tülu 3 405B時(shí)使用了32個(gè)節(jié)點(diǎn)(256個(gè)GPU)并行運(yùn)行。對(duì)于推理,可使用vLLM部署模型,采用16路張量并行,同時(shí)利用剩余的240個(gè)GPU進(jìn)行訓(xùn)練。

鑒于計(jì)算成本有限,超參數(shù)調(diào)整受到限制。訓(xùn)練時(shí)遵循了「參數(shù)更大的模型采用較低學(xué)習(xí)率」的原則,這與Llama模型之前的實(shí)踐一致。

圖片圖片

上圖展示了在405B的參數(shù)量上,MATH數(shù)據(jù)集的可驗(yàn)證獎(jiǎng)勵(lì)、KL散度和模型響應(yīng)長(zhǎng)度隨訓(xùn)練輪次的變化曲線,總體而言,可驗(yàn)證獎(jiǎng)勵(lì)像在8B和70B設(shè)置中觀察到的那樣上升。

圖中星號(hào)標(biāo)記對(duì)應(yīng)最終檢查點(diǎn)的位置。論文表示,團(tuán)隊(duì)本打算訓(xùn)練更長(zhǎng)時(shí)間,但由于計(jì)算資源限制而被迫停止。由于在訓(xùn)練過(guò)程中沒(méi)有觀察到數(shù)學(xué)性能飽和,進(jìn)一步訓(xùn)練可能會(huì)進(jìn)一步提升性能。

總體來(lái)看,Tülu 3采用了全新的后訓(xùn)練框架,包括完全開(kāi)源的數(shù)據(jù)(Tülu 3 Data)、評(píng)估(Tülu 3 Eval)、訓(xùn)練代碼(Tülu 3 Code)以及開(kāi)發(fā)配方(Tülu 3 Recipe),并在性能上超越了同尺度的開(kāi)源及閉源模型。

Tülu 3標(biāo)志著開(kāi)放后訓(xùn)練研究的一個(gè)新的里程碑。憑借Ai2披露的信息和研究成果,其他人可以在開(kāi)放的基礎(chǔ)模型上繼續(xù)構(gòu)建,并針對(duì)多樣化任務(wù)進(jìn)行微調(diào)以實(shí)現(xiàn)高性能,這為在多目標(biāo)和多階段訓(xùn)練框架內(nèi)推進(jìn)后訓(xùn)練研究鋪平了道路,其提出的訓(xùn)練方法也值得開(kāi)發(fā)者借鑒。

參考資料:https://arxiv.org/pdf/2411.15124

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-12-30 20:32:36

2024-12-30 09:25:00

數(shù)據(jù)訓(xùn)練摩擦

2025-03-26 09:12:59

DeepSeek VChat2BISQL

2024-12-10 16:00:00

AI開(kāi)源

2025-02-20 08:45:41

V3GPU資源

2025-02-07 11:00:00

模型開(kāi)源AI

2024-12-27 09:50:00

模型數(shù)據(jù)測(cè)試

2014-02-25 16:13:48

華為服務(wù)器英特爾

2021-04-30 15:45:42

存儲(chǔ)人工智能數(shù)據(jù)

2023-08-31 13:37:00

訓(xùn)練模型

2025-03-31 00:00:00

DeepSeekAI人工智能

2025-03-03 08:17:00

DeepSeek模型數(shù)據(jù)

2024-12-23 14:40:00

AI模型訓(xùn)練

2025-02-19 15:40:44

2025-02-03 00:00:01

Ai2o1LLM

2011-05-20 07:52:54

RADVISIONSCOPIA Mobi

2025-02-19 10:49:30

2014-09-10 11:21:58

英特爾E5 v3摩爾定律
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)