這才是真?開源模型!公開「后訓(xùn)練」一切,性能超越Llama 3.1 Instruct
在最近關(guān)于「Scaling Law 是否撞墻」的討論中,后訓(xùn)練(post-training)被寄予厚望。
眾所周知,近期發(fā)布的 OpenAI o1 在數(shù)學(xué)、 代碼、長程規(guī)劃等問題上取得了顯著提升,而背后的成功離不開后訓(xùn)練階段強(qiáng)化學(xué)習(xí)訓(xùn)練和推理階段思考計(jì)算量的增大。基于此,有人認(rèn)為,新的擴(kuò)展律 —— 后訓(xùn)練擴(kuò)展律(Post-Training Scaling Laws) 已經(jīng)出現(xiàn),并可能引發(fā)社區(qū)對(duì)于算力分配、后訓(xùn)練能力的重新思考。
不過,對(duì)于后訓(xùn)練到底要怎么做,哪些細(xì)節(jié)對(duì)模型性能影響較大,目前還沒有太多系統(tǒng)的資料可以參考,因?yàn)檫@都是各家的商業(yè)機(jī)密。
剛剛,曾經(jīng)重新定義「開源」并發(fā)布了史上首個(gè) 100% 開源大模型的艾倫人工智能研究所(Ai2)站出來打破了沉默。他們不僅開源了兩個(gè)性能超過 Llama 3.1 Instruct 相應(yīng)版本的新模型 ——Tülu 3 8B 和 70B(未來還會(huì)有 405B 版本),還在技術(shù)報(bào)告中公布了詳細(xì)的后訓(xùn)練方法。
Ai2 研究科學(xué)家 Nathan Lambert(論文一作)的推文
這份 70 多頁的技術(shù)報(bào)告可以說誠意滿滿,非常值得詳細(xì)閱讀:
Tülu 3 發(fā)布后,社區(qū)反響熱烈,甚至有用戶表示測(cè)試后發(fā)現(xiàn)其表現(xiàn)比 GPT-4o 還好。
另外,Nathan Lambert 還暗示未來可能基于 Qwen 來訓(xùn)練 Tülu 模型。
機(jī)器之心也簡單測(cè)試了下 Tülu。首先,數(shù) Strawberry 中 r 數(shù)量的問題毫無意外地出錯(cuò)了,至于其編寫的笑話嘛,好像也不好笑。
本地部署 AI 模型的工具 Ollama 也第一時(shí)間宣布已經(jīng)支持該模型。
機(jī)器之心也簡單通過 Ollama 和 Obsidian 的插件簡單體驗(yàn)了一下 8B 的本地版本,看起來效果還不錯(cuò),速度也很快。
不過,比模型性能更值得關(guān)注的或許還是 Tülu 3 的后訓(xùn)練方案。在這套方案的啟發(fā)下,眾多研究者有望在大模型的后訓(xùn)練階段進(jìn)行更多嘗試,延續(xù)大模型的 Scaling Law。
首個(gè)發(fā)布后訓(xùn)練詳情的開源模型
在提升模型性能方面,后訓(xùn)練的作用越來越大,具體包括微調(diào)和 RLHF 等。此前,OpenAI、 Anthropic、Meta 和谷歌等大公司已經(jīng)大幅提升了其后訓(xùn)練方法的復(fù)雜度,具體包括采用多輪訓(xùn)練范式、使用人類數(shù)據(jù) + 合成數(shù)據(jù)、使用多個(gè)訓(xùn)練算法和訓(xùn)練目標(biāo)。也正因?yàn)榇?,這些模型的通用性能和專業(yè)能力都非常強(qiáng)。但遺憾的是,他們都沒有透明地公開他們的訓(xùn)練數(shù)據(jù)和訓(xùn)練配方。
到目前為止,開源后訓(xùn)練一直落后于封閉模型。在 LMSYS 的 ChatBotArena 排行榜上,前 50 名(截至 2024 年 11 月 20 日)中沒有任何一個(gè)模型發(fā)布了其后訓(xùn)練數(shù)據(jù)。即使是主要的開放權(quán)重模型也不會(huì)發(fā)布任何數(shù)據(jù)或用于實(shí)現(xiàn)這種后訓(xùn)練的配方細(xì)節(jié)。
于是,Ai2 似乎看不下去了,決定開源一切!
Tülu 3 模型之外,Ai2 還發(fā)布了所有的數(shù)據(jù)、數(shù)據(jù)混合方法、配方、代碼、基礎(chǔ)設(shè)施和評(píng)估框架!
- 模型:https://huggingface.co/allenai
- 技術(shù)報(bào)告:https://allenai.org/papers/tulu-3-report.pdf
- 數(shù)據(jù)集:https://huggingface.co/collections/allenai/tulu-3-datasets-673b8df14442393f7213f372
- GitHub:https://github.com/allenai/open-instruct
- Demo:https://playground.allenai.org/
下表展示了 Ai2 開源的模型、數(shù)據(jù)集和代碼:
Ai2 表示,Tülu 3 突破了后訓(xùn)練研究的界限,縮小了開放和封閉微調(diào)配方之間的性能差距。
為此,他們創(chuàng)建了新的數(shù)據(jù)集和新的訓(xùn)練流程。他們還提出了直接使用強(qiáng)化學(xué)習(xí)在可驗(yàn)證問題上訓(xùn)練的新方法,以及使用模型自己的生成結(jié)果創(chuàng)建高性能偏好數(shù)據(jù)的新方法。
加上更多優(yōu)化細(xì)節(jié),得到的 Tülu 3 系列模型明顯優(yōu)于同等規(guī)模的其它模型。
8B 模型在各基準(zhǔn)上的表現(xiàn)
70B 模型在各基準(zhǔn)上的表現(xiàn)
Tülu 3 是如何煉成的?
Ai2 在預(yù)訓(xùn)練語言模型的基礎(chǔ)上,通過四個(gè)階段的后訓(xùn)練方法生成 Tülu 3 模型(見圖 1)。這套訓(xùn)練流程結(jié)合了強(qiáng)化學(xué)習(xí)中的新算法改進(jìn)、尖端基礎(chǔ)設(shè)施和嚴(yán)格的實(shí)驗(yàn),以便在各個(gè)訓(xùn)練階段整理數(shù)據(jù)并優(yōu)化數(shù)據(jù)組合、方法和參數(shù)。
這些階段如下:
- 階段一:數(shù)據(jù)整理。Ai2 整理了各種提示(prompt)信息,并將其分配到多個(gè)優(yōu)化階段。他們創(chuàng)建了新的合成提示,或在可用的情況下,從現(xiàn)有數(shù)據(jù)集中獲取提示,以針對(duì)特定能力。他們確保了提示不受評(píng)估套件 Tülu 3 EVAL 的污染。
- 階段二:監(jiān)督微調(diào)。Ai2 利用精心挑選的提示和回答結(jié)果進(jìn)行監(jiān)督微調(diào)(SFT)。在評(píng)估框架指導(dǎo)下,他們通過全面的實(shí)驗(yàn),確定最終的 SFT 數(shù)據(jù)和訓(xùn)練超參數(shù),以增強(qiáng)目標(biāo)核心技能,同時(shí)不對(duì)其他技能的性能產(chǎn)生重大影響。
- 階段三:偏好微調(diào)。Ai2 將偏好微調(diào) —— 特別是 DPO(直接偏好優(yōu)化)—— 應(yīng)用于根據(jù)選定的提示和 off-policy 數(shù)據(jù)構(gòu)建的新 on-policy 合成偏好數(shù)據(jù)。與 SFT 階段一樣,他們通過全面的實(shí)驗(yàn)來確定最佳偏好數(shù)據(jù)組合,從而發(fā)現(xiàn)哪些數(shù)據(jù)格式、方法或超參數(shù)可帶來改進(jìn)。
- 階段四:具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)。Ai2 引入了一個(gè)新的基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練階段,該階段通過可驗(yàn)證獎(jiǎng)勵(lì)(而不是傳統(tǒng) RLHF PPO 訓(xùn)練中常見的獎(jiǎng)勵(lì)模型)來訓(xùn)練模型。他們選擇了結(jié)果可驗(yàn)證的任務(wù),例如數(shù)學(xué)問題,并且只有當(dāng)模型的生成被驗(yàn)證為正確時(shí)才提供獎(jiǎng)勵(lì)。然后,他們基于這些獎(jiǎng)勵(lì)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。
Tülu 3 pipeline 的主要貢獻(xiàn)在于數(shù)據(jù)、方法、基礎(chǔ)設(shè)施的改進(jìn)和嚴(yán)格的評(píng)估。其中的關(guān)鍵要素包括:
- 數(shù)據(jù)質(zhì)量、出處和規(guī)模:Ai2 通過仔細(xì)調(diào)查可用的開源數(shù)據(jù)集、分析其出處、凈化來獲取提示,并針對(duì)核心技能策劃合成提示。為確保有效性,他們進(jìn)行了全面的實(shí)驗(yàn),研究它們對(duì)評(píng)估套件的影響。他們發(fā)現(xiàn)有針對(duì)性的提示對(duì)提高核心技能很有影響,而真實(shí)世界的查詢(如 WildChat)對(duì)提高通用聊天能力很重要。利用 Tülu 3 EVAL 凈化工具,他們可以確保提示不會(huì)污染評(píng)估套件。
- 創(chuàng)建多技能 SFT 數(shù)據(jù)集。通過利用不同數(shù)據(jù)混合結(jié)果進(jìn)行幾輪有監(jiān)督微調(diào),Ai2 優(yōu)化了「通用」和「特定技能」類別中提示的分布。例如,為了提高數(shù)學(xué)推理能力,Ai2 首先通過創(chuàng)建數(shù)學(xué)專業(yè)模型在評(píng)估套件中建立一個(gè)上限,然后混合數(shù)據(jù),使通用模型更接近這個(gè)上限。
- 編排一個(gè) On-Policy 偏好數(shù)據(jù)集。Ai2 開發(fā)了一個(gè) on-policy 數(shù)據(jù)編排 pipeline,以擴(kuò)展偏好數(shù)據(jù)集生成。具體來說,他們根據(jù)給定的提示從 Tülu 3-SFT 和其他模型中生成完成結(jié)果,并通過成對(duì)比較獲得偏好標(biāo)簽。他們的方法擴(kuò)展并改進(jìn)了 Cui et al. [2023] 提出的 off-policy 偏好數(shù)據(jù)生成方法。通過對(duì)偏好數(shù)據(jù)進(jìn)行精心的多技能選擇,他們獲得了 354192 個(gè)用于偏好調(diào)整的實(shí)例,展示了一系列任務(wù)的顯著改進(jìn)。
- 偏好調(diào)整算法設(shè)計(jì)。Ai2 對(duì)幾種偏好調(diào)整算法進(jìn)行了實(shí)驗(yàn),觀察到使用長度歸一化( length-normalized)直接偏好優(yōu)化的性能有所提高。他們?cè)趯?shí)驗(yàn)中優(yōu)先考慮了簡單性和效率,并在整個(gè)開發(fā)過程和最終模型訓(xùn)練中使用了長度歸一化直接偏好優(yōu)化算法,而不是對(duì)基于 PPO 的方法進(jìn)行成本更高的研究。
- 具有可驗(yàn)證獎(jiǎng)勵(lì)的特定技能強(qiáng)化學(xué)習(xí)。Ai2 采用了一種新方法,利用標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)范式,針對(duì)可以對(duì)照真實(shí)結(jié)果(如數(shù)學(xué))進(jìn)行評(píng)估的技能進(jìn)行強(qiáng)化學(xué)習(xí)。他們將這種算法稱為「可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)」(RLVR)。結(jié)果表明,RLVR 可以提高模型在 GSM8K、MATH 和 IFEval 上的性能。
- 用于強(qiáng)化學(xué)習(xí)的訓(xùn)練基礎(chǔ)設(shè)施。Ai2 實(shí)現(xiàn)了一種異步式強(qiáng)化學(xué)習(xí)設(shè)置:通過 vLLM 高效地運(yùn)行 LLM 推理,而學(xué)習(xí)器還會(huì)同時(shí)執(zhí)行梯度更新。并且 Ai2 還表示他們的強(qiáng)化學(xué)習(xí)代碼庫的擴(kuò)展性能非常好,可用于訓(xùn)練 70B RLVR 策略模型。
Tülu 3 的表現(xiàn)如何?
為了評(píng)估 Tülu 3 以及其它模型,Ai2 設(shè)計(jì)了一套評(píng)估框架,其中包含一個(gè)用于可重復(fù)評(píng)估的開放評(píng)估工具包、一套用于評(píng)估指令微調(diào)模型的核心技能的套件(具有分立的開發(fā)和留存評(píng)估),以及一組推薦設(shè)置(基于 Ai2 對(duì)各種模型的實(shí)驗(yàn))——Ai2 稱之為 Tülu 3 Evaluation Regime。
除了評(píng)估最終模型,該框架還是一個(gè)開放的評(píng)估工具套件,旨在通過精心挑選的評(píng)估套件和凈化工具來引導(dǎo)開發(fā)進(jìn)度。
下面展示了一些主要的評(píng)估結(jié)果。可以看到,同等規(guī)模性,在這些基準(zhǔn)上,Tülu 3 的表現(xiàn)非常出色,其中 70B 版本的平均性能甚至可與 Claude 3.5 Haiku 比肩。
此外,Ai2 還提出了兩個(gè)新的評(píng)估基準(zhǔn):IFEval-OOD 和 HREF。
IFEval-OOD 的目標(biāo)是測(cè)試 LLM 遵從精確指令的能力,以及它們是否能夠遵從超出 IFEval 中包含的 25 個(gè)約束的指令約束。IFEval-OOD 包含 6 大類 52 個(gè)約束。
HREF 的全稱是 Human Reference-guided Evaluation of instruction Following,即人類偏好指導(dǎo)的指令遵從評(píng)估,其目標(biāo)是自動(dòng)評(píng)估語言模型遵從指令的能力。HREF 專注于語言模型通常訓(xùn)練的 11 個(gè)指令遵從任務(wù),即頭腦風(fēng)暴、開放式 QA、封閉式 QA、提取、生成、重寫、總結(jié)、分類、數(shù)值推理、多文檔合成和事實(shí)核查。
下表給出了 Tülu 3 與對(duì)比模型在這兩個(gè)新基準(zhǔn)以及其它已有基準(zhǔn)上的表現(xiàn),具體涉及的領(lǐng)域包括知識(shí)調(diào)用、推理、數(shù)學(xué)、編程和指令遵從。需要注意,這些都是 Unseen 基準(zhǔn),即這些任務(wù)是模型訓(xùn)練過程中未見過的。
安全性方面,以下兩表展示了 Tülu 3 與對(duì)比模型在兩個(gè)基準(zhǔn)上的安全分?jǐn)?shù)。整體而言,同等規(guī)模下,Tülu 3 相較于其它開源模型更有優(yōu)勢(shì)。
最后必須說明,長達(dá) 73 頁的 Tülu 3 技術(shù)報(bào)告中還包含大量本文并未提及的細(xì)節(jié),感興趣的讀者千萬不要錯(cuò)過。