這才是真?開源模型！公開「后訓(xùn)練」一切，性能超越Llama 3.1 Instruct

作者：機(jī)器之心 2024-11-25 08:10:00

開源模型陣營又迎來一員猛將：Tülu 3。它來自艾倫人工智能研究所（Ai2），目前包含 8B 和 70B 兩個(gè)版本（未來還會(huì)有 405B 版本），并且其性能超過了 Llama 3.1 Instruct 的相應(yīng)版本！長達(dá) 73 的技術(shù)報(bào)告詳細(xì)介紹了后訓(xùn)練的細(xì)節(jié)。

在最近關(guān)于「Scaling Law 是否撞墻」的討論中，后訓(xùn)練（post-training）被寄予厚望。

眾所周知，近期發(fā)布的 OpenAI o1 在數(shù)學(xué)、代碼、長程規(guī)劃等問題上取得了顯著提升，而背后的成功離不開后訓(xùn)練階段強(qiáng)化學(xué)習(xí)訓(xùn)練和推理階段思考計(jì)算量的增大。基于此，有人認(rèn)為，新的擴(kuò)展律 —— 后訓(xùn)練擴(kuò)展律（Post-Training Scaling Laws）已經(jīng)出現(xiàn)，并可能引發(fā)社區(qū)對(duì)于算力分配、后訓(xùn)練能力的重新思考。

不過，對(duì)于后訓(xùn)練到底要怎么做，哪些細(xì)節(jié)對(duì)模型性能影響較大，目前還沒有太多系統(tǒng)的資料可以參考，因?yàn)檫@都是各家的商業(yè)機(jī)密。

剛剛，曾經(jīng)重新定義「開源」并發(fā)布了史上首個(gè) 100% 開源大模型的艾倫人工智能研究所（Ai2）站出來打破了沉默。他們不僅開源了兩個(gè)性能超過 Llama 3.1 Instruct 相應(yīng)版本的新模型 ——Tülu 3 8B 和 70B（未來還會(huì)有 405B 版本），還在技術(shù)報(bào)告中公布了詳細(xì)的后訓(xùn)練方法。

Ai2 研究科學(xué)家 Nathan Lambert（論文一作）的推文

這份 70 多頁的技術(shù)報(bào)告可以說誠意滿滿，非常值得詳細(xì)閱讀：

Tülu 3 發(fā)布后，社區(qū)反響熱烈，甚至有用戶表示測(cè)試后發(fā)現(xiàn)其表現(xiàn)比 GPT-4o 還好。

另外，Nathan Lambert 還暗示未來可能基于 Qwen 來訓(xùn)練 Tülu 模型。

機(jī)器之心也簡單測(cè)試了下 Tülu。首先，數(shù) Strawberry 中 r 數(shù)量的問題毫無意外地出錯(cuò)了，至于其編寫的笑話嘛，好像也不好笑。

本地部署 AI 模型的工具 Ollama 也第一時(shí)間宣布已經(jīng)支持該模型。

機(jī)器之心也簡單通過 Ollama 和 Obsidian 的插件簡單體驗(yàn)了一下 8B 的本地版本，看起來效果還不錯(cuò)，速度也很快。

不過，比模型性能更值得關(guān)注的或許還是 Tülu 3 的后訓(xùn)練方案。在這套方案的啟發(fā)下，眾多研究者有望在大模型的后訓(xùn)練階段進(jìn)行更多嘗試，延續(xù)大模型的 Scaling Law。

首個(gè)發(fā)布后訓(xùn)練詳情的開源模型

在提升模型性能方面，后訓(xùn)練的作用越來越大，具體包括微調(diào)和 RLHF 等。此前，OpenAI、 Anthropic、Meta 和谷歌等大公司已經(jīng)大幅提升了其后訓(xùn)練方法的復(fù)雜度，具體包括采用多輪訓(xùn)練范式、使用人類數(shù)據(jù) + 合成數(shù)據(jù)、使用多個(gè)訓(xùn)練算法和訓(xùn)練目標(biāo)。也正因?yàn)榇?，這些模型的通用性能和專業(yè)能力都非常強(qiáng)。但遺憾的是，他們都沒有透明地公開他們的訓(xùn)練數(shù)據(jù)和訓(xùn)練配方。

到目前為止，開源后訓(xùn)練一直落后于封閉模型。在 LMSYS 的 ChatBotArena 排行榜上，前 50 名（截至 2024 年 11 月 20 日）中沒有任何一個(gè)模型發(fā)布了其后訓(xùn)練數(shù)據(jù)。即使是主要的開放權(quán)重模型也不會(huì)發(fā)布任何數(shù)據(jù)或用于實(shí)現(xiàn)這種后訓(xùn)練的配方細(xì)節(jié)。

于是，Ai2 似乎看不下去了，決定開源一切！

Tülu 3 模型之外，Ai2 還發(fā)布了所有的數(shù)據(jù)、數(shù)據(jù)混合方法、配方、代碼、基礎(chǔ)設(shè)施和評(píng)估框架！

模型：https://huggingface.co/allenai
技術(shù)報(bào)告：https://allenai.org/papers/tulu-3-report.pdf
數(shù)據(jù)集：https://huggingface.co/collections/allenai/tulu-3-datasets-673b8df14442393f7213f372
GitHub：https://github.com/allenai/open-instruct
Demo：https://playground.allenai.org/

下表展示了 Ai2 開源的模型、數(shù)據(jù)集和代碼：

Ai2 表示，Tülu 3 突破了后訓(xùn)練研究的界限，縮小了開放和封閉微調(diào)配方之間的性能差距。

為此，他們創(chuàng)建了新的數(shù)據(jù)集和新的訓(xùn)練流程。他們還提出了直接使用強(qiáng)化學(xué)習(xí)在可驗(yàn)證問題上訓(xùn)練的新方法，以及使用模型自己的生成結(jié)果創(chuàng)建高性能偏好數(shù)據(jù)的新方法。

加上更多優(yōu)化細(xì)節(jié)，得到的 Tülu 3 系列模型明顯優(yōu)于同等規(guī)模的其它模型。

8B 模型在各基準(zhǔn)上的表現(xiàn)

70B 模型在各基準(zhǔn)上的表現(xiàn)

Tülu 3 是如何煉成的？

Ai2 在預(yù)訓(xùn)練語言模型的基礎(chǔ)上，通過四個(gè)階段的后訓(xùn)練方法生成 Tülu 3 模型（見圖 1）。這套訓(xùn)練流程結(jié)合了強(qiáng)化學(xué)習(xí)中的新算法改進(jìn)、尖端基礎(chǔ)設(shè)施和嚴(yán)格的實(shí)驗(yàn)，以便在各個(gè)訓(xùn)練階段整理數(shù)據(jù)并優(yōu)化數(shù)據(jù)組合、方法和參數(shù)。

這些階段如下：

階段一：數(shù)據(jù)整理。Ai2 整理了各種提示（prompt）信息，并將其分配到多個(gè)優(yōu)化階段。他們創(chuàng)建了新的合成提示，或在可用的情況下，從現(xiàn)有數(shù)據(jù)集中獲取提示，以針對(duì)特定能力。他們確保了提示不受評(píng)估套件 Tülu 3 EVAL 的污染。

階段二：監(jiān)督微調(diào)。Ai2 利用精心挑選的提示和回答結(jié)果進(jìn)行監(jiān)督微調(diào)（SFT）。在評(píng)估框架指導(dǎo)下，他們通過全面的實(shí)驗(yàn)，確定最終的 SFT 數(shù)據(jù)和訓(xùn)練超參數(shù)，以增強(qiáng)目標(biāo)核心技能，同時(shí)不對(duì)其他技能的性能產(chǎn)生重大影響。

階段三：偏好微調(diào)。Ai2 將偏好微調(diào) —— 特別是 DPO（直接偏好優(yōu)化）—— 應(yīng)用于根據(jù)選定的提示和 off-policy 數(shù)據(jù)構(gòu)建的新 on-policy 合成偏好數(shù)據(jù)。與 SFT 階段一樣，他們通過全面的實(shí)驗(yàn)來確定最佳偏好數(shù)據(jù)組合，從而發(fā)現(xiàn)哪些數(shù)據(jù)格式、方法或超參數(shù)可帶來改進(jìn)。

階段四：具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)。Ai2 引入了一個(gè)新的基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練階段，該階段通過可驗(yàn)證獎(jiǎng)勵(lì)（而不是傳統(tǒng) RLHF PPO 訓(xùn)練中常見的獎(jiǎng)勵(lì)模型）來訓(xùn)練模型。他們選擇了結(jié)果可驗(yàn)證的任務(wù)，例如數(shù)學(xué)問題，并且只有當(dāng)模型的生成被驗(yàn)證為正確時(shí)才提供獎(jiǎng)勵(lì)。然后，他們基于這些獎(jiǎng)勵(lì)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

Tülu 3 pipeline 的主要貢獻(xiàn)在于數(shù)據(jù)、方法、基礎(chǔ)設(shè)施的改進(jìn)和嚴(yán)格的評(píng)估。其中的關(guān)鍵要素包括：

數(shù)據(jù)質(zhì)量、出處和規(guī)模：Ai2 通過仔細(xì)調(diào)查可用的開源數(shù)據(jù)集、分析其出處、凈化來獲取提示，并針對(duì)核心技能策劃合成提示。為確保有效性，他們進(jìn)行了全面的實(shí)驗(yàn)，研究它們對(duì)評(píng)估套件的影響。他們發(fā)現(xiàn)有針對(duì)性的提示對(duì)提高核心技能很有影響，而真實(shí)世界的查詢（如 WildChat）對(duì)提高通用聊天能力很重要。利用 Tülu 3 EVAL 凈化工具，他們可以確保提示不會(huì)污染評(píng)估套件。
創(chuàng)建多技能 SFT 數(shù)據(jù)集。通過利用不同數(shù)據(jù)混合結(jié)果進(jìn)行幾輪有監(jiān)督微調(diào)，Ai2 優(yōu)化了「通用」和「特定技能」類別中提示的分布。例如，為了提高數(shù)學(xué)推理能力，Ai2 首先通過創(chuàng)建數(shù)學(xué)專業(yè)模型在評(píng)估套件中建立一個(gè)上限，然后混合數(shù)據(jù)，使通用模型更接近這個(gè)上限。
編排一個(gè) On-Policy 偏好數(shù)據(jù)集。Ai2 開發(fā)了一個(gè) on-policy 數(shù)據(jù)編排 pipeline，以擴(kuò)展偏好數(shù)據(jù)集生成。具體來說，他們根據(jù)給定的提示從 Tülu 3-SFT 和其他模型中生成完成結(jié)果，并通過成對(duì)比較獲得偏好標(biāo)簽。他們的方法擴(kuò)展并改進(jìn)了 Cui et al. [2023] 提出的 off-policy 偏好數(shù)據(jù)生成方法。通過對(duì)偏好數(shù)據(jù)進(jìn)行精心的多技能選擇，他們獲得了 354192 個(gè)用于偏好調(diào)整的實(shí)例，展示了一系列任務(wù)的顯著改進(jìn)。
偏好調(diào)整算法設(shè)計(jì)。Ai2 對(duì)幾種偏好調(diào)整算法進(jìn)行了實(shí)驗(yàn)，觀察到使用長度歸一化（ length-normalized）直接偏好優(yōu)化的性能有所提高。他們?cè)趯?shí)驗(yàn)中優(yōu)先考慮了簡單性和效率，并在整個(gè)開發(fā)過程和最終模型訓(xùn)練中使用了長度歸一化直接偏好優(yōu)化算法，而不是對(duì)基于 PPO 的方法進(jìn)行成本更高的研究。
具有可驗(yàn)證獎(jiǎng)勵(lì)的特定技能強(qiáng)化學(xué)習(xí)。Ai2 采用了一種新方法，利用標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)范式，針對(duì)可以對(duì)照真實(shí)結(jié)果（如數(shù)學(xué)）進(jìn)行評(píng)估的技能進(jìn)行強(qiáng)化學(xué)習(xí)。他們將這種算法稱為「可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)」（RLVR）。結(jié)果表明，RLVR 可以提高模型在 GSM8K、MATH 和 IFEval 上的性能。

用于強(qiáng)化學(xué)習(xí)的訓(xùn)練基礎(chǔ)設(shè)施。Ai2 實(shí)現(xiàn)了一種異步式強(qiáng)化學(xué)習(xí)設(shè)置：通過 vLLM 高效地運(yùn)行 LLM 推理，而學(xué)習(xí)器還會(huì)同時(shí)執(zhí)行梯度更新。并且 Ai2 還表示他們的強(qiáng)化學(xué)習(xí)代碼庫的擴(kuò)展性能非常好，可用于訓(xùn)練 70B RLVR 策略模型。

Tülu 3 的表現(xiàn)如何？

為了評(píng)估 Tülu 3 以及其它模型，Ai2 設(shè)計(jì)了一套評(píng)估框架，其中包含一個(gè)用于可重復(fù)評(píng)估的開放評(píng)估工具包、一套用于評(píng)估指令微調(diào)模型的核心技能的套件（具有分立的開發(fā)和留存評(píng)估），以及一組推薦設(shè)置（基于 Ai2 對(duì)各種模型的實(shí)驗(yàn)）——Ai2 稱之為 Tülu 3 Evaluation Regime。

除了評(píng)估最終模型，該框架還是一個(gè)開放的評(píng)估工具套件，旨在通過精心挑選的評(píng)估套件和凈化工具來引導(dǎo)開發(fā)進(jìn)度。

下面展示了一些主要的評(píng)估結(jié)果。可以看到，同等規(guī)模性，在這些基準(zhǔn)上，Tülu 3 的表現(xiàn)非常出色，其中 70B 版本的平均性能甚至可與 Claude 3.5 Haiku 比肩。

此外，Ai2 還提出了兩個(gè)新的評(píng)估基準(zhǔn)：IFEval-OOD 和 HREF。

IFEval-OOD 的目標(biāo)是測(cè)試 LLM 遵從精確指令的能力，以及它們是否能夠遵從超出 IFEval 中包含的 25 個(gè)約束的指令約束。IFEval-OOD 包含 6 大類 52 個(gè)約束。

HREF 的全稱是 Human Reference-guided Evaluation of instruction Following，即人類偏好指導(dǎo)的指令遵從評(píng)估，其目標(biāo)是自動(dòng)評(píng)估語言模型遵從指令的能力。HREF 專注于語言模型通常訓(xùn)練的 11 個(gè)指令遵從任務(wù)，即頭腦風(fēng)暴、開放式 QA、封閉式 QA、提取、生成、重寫、總結(jié)、分類、數(shù)值推理、多文檔合成和事實(shí)核查。

下表給出了 Tülu 3 與對(duì)比模型在這兩個(gè)新基準(zhǔn)以及其它已有基準(zhǔn)上的表現(xiàn)，具體涉及的領(lǐng)域包括知識(shí)調(diào)用、推理、數(shù)學(xué)、編程和指令遵從。需要注意，這些都是 Unseen 基準(zhǔn)，即這些任務(wù)是模型訓(xùn)練過程中未見過的。