「DeepSeek接班OpenAI」,最新開(kāi)源的R1推理模型,讓AI圈爆了
昨晚,大模型領(lǐng)域再次「熱鬧起來(lái)」,月之暗面發(fā)布在數(shù)學(xué)、代碼、多模態(tài)推理能力層面全面對(duì)標(biāo) OpenAI 的滿血版 o1 的多模態(tài)思考模型 K1.5。而最近大熱的 DeepSeek 正式推出了 DeepSeek-R1,同樣在數(shù)學(xué)、代碼和自然語(yǔ)言推理等任務(wù)上比肩 OpenAI o1 正式版。
去年 12 月開(kāi)源的大模型 DeepSeek-V3 剛剛掀起了一陣熱潮,實(shí)現(xiàn)了諸多的不可能。這次開(kāi)源的 R1 大模型則在一開(kāi)始就讓一眾 AI 研究者感到「震驚」,人們紛紛在猜測(cè)這是如何做到的。
AutoAWQ 作者 Casper Hansen 表示,DeepSeek-R1 使用一種多階段循環(huán)的訓(xùn)練方式:基礎(chǔ)→ RL →微調(diào)→ RL →微調(diào)→ RL。
UC Berkeley 教授 Alex Dimakis 則認(rèn)為 DeepSeek 現(xiàn)在已經(jīng)處于領(lǐng)先位置,美國(guó)公司可能需要迎頭趕上了。
目前,DeepSeek 在網(wǎng)頁(yè)端、App 端和 API 端全面上線了 R1,下圖為網(wǎng)頁(yè)端對(duì)話界面,選擇 DeepSeek-R1 就能直接體驗(yàn)。
體驗(yàn)地址:https://www.deepseek.com/
此次,DeepSeek 發(fā)布了兩個(gè)參數(shù)為 660B 的 DeepSeek-R1-Zero 和 DeepSeek-R1,并選擇開(kāi)源了模型權(quán)重,同時(shí)允許用戶使用 R1 來(lái)訓(xùn)練其他模型。
在技術(shù)層面,R1 在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)(RL)技術(shù),在僅用非常少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。下圖為 R1 與 o1-1217、o1-mini、自家 DeepSeek-V3 在多個(gè)數(shù)據(jù)集上的性能比較,可以看到,R1 與 o1-1217 不相上下、互有勝負(fù)。
另外,DeepSeek-R1 蒸餾出了六個(gè)小模型,參數(shù)從小到大分別為 1.5B、7B、8B、14B、32B 以及 70B。這六個(gè)模型同樣完全開(kāi)源,旨在回饋開(kāi)源社區(qū),推動(dòng)「Open AI」的邊界。
模型下載地址:https://huggingface.co/deepseek-ai?cnotallow=f18057c998f54575cb0608a591c993fb
性能方面,蒸餾后的 R1 32B 和 70B 版本遠(yuǎn)遠(yuǎn)超過(guò)了 GPT-4o、Claude 3.5 Sonnet 和 QwQ-32B,并逼近 o1-mini。
至于很多開(kāi)發(fā)者關(guān)心的 DeepSeek-R1 API 價(jià)格,可以說(shuō)是一如既往地給力。
DeepSeek-R1 API 服務(wù)的定價(jià)為每百萬(wàn)輸入 tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬(wàn)輸出 tokens 16 元。
顯然,與 o1 的 API 定價(jià)比起來(lái)(每百萬(wàn)輸入 tokens 15 美元、每百萬(wàn)輸出 tokens 60 美元),DeepSeek 具有極高的性價(jià)比。
DeepSeek 秉持了開(kāi)源到底的決心,將 R1 模型的訓(xùn)練技術(shù)全部開(kāi)放,放出了背后的研究論文。
論文鏈接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
R1 技術(shù)報(bào)告
以往的研究主要依賴大量的監(jiān)督數(shù)據(jù)來(lái)提升模型性能。DeepSeek 的開(kāi)發(fā)團(tuán)隊(duì)則開(kāi)辟了一種全新的思路:即使不用監(jiān)督微調(diào)(SFT)作為冷啟動(dòng),通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)也能顯著提升模型的推理能力。如果再加上少量的冷啟動(dòng)數(shù)據(jù),效果會(huì)更好。
為了做到這一點(diǎn),他們開(kāi)發(fā)了 DeepSeek-R1-Zero。具體來(lái)說(shuō),DeepSeek-R1-Zero 主要有以下三點(diǎn)獨(dú)特的設(shè)計(jì):
首先是采用了群組相對(duì)策略優(yōu)化(GRPO)來(lái)降低訓(xùn)練成本。GRPO 不需要使用與策略模型同樣大小的評(píng)估模型,而是直接從群組分?jǐn)?shù)中估算基線。
對(duì)于每個(gè)輸入問(wèn)題 q,GRPO 算法會(huì)從舊策略中采樣一組輸出 {o1, o2, ..., oG},形成評(píng)估群組,然后通過(guò)最大化目標(biāo)函數(shù)來(lái)優(yōu)化策略模型:
其中,優(yōu)勢(shì)值 A_i 通過(guò)標(biāo)準(zhǔn)化每個(gè)輸出的獎(jiǎng)勵(lì)來(lái)計(jì)算:
其次是獎(jiǎng)勵(lì)設(shè)計(jì)。如何設(shè)計(jì)獎(jiǎng)勵(lì),決定著 RL 優(yōu)化的方向。DeepSeek 給出的解法是采用準(zhǔn)確度和格式兩種互補(bǔ)的獎(jiǎng)勵(lì)機(jī)制。
準(zhǔn)確度獎(jiǎng)勵(lì)用于評(píng)估回答的正確性。在數(shù)學(xué)題中,模型需要用特定格式給出答案以便驗(yàn)證;在編程題中,則通過(guò)編譯器運(yùn)行測(cè)試用例獲取反饋。
第二種是格式獎(jiǎng)勵(lì),模型需要將思考過(guò)程放在 '<think>' 和 '</think>' 這兩個(gè)特定的標(biāo)簽之間,提升輸出的規(guī)范性。
該團(tuán)隊(duì)沒(méi)有使用常用的神經(jīng)網(wǎng)絡(luò)獎(jiǎng)勵(lì)模型,是因?yàn)樵诖笠?guī)模強(qiáng)化學(xué)習(xí)過(guò)程中,模型可能會(huì)出現(xiàn)「作弊」問(wèn)題。同時(shí)也避免了重新訓(xùn)練獎(jiǎng)勵(lì)模型需要額外資源,簡(jiǎn)化了訓(xùn)練流程。
第三點(diǎn)是訓(xùn)練模版,在 GRPO 和獎(jiǎng)勵(lì)設(shè)計(jì)的基礎(chǔ)上,開(kāi)發(fā)團(tuán)隊(duì)設(shè)計(jì)了如表 1 所示的簡(jiǎn)單模板來(lái)引導(dǎo)基礎(chǔ)模型。這個(gè)模板要求 DeepSeek-R1-Zero 先給出推理過(guò)程,再提供最終答案。這種設(shè)計(jì)僅規(guī)范了基本結(jié)構(gòu),不對(duì)內(nèi)容施加任何限制或偏見(jiàn),比如不強(qiáng)制要求使用反思性推理或特定解題方法。這種最小干預(yù)的設(shè)計(jì)能夠清晰地觀察模型在 RL 的進(jìn)步過(guò)程。
DeepSeek-R1-Zero 的提升也非常顯著。如圖 2 所示,做 2024 年的 AIME 數(shù)學(xué)奧賽試卷,DeepSeek-R1-Zero 的平均 pass@1 分?jǐn)?shù)從最初的 15.6% 顯著提升到了 71.0%,達(dá)到了與 OpenAI-o1-0912 相當(dāng)?shù)乃?。在多?shù)投票機(jī)制中,DeepSeek-R1-Zero 在 AIME 中的成功率進(jìn)一步提升到了 86.7%,甚至超過(guò)了 OpenAI-o1-0912 的表現(xiàn)。
DeepSeek-R1-Zero 與 OpenAI 的 o1-0912 在多個(gè)推理相關(guān)基準(zhǔn)測(cè)試上的得分對(duì)比。
在訓(xùn)練過(guò)程中,DeepSeek-R1-Zero 展現(xiàn)出了顯著的自我進(jìn)化能力。它學(xué)會(huì)了生成數(shù)百到數(shù)千個(gè)推理 token,能夠更深入地探索和完善思維過(guò)程。
隨著訓(xùn)練的深入,模型也發(fā)展出了一些高級(jí)行為,比如反思能力和探索不同解題方法的能力。這些都不是預(yù)先設(shè)定的,而是模型在強(qiáng)化學(xué)習(xí)環(huán)境中自然產(chǎn)生的。
特別值得一提的是,開(kāi)發(fā)團(tuán)隊(duì)觀察到了一個(gè)有趣的「Aha Moment」。在訓(xùn)練的中期階段,DeepSeek-R1-Zero 學(xué)會(huì)了通過(guò)重新評(píng)估初始方法來(lái)更合理地分配思考時(shí)間。這可能就是強(qiáng)化學(xué)習(xí)的魅力:只要提供正確的獎(jiǎng)勵(lì)機(jī)制,模型就能自主發(fā)展出高級(jí)的解題策略。
不過(guò) DeepSeek-R1-Zero 仍然存在一些局限性,如回答的可讀性差、語(yǔ)言混雜等問(wèn)題。
利用冷啟動(dòng)進(jìn)行強(qiáng)化學(xué)習(xí)
與 DeepSeek-R1-Zero 不同,為了防止基礎(chǔ)模型在 RL 訓(xùn)練早期出現(xiàn)不穩(wěn)定的冷啟動(dòng)階段,開(kāi)發(fā)團(tuán)隊(duì)針對(duì) R1 構(gòu)建并收集了少量的長(zhǎng) CoT 數(shù)據(jù),以作為初始 RL actor 對(duì)模型進(jìn)行微調(diào)。為了收集此類(lèi)數(shù)據(jù),開(kāi)發(fā)團(tuán)隊(duì)探索了幾種方法:以長(zhǎng) CoT 的少樣本提示為例、直接提示模型通過(guò)反思和驗(yàn)證生成詳細(xì)答案、以可讀格式收集 DeepSeek-R1-Zero 輸出、以及通過(guò)人工注釋者的后處理來(lái)細(xì)化結(jié)果。
DeepSeek 收集了數(shù)千個(gè)冷啟動(dòng)數(shù)據(jù),以微調(diào) DeepSeek-V3-Base 作為 RL 的起點(diǎn)。與 DeepSeek-R1-Zero 相比,冷啟動(dòng)數(shù)據(jù)的優(yōu)勢(shì)包括:
- 可讀性:DeepSeek-R1-Zero 的一個(gè)主要限制是其內(nèi)容通常不適合閱讀。響應(yīng)可能混合多種語(yǔ)言或缺乏 markdown 格式來(lái)為用戶突出顯示答案。相比之下,在為 R1 創(chuàng)建冷啟動(dòng)數(shù)據(jù)時(shí),開(kāi)發(fā)團(tuán)隊(duì)設(shè)計(jì)了一個(gè)可讀模式,在每個(gè)響應(yīng)末尾包含一個(gè)摘要,并過(guò)濾掉不友好的響應(yīng)。
- 潛力:通過(guò)精心設(shè)計(jì)具有人類(lèi)先驗(yàn)知識(shí)的冷啟動(dòng)數(shù)據(jù)模式,開(kāi)發(fā)團(tuán)隊(duì)觀察到相較于 DeepSeek-R1-Zero 更好的性能。開(kāi)發(fā)團(tuán)隊(duì)相信迭代訓(xùn)練是推理模型的更好方法。
推理導(dǎo)向的強(qiáng)化學(xué)習(xí)
在利用冷啟動(dòng)數(shù)據(jù)上對(duì) DeepSeek-V3-Base 進(jìn)行微調(diào)后,開(kāi)發(fā)團(tuán)隊(duì)采用與 DeepSeek-R1-Zero 相同的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練流程。此階段側(cè)重于增強(qiáng)模型的推理能力,特別是在編碼、數(shù)學(xué)、科學(xué)和邏輯推理等推理密集型任務(wù)中。
為了緩解語(yǔ)言混合的問(wèn)題,開(kāi)發(fā)團(tuán)隊(duì)在 RL 訓(xùn)練中引入了語(yǔ)言一致性獎(jiǎng)勵(lì),其計(jì)算方式為 CoT 中目標(biāo)語(yǔ)言單詞的比例。雖然消融實(shí)驗(yàn)表明這種對(duì)齊會(huì)導(dǎo)致模型性能略有下降,但這種獎(jiǎng)勵(lì)符合人類(lèi)偏好,更具可讀性。
最后,開(kāi)發(fā)團(tuán)隊(duì)將推理任務(wù)的準(zhǔn)確率和語(yǔ)言一致性的獎(jiǎng)勵(lì)直接相加,形成最終獎(jiǎng)勵(lì)。然后對(duì)微調(diào)后的模型進(jìn)行強(qiáng)化學(xué)習(xí) (RL) 訓(xùn)練,直到它在推理任務(wù)上實(shí)現(xiàn)收斂。
拒絕采樣和監(jiān)督微調(diào)
當(dāng)面向推理導(dǎo)向的強(qiáng)化學(xué)習(xí)收斂時(shí),開(kāi)發(fā)團(tuán)隊(duì)利用生成的檢查點(diǎn)為后續(xù)輪次收集 SFT(監(jiān)督微調(diào))數(shù)據(jù)。此階段結(jié)合了來(lái)自其他領(lǐng)域的數(shù)據(jù),以增強(qiáng)模型在寫(xiě)作、角色扮演和其他通用任務(wù)中的能力。
開(kāi)發(fā)團(tuán)隊(duì)通過(guò)從上述強(qiáng)化學(xué)習(xí)訓(xùn)練的檢查點(diǎn)執(zhí)行拒絕采樣來(lái)整理推理提示并生成推理軌跡。此階段通過(guò)合并其他數(shù)據(jù)擴(kuò)展數(shù)據(jù)集,其中一些數(shù)據(jù)使用生成獎(jiǎng)勵(lì)模型,將基本事實(shí)和模型預(yù)測(cè)輸入 DeepSeek-V3 進(jìn)行判斷。
此外,開(kāi)發(fā)團(tuán)隊(duì)過(guò)濾掉了混合語(yǔ)言、長(zhǎng)段落和代碼塊的思路鏈。對(duì)于每個(gè)提示,他們會(huì)抽取多個(gè)答案,并僅保留正確的答案。最終,開(kāi)發(fā)團(tuán)隊(duì)收集了約 60 萬(wàn)個(gè)推理相關(guān)的訓(xùn)練樣本。
用于所有場(chǎng)景的強(qiáng)化學(xué)習(xí)
為了進(jìn)一步使模型與人類(lèi)偏好保持一致,這里還要實(shí)施第二階段強(qiáng)化學(xué)習(xí),旨在提高模型的有用性和無(wú)害性,同時(shí)完善其推理能力。
具體來(lái)說(shuō),研究人員使用獎(jiǎng)勵(lì)信號(hào)和各種提示分布的組合來(lái)訓(xùn)練模型。對(duì)于推理數(shù)據(jù),遵循 DeepSeek-R1-Zero 中概述的方法,該方法利用基于規(guī)則的獎(jiǎng)勵(lì)來(lái)指導(dǎo)數(shù)學(xué)、代碼和邏輯推理領(lǐng)域的學(xué)習(xí)過(guò)程;對(duì)于一般數(shù)據(jù),則采用獎(jiǎng)勵(lì)模型來(lái)捕捉復(fù)雜而微妙的場(chǎng)景中的人類(lèi)偏好。
最終,獎(jiǎng)勵(lì)信號(hào)和多樣化數(shù)據(jù)分布的整合使我們能夠訓(xùn)練出一個(gè)在推理方面表現(xiàn)出色的模型,同時(shí)優(yōu)先考慮有用性和無(wú)害性。
蒸餾:讓小模型具備推理能力
為了使更高效的小模型具備 DeekSeek-R1 那樣的推理能力,開(kāi)發(fā)團(tuán)隊(duì)還直接使用 DeepSeek-R1 整理的 80 萬(wàn)個(gè)樣本對(duì) Qwen 和 Llama 等開(kāi)源模型進(jìn)行了微調(diào)。研究結(jié)果表明,這種簡(jiǎn)單的蒸餾方法顯著增強(qiáng)了小模型的推理能力。
得益于以上多項(xiàng)技術(shù)的創(chuàng)新,開(kāi)發(fā)團(tuán)隊(duì)的大量基準(zhǔn)測(cè)試表明,DeepSeek-R1 實(shí)現(xiàn)了比肩業(yè)內(nèi) SOTA 推理大模型的硬實(shí)力,具體可以參考以下結(jié)果:
更多技術(shù)細(xì)節(jié)請(qǐng)參閱原論文。