開源版o1!中國(guó)大模型讓國(guó)外陷入瘋狂,成本猛降90% 精華
前不久,國(guó)產(chǎn)大模型平臺(tái)DeepSeek開源的v3模型,受到了Andrej Karpathy等業(yè)內(nèi)大神的盛贊,在算法、數(shù)據(jù)等方面非常棒。
現(xiàn)在,DeepSeek又重磅開源了R1模型。根據(jù)其公布測(cè)試數(shù)據(jù)顯示,在美國(guó)AIME 2024測(cè)試中R1拿下79.8分,超過了OpenAI的o1模型的79.2分;在MATH-500,R1為97.3分,同樣超過了o1的96.4分;
在SWE-bench Verified,R1為49.2分再次超過了o1的48.9分。而在代碼測(cè)試Codeforces中,R1僅比o1模型低0.3分;MMLU低1分;GPQA低4.2分,整體性能與o1模型相當(dāng)。
但價(jià)格方面o1模型每100萬tokens的輸入是15美元,R1是0.14美元,比GPT-4o-mini價(jià)格還要低(這個(gè)是目前OpenAI最便宜的主打模型之一)成本猛降90%。
輸出價(jià)格更是低的離譜,o1每100萬tokens輸出是60美元,R1只有2.19美元,降低了27倍左右。
開源地址:https://huggingface.co/deepseek-ai/R1
API:https://api-docs.deepseek.com/guides/reasoning_model
在DeepSeek宣布開源R1后,國(guó)外網(wǎng)友徹底瘋狂了,R1如此強(qiáng)的性能卻這么便宜,對(duì)中國(guó)開源大模型飛速發(fā)展感到不可思議,已經(jīng)超過了Meta、Mistral等老牌開源平臺(tái)。
絕對(duì)瘋狂。與o1模型性能相當(dāng)且開源。還可以用來蒸餾創(chuàng)建你自己的模型。
講真,有了這個(gè)超強(qiáng)模型之后,OpenAI每月的200美元訂閱就沒啥優(yōu)勢(shì)了。
伙計(jì)們干的不錯(cuò),這真的很令人印象深刻,價(jià)格也很便宜。
恭喜,各方面都很出色,尤其是價(jià)格。
感謝你們把這一切開源!作為一個(gè)新學(xué)習(xí)者,這激勵(lì)我在這個(gè)領(lǐng)域探索更多。DeepSeek模型都非常令人印象深刻。祝賀你們!
開源界的英雄!
這個(gè)看起來很棒。你們?yōu)殚_源項(xiàng)目做出了杰出的工作。
開源、遵循 MIT 許可協(xié)議,且可與 OpenAI 相媲美?這正是我們喜聞樂見的創(chuàng)新。
我正在用它來編寫代碼,最佳大模型之一,持續(xù)改進(jìn) :)
R1就是o1,但是免費(fèi)的。感謝deepseek團(tuán)隊(duì)的研究人員。
蘋果的機(jī)器學(xué)習(xí)研究員Awni Hannun已經(jīng)測(cè)試了R1模型,僅在蘋果M2 Ultra上就能運(yùn)行,推理效率還相當(dāng)?shù)目臁?/p>
也有人體驗(yàn)了DeepSeek R1后表示,這是最像人類內(nèi)心獨(dú)白的模型,實(shí)際上相當(dāng)不錯(cuò)。
FileDash.ai創(chuàng)始人Paul Couvert也轉(zhuǎn)發(fā)了R1開源的消息,并認(rèn)為比Claude 3.5 Sonnet 和 o1-mini 表現(xiàn)更出色,性能與o1幾乎差不多。
也有網(wǎng)友用R1,簡(jiǎn)單、直觀的來解釋勾股定理。不到30秒,一次就完美解決,相當(dāng)滿意。
接著這位老哥又給R1加大了強(qiáng)度,要求其解釋量子電動(dòng)力學(xué)的工作原理,以及如何將其可視化呈現(xiàn)。
只用了9分鐘,依然完美解決了這個(gè)問題。
最后這位老哥徹底服氣了,感慨道,我看不到任何錯(cuò)誤。它一次就修正了旋轉(zhuǎn)。思考大約用了3分鐘,渲染花了45分鐘。所以,中國(guó)開源的大模型,可以勝過我見過的任何博士。
R1簡(jiǎn)單介紹
其實(shí)DeepSeek最開始開發(fā)的是R1-Zero模型,通過純強(qiáng)化學(xué)習(xí)訓(xùn)練,不依賴于任何監(jiān)督學(xué)習(xí)數(shù)據(jù)。該模型以DeepSeek-V3-Base為基礎(chǔ),采用了GRPO算法進(jìn)行訓(xùn)練,通過采樣一組輸出并計(jì)算其相對(duì)優(yōu)勢(shì),從而優(yōu)化模型的策略,避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)中需要與策略模型同規(guī)模的評(píng)估模型,大大降低了訓(xùn)練成本。
在訓(xùn)練過程中,R1-Zero展現(xiàn)出了一系列強(qiáng)大的推理行為,例如,自我驗(yàn)證、反思和生成長(zhǎng)推理鏈等。這些行為并非人為植入,而是模型在強(qiáng)化學(xué)習(xí)過程中自然涌現(xiàn)的結(jié)果。
例如,在AIME 2024數(shù)學(xué)競(jìng)賽中,R1-Zero的Pass@1得分從初始的15.6%提升至71.0%,通過多數(shù)投票進(jìn)一步提升至86.7%,與OpenAI-o1-0912模型相當(dāng)。這一結(jié)果證明了純強(qiáng)化學(xué)習(xí)在提升模型推理能力方面的巨大潛力。
但是R1-Zero也存在一些問題,如可讀性差和語言混用等。所以,DeepSeek又開發(fā)出了R1模型。
R1在R1-Zero的基礎(chǔ)上進(jìn)行了改進(jìn),引入了冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練流程,以提升模型的推理能力和可讀性。
冷啟動(dòng)與多階段訓(xùn)練
冷啟動(dòng)階段是R1訓(xùn)練流程的起點(diǎn),也是整個(gè)訓(xùn)練策略中最重要的一環(huán)。與R1-Zero直接從基礎(chǔ)模型開始強(qiáng)化學(xué)習(xí)不同,R1引入了少量高質(zhì)量的長(zhǎng)CoT數(shù)據(jù)作為冷啟動(dòng)數(shù)據(jù),為模型提供一個(gè)更加穩(wěn)定和優(yōu)化的起點(diǎn),從而在后續(xù)的強(qiáng)化學(xué)習(xí)過程中更好地發(fā)展推理能力。
冷啟動(dòng)數(shù)據(jù)的一個(gè)關(guān)鍵特點(diǎn)是其對(duì)可讀性的優(yōu)化。與R1-Zero生成的推理過程相比,冷啟動(dòng)數(shù)據(jù)更加注重語言的清晰性和邏輯性。例如,團(tuán)隊(duì)設(shè)計(jì)了一種特定的輸出格式,即在每個(gè)回答的末尾添加一個(gè)總結(jié),并用特殊標(biāo)記將推理過程和總結(jié)區(qū)分開來。
這種格式不僅使模型的輸出更加易于理解,也為后續(xù)的強(qiáng)化學(xué)習(xí)提供了一個(gè)明確的結(jié)構(gòu)框架。
在冷啟動(dòng)階段之后, R1進(jìn)入了一個(gè)包含多個(gè)階段的復(fù)雜訓(xùn)練流程。這一流程的設(shè)計(jì)目標(biāo)是通過逐步優(yōu)化和調(diào)整,使模型在推理能力上達(dá)到更高的水平,同時(shí)在其他任務(wù)上也表現(xiàn)出色。
第一階段:推理導(dǎo)向的強(qiáng)化學(xué)習(xí)
在冷啟動(dòng)數(shù)據(jù)的基礎(chǔ)上,R1進(jìn)入了一個(gè)以推理為導(dǎo)向的強(qiáng)化學(xué)習(xí)階段。這一階段的核心目標(biāo)是通過大規(guī)模的強(qiáng)化學(xué)習(xí),進(jìn)一步提升模型在數(shù)學(xué)、編程、科學(xué)和邏輯推理等任務(wù)上的表現(xiàn)。這一階段的訓(xùn)練與R1-Zero的強(qiáng)化學(xué)習(xí)過程類似,但有一個(gè)重要的區(qū)別:R1在訓(xùn)練過程中引入了語言一致性獎(jiǎng)勵(lì)。
語言一致性獎(jiǎng)勵(lì)的引入是為了解決模型在生成推理鏈時(shí)可能出現(xiàn)的語言混用問題。在多語言的推理任務(wù)中,模型可能會(huì)在推理過程中混用不同語言,這不僅影響了輸出的可讀性,還可能干擾模型的推理邏輯。
為了克服這一問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)獎(jiǎng)勵(lì)機(jī)制,通過計(jì)算推理鏈中目標(biāo)語言的比例來優(yōu)化模型的輸出。雖然這種獎(jiǎng)勵(lì)機(jī)制在一定程度上略微降低了模型的推理性能,但它顯著提升了輸出的可讀性和一致性。
第二階段:拒絕采樣與監(jiān)督微調(diào)
當(dāng)推理導(dǎo)向的強(qiáng)化學(xué)習(xí)接近收斂時(shí),R1進(jìn)入了一個(gè)關(guān)鍵的階段:拒絕采樣與監(jiān)督微調(diào)。這一階段的目標(biāo)是通過生成新的監(jiān)督學(xué)習(xí)數(shù)據(jù),進(jìn)一步優(yōu)化模型在推理和其他任務(wù)上的表現(xiàn)。
拒絕采樣是一種從模型生成的數(shù)據(jù)中篩選出高質(zhì)量樣本的方法。在這一階段,研究團(tuán)隊(duì)利用當(dāng)前模型的檢查點(diǎn),通過拒絕采樣生成了大量的推理相關(guān)數(shù)據(jù)。這些數(shù)據(jù)不僅包括了推理任務(wù)的樣本,還涵蓋了寫作、事實(shí)問答、自我認(rèn)知等其他領(lǐng)域的數(shù)據(jù)。通過這種方式,模型不僅在推理任務(wù)上得到了優(yōu)化,還在其他任務(wù)上展現(xiàn)了更強(qiáng)的能力。
第三階段:全場(chǎng)景強(qiáng)化學(xué)習(xí)
在經(jīng)過拒絕采樣和監(jiān)督微調(diào)之后,R1進(jìn)入了一個(gè)更為復(fù)雜的階段:全場(chǎng)景強(qiáng)化學(xué)習(xí)。這一階段的目標(biāo)是通過結(jié)合推理任務(wù)的規(guī)則獎(jiǎng)勵(lì)和一般任務(wù)的偏好獎(jiǎng)勵(lì),進(jìn)一步優(yōu)化模型的性能。
在這一階段,模型不僅需要在推理任務(wù)上表現(xiàn)出色,還需要在其他任務(wù)上展現(xiàn)出更高的有用性和安全性。研究團(tuán)隊(duì)通過引入多樣化的獎(jiǎng)勵(lì)信號(hào)和任務(wù)分布,確保模型在推理能力、有用性和安全性之間達(dá)到平衡。
例如,在推理任務(wù)中,模型繼續(xù)使用規(guī)則獎(jiǎng)勵(lì)來優(yōu)化其推理鏈的準(zhǔn)確性和效率。而在一般任務(wù)中,模型則依賴于偏好獎(jiǎng)勵(lì)來優(yōu)化其輸出的有用性和安全性。通過這種方式,R1能夠在多個(gè)任務(wù)上展現(xiàn)出卓越的性能,同時(shí)保持推理能力的核心優(yōu)勢(shì)。
有興趣的小伙伴可以試試這個(gè)R1模型,在國(guó)外已經(jīng)爆火成為開源大模型界的頂流了。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
