自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek是新源神!推理模型o1性能1/50價(jià)格,微調(diào)/數(shù)據(jù)/商用全免費(fèi),蒸餾1.5B小模型可比GPT-4o

人工智能
R1-Zero模型在思考過(guò)程中涌現(xiàn)了“頓悟時(shí)刻”(aha moment),并自己學(xué)會(huì)為問(wèn)題分配更多思考時(shí)間。

DeepSeek新發(fā)布遠(yuǎn)超預(yù)期,Reddit/??狂暴刷屏中。

這次大事共有3件:

  • 開源DeepSeek-R1推理大模型,與o1性能相近。
  • 開源DeepSeek-R1-Zero,預(yù)訓(xùn)練模型直接RL,不走SFT,堪稱語(yǔ)言模型的AlphaZero。
  • 開源用R1數(shù)據(jù)蒸餾的Qwen、Llama系列小模型,在某些任務(wù)上直接超過(guò)GPT-4o。

圖片圖片

同時(shí)開放官方API,輸入token(命中緩存)價(jià)格只有OpenAI o1的1/50,未命中緩存以及輸出token價(jià)格約1/27。

圖片圖片

論文中被反復(fù)熱議的小細(xì)節(jié)就更多了:

R1-Zero模型在思考過(guò)程中涌現(xiàn)了“頓悟時(shí)刻”(aha moment),并自己學(xué)會(huì)為問(wèn)題分配更多思考時(shí)間。

圖片圖片

網(wǎng)友們開始推演接下來(lái)的劇情,如果頓悟的力量能被穩(wěn)定利用……那就不知道會(huì)通向何處了。

圖片圖片

再有,目前社區(qū)猜測(cè)OpenAI的o1-pro/o3可能使用了tree-of-agents方法,許多個(gè)o1的分身各自回答問(wèn)題,再通過(guò)某種方式選出最優(yōu)答案。

如果將DeepSeek-R1與Search-o1和Tree-of-Agents(大約50個(gè)智能體)結(jié)合起來(lái),可以很小的成本獲得與o3類似的性能,最終可能便宜數(shù)百倍。

圖片圖片

這次DeepSeek總共開源6個(gè)在R1數(shù)據(jù)上蒸餾的小模型,其中蒸餾版Qwen-1.5B都能在部分任務(wù)上超過(guò)GPT-4o。

圖片圖片

DeepSeek還特別更新了開源許可證,現(xiàn)在是MIT Lisence。

R1是開源的,R1數(shù)據(jù)想跑多少有多少,API可以用于蒸餾和微調(diào),商用是免費(fèi)的。

圖片圖片

新的源神出現(xiàn)了!

DeepSeek新發(fā)布

OpenAI的o1系列模型率先引入了推理時(shí)擴(kuò)展(inference-time scaling)的概念,通過(guò)增加思維鏈(Chain-of-Thought)推理過(guò)程的長(zhǎng)度,在數(shù)學(xué)、編程、科學(xué)推理等任務(wù)上取得了顯著的性能提升。

先前的研究探索了基于過(guò)程的獎(jiǎng)勵(lì)模型、強(qiáng)化學(xué)習(xí)、蒙特卡洛樹搜索和束搜索等方法,但尚未有方法在通用推理性能上達(dá)到o1系列模型的水平。

DeepSeek-R1-Zero

DeepSeek團(tuán)隊(duì)邁出了利用純強(qiáng)化學(xué)習(xí)提升語(yǔ)言模型推理能力的第一步。

他們的目標(biāo)是探索大模型在沒(méi)有任何監(jiān)督數(shù)據(jù)的情況下,通過(guò)純強(qiáng)化學(xué)習(xí)過(guò)程進(jìn)行自我進(jìn)化,從而獲得推理能力。

具體而言,他們使用DeepSeek-V3-Base作為基礎(chǔ)模型,并采用GRPO(Group Relative Policy Optimization)作為強(qiáng)化學(xué)習(xí)框架來(lái)提高模型在推理任務(wù)上的表現(xiàn)。

在訓(xùn)練過(guò)程中,DeepSeek-R1-Zero自然而然地涌現(xiàn)出許多強(qiáng)大而有趣的推理行為。

圖片

經(jīng)過(guò)數(shù)千步的強(qiáng)化學(xué)習(xí),DeepSeek-R1-Zero在推理基準(zhǔn)測(cè)試中表現(xiàn)出色。

例如,它在AIME 2024上的pass@1得分從15.6%提高到71.0%,并且通過(guò)多數(shù)投票,得分進(jìn)一步提高到86.7%,與OpenAI-o1-0912的表現(xiàn)相當(dāng)。

圖片圖片

DeepSeek-R1

然而,DeepSeek-R1-Zero也面臨著可讀性差、語(yǔ)言混雜等挑戰(zhàn)。

為了解決這些問(wèn)題并進(jìn)一步提高推理性能,團(tuán)隊(duì)提出了DeepSeek-R1,它結(jié)合了少量冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練流程。

具體而言,他們首先收集數(shù)千條冷啟動(dòng)數(shù)據(jù)來(lái)微調(diào)DeepSeek-V3-Base模型。隨后,他們進(jìn)行了類似DeepSeek-R1-Zero的面向推理的強(qiáng)化學(xué)習(xí)。

當(dāng)接近強(qiáng)化學(xué)習(xí)過(guò)程的收斂時(shí),他們通過(guò)在強(qiáng)化學(xué)習(xí)檢查點(diǎn)上進(jìn)行拒絕采樣,結(jié)合來(lái)自DeepSeek-V3在寫作、事實(shí)型問(wèn)答、自我認(rèn)知等領(lǐng)域的監(jiān)督數(shù)據(jù),創(chuàng)建新的SFT數(shù)據(jù),然后重新訓(xùn)練DeepSeek-V3-Base模型。

使用新數(shù)據(jù)進(jìn)行微調(diào)后,該檢查點(diǎn)還經(jīng)歷了一個(gè)額外的強(qiáng)化學(xué)習(xí)過(guò)程,考慮到所有場(chǎng)景下的提示。

經(jīng)過(guò)這些步驟,他們獲得了一個(gè)稱為DeepSeek-R1的檢查點(diǎn),其性能與OpenAI-o1-1217不相上下。

圖片圖片

R1數(shù)據(jù)蒸餾模型

DeepSeek團(tuán)隊(duì)進(jìn)一步探索了從DeepSeek-R1蒸餾到更小的密集模型。使用Qwen2.5-32B作為基礎(chǔ)模型,直接從DeepSeek-R1蒸餾的效果優(yōu)于在其上應(yīng)用強(qiáng)化學(xué)習(xí)。

這表明,更大的基礎(chǔ)模型發(fā)現(xiàn)的推理模式對(duì)于提高推理能力至關(guān)重要。

他們開源了蒸餾的Qwen和Llama系列模型。值得注意的是,他們的蒸餾14B模型在推理基準(zhǔn)測(cè)試中大幅超過(guò)了當(dāng)前最先進(jìn)的開源QwQ-32B-Preview,而蒸餾的32B和70B模型在密集模型中樹立了新的推理任務(wù)基準(zhǔn)。

圖片圖片

最后,團(tuán)隊(duì)還把在實(shí)驗(yàn)過(guò)程中很多失敗的嘗試分享出來(lái),防止后人踩坑。

在過(guò)程獎(jiǎng)勵(lì)模型、蒙特卡洛樹搜索算法上,DeepSeek都沒(méi)能獲得進(jìn)展。

不過(guò)他們也強(qiáng)調(diào),只是他們失敗了,并不意味著這些方法無(wú)法開發(fā)出有效的推理模型。

圖片圖片

未來(lái)他們計(jì)劃在以下方向繼續(xù)投入研究:提升通用能力、解決語(yǔ)言混雜問(wèn)題、優(yōu)化提示詞敏感問(wèn)題,以及改進(jìn)軟件工程任務(wù)的性能。

圖片圖片

One More Thing

還有英語(yǔ)母語(yǔ)者挑起了論文中的遣詞造句,認(rèn)為很可能是大模型幫團(tuán)隊(duì)撰寫的論文。

圖片圖片

同時(shí)很多人注意到,在DeepSeek的許多論文里,“DeepSeek-AI”都出現(xiàn)在作者列表的第一位。

圖片圖片

論文地址:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

參考鏈接:
[1]https://x.com/deepseek_ai/status/1881318130334814301[2]https://www.reddit.com/r/singularity/comments/1i5yvx5/deepseek_discovered_their_new_model_having_an_aha/


責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2024-09-24 11:01:03

2024-09-29 13:07:16

2024-11-25 17:23:10

2025-02-08 14:03:25

2024-09-19 13:32:24

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2024-12-26 07:10:00

2025-04-11 09:10:00

模型開源AI

2024-10-17 14:05:34

2025-02-13 09:10:00

2025-03-10 09:38:00

2025-04-23 08:30:05

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2025-01-02 13:00:00

2025-01-15 10:28:21

2025-03-10 08:10:00

AI研究安全

2024-12-13 13:04:13

模型Phi-4AI

2024-11-21 14:00:00

模型AI

2024-10-17 13:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)