自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek-R1持續(xù)刷屏,連Open R1都來(lái)了!抱抱臉發(fā)起,1天狂攬1.9k星

人工智能
當(dāng)初OpenAI拋出Sora大餅,一時(shí)間Open Sora項(xiàng)目熱火朝天?,F(xiàn)在,這股Open的風(fēng)也是反向吹起來(lái)了,最新目標(biāo),正是國(guó)產(chǎn)大模型DeepSeek-R1。

當(dāng)初OpenAI拋出Sora大餅,一時(shí)間Open Sora項(xiàng)目熱火朝天。

現(xiàn)在,這股Open的風(fēng)也是反向吹起來(lái)了,最新目標(biāo),正是國(guó)產(chǎn)大模型DeepSeek-R1。

圖片圖片

Open R1項(xiàng)目由HuggingFace發(fā)起,聯(lián)合創(chuàng)始人兼CEO Clem Delangue是這么說(shuō)的:

我們的科學(xué)團(tuán)隊(duì)已經(jīng)開(kāi)始致力于完全復(fù)制和開(kāi)源R1,包括訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本……

我們希望能充分發(fā)揮開(kāi)源AI的力量,讓全世界每個(gè)人都能受益于AI的進(jìn)步!我相信這也有助于揭穿一些神話。

HuggingFace振臂一呼,立刻歡呼者眾。項(xiàng)目上線僅1天,就在GitHub上刷下1.9k標(biāo)星。

圖片圖片

看來(lái)這一波,DeepSeek-R1真是給全球大模型圈帶來(lái)了不小的震撼,并且影響還在持續(xù)。

Open R1

不過(guò)話說(shuō)回來(lái),DeepSeek-R1本身就是開(kāi)源的,HuggingFace搞這么個(gè)“Open R1”項(xiàng)目,又是為何?

官方在項(xiàng)目頁(yè)中做了解釋:

這個(gè)項(xiàng)目的目的是構(gòu)建R1 pipeline中缺失的部分,以便所有人都能在此之上復(fù)制和構(gòu)建R1。

HuggingFace表示,將以DeepSeek-R1的技術(shù)報(bào)告為指導(dǎo),分3個(gè)步驟完成這個(gè)項(xiàng)目:

  • 第1步:用DeepSeek-R1蒸餾高質(zhì)量語(yǔ)料庫(kù),來(lái)復(fù)制R1-Distill模型。
  • 第2步:復(fù)制DeepSeek用來(lái)構(gòu)建R1-Zero的純強(qiáng)化學(xué)習(xí)(RL)pipeline。這可能涉及為數(shù)學(xué)、推理和代碼整理新的大規(guī)模數(shù)據(jù)集。
  • 第3步:通過(guò)多階段訓(xùn)練,從基礎(chǔ)模型過(guò)渡到RL版本。

圖片圖片

結(jié)合DeepSeek的官方技術(shù)報(bào)告來(lái)看,也就是說(shuō),Open R1項(xiàng)目首先要實(shí)現(xiàn)的,是用R1數(shù)據(jù)蒸餾小模型,看看效果是不是像DeepSeek說(shuō)的那么好:

DeepSeek開(kāi)源了6個(gè)用R1蒸餾的小模型,其中蒸餾版Qwen-1.5甚至能在部分任務(wù)上超過(guò)GPT-4o。

圖片圖片

接下來(lái),就是按照DeepSeek所說(shuō),不用SFT,純靠RL調(diào)教出R1-Zero,再在R1-Zero的基礎(chǔ)上復(fù)刻出性能逼近o1的R1模型。

其中多階段訓(xùn)練是指,R1技術(shù)報(bào)告提到,DeepSeek-R1訓(xùn)練過(guò)程中引入了一個(gè)多階段訓(xùn)練流程,具體包括以下4個(gè)階段:

  • 冷啟動(dòng)

用數(shù)千個(gè)長(zhǎng)思維鏈(CoT)樣本對(duì)基礎(chǔ)模型進(jìn)行監(jiān)督微調(diào)(SFT),為模型提供初始的推理能力

  • 面向推理的強(qiáng)化學(xué)習(xí)

在第一個(gè)SFT階段的基礎(chǔ)之上,用和訓(xùn)練R1-Zero相同的大規(guī)模強(qiáng)化學(xué)習(xí)方法,進(jìn)一步提升模型的推理能力,特別是應(yīng)對(duì)編程、數(shù)學(xué)、科學(xué)和邏輯推理任務(wù)的能力。

  • 拒絕采樣和監(jiān)督微調(diào)

再次使用監(jiān)督微調(diào),提升模型的非推理能力,如事實(shí)知識(shí)、對(duì)話能力等。

  • 針對(duì)所有場(chǎng)景的強(qiáng)化學(xué)習(xí)

這次強(qiáng)化學(xué)習(xí)的重點(diǎn)是讓模型行為與人類偏好保持一致,提升模型的可用性和安全性。

目前,在GitHub倉(cāng)庫(kù)中,已經(jīng)可以看到這幾個(gè)文件:

  • GRPO實(shí)現(xiàn)
  • 訓(xùn)練和評(píng)估代碼
  • 合成數(shù)據(jù)生成器

圖片圖片

奧特曼坐不住了

有意思的是,R1刷屏之中,奧特曼也坐不住了。

這不,他又帶來(lái)了o3-mini的最新劇透:

ChatGPT Plus會(huì)員可以每天獲得100條o3-mini查詢。

Plus會(huì)員馬上就能用上operator了,我們正在盡力!

下一個(gè)智能體Plus會(huì)員首發(fā)就能用。

圖片圖片

這話一出,??的空氣中充滿了快樂(lè)的氣息(doge):

哇!DeepSeek正在讓OpenAI主動(dòng)大甩賣誒!

圖片圖片

參考鏈接:
[1]https://github.com/huggingface/open-r1[2]https://x.com/ClementDelangue/status/1883154611348910181

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-01-27 12:30:07

2025-02-19 08:00:00

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-20 15:32:28

2025-03-12 13:55:05

2025-02-11 08:35:30

2025-02-19 08:33:18

2025-04-21 08:42:00

模型開(kāi)源AI

2025-02-12 12:12:59

2025-02-08 11:31:17

DeepseekR1模型

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-02-07 13:10:06

2025-02-03 14:17:27

2025-03-06 10:14:39

2025-03-11 02:00:00

AI工具Token-AI

2025-02-03 06:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)