自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="u8thk"></u>

<em id="u8thk"><mark id="u8thk"></mark></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DeepSeek-R1持續(xù)刷屏，連Open R1都來(lái)了！抱抱臉發(fā)起，1天狂攬1.9k星

2025-01-26 12:08:03

當(dāng)初OpenAI拋出Sora大餅，一時(shí)間Open Sora項(xiàng)目熱火朝天?，F(xiàn)在，這股Open的風(fēng)也是反向吹起來(lái)了，最新目標(biāo)，正是國(guó)產(chǎn)大模型DeepSeek-R1。

當(dāng)初OpenAI拋出Sora大餅，一時(shí)間Open Sora項(xiàng)目熱火朝天。

現(xiàn)在，這股Open的風(fēng)也是反向吹起來(lái)了，最新目標(biāo)，正是國(guó)產(chǎn)大模型DeepSeek-R1。

圖片

Open R1項(xiàng)目由HuggingFace發(fā)起，聯(lián)合創(chuàng)始人兼CEO Clem Delangue是這么說(shuō)的：

我們的科學(xué)團(tuán)隊(duì)已經(jīng)開(kāi)始致力于完全復(fù)制和開(kāi)源R1，包括訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本……
我們希望能充分發(fā)揮開(kāi)源AI的力量，讓全世界每個(gè)人都能受益于AI的進(jìn)步！我相信這也有助于揭穿一些神話。

HuggingFace振臂一呼，立刻歡呼者眾。項(xiàng)目上線僅1天，就在GitHub上刷下1.9k標(biāo)星。

圖片

看來(lái)這一波，DeepSeek-R1真是給全球大模型圈帶來(lái)了不小的震撼，并且影響還在持續(xù)。

Open R1

不過(guò)話說(shuō)回來(lái)，DeepSeek-R1本身就是開(kāi)源的，HuggingFace搞這么個(gè)“Open R1”項(xiàng)目，又是為何？

官方在項(xiàng)目頁(yè)中做了解釋：

這個(gè)項(xiàng)目的目的是構(gòu)建R1 pipeline中缺失的部分，以便所有人都能在此之上復(fù)制和構(gòu)建R1。

HuggingFace表示，將以DeepSeek-R1的技術(shù)報(bào)告為指導(dǎo)，分3個(gè)步驟完成這個(gè)項(xiàng)目：

第1步：用DeepSeek-R1蒸餾高質(zhì)量語(yǔ)料庫(kù)，來(lái)復(fù)制R1-Distill模型。
第2步：復(fù)制DeepSeek用來(lái)構(gòu)建R1-Zero的純強(qiáng)化學(xué)習(xí)（RL）pipeline。這可能涉及為數(shù)學(xué)、推理和代碼整理新的大規(guī)模數(shù)據(jù)集。
第3步：通過(guò)多階段訓(xùn)練，從基礎(chǔ)模型過(guò)渡到RL版本。

圖片

結(jié)合DeepSeek的官方技術(shù)報(bào)告來(lái)看，也就是說(shuō)，Open R1項(xiàng)目首先要實(shí)現(xiàn)的，是用R1數(shù)據(jù)蒸餾小模型，看看效果是不是像DeepSeek說(shuō)的那么好：

DeepSeek開(kāi)源了6個(gè)用R1蒸餾的小模型，其中蒸餾版Qwen-1.5甚至能在部分任務(wù)上超過(guò)GPT-4o。

圖片

接下來(lái)，就是按照DeepSeek所說(shuō)，不用SFT，純靠RL調(diào)教出R1-Zero，再在R1-Zero的基礎(chǔ)上復(fù)刻出性能逼近o1的R1模型。

其中多階段訓(xùn)練是指，R1技術(shù)報(bào)告提到，DeepSeek-R1訓(xùn)練過(guò)程中引入了一個(gè)多階段訓(xùn)練流程，具體包括以下4個(gè)階段：

冷啟動(dòng)

用數(shù)千個(gè)長(zhǎng)思維鏈（CoT）樣本對(duì)基礎(chǔ)模型進(jìn)行監(jiān)督微調(diào)（SFT），為模型提供初始的推理能力

面向推理的強(qiáng)化學(xué)習(xí)

在第一個(gè)SFT階段的基礎(chǔ)之上，用和訓(xùn)練R1-Zero相同的大規(guī)模強(qiáng)化學(xué)習(xí)方法，進(jìn)一步提升模型的推理能力，特別是應(yīng)對(duì)編程、數(shù)學(xué)、科學(xué)和邏輯推理任務(wù)的能力。

拒絕采樣和監(jiān)督微調(diào)

再次使用監(jiān)督微調(diào)，提升模型的非推理能力，如事實(shí)知識(shí)、對(duì)話能力等。

針對(duì)所有場(chǎng)景的強(qiáng)化學(xué)習(xí)

這次強(qiáng)化學(xué)習(xí)的重點(diǎn)是讓模型行為與人類偏好保持一致，提升模型的可用性和安全性。

目前，在GitHub倉(cāng)庫(kù)中，已經(jīng)可以看到這幾個(gè)文件：

GRPO實(shí)現(xiàn)
訓(xùn)練和評(píng)估代碼
合成數(shù)據(jù)生成器

圖片

奧特曼坐不住了

有意思的是，R1刷屏之中，奧特曼也坐不住了。

這不，他又帶來(lái)了o3-mini的最新劇透：

ChatGPT Plus會(huì)員可以每天獲得100條o3-mini查詢。

Plus會(huì)員馬上就能用上operator了，我們正在盡力！

下一個(gè)智能體Plus會(huì)員首發(fā)就能用。

圖片

這話一出，??的空氣中充滿了快樂(lè)的氣息（doge）：

哇！DeepSeek正在讓OpenAI主動(dòng)大甩賣誒！

圖片

參考鏈接：
[1]https://github.com/huggingface/open-r1[2]https://x.com/ClementDelangue/status/1883154611348910181

責(zé)任編輯：武曉燕來(lái)源：量子位

Open R1 OpenAI 項(xiàng)目

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)