自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

DeepSeek-R1-Distill-Qwen-1.5B 在某些基準(zhǔn)測(cè)試中超越了 GPT-4o 原創(chuàng) 精華

發(fā)布于 2025-1-23 16:33

瀏覽

0收藏

01、概述

隨著人工智能領(lǐng)域的快速發(fā)展，推理能力已經(jīng)成為了衡量大規(guī)模語言模型（LLMs）性能的一個(gè)重要指標(biāo)。為了推動(dòng)推理能力的極限，我們迎來了DeepSeek-R1系列模型的誕生。這個(gè)系列包括了兩個(gè)重要版本：DeepSeek-R1-Zero和DeepSeek-R1，它們分別在強(qiáng)化學(xué)習(xí)（RL）和傳統(tǒng)的監(jiān)督微調(diào)（SFT）方法中找到了新的平衡，展示了前所未有的推理能力。

DeepSeek-R1-Zero突破了傳統(tǒng)的訓(xùn)練方式，直接通過大規(guī)模的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，而沒有依賴預(yù)先的監(jiān)督微調(diào)。這一創(chuàng)新使得模型在推理任務(wù)中表現(xiàn)出色，但同時(shí)也暴露了某些挑戰(zhàn)，比如語言混合、無休止重復(fù)等問題。為了進(jìn)一步提升性能，DeepSeek-R1加入了冷啟動(dòng)數(shù)據(jù)的處理，解決了這些問題，達(dá)到了與OpenAI-o1在數(shù)學(xué)、代碼和推理任務(wù)中的類似表現(xiàn)。

不僅如此，DeepSeek-R1系列模型還開源了大量的訓(xùn)練成果，包括基于Llama和Qwen模型蒸餾而來的六個(gè)緊湊型模型，其中DeepSeek-R1-Distill-Qwen-32B在多個(gè)基準(zhǔn)測(cè)試中超越了OpenAI-o1-mini，創(chuàng)造了新的最先進(jìn)結(jié)果。

02、模型介紹

后訓(xùn)練：通過強(qiáng)化學(xué)習(xí)優(yōu)化基礎(chǔ)模型

傳統(tǒng)的語言模型通常依賴**監(jiān)督微調(diào)（SFT）作為基礎(chǔ)訓(xùn)練方法，然后通過后期的微調(diào)來增強(qiáng)模型的推理能力。然而，DeepSeek團(tuán)隊(duì)采取了一種全新的方式，直接通過大規(guī)模的強(qiáng)化學(xué)習(xí)（RL）**對(duì)基礎(chǔ)模型進(jìn)行訓(xùn)練，省略了SFT的初步步驟。這一方式讓模型能夠通過自主探索復(fù)雜問題的推理鏈條（Chain-of-Thought，CoT），自發(fā)地發(fā)展出許多強(qiáng)大且有趣的推理行為。

DeepSeek-R1-Zero正是通過這種強(qiáng)化學(xué)習(xí)方法訓(xùn)練出來的，并且它展示了諸如自我驗(yàn)證、反思、以及生成長(zhǎng)推理鏈條等能力，標(biāo)志著在推動(dòng)推理能力方面的一個(gè)重要里程碑。更值得注意的是，這也是首個(gè)通過純粹的RL驗(yàn)證大規(guī)模語言模型推理能力的研究，無需任何監(jiān)督微調(diào)。這一突破為未來的相關(guān)研究奠定了基礎(chǔ)。

DeepSeek-R1的創(chuàng)新管線

在DeepSeek-R1的開發(fā)過程中，我們采用了一個(gè)雙階段強(qiáng)化學(xué)習(xí)流程，并結(jié)合兩階段的監(jiān)督微調(diào)（SFT），旨在發(fā)現(xiàn)更加優(yōu)化的推理模式，并且能夠與人類偏好相對(duì)齊。這個(gè)管線的設(shè)計(jì)不僅提升了模型的推理能力，還為AI行業(yè)提供了一種新的模型開發(fā)思路，有助于推動(dòng)未來更高效的推理模型的出現(xiàn)。

03、蒸餾：小模型也能表現(xiàn)出色

大模型推理模式的蒸餾

我們還展示了如何將大模型中的推理模式蒸餾到小模型中，取得了比在小模型上直接通過RL訓(xùn)練的推理模式更優(yōu)秀的表現(xiàn)。通過將DeepSeek-R1生成的推理數(shù)據(jù)用于對(duì)小型模型進(jìn)行微調(diào)，我們顯著提升了這些模型在多個(gè)基準(zhǔn)測(cè)試中的表現(xiàn)，證明了即使是參數(shù)較少的模型，也能在推理任務(wù)中取得不遜色的大模型的成績(jī)。

這一研究的另一個(gè)亮點(diǎn)是，DeepSeek團(tuán)隊(duì)公開了多款蒸餾模型，包括1.5B、7B、8B、14B、32B以及70B六個(gè)版本，這些模型基于Qwen2.5和Llama3系列進(jìn)行了蒸餾處理。這些小型模型在多個(gè)推理任務(wù)中表現(xiàn)出色，對(duì)于研究人員和開發(fā)者來說，將是一個(gè)非常有價(jià)值的資源。

04、模型信息

DeepSeek團(tuán)隊(duì)提供了詳細(xì)的模型下載鏈接，供研究人員和開發(fā)者下載使用。以下是DeepSeek-R1系列以及其蒸餾版本的模型參數(shù)和下載信息：

DeepSeek-R1系列模型

DeepSeek-R1-Zero	671B	37B	128K	?? HuggingFace

DeepSeek-R1	671B	37B	128K	?? HuggingFace

DeepSeek-R1蒸餾模型

DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	?? HuggingFace

DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	?? HuggingFace

DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	?? HuggingFace

DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	?? HuggingFace

DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	?? HuggingFace

DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	?? HuggingFace

05、模型評(píng)估結(jié)果

對(duì)于所有DeepSeek模型，我們將最大生成長(zhǎng)度設(shè)置為32,768個(gè)tokens，確保能處理更長(zhǎng)的輸入和生成更復(fù)雜的答案。在需要進(jìn)行采樣的基準(zhǔn)測(cè)試中，我們使用了溫度0.6和top-p值0.95，并生成了64個(gè)響應(yīng)以估算pass@1的指標(biāo)。以下是模型在多個(gè)基準(zhǔn)測(cè)試中的評(píng)估結(jié)果：

DeepSeek-R1：在數(shù)學(xué)、代碼和推理任務(wù)中的表現(xiàn)可與OpenAI-o1相媲美，證明了該模型的強(qiáng)大推理能力。

DeepSeek-R1-Distill：系列小型模型，在多個(gè)測(cè)試中超過了OpenAI-o1-mini，表現(xiàn)出色。

DeepSeek-R1-Distill-Qwen-1.5B 在某些基準(zhǔn)測(cè)試中超越了 GPT-4o-AI.x社區(qū)

06、結(jié)語

DeepSeek-R1系列模型的發(fā)布，標(biāo)志著推理能力在大規(guī)模語言模型中的新突破。從DeepSeek-R1-Zero到DeepSeek-R1，我們展示了如何通過強(qiáng)化學(xué)習(xí)（RL）直接驅(qū)動(dòng)推理能力的提升，同時(shí)通過蒸餾技術(shù)，使得更小的模型同樣能夠達(dá)到高效的推理表現(xiàn)。這不僅是對(duì)AI研究的一次重大貢獻(xiàn)，也為未來的模型開發(fā)提供了新的思路。

隨著更多小型化模型的開源，研究人員和開發(fā)者能夠更好地利用這些技術(shù)，打造出適應(yīng)不同場(chǎng)景的推理系統(tǒng)。未來，隨著推理技術(shù)的不斷進(jìn)步，DeepSeek-R1系列無疑將在各個(gè)領(lǐng)域引領(lǐng)人工智能的創(chuàng)新浪潮。

參考：

??https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B??

本文轉(zhuǎn)載自公眾號(hào)Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/i3JL_r4rLpPExFboqgFvPA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

大語言模型

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

GPT-4o再秀神操作，“復(fù)現(xiàn)”O(jiān)penAI總裁講課，網(wǎng)友當(dāng)真了

Crystalcxt ? 2516瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪！

戀戀青鳥 ? 3068瀏覽 ? 0回復(fù)
AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！

大語言模型論文跟蹤 ? 4937瀏覽 ? 0回復(fù)
重大新聞（lmsys.org）：Gemini 1.5 Flash/Advanced逼近GPT-4o，排名第二！

PaperAgent ? 3559瀏覽 ? 0回復(fù)
現(xiàn)在，所有人都能免費(fèi)用GPT-4o了！

duhorse ? 4338瀏覽 ? 0回復(fù)
GPT-4o不香了

Crystalcxt ? 2962瀏覽 ? 0回復(fù)
阿里新開源語音模型Qwen2-Audio ，實(shí)測(cè)優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步

51CTO技術(shù)棧 ? 2770瀏覽 ? 0回復(fù)
開源模型王座一夜易主，GPT-4o被超越

duhorse ? 2008瀏覽 ? 0回復(fù)
終于來了，OpenAI測(cè)試GPT-4o高級(jí)語音模式！

Aceryt ? 2120瀏覽 ? 0回復(fù)
開發(fā)者終于可以定制自己的GPT-4o了！

51CTO技術(shù)棧 ? 2225瀏覽 ? 0回復(fù)
擊敗GPT-4o、僅次于o1！英偉達(dá)重磅開源超強(qiáng)大模型--Nemotron

Aceryt ? 2984瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！?。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 3942瀏覽 ? 0回復(fù)
Fireworks AI 發(fā)布 f1：在硬編碼、聊天和數(shù)學(xué)基準(zhǔn)方面超過 GPT-4o 和 Claude 3.5 Sonnet

Halo咯咯 ? 2300瀏覽 ? 0回復(fù)
小模型界o1來了：微軟推出Phi-4，數(shù)學(xué)推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個(gè)重要推斷

51CTO技術(shù)棧 ? 2076瀏覽 ? 0回復(fù)
微軟：GPT-4o-mini只有8B，o1-mini僅100B

PaperAgent ? 1794瀏覽 ? 0回復(fù)
清華團(tuán)隊(duì)靠強(qiáng)化學(xué)習(xí)讓 7B 模型打敗 GPT-4o 數(shù)學(xué)推理

Aceryt ? 2079瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 1698瀏覽 ? 0回復(fù)
清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 1741瀏覽 ? 0回復(fù)
智譜發(fā)布GLM-4-32B-0414系列模型，以32B模型參數(shù)比肩GPT-4o和DeepSeek V3/R1

AIGCStudio ? 752瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

數(shù)學(xué)推理的 AI 新突破：NVIDIA 的 OpenMath-Nemotron 系列震撼登場(chǎng)！ 6h前發(fā)布
從簡(jiǎn)單計(jì)數(shù)到多模態(tài)：嵌入技術(shù)的演變與應(yīng)用 6h前發(fā)布

熱門推薦

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

GPT-4.1系列深度解析：從代碼到動(dòng)畫，從理論到實(shí)戰(zhàn)，AI的多面手來了！ 0回復(fù)

清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷 0回復(fù)

Google介紹了Agent2Agent（A2A）：一種新的開放協(xié)議，允許AI代理在生態(tài)系統(tǒng)中安全地合作 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

上一篇：選擇合適的AI框架：生成式AI與智能代理AI的對(duì)比

下一篇： DeepSeek-AI 發(fā)布 DeepSeek-R1-Zero 和 DeepSeek-R1

社區(qū)精華內(nèi)容

目錄

<legend id="kxqkr"><track id="kxqkr"><dfn id="kxqkr"></dfn></track></legend>

<style id="kxqkr"></style><cite id="kxqkr"><rp id="kxqkr"><pre id="kxqkr"></pre></rp></cite>

<sub id="kxqkr"></sub>

<u id="kxqkr"></u>

<sub id="kxqkr"><p id="kxqkr"></p></sub><p id="kxqkr"><rp id="kxqkr"><pre id="kxqkr"></pre></rp></p>