自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="wsbyx"><rp id="wsbyx"><pre id="wsbyx"></pre></rp></cite>

<sub id="wsbyx"></sub>

<blockquote id="wsbyx"><mark id="wsbyx"></mark></blockquote>

<legend id="wsbyx"></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DeepSeek-R1下載量超1000萬次，成最受歡迎開源大模型！

作者：AIGC開放社區(qū) 2025-02-17 10:40:00

人工智能新聞

根據(jù)DeepSeek-R1在Hugging Face上的數(shù)據(jù)顯示，上個月的下載量是370萬次。在全球火爆出圈之后，估計這個月保底800萬次以上。

全球最大開源平臺Hugging Face聯(lián)合創(chuàng)始人Clément Delangue宣布——DeepSeek R1 在發(fā)布僅僅幾周后，就成為了Hugging Face 平臺上有史以來最受歡迎的模型。

現(xiàn)在已有數(shù)千個魔改變體模型，下載量超過了1000萬次！

開源地址：https://huggingface.co/deepseek-ai/DeepSeek-R1

根據(jù)DeepSeek-R1在Hugging Face上的數(shù)據(jù)顯示，上個月的下載量是370萬次。在全球火爆出圈之后，估計這個月保底800萬次以上。

現(xiàn)在打開Hugging Face，基于阿里開源的Qwen系列魔改變體R1模型非常多，這屬于是國潮強(qiáng)強(qiáng)聯(lián)合啦。

網(wǎng)友表示，他最少就貢獻(xiàn)了50次，但以后還會更多。

開源AI模型有著光明的未來！

令人印象深刻額成就，祝賀研究團(tuán)隊；AGI要實現(xiàn)了！

DeepSeek在上個月發(fā)布了R1版本，在美國AIME 2024測試中R1拿下79.8分，超過了OpenAI的o1模型的79.2分；在MATH-500，R1為97.3分，同樣超過了o1的96.4分；

在SWE-bench Verified，R1為49.2分再次超過了o1的48.9分。而在代碼測試Codeforces中，R1僅比o1模型低0.3分；MMLU低1分；GPQA低4.2分，整體性能與o1模型相當(dāng)。

但價格方面o1模型每100萬tokens的輸入是15美元，R1是0.14美元，比GPT-4o-mini價格還要低成本猛降90%。

輸出價格則更是低的離譜，o1每100萬tokens輸出是60美元，R1只有2.19美元，降低了27倍左右。

在DeepSeek宣布開源R1后，迅速在全球領(lǐng)域走紅，還對美國科技股造成重創(chuàng)一直火爆至今。

R1簡單介紹

其實DeepSeek最開始開發(fā)的是R1-Zero模型，通過純強(qiáng)化學(xué)習(xí)訓(xùn)練，不依賴于任何監(jiān)督學(xué)習(xí)數(shù)據(jù)。該模型以DeepSeek-V3-Base為基礎(chǔ)，采用了GRPO算法進(jìn)行訓(xùn)練，通過采樣一組輸出并計算其相對優(yōu)勢，從而優(yōu)化模型的策略，避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)中需要與策略模型同規(guī)模的評估模型，大大降低了訓(xùn)練成本。

在訓(xùn)練過程中，R1-Zero展現(xiàn)出了一系列強(qiáng)大的推理行為，例如，自我驗證、反思和生成長推理鏈等。這些行為并非人為植入，而是模型在強(qiáng)化學(xué)習(xí)過程中自然涌現(xiàn)的結(jié)果。例如，在AIME 2024數(shù)學(xué)競賽中，R1-Zero的Pass@1得分從初始的15.6%提升至71.0%，通過多數(shù)投票進(jìn)一步提升至86.7%，與OpenAI-o1-0912模型相當(dāng)。這一結(jié)果證明了純強(qiáng)化學(xué)習(xí)在提升模型推理能力方面的巨大潛力。

但是R1-Zero也存在一些問題，如可讀性差和語言混用等。所以，DeepSeek又開發(fā)出了R1模型。

R1在R1-Zero的基礎(chǔ)上進(jìn)行了改進(jìn)，引入了冷啟動數(shù)據(jù)和多階段訓(xùn)練流程，以提升模型的推理能力和可讀性。

冷啟動與多階段訓(xùn)練

冷啟動階段是R1訓(xùn)練流程的起點，也是整個訓(xùn)練策略中最重要的一環(huán)。與R1-Zero直接從基礎(chǔ)模型開始強(qiáng)化學(xué)習(xí)不同，R1引入了少量高質(zhì)量的長CoT數(shù)據(jù)作為冷啟動數(shù)據(jù)，為模型提供一個更加穩(wěn)定和優(yōu)化的起點，從而在后續(xù)的強(qiáng)化學(xué)習(xí)過程中更好地發(fā)展推理能力。

冷啟動數(shù)據(jù)的一個關(guān)鍵特點是其對可讀性的優(yōu)化。與R1-Zero生成的推理過程相比，冷啟動數(shù)據(jù)更加注重語言的清晰性和邏輯性。例如，團(tuán)隊設(shè)計了一種特定的輸出格式，即在每個回答的末尾添加一個總結(jié)，并用特殊標(biāo)記將推理過程和總結(jié)區(qū)分開來。

這種格式不僅使模型的輸出更加易于理解，也為后續(xù)的強(qiáng)化學(xué)習(xí)提供了一個明確的結(jié)構(gòu)框架。

在冷啟動階段之后， R1進(jìn)入了一個包含多個階段的復(fù)雜訓(xùn)練流程。這一流程的設(shè)計目標(biāo)是通過逐步優(yōu)化和調(diào)整，使模型在推理能力上達(dá)到更高的水平，同時在其他任務(wù)上也表現(xiàn)出色。

第一階段：推理導(dǎo)向的強(qiáng)化學(xué)習(xí)

在冷啟動數(shù)據(jù)的基礎(chǔ)上，R1進(jìn)入了一個以推理為導(dǎo)向的強(qiáng)化學(xué)習(xí)階段。這一階段的核心目標(biāo)是通過大規(guī)模的強(qiáng)化學(xué)習(xí)，進(jìn)一步提升模型在數(shù)學(xué)、編程、科學(xué)和邏輯推理等任務(wù)上的表現(xiàn)。這一階段的訓(xùn)練與R1-Zero的強(qiáng)化學(xué)習(xí)過程類似，但有一個重要的區(qū)別：R1在訓(xùn)練過程中引入了語言一致性獎勵。

語言一致性獎勵的引入是為了解決模型在生成推理鏈時可能出現(xiàn)的語言混用問題。在多語言的推理任務(wù)中，模型可能會在推理過程中混用不同語言，這不僅影響了輸出的可讀性，還可能干擾模型的推理邏輯。

為了克服這一問題，研究團(tuán)隊設(shè)計了一個獎勵機(jī)制，通過計算推理鏈中目標(biāo)語言的比例來優(yōu)化模型的輸出。雖然這種獎勵機(jī)制在一定程度上略微降低了模型的推理性能，但它顯著提升了輸出的可讀性和一致性。

第二階段：拒絕采樣與監(jiān)督微調(diào)

當(dāng)推理導(dǎo)向的強(qiáng)化學(xué)習(xí)接近收斂時，R1進(jìn)入了一個關(guān)鍵的階段：拒絕采樣與監(jiān)督微調(diào)。這一階段的目標(biāo)是通過生成新的監(jiān)督學(xué)習(xí)數(shù)據(jù)，進(jìn)一步優(yōu)化模型在推理和其他任務(wù)上的表現(xiàn)。

拒絕采樣是一種從模型生成的數(shù)據(jù)中篩選出高質(zhì)量樣本的方法。在這一階段，研究團(tuán)隊利用當(dāng)前模型的檢查點，通過拒絕采樣生成了大量的推理相關(guān)數(shù)據(jù)。這些數(shù)據(jù)不僅包括了推理任務(wù)的樣本，還涵蓋了寫作、事實問答、自我認(rèn)知等其他領(lǐng)域的數(shù)據(jù)。通過這種方式，模型不僅在推理任務(wù)上得到了優(yōu)化，還在其他任務(wù)上展現(xiàn)了更強(qiáng)的能力。

第三階段：全場景強(qiáng)化學(xué)習(xí)

在經(jīng)過拒絕采樣和監(jiān)督微調(diào)之后，R1進(jìn)入了一個更為復(fù)雜的階段：全場景強(qiáng)化學(xué)習(xí)。這一階段的目標(biāo)是通過結(jié)合推理任務(wù)的規(guī)則獎勵和一般任務(wù)的偏好獎勵，進(jìn)一步優(yōu)化模型的性能。

在這一階段，模型不僅需要在推理任務(wù)上表現(xiàn)出色，還需要在其他任務(wù)上展現(xiàn)出更高的有用性和安全性。研究團(tuán)隊通過引入多樣化的獎勵信號和任務(wù)分布，確保模型在推理能力、有用性和安全性之間達(dá)到平衡。這不僅提升了模型在推理任務(wù)上的表現(xiàn)，還使其在其他任務(wù)上也展現(xiàn)出了更強(qiáng)的適應(yīng)性。

例如，在推理任務(wù)中，模型繼續(xù)使用規(guī)則獎勵來優(yōu)化其推理鏈的準(zhǔn)確性和效率。而在一般任務(wù)中，模型則依賴于偏好獎勵來優(yōu)化其輸出的有用性和安全性。通過這種方式，R1能夠在多個任務(wù)上展現(xiàn)出卓越的性能，同時保持推理能力的核心優(yōu)勢。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)

DeepSeek 模型 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="9s1n8"><li id="9s1n8"></li></p>

^{<blockquote id="9s1n8"></blockquote>}