DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署
Hi,這里是Aitrainee,歡迎閱讀本期新文章。
Deepseek R1正式發(fā)布。不是之前的Light版本,而是完整的R1。
性能與o1相當(dāng),還采用MIT開(kāi)源協(xié)議,可以商用?,F(xiàn)在能在Deepseek chat平臺(tái)用,也提供API。
模型分兩個(gè)版本:主力R1,和面向研究的R1-Zero。
R1-Zero沒(méi)有監(jiān)督微調(diào),直接RL,是一個(gè)未經(jīng)過(guò)對(duì)話偏好對(duì)齊監(jiān)督微調(diào)的版本,專(zhuān)門(mén)為研究人員或希望自行微調(diào)模型的人提供。
正式發(fā)布的R1還是用了SFT階段。
R1是671B參數(shù)的大模型,激活參數(shù)只有37B,基于Deepseek V3訓(xùn)練。特別強(qiáng)化了思維鏈和推理能力。
現(xiàn)在Cline或者Roocline中可以直接使用R1了。API獲?。???https://platform.deepseek.com/usage??
在Roocline中這樣設(shè)置:
Roocline是什么?看這里:
??全新免費(fèi)的 RooCline 超越了Cline v3.1 ?!更快、更智能、更出色的Cline分叉?。ㄗ灾鰽I編程、0門(mén)檻)??
作為測(cè)試,我們用前面寫(xiě)過(guò)一篇文章《??從0到1用AI做了個(gè)AI服務(wù)網(wǎng)站, 全程沒(méi)寫(xiě)一行代碼??》,把開(kāi)頭的那個(gè)三合一提示詞扔給他:
讓他創(chuàng)建一個(gè)Saas網(wǎng)站原型。那么提示詞比較長(zhǎng),可以通過(guò)上面這篇文章獲得。
挺不錯(cuò)的,Saas框架、前后端、登陸注冊(cè)、生圖都還可以。
其次,這是它在Cline中速度、消耗表:
youtube@WorldofAI
Deepseek官網(wǎng)直接Chat使用:
此外,還有6個(gè)蒸餾小模型:Qwen 1.5B、7B,Llama 8B,Qwen 14B、32B,還有Llama 系列。
這些微調(diào)模型使用由DeepSeek-R1生成的樣本進(jìn)行訓(xùn)練,這大大降低了思考模型的構(gòu)建門(mén)檻。
這個(gè)操作很暖心,讓不同需求的用戶都能用上,從筆記本到服務(wù)器,都能找到合適的版本。
測(cè)試結(jié)果超出預(yù)期,最強(qiáng)的是Llama-70B。GPQA Diamond 65.2,比Claude 3.5還高。編程上,LiveCodeBench 57.5,CodeForces 1633,幾乎能和o1-mini比肩。
Ollama已經(jīng)可以部署了,很快也能用VLLM本地運(yùn)行。
R1價(jià)格很友好。API收費(fèi):輸入每百萬(wàn)token 0.14美元(緩存命中),0.55美元(緩存未命中),輸出2.19美元。對(duì)比o1:輸入15美元,輸出60美元。
再說(shuō)完全靠強(qiáng)化學(xué)習(xí),不需要監(jiān)督微調(diào)這一條:
用硬編碼規(guī)則計(jì)算獎(jiǎng)勵(lì),而非使用學(xué)習(xí)型的獎(jiǎng)勵(lì)模型。學(xué)習(xí)型獎(jiǎng)勵(lì)模型可能會(huì)被強(qiáng)化學(xué)習(xí)策略“利用”或“作弊”,導(dǎo)致優(yōu)化的結(jié)果偏離預(yù)期目標(biāo)。就像AlphaZero,從零開(kāi)始學(xué)習(xí),不靠模仿人類(lèi)。
訓(xùn)練過(guò)程中有意思的發(fā)現(xiàn):模型的思考時(shí)間會(huì)自然增長(zhǎng),這不是預(yù)設(shè)的,是自發(fā)形成的。模型逐漸學(xué)會(huì)為復(fù)雜問(wèn)題花費(fèi)更多時(shí)間進(jìn)行思考,體現(xiàn)出類(lèi)似于“自我反思”和“探索行為”的能力。
這是高級(jí)智能行為的一種表現(xiàn),表明模型具備了更深層次的推理能力。這種未被明確編碼的能力,屬于智能的“涌現(xiàn)特性”(emergent behavior)。
他們發(fā)明的GRPO比PPO更簡(jiǎn)單:去掉critic網(wǎng)絡(luò),用多個(gè)樣本的平均獎(jiǎng)勵(lì)代替,簡(jiǎn)化了內(nèi)存使用。這個(gè)方法,是他們2024年2月才提出的。
DeepSeek-R1-Zero的測(cè)試結(jié)果很有意思。
只靠強(qiáng)化學(xué)習(xí),在AIME 2024上得到71.0分,MATH-500達(dá)到95.9分。雖然比o1-0912略低,但差距并不大。
特別是在MATH-500上,R1-Zero的95.9分超過(guò)了o1-mini的90.0分。這說(shuō)明純RL訓(xùn)練的模型,也能掌握復(fù)雜的數(shù)學(xué)推理。
LiveCode Bench上得到73.3分,比o1-mini的60.0分高出不少。
這個(gè)結(jié)果很重要:它證明了,不需要大量標(biāo)注數(shù)據(jù),單靠強(qiáng)化學(xué)習(xí),AI也能學(xué)會(huì)思考和推理。這可能會(huì)改變我們訓(xùn)練AI的方式。
R1,僅用幾個(gè)月就達(dá)到了閉源大廠的水平,還提供了更實(shí)惠的價(jià)格。
最后,據(jù)官方所述,DeepSeek-R1還有幾個(gè)地方需要提升,他們將繼續(xù)努力:
通用能力上,函數(shù)調(diào)用、多輪對(duì)話、角色扮演和JSON輸出,都不如V3版本。團(tuán)隊(duì)打算用長(zhǎng)鏈推理來(lái)改進(jìn)。
語(yǔ)言處理有點(diǎn)意思?,F(xiàn)在主要針對(duì)中英文優(yōu)化,其他語(yǔ)言容易混雜。比如用德語(yǔ)問(wèn),它可能用英語(yǔ)想,再用德語(yǔ)答。
提示詞很敏感。少樣本提示反而會(huì)影響性能,建議直接描述問(wèn)題和輸出格式,效果更好。
軟件工程任務(wù)上,評(píng)估太慢影響了RL訓(xùn)練。計(jì)劃用拒絕采樣或異步評(píng)估來(lái)提速。
本文轉(zhuǎn)載自 ??AI進(jìn)修生??,作者: Aitrainee
