自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek-R1技術(shù)解碼:如何實(shí)現(xiàn)大模型推理能力的提升?

人工智能
DeepSeek-R1的成功,讓我們更加清晰地認(rèn)識(shí)到推理能力在當(dāng)下人工智能發(fā)展中的重要地位。那么,究竟什么是大模型的推理?DeepSeek-R1推理能力強(qiáng)的原因又是什么呢。

1月20日,幻方量化旗下AI公司深度求索(DeepSeek)發(fā)布了新一代開(kāi)源大模型DeepSeek-R1。作為一款專(zhuān)注于推理能力的AI大模型,DeepSeek-R1憑借著成本低、推理能力強(qiáng)等優(yōu)勢(shì),在人工智能領(lǐng)域掀起了千層巨浪,引起了人們的廣泛關(guān)注與討論。

DeepSeek-R1的成功,讓我們更加清晰地認(rèn)識(shí)到推理能力在當(dāng)下人工智能發(fā)展中的重要地位。那么,究竟什么是大模型的推理?DeepSeek-R1推理能力強(qiáng)的原因又是什么呢。

如何理解推理大模型??

要解答這些問(wèn)題,首先需明確大模型中的推理概念。推理,本質(zhì)上是從已知判斷(前提)推導(dǎo)出新判斷(結(jié)論)的思維形式。比如,“法國(guó)的首都是什么?”?這類(lèi)事實(shí)性問(wèn)題的回答,并不涉及推理過(guò)程。而像?“若火車(chē)以每小時(shí)60公里的速度行駛,3小時(shí)后它會(huì)行駛多遠(yuǎn)?”?這樣的問(wèn)題,則需要進(jìn)行一定的簡(jiǎn)單推理。在得出答案前,模型需識(shí)別距離、速度與時(shí)間之間的關(guān)系。

當(dāng)前,多數(shù)大模型已具備基本的推理能力。因此,當(dāng)提及推理大模型時(shí),通常指的是那些在解決難題、謎語(yǔ)以及數(shù)學(xué)證明等更為復(fù)雜的推理任務(wù)中表現(xiàn)出色的大模型。

在推理大模型中,中間步驟的呈現(xiàn)方式主要有兩種。其一,這些中間步驟會(huì)被明確地包含在模型的響應(yīng)之中,如DeepSeek會(huì)展示思考過(guò)程,然后再給出答案;其二,中間步驟不會(huì)展示給用戶,而是直接給出答案。

推理大模型擅長(zhǎng)復(fù)雜的任務(wù),例如解決難題,高級(jí)數(shù)學(xué)問(wèn)題和具有挑戰(zhàn)性的編碼任務(wù)。但是,對(duì)于諸如摘要,翻譯或基于知識(shí)的問(wèn)題回答之類(lèi)的簡(jiǎn)單任務(wù),它們不是必需的。

實(shí)際上,對(duì)所有事物使用推理大模型可能效率低下且成本高昂。例如,推理大模型通常使用起來(lái)更昂貴,更冗長(zhǎng),有時(shí)由于?“過(guò)度思考”?而更容易出錯(cuò)。

上圖:推理大模型的主要優(yōu)勢(shì)和局限性

改進(jìn)推理模型的四種策略

值得一提的是,在AI領(lǐng)域擁有超過(guò)十年經(jīng)驗(yàn)的研究者Sebastian?Raschka介紹了改進(jìn)推理模型的4種主要方法。

1)推理時(shí)間擴(kuò)展

提高大模型推理能力的一種方法是推理時(shí)間擴(kuò)展。該術(shù)語(yǔ)可以具有多種含義,但是在這種情況下,它是指在推理過(guò)程中增加計(jì)算資源以提高輸出質(zhì)量。

一個(gè)粗略的類(lèi)比是,當(dāng)給予更多時(shí)間思考復(fù)雜問(wèn)題時(shí),人類(lèi)往往會(huì)產(chǎn)生更好的反應(yīng)。同樣,我們可以應(yīng)用一些技巧,鼓勵(lì)大模型在回答問(wèn)題時(shí)更多地“思考”。

推理時(shí)間擴(kuò)展的一個(gè)直接方法是巧妙的提示工程。一個(gè)典型的例子是思維鏈?(CoT)?提示,其中像?“一步一步思考”?這樣的短語(yǔ)包含在輸入提示中。這鼓勵(lì)模型生成中間推理步驟,而不是直接跳到最終答案,這通??梢栽诟鼜?fù)雜的問(wèn)題上獲得更準(zhǔn)確的結(jié)果。

上述思維鏈方法可以被視為推理時(shí)間縮放,因?yàn)樗ㄟ^(guò)生成更多的輸出令牌使推理更加昂貴。

另一種推理時(shí)間擴(kuò)展方法是使用投票和搜索策略。一個(gè)簡(jiǎn)單的例子是多數(shù)投票,讓大模型生成多個(gè)答案,然后通過(guò)多數(shù)投票選擇正確的答案。同樣,可以使用集束搜索和其他搜索算法來(lái)生成更好的響應(yīng)。

2)?純強(qiáng)化學(xué)習(xí)?(RL)

Raschka在DeepSeek?R1論文中發(fā)現(xiàn)的亮點(diǎn)之一是他們發(fā)現(xiàn)推理是純強(qiáng)化學(xué)習(xí)?(RL)?的一種行為。

具體而言,DeepSeek開(kāi)發(fā)了三種類(lèi)型的R1模型。一是DeepSeek-R1-Zero,建立在DeepSeek-V3基礎(chǔ)模型之上。與典型的RL流程不同,在RL之前應(yīng)用監(jiān)督微調(diào)?(SFT),DeepSeek-R1-Zero僅通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,而沒(méi)有初始SFT階段。

盡管如此,該RL過(guò)程類(lèi)似于通常使用的強(qiáng)化學(xué)習(xí)?(RLHF)?方法,其通常應(yīng)用于偏好調(diào)整大模型。

但是,DeepSeek-R1-Zero的關(guān)鍵區(qū)別在于它們跳過(guò)了用于指令調(diào)諧的監(jiān)督微調(diào)?(SFT)?階段。這就是為什么將其稱(chēng)為?“純”?RL。

對(duì)于獎(jiǎng)勵(lì),他們沒(méi)有使用根據(jù)人類(lèi)偏好訓(xùn)練的獎(jiǎng)勵(lì)模型,而是采用了兩種類(lèi)型的獎(jiǎng)勵(lì):?準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。其中,準(zhǔn)確性獎(jiǎng)勵(lì)使用LeetCode編譯器來(lái)驗(yàn)證編碼答案,并使用確定性系統(tǒng)來(lái)評(píng)估數(shù)學(xué)響應(yīng)。而格式獎(jiǎng)勵(lì)則依賴(lài)于大模型評(píng)委,以確保響應(yīng)遵循預(yù)期的格式,例如將推理步驟放在標(biāo)簽內(nèi)。

3)?監(jiān)督的優(yōu)化和強(qiáng)化學(xué)習(xí)?(SFT?+?RL)

DeepSeek的旗艦推理模型DeepSeek-R1,在DeepSeek-R1-Zero的基礎(chǔ)上進(jìn)行了改進(jìn),加入了額外的監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL),以提高其推理性能。

DeepSeek團(tuán)隊(duì)使用DeepSeek-R1-Zero生成所謂的?“冷啟動(dòng)”?SFT數(shù)據(jù)。術(shù)語(yǔ)?“冷啟動(dòng)”?指的是該數(shù)據(jù)是由DeepSeek-R1-Zero產(chǎn)生的,其本身沒(méi)有在任何監(jiān)督微調(diào)?(SFT)?數(shù)據(jù)上訓(xùn)練。

使用這種冷啟動(dòng)SFT數(shù)據(jù),DeepSeek然后通過(guò)指令微調(diào)訓(xùn)練模型,然后是另一個(gè)強(qiáng)化學(xué)習(xí)?(RL)?階段。此RL階段保留了DeepSeek-R1-Zero?RL過(guò)程中使用的相同準(zhǔn)確性和格式獎(jiǎng)勵(lì)。但是,他們添加了一致性獎(jiǎng)勵(lì)以防止語(yǔ)言混合,當(dāng)模型在響應(yīng)中的多種語(yǔ)言之間切換時(shí),就會(huì)發(fā)生這種情況。

RL階段之后是另一輪SFT數(shù)據(jù)收集。在此階段,使用最新的模型檢查點(diǎn)生成600k的思想鏈SFT示例,同時(shí)使用DeepSeek-V3基礎(chǔ)模型創(chuàng)建了額外的200k基于知識(shí)的SFT示例。

然后將這些600k?+?200k?SFT樣本用于指令微調(diào)DeepSeek-V3基,然后再進(jìn)行最后一輪RL。在此階段,他們?cè)俅问褂没谝?guī)則的方法對(duì)數(shù)學(xué)和編碼問(wèn)題進(jìn)行準(zhǔn)確性獎(jiǎng)勵(lì),而人類(lèi)偏好標(biāo)簽則用于其他問(wèn)題類(lèi)型。總而言之,這與常規(guī)RLHF非常相似,除了SFT數(shù)據(jù)包含?(更多)?CoT示例。除了基于人類(lèi)偏好的獎(jiǎng)勵(lì)之外,RL還具有可驗(yàn)證的獎(jiǎng)勵(lì)。

由于額外的SFT和RL級(jí),最終模型DeepSeek-R1隨著DeepSeek-R1-Zero的推移具有明顯的性能提升。

4)?純監(jiān)督微調(diào)?(SFT)?和蒸餾

DeepSeek團(tuán)隊(duì)還發(fā)布了通過(guò)他們稱(chēng)之為蒸餾的過(guò)程訓(xùn)練的較小模型。然而,在大模型的背景下,蒸餾不一定遵循深度學(xué)習(xí)中使用的經(jīng)典知識(shí)蒸餾方法。傳統(tǒng)上,在知識(shí)蒸餾中,較小的學(xué)生模型在較大的教師模型和目標(biāo)數(shù)據(jù)集的對(duì)數(shù)上進(jìn)行訓(xùn)練。

相反,這里的蒸餾是指在較大的大模型生成的SFT數(shù)據(jù)集上對(duì)較小的大模型,如Llama?8B和70B以及?Qwen?2.5模型(0.5B?到?32B),進(jìn)行指令微調(diào)。簡(jiǎn)單來(lái)說(shuō),這些較大的大模型是DeepSeek-V3和?DeepSeek-R1的中間檢查點(diǎn)。事實(shí)上,用于此蒸餾過(guò)程的SFT數(shù)據(jù)與用于訓(xùn)練DeepSeek-R1的數(shù)據(jù)集相同。

DeepSeek為什么要開(kāi)發(fā)蒸餾模型?Raschka認(rèn)為,有兩個(gè)關(guān)鍵原因::一是較小的模型效率更高。這意味著它們運(yùn)行起來(lái)更便宜,但它們也可以在低端硬件上運(yùn)行。二是純SFT的案例研究。這些蒸餾模型作為一個(gè)基準(zhǔn),展示純監(jiān)督微調(diào)?(SFT)?在沒(méi)有強(qiáng)化學(xué)習(xí)的情況下可以讓模型走多遠(yuǎn)。

下表比較了這些蒸餾模型與其他流行模型以及DeepSeek-R1-Zero和DeepSeek-R1的性能。

蒸餾模型明顯弱于DeepSeek-R1模型,但與?DeepSeek-R1-Zero相比,它們卻出奇地強(qiáng)大,盡管規(guī)模小了幾個(gè)數(shù)量級(jí)。

值得一提的是,DeepSeek團(tuán)隊(duì)測(cè)試了DeepSeek-R1-Zero?中出現(xiàn)的新興推理行為是否也會(huì)出現(xiàn)在較小的模型中。為了研究這一點(diǎn),他們將DeepSeek-R1-Zero中相同的純RL方法直接應(yīng)用于Qwen-32B。

實(shí)驗(yàn)的結(jié)果總結(jié)在下表中,其中QwQ-32B-Preview作為基于Qwen團(tuán)隊(duì)開(kāi)發(fā)的Qwen?2.5?32B的參考推理模型。

結(jié)果表明,對(duì)于較小的模型,蒸餾比純強(qiáng)化學(xué)習(xí)更有效。這與以下觀點(diǎn)一致:?jiǎn)慰繌?qiáng)化學(xué)習(xí)可能不足以在這種規(guī)模的模型中產(chǎn)生強(qiáng)大的推理能力,而在使用小型模型時(shí),對(duì)高質(zhì)量推理數(shù)據(jù)進(jìn)行SFT可能是更有效的策略。

可以說(shuō),這四種改進(jìn)推理模型的方法,從不同角度為提升大模型推理能力提供了可行路徑。推理時(shí)間擴(kuò)展通過(guò)優(yōu)化推理過(guò)程中的計(jì)算資源與提示方式,增強(qiáng)模型思考深度;純強(qiáng)化學(xué)習(xí)另辟蹊徑,跳過(guò)傳統(tǒng)監(jiān)督微調(diào)初始階段,以獨(dú)特獎(jiǎng)勵(lì)機(jī)制訓(xùn)練模型;監(jiān)督的優(yōu)化和強(qiáng)化學(xué)習(xí)相結(jié)合的方式,在已有模型基礎(chǔ)上多次微調(diào)與強(qiáng)化,逐步提升性能;純監(jiān)督微調(diào)與蒸餾則聚焦于小模型的高效性與對(duì)純SFT潛力的挖掘。

寫(xiě)在最后:

推理大模型不僅是解決復(fù)雜問(wèn)題、推動(dòng)各領(lǐng)域技術(shù)創(chuàng)新的關(guān)鍵力量,更是引領(lǐng)人工智能從基礎(chǔ)應(yīng)用邁向深度智能的核心驅(qū)動(dòng)力。面向未來(lái),隨著技術(shù)的不斷發(fā)展,我們有理由相信將有更多性能出色的大模型,在更多領(lǐng)域綻放光彩,推動(dòng)人工智能技術(shù)邁向新的高度。

責(zé)任編輯:龐桂玉 來(lái)源: 比特網(wǎng)
相關(guān)推薦

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-08 09:44:11

DeepSeekAI模型

2025-02-19 08:00:00

2025-02-12 12:45:59

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-02-13 01:00:00

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-02-03 14:17:27

2025-04-11 14:54:44

2025-02-06 10:18:45

2025-03-06 17:29:21

2025-02-17 14:43:51

2025-03-27 10:28:32

2025-02-24 14:05:00

LLM模型AI

2025-03-27 09:34:42

2025-02-03 15:50:44

2025-03-19 10:10:43

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)