DeepSeek R1 & R2 技術(shù)原理
傳聞 DeepSeek R2 今天上新,東大時區(qū)已過,難道是阿美時間?不必失望,筆者20多年職業(yè)生涯學(xué)到一個深刻道理是:所有的 rumor 都是真的。
DeepSeek不愧是國產(chǎn)之光,V3, R1系列模型以其卓越的性能和開源創(chuàng)新席卷全球。
相應(yīng)技術(shù)文檔分享了多項關(guān)鍵技術(shù)突破,為高效、可擴展的大模型訓(xùn)練與推理奠定了基礎(chǔ)。
R1發(fā)布給行業(yè)帶來的天翻地覆的震動波還在激蕩,R2很快就可能接踵而至了。借此機會,筆者梳理一下DeepSeek R1&R2超越其他對手的核心秘方。
一、GRPO與軟歸納偏好
- DeepSeekMath的組相對策略優(yōu)化(GRPO)是R1成功的關(guān)鍵,核心思想是:去除傳統(tǒng)強化學(xué)習(xí)中價值函數(shù),避免其高內(nèi)存和計算成本;
- 對每個問題采樣多個輸出,組內(nèi)通過相對獎勵估計來優(yōu)化策略;
- 最大化相對獎勵和策略的 KL 散度約束來更新策略模型。
學(xué)者用軟歸納偏好來解釋,深度神經(jīng)網(wǎng)絡(luò)的異常泛化行為,包括良性過擬合、雙下降現(xiàn)象以及過參數(shù)化的奇特效果。
軟歸納偏好是解釋這些異常泛化現(xiàn)象的關(guān)鍵統(tǒng)一原則:
與其通過限制假設(shè)輸出空間來避免過擬合,不如擁抱一個更大更靈活的假設(shè)解的搜索空間,同時通過某種機制對與數(shù)據(jù)一致的簡單解賦予軟性偏好。
筆者認為GRPO 可以看作是軟歸納偏好在強化學(xué)習(xí)領(lǐng)域的一種具體實現(xiàn)形式,能夠很好解釋scaling law和頓悟(grokking)等涌現(xiàn)泛化現(xiàn)象:
去除傳統(tǒng)強化學(xué)習(xí)中價值函數(shù),允許更大更靈活的假設(shè)輸出空間;
分組采樣和相對獎勵估計引入軟性偏好,賦予模型更高的泛化潛力。
軟歸納偏好被定義為對某些解的偏好,即使這些解對數(shù)據(jù)的擬合效果相同。下圖展示了通過軟歸納偏好實現(xiàn)良好泛化的過程。
左圖:一個大的假設(shè)空間,但對擬合數(shù)據(jù)效果相同的解沒有偏好,因此訓(xùn)練通常會導(dǎo)向過擬合的解,泛化能力較差。
中圖:軟歸納偏好通過結(jié)合靈活的假設(shè)空間和對解的偏好(用不同深淺表示)來引導(dǎo)訓(xùn)練,從而實現(xiàn)良好的泛化。
右圖:限制假設(shè)空間可以通過僅考慮具有某些理想屬性的解來幫助防止過擬合,但限制表達能力,模型無法捕捉現(xiàn)實的細微差別,從而阻礙泛化。
殘差路徑先驗(Residual Pathway Priors, RPP)研究表明,給定問題,軟偏好對于等變性的效果通常與完美約束的模型一樣好。
在僅接觸少量數(shù)據(jù)后,軟偏好會收斂到近乎完美的旋轉(zhuǎn)等變性,因為模型被鼓勵以對稱性表示數(shù)據(jù),并且即使數(shù)據(jù)量很小,它也可以精確地做到這一點。
此外,在數(shù)據(jù)僅包含近似對稱性或完全沒有對稱性的情況下,軟偏好RPP方法的表現(xiàn)顯著優(yōu)于具有硬對稱性約束的模型。
等變性對稱性提供了壓縮數(shù)據(jù)的機制,而transformer具有一種軟歸納偏好,傾向于壓縮數(shù)據(jù)。訓(xùn)練后的vision transformer甚至比CNN更具平移等變性!
軟歸納偏好(而非限制假設(shè)空間)是構(gòu)建智能系統(tǒng)的關(guān)鍵處方,GRPO是個成功的實現(xiàn),所以筆者說:??GRPO 是DeepSeek魔法的源泉??。
二、內(nèi)存墻與 I/O感知
為執(zhí)行運算,GPU必須將數(shù)據(jù)從高層級的 DRAM 移動到低層級的計算核,因而GPU 的性能不僅受限于計算能力(TFLOPs),還受限于內(nèi)存帶寬(GB/s)。
現(xiàn)在大模型已經(jīng)撞到了內(nèi)存墻——隨著計算能力的提升速度(×3/2年)遠快于 DRAM 帶寬的提升速度(×1.6/2年),算法越來越受限于帶寬/傳輸成本。
此外,DRAM 已占系統(tǒng)總功耗的 46%,隨著內(nèi)存相對于計算效率的逐漸降低,考慮傳輸成本 I/O 感知 變得非常關(guān)鍵。大力出奇跡,還得當心很多白費蠻力。
這應(yīng)該是DeepSeek AI工程團隊做了大量的對英偉達芯片集群性能的極限優(yōu)化與提升的更深層次的原因。可見于通信與混合精度的驚艷工作:
DualPipe通信優(yōu)化,在前后向微批次內(nèi)部和之間疊加計算和通信階段,從而減少了流水線低效。
特別是,分發(fā)(將token路由到專家)和合并(聚合結(jié)果)操作通過定制的PTX(并行線程執(zhí)行)指令與計算并行處理,繞過CUDA與NVIDIA GPU接口并優(yōu)化其操作。
某種意義上說,DeepSeek 實際上是為 GPU 集群中的all對all通信創(chuàng)建了自己的 GPU 上的虛擬 DPU,用于執(zhí)行各種與 SHARP 類似的操作。
同時,DeepSeek使用FP8混合精度框架,實現(xiàn)更快的計算速度和更低的內(nèi)存占用,同時不犧牲數(shù)值穩(wěn)定性。
關(guān)鍵操作(如矩陣乘法)以FP8精度執(zhí)行,而敏感組件(如嵌入層和歸一化層)則保留更高精度(BF16或FP32)以確保準確性。
DeepSeek 獨創(chuàng)了對正在處理的數(shù)據(jù)的尾數(shù)和指數(shù)進行微縮放,從而在不損害數(shù)據(jù)保真度的情況下,保持任何給定計算所需的精度水平和數(shù)值范圍。
大家熟悉的FlashAttention也是一種 I/O-Aware的注意力機制,克服了內(nèi)存墻問題。注意力機制是生成模型的核心,包括大語言模型和圖像生成算法。
FlashAttention 通過融合注意力機制的步驟,在低層級內(nèi)存上完成所有順序計算,避免了不必要的中間數(shù)據(jù)傳輸。與標準的 PyTorch 實現(xiàn)相比,其吞吐量提高了 6 倍。
然而,當前生成 I/O 感知算法,以利用硬件特性的最佳技術(shù),仍然是緩慢的手動推導(dǎo),可能導(dǎo)致大量性能仍未被充分挖掘。
FlashAttention就是歷經(jīng)三年三次迭代才能充分利用 Hopper 硬件(NVIDIA, 2022)的特性。DeepSeek業(yè)界良心,開源了不少代碼,方便大家抄作業(yè)。
系統(tǒng)化創(chuàng)新自動優(yōu)化算法需要一種機制來理解算法的組合結(jié)構(gòu),并需要一個性能模型來比較執(zhí)行同一操作的不同方式,難度很大,【文獻2】非常值得期待:
文獻提出了基于神經(jīng)電路圖(Neural Circuit Diagrams)的深度學(xué)習(xí)算法表征方案,展示了任務(wù)在 GPU 層級結(jié)構(gòu)中的分布及相關(guān)資源使用情況。
該方案結(jié)合了用于融合算法組合性質(zhì)的定理,能夠快速推導(dǎo)出 GPU 優(yōu)化的矩陣乘法和注意力機制的高層次草圖,并構(gòu)建出相應(yīng)性能模型。
三、代碼與推理Scaling Law
基于宏大的人類知識提取出來豐富范疇,形成眾多領(lǐng)域的本體知識結(jié)構(gòu),這是大模型通過預(yù)訓(xùn)練已經(jīng)構(gòu)建的內(nèi)部世界模型;
提高推理采樣的機制,通過訓(xùn)練測試達成學(xué)習(xí)推理的scaling law,是大模型下一步努力提升的關(guān)鍵方向。
在已訓(xùn)練的LLM世界模型的基礎(chǔ)上,進行專注推理策略的第二階預(yù)訓(xùn)練,給LLM構(gòu)建完整的“大腦皮層”,進而借助皮層指揮LLM推理生成。
“???MoE = 推理采樣策略??” :MoE里的“專家”是一種擬人的形象化的說法,本質(zhì)上是基于某種人類先驗“知識”或“策略”的“跨范疇采樣”:
“在外部感官輸入下,大模型內(nèi)部將限定在相應(yīng)的高維語言概率空間的子空間內(nèi)推理;推理是在子空間中采樣,做類比時跨范疇采樣”。
現(xiàn)有支撐激發(fā)LLM推理scaling law的技術(shù):參數(shù)更新、輸入修改和輸出校準解決分布偏移并增強穩(wěn)健性;重復(fù)采樣、自我校正和樹搜索等策略用來加強推理。
測試時計算模型更新,等于利用測試樣本信息在推理階段進一步微調(diào)了模型參數(shù),使模型能夠適應(yīng)測試分布。
推理過程中進行重復(fù)采樣同樣可以顯著提升復(fù)雜任務(wù)(如數(shù)學(xué)和編程)的性能【文獻3】,即使是較小的模型也能通過增加采樣獲得顯著性能提升。性能改進遵循指數(shù)冪律關(guān)系。
關(guān)鍵的推理階段增強技術(shù)可以結(jié)合使用:重復(fù)采樣(生成多次嘗試)、融合(綜合多個響應(yīng))、批判與排序響應(yīng)、驗證輸出(自動或手工),這些也是軟歸納偏好方案。
目前看行業(yè)技術(shù)發(fā)展趨勢是,推理與訓(xùn)練測試之間的界限正在變得模糊,推理結(jié)果也被反饋到訓(xùn)練測試過程中以提升模型能力。
未來的模型需要無縫的自我改進循環(huán),以持續(xù)增強其能力,類似于人類通過持續(xù)互動和反饋學(xué)習(xí),而非離散的訓(xùn)練階段。軟歸納偏好是很自然的方式。
四、不同層次/尺度語言處理
從語言到認知:LLM如何超越人類語言網(wǎng)絡(luò)筆者總結(jié):通過對LLM訓(xùn)練過程中大腦對齊性的系統(tǒng)分析,揭示了形式語言能力(語法)與功能語言能力(語義)的不同發(fā)展軌跡。
未來的研究應(yīng)進一步擴展對齊性評估的范圍,探索LLM與其他認知網(wǎng)絡(luò)的關(guān)系,并推動人工與生物語言處理的深度融合。
Nature人類行為最新一項研究【文獻4】,引入了一個統(tǒng)一的計算框架,將聲學(xué)、語音和詞匯層面的語言結(jié)構(gòu)聯(lián)系起來,以研究人類大腦在日常對話中的神經(jīng)基礎(chǔ)。
方法是:
- 使用皮層電圖記錄參與者在開放式現(xiàn)實生活對話中的語音產(chǎn)生和理解過程的神經(jīng)信號;
- 從多模態(tài)語音文本模型(Whisper)中提取低層次的聲學(xué)特征、中層次的語音特征以及上下文詞匯嵌入。
- 開發(fā)了編碼模型,將這些嵌入(embedding)線性映射到語音產(chǎn)生和理解過程中的大腦活動上。
Whisper模型捕捉到了在詞匯發(fā)音前(語音產(chǎn)生)的語言到語音編碼的時間序列,以及發(fā)音后(語音理解)的語音到語言編碼的時間序列。
值得注意的是,該模型能夠準確預(yù)測在未用于模型訓(xùn)練的長時間新對話中,語言處理層次結(jié)構(gòu)中每個層級的神經(jīng)活動。
模型內(nèi)部的處理層次與大腦皮層中語音和語言處理的層次結(jié)構(gòu)相一致,其中感覺和運動區(qū)域與模型的語音嵌入更匹配,而更高層次的語言區(qū)域則與模型的語言嵌入更匹配。
該模型學(xué)習(xí)到的嵌入在捕捉支持自然語音和語言的神經(jīng)活動方面優(yōu)于符號模型。
這些發(fā)現(xiàn)支持了一種范式轉(zhuǎn)變:即采用統(tǒng)一的計算模型來捕捉現(xiàn)實世界對話中語音理解和產(chǎn)生的整個處理層次結(jié)構(gòu)。
這也讓DeepSeek R1 或 R2 這樣的大模型,方便地,自下而上切換推理用的自然語言以致符號語言;或者自上而下地“編譯”并執(zhí)行符號定義的、或者自然語言描述的推理過程:
因為推理不過是在LLM構(gòu)建的高維概率語言空間里,對信息概率分布采樣做變分;
“切換”是將這個過程映射到不同的上層自然語言,以及對應(yīng)的語音,甚至進一步映射到某種符號語言 - 代碼或數(shù)學(xué)公式;
“編譯”則是這一過程的逆過程,即將抽象的符號語言用自然語言描述,或者轉(zhuǎn)換為對信息概率分布的處理過程。
AI 之間溝通可以在三個層次上自由切換,而人類則需要把上下兩層都翻譯成中間的自然語言才能有效溝通和交流,很多情形下會比AI低效。
我們共同期待一下 DeepSeek R2 吧!
文獻1,Deep Learning is Not So Mysterious or Different,??https://arxiv.org/pdf/2503.02113??
文獻2,F(xiàn)lashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness, ??https://openreview.net/pdf?id=pF2ukh7HxA??
文獻3,Large Language Monkeys: Scaling Inference Compute with Repeated Sampling,??https://arxiv.org/pdf/2407.21787??
文獻4,A unified acoustic-to-speech-to-language embedding space captures the neural basis of natural language processing in everyday conversations,https://www.nature.com/articles/s41562-025-02105-9
本文轉(zhuǎn)載自??清熙??,作者:王慶法
