自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

7G顯存,訓練自己的 DeepSeek-R1:GRPO 資源下降80%

發(fā)布于 2025-2-12 13:13
瀏覽
0收藏

DeepSeek-R1 模型的出現(xiàn)引起了廣泛關(guān)注,眾多開源復(fù)現(xiàn)項目紛紛涌現(xiàn)(Open-R1、simpleRL-reason、Tiny-Zero、Mini-R1等)。然而,受 GPU 條件的限制,有些小伙伴可能無法順利運行這些項目。今天,我們就來介紹一個神奇的工具 ——Unsloth AI,它可以幫助我們在有限的資源下訓練自己的 DeepSeek-R1 推理模型,特別是通過 GRPO(Group Relative Policy Optimization)技術(shù),實現(xiàn)了資源的大幅降低。

1. Unsloth AI 的神奇之處

1.1 GRPO 技術(shù)簡介

GRPO 是一種強化學習算法,它與依賴價值函數(shù)的近端策略優(yōu)化(PPO)不同,不需要價值函數(shù)就能有效優(yōu)化響應(yīng)。它的工作原理是讓模型生成多組響應(yīng),然后根據(jù)正確性或其他設(shè)定的獎勵函數(shù)對每個響應(yīng)進行評分,計算組平均分數(shù),并將每個回答的分數(shù)與組平均分數(shù)進行比較,最后模型會得到強化,以支持得分更高的反應(yīng)。

1.2 資源大幅降低

Unsloth AI 通過對整個 GRPO 流程的增強,使其使用的 VRAM比 Hugging Face + FA2 少 80%。這意味著,我們可以使用更少的硬件資源來訓練自己的 DeepSeek-R1 推理模型。例如,使用 Qwen2.5(1.5B)模型,僅需要 7GB 的 VRAM 就可以重現(xiàn) R1-Zero 的 “頓悟時刻”,這對于那些沒有強大 GPU 支持的用戶來說,無疑是一個巨大的福音。

2. 訓練自己的 DeepSeek-R1 推理模型

2.1 模型支持與參數(shù)要求

  • 模型范圍:Unsloth AI 可以將多種模型轉(zhuǎn)換為推理模型,包括 Llama 3.1(8B)、Phi-4(14B)、Mistral(7B)、Qwen2.5(7B)等,只要這些模型的參數(shù)不超過 15B。
  • 參數(shù)建議:為了正確生成思考標記,建議將 GRPO 應(yīng)用于至少 1.5B 參數(shù)的模型。如果使用的是基礎(chǔ)模型,需要確保有一個聊天模板。

2.2 訓練過程與注意事項

  • 訓練流程

數(shù)據(jù)收集:開始訓練前,需要準備好輸入和輸出數(shù)據(jù),例如問題和答案。這些數(shù)據(jù)將用于模型的訓練,幫助模型學習如何進行推理。

模型訓練:使用 Unsloth AI 提供的工具和接口,將準備好的數(shù)據(jù)輸入到模型中進行訓練。在訓練過程中,模型會根據(jù) GRPO 算法不斷調(diào)整自己的參數(shù),以提高推理能力。

結(jié)果評估:訓練完成后,需要對模型的推理結(jié)果進行評估??梢酝ㄟ^與已知的正確答案進行比較,來評估模型的準確性和可靠性。

  • 注意事項

獎勵函數(shù)設(shè)計:在訓練過程中,需要設(shè)計合適的獎勵函數(shù)來激勵模型的推理行為。例如,如果模型給出了正確答案,可以給予獎勵;如果模型出現(xiàn)錯誤或不合理的回答,可以給予懲罰。這樣可以引導模型學習到正確的推理方式。

訓練時間:為了獲得良好的訓練結(jié)果,需要訓練300步,12 個小時。Unsloth AI 在 Colab 上的示例只訓練了一個小時,因此結(jié)果可能低于標準。

軟件依賴:如果在本地使用 GRPO,需要確保已經(jīng)安裝了 “pip install diffusers”。

7G顯存,訓練自己的 DeepSeek-R1:GRPO 資源下降80%-AI.x社區(qū)

3. GRPO 的神奇效果

3.1 “頓悟時刻” 重現(xiàn)

DeepSeek 的研究人員在使用純強化學習(RL)訓練 R1-Zero 時觀察到了 “頓悟時刻”,模型學會了通過重新評估其初始方法延長其思考時間,而無需任何人工指導或預(yù)定義指令。通過 Unsloth AI 使用 GRPO 訓練模型,也可以重現(xiàn)這種神奇的效果。例如,在一個測試示例中,對于 “Which is bigger? 9.11 or 9.9?” 這個問題,使用 GRPO 訓練的 Phi-4 模型能夠給出正確答案,而沒有使用 GRPO 訓練的模型則沒有思考標記和正確答案。

7G顯存,訓練自己的 DeepSeek-R1:GRPO 資源下降80%-AI.x社區(qū)

3.2 推理能力培養(yǎng)

GRPO 算法可以引導模型自動展示推理能力并創(chuàng)建推理軌跡。例如,對于 “1 + 1 等于多少?”“2 + 2 等于多少?” 這樣的簡單數(shù)學問題,模型可以通過逐步的計算和思考,給出正確的答案。這表明,通過 GRPO 訓練,模型可以學習到如何進行推理,從而提高自己的智能水平。

7G顯存,訓練自己的 DeepSeek-R1:GRPO 資源下降80%-AI.x社區(qū)

4. Unsloth AI 的其他優(yōu)勢

4.1 吞吐量與 VRAM 節(jié)省

Unsloth AI 使用 vLLM 直接在微調(diào)堆棧中,實現(xiàn)了 20 倍的吞吐量提升和 50% 的 VRAM 節(jié)省。在 1x A100 40GB 顯卡上,Unsloth 的動態(tài) 4 位量化 Llama 3.2 3B Instruct 模型可以達到每秒 4000 個token左右的生成速度,而在 16GB Tesla T4(免費 Colab GPU)上,可以達到每秒 300 個token。此外,Unsloth 還神奇地消除了加載 vLLM 和 Unsloth 時的雙重內(nèi)存使用,為 Llama 3.1 8B 節(jié)省了約 5GB 的內(nèi)存,為 Llama 3.2 3B 節(jié)省了約 3GB 的內(nèi)存。

7G顯存,訓練自己的 DeepSeek-R1:GRPO 資源下降80%-AI.x社區(qū)

4.2 vLLM 的特點

  • 動態(tài)量化:vLLM 可以動態(tài)地將模型的某些層量化為 4 位,某些層量化為 16 位,這樣可以在保持模型較小的同時,顯著提高模型的準確性。
  • 參數(shù)優(yōu)化:vLLM 可以自動選擇多個參數(shù)來優(yōu)化內(nèi)存、VRAM 效率和最大吞吐量,例如調(diào)整分塊預(yù)填充令牌的數(shù)量、最大序列數(shù)等。
  • 性能提升

默認設(shè)置:vLLM 默認啟用 - O3 優(yōu)化,并啟用前綴緩存,以提高模型的性能。

硬件加速:在舊顯卡上,F(xiàn)lashinfer 可能會比 vLLM 慢 10%。此外,F(xiàn)P8 KV 緩存會使事情變慢 10%,但可以使吞吐量潛力翻倍。

  • LoRA 支持:vLLM 允許通過解析狀態(tài)字典而不是從磁盤加載來加載 LoRA,這可以使 GRPO 訓練運行速度提高 1.5 倍。

5. 小結(jié)

Unsloth AI 的出現(xiàn)為我們訓練自己的 DeepSeek-R1 推理模型提供了一個強大的工具,特別是通過 GRPO 技術(shù),實現(xiàn)了資源的大幅降低,讓更多人能夠參與到人工智能的研究和應(yīng)用中。同時,Unsloth AI 還具有其他諸多優(yōu)勢,如吞吐量提升、VRAM 節(jié)省和 vLLM 的特點等。

本文轉(zhuǎn)載自??鴻煊的學習筆記??,作者: 乘風破浪jxj ????


收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦