這個開源項目厲害了:一鍵部署DeepSeek R1!
最近在折騰 DeepSeek R1 的私有部署,發(fā)現(xiàn)不少開發(fā)者都遇到了類似的困擾。明明按照文檔一步步來,卻總是會碰到這樣那樣的問題 - 分片下載老是斷,模型合并偶爾出錯,環(huán)境配置更是讓人頭大。要是再遇到多機分布式、高并發(fā)或者國產(chǎn)芯片這些場景,那就更不好處理了。
正好最近看到一個挺有意思的開源項目 GPUStack (https://github.com/gpustack/gpustack/)。它用 Apache 協(xié)議開源,主要就是為了解決 DeepSeek R1 這類大模型的部署問題。試用下來體驗還不錯,分享給大家~
- 支持 Windows、Linux、macOS,基本主流平臺都能跑
- 會自動處理資源分配,多機協(xié)同計算也不在話下
- 硬件支持很全面,從 NVIDIA、AMD、Mac 到國產(chǎn)的昇騰、海光、摩爾線程都能用
說到底,DeepSeek R1 的部署之所以麻煩,主要還是因為它太"重"了 - 671B 的參數(shù)量即便量化后也不小。這就帶來了幾個實際問題:
- 單機資源往往不夠用
- 量化后的模型依然很吃配置
- 不同硬件平臺的算力不好統(tǒng)一調度
GPUStack 的思路是通過分布式推理來解決這些問題。它能自動協(xié)調多臺機器的資源,讓 DeepSeek R1 在各種硬件環(huán)境下都能穩(wěn)定運行。
下面我們就來看看它具體是怎么工作的,以及在實際場景中該如何使用。
桌面場景
單機運行小參數(shù)量模型
在 Windows 和 macOS 桌面設備上,單機運行 DeepSeek R1 1.5B ~ 14B 等小參數(shù)模型。如果顯存不足,GPUStack 也支持將部分模型權重加載到內存,實現(xiàn) GPU & CPU 混合推理,確保在有限硬件資源下的運行。
resources-desktop
models-desktop
分布式推理運行大參數(shù)量模型
當單機無法滿足模型運行需求時,GPUStack 支持跨主機分布式推理。例如:
多機分布式推理
- 使用一臺 Mac Studio 可以運行 Unsloth最低動態(tài)量化(1.58-bit)的DeekSeek R1 671B模型,更高的量化和動態(tài)量化版本可以通過分布式推理功能,使用兩臺 Mac Studio 分布式運行。還可以靈活多卡切分比例和滿足更多的場景需求,例如更多的分布式節(jié)點和更大的上下文設置。
異構分布式推理
使用:
- 一臺Ubuntu 服務器,搭載 NVIDIA RTX 4090(24GB VRAM)
- 一臺Windows 主機,搭載 AMD Radeon RX 7800(16GB VRAM)
- 一臺MacBook Pro,搭載 M4 Pro,擁有 36GB 統(tǒng)一內存
聚合這些異構設備的 GPU 資源,運行單機無法運行的 DeepSeek-R1 32B 或 70B 量化蒸餾模型,充分利用多臺設備的算力來提供推理。
resources-nvidia-amd-mac
models-nvidia-amd-mac
生產(chǎn)場景
UI 全自動多機部署超大模型
在 2 臺 8 卡 NVIDIA A100 服務器上,一鍵開啟 GPUStack 的多機分布式推理功能,通過 UI 配置全自動實現(xiàn)跨多機運行 DeepSeek R1 671B 量化版本,突破單機顯存限制,高效執(zhí)行超大規(guī)模模型推理。
resources-a100-distributed-inference
models-a100-distributed-inference
高并發(fā)高吞吐的生產(chǎn)部署
在需要高并發(fā)、高吞吐、低延遲的生產(chǎn)環(huán)境中,使用 vLLM 高效部署推理 DeepSeek R1 全量版或蒸餾版,充分利用推理加速技術支撐大規(guī)模并發(fā)請求,提升推理效率。
resources-a100-vllm
models-a100-vllm
國產(chǎn)硬件適配
在昇騰、海光等國產(chǎn) GPU 上,GPUStack 也提供適配支持。例如,在 8 卡海光 K100_AI 上運行 DeepSeek R1 671B 量化或蒸餾版本,充分發(fā)揮國產(chǎn)硬件的計算能力,實現(xiàn)自主可控的私有化部署方案。
對于諸如上述的各種部署場景,GPUStack 都能根據(jù)環(huán)境自動選擇最佳部署方案,提供自動化的一鍵部署,用戶不需要繁瑣的部署配置。同時用戶也擁有自主控制部署的靈活性。
以下是 DeepSeek R1 各個蒸餾模型和滿血 671B 模型在不同量化精度下的顯存需求及相應推薦硬件,供在各種場景下部署提供參考:
不同的模型、量化方式、上下文大小、推理參數(shù)設置或多卡并行配置對顯存需求各不相同。對于 GGUF 模型,可以使用模型資源測算工具 GGUF Parser(???https://github.com/gpustack/gguf-parser-go???)來手動計算的顯存需求。實際部署時,GPUStack 會自動計算并分配適合的顯存資源,無需用戶手動配置。
gguf-parser
GPUStack 不僅僅是 LLM 推理框架,除了 大語言模型(LLM),GPUStack 還支持多種 生成式 AI 模型,覆蓋更廣泛的應用場景,包括:
- 多模態(tài)模型:如 Qwen2.5-VL、InternVL 2.5
- 圖像生成模型:如 Stable Diffusion、Flux
- 語音模型(STT/TTS):如 Whisper、CosyVoice
- Embedding 模型:如 BGE、BCE、Jina
- Reranker 模型:如 BGE Reranker、Jina Reranker
無論是個人開發(fā)者的桌面端,還是企業(yè)級數(shù)據(jù)中心,GPUStack 都能提供高效、靈活的私有部署方案,幫助用戶輕松運行各類 AI 模型。
GPUStack 不僅僅是一個推理框架,它具備整體的部署、管理與運維解決方案,讓大模型部署變得更加簡單和高效,包括:
- 國產(chǎn)硬件支持:兼容昇騰、海光、摩爾線程等異構算力芯片
- 模型管理:支持模型升級、推理引擎多版本并存、離線部署
- 高可用:多實例負載均衡,確保高效穩(wěn)定的推理表現(xiàn)
- 監(jiān)控 & 可視化:提供GPU/LLM 觀測指標、Dashboard 儀表板
- 安全控制:用戶管理、API 認證授權,滿足企業(yè)級需求
如何安裝 GPUStack?如果你對 GPUStack 感興趣,可以參考以下步驟進行安裝部署。
安裝 GPUStack
腳本一鍵安裝
安裝要求參考:???https://docs.gpustack.ai/latest/installation/installation-requirements/???
GPUStack 支持腳本一鍵安裝、容器安裝、pip 安裝等各種安裝方式,這里使用腳本方式安裝。
在 Linux 或 macOS 上:
通過以下命令在線安裝,安裝完成需要輸入 sudo 密碼啟動服務,這個步驟需要聯(lián)網(wǎng)下載各種依賴包,網(wǎng)絡不好可能需要花費十幾到幾十分鐘的時間:
curl -sfL https://get.gpustack.ai | INSTALL_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple sh -s -
在 Windows 上:
以管理員身份運行 Powershell,通過以下命令在線安裝,這個步驟需要聯(lián)網(wǎng)下載各種依賴包,網(wǎng)絡不好可能需要花費十幾到幾十分鐘的時間:
$env:INSTALL_INDEX_URL = "https://pypi.tuna.tsinghua.edu.cn/simple"
Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content
當看到以下輸出時,說明已經(jīng)成功部署并啟動了 GPUStack:
[INFO] Install complete.
GPUStack UI is available at http://localhost.
Default username is 'admin'.
To get the default password, run 'cat /var/lib/gpustack/initial_admin_password'.
CLI "gpustack" is available from the command line. (You may need to open a new terminal or re-login for the PATH changes to take effect.)
接下來按照腳本輸出的指引,拿到登錄 GPUStack 的初始密碼,執(zhí)行以下命令:
在 Linux 或 macOS 上:
cat /var/lib/gpustack/initial_admin_password
在 Windows 上:
Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\initial_admin_password") -Raw
在瀏覽器訪問 GPUStack UI,用戶名 admin,密碼為上面獲得的初始密碼。
重新設置密碼后,進入 GPUStack:
overview
納管 GPU 資源
GPUStack 支持納管 Linux、Windows 和 macOS 設備的異構 GPU 資源,步驟如下。
其他節(jié)點需要通過認證 Token 加入 GPUStack 集群,在 GPUStack Server 節(jié)點執(zhí)行以下命令獲取 Token:
在 Linux 或 macOS 上:
cat /var/lib/gpustack/token
在 Windows 上:
Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\token") -Raw
拿到 Token 后,在其他節(jié)點上運行以下命令添加 Worker 到 GPUStack,納管這些節(jié)點的 GPU(將其中的 ???http://YOUR_IP_ADDRESS??? 替換為你的 GPUStack 訪問地址,將 YOUR_TOKEN 替換為用于添加 Worker 的認證 Token):
在 Linux 或 macOS 上:
curl -sfL https://get.gpustack.ai | INSTALL_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple sh -s - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN
在 Windows 上:
$env:INSTALL_INDEX_URL = "https://pypi.tuna.tsinghua.edu.cn/simple"
Invoke-Expression "& { $((Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content) } -- --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN"
通過以上步驟,我們已經(jīng)安裝好 GPUStack 并納管了多個 GPU 節(jié)點,接下來就可以使用這些 GPU 資源來部署所需的各種 DeekSeek R1 滿血、量化、蒸餾模型和其他模型了。
總結
以上是關于如何安裝 GPUStack 并在不同場景下部署 DeekSeek R1 模型的使用教程。你可以訪問項目的開源倉庫:???https://github.com/gpustack/gpustack??? 了解更多信息。
GPUStack 是一個低門檻、易上手、開箱即用的私有大模型服務平臺。它可以輕松整合并利用各種異構 GPU 資源,方便快捷地為生成式 AI 應用和應用開發(fā)人員部署所需的各種 AI 模型。
GPUStack 背后的研發(fā)團隊具有全球頂級開源項目經(jīng)驗,項目的功能設計和文檔都很完整,團隊自項目初期便面向全球用戶,當前已有大量國內外開源用戶。
本文轉載自 ??NLP前沿??
