DeepSeek 私有部署最強(qiáng)指南：滿血推理，異構(gòu)多機(jī)分布式，國產(chǎn)顯卡無縫支持！

作者：AI寒武紀(jì) 2025-02-13 10:12:27

今天介紹的GPUStack?這個(gè)開源項(xiàng)目，一出手直接解決 DeepSeek R1 私有部署的所有痛點(diǎn)：

還在為DeepSeek模型部署的各種難題抓狂？各種教程的下載分片、合并模型、編譯環(huán)境……這些繁瑣的操作是不是讓你頭大？DeepSeek R1 火了，私有部署需求暴增，教程滿天飛，但實(shí)際操作起來卻麻煩得要命！更別提多機(jī)分布式推理、高并發(fā)生產(chǎn)環(huán)境、國產(chǎn)芯片適配這些復(fù)雜場(chǎng)景，現(xiàn)有方案要么配置復(fù)雜，要么性能不達(dá)標(biāo)，簡直讓人崩潰！

別慌，今天介紹的GPUStack 這個(gè)開源項(xiàng)目（https://github.com/gpustack/gpustack/）一出手，直接解決 DeepSeek R1 私有部署的所有痛點(diǎn)：

? 一鍵安裝部署，Linux、macOS、Windows全平臺(tái)支持

? 模型資源需求自動(dòng)計(jì)算，按需自動(dòng)分布式推理，告別手動(dòng)配置

? 支持 NVIDIA、AMD、Mac、海光、摩爾線程、華為昇騰等多種硬件

接下來，我們通過幾種典型的部署場(chǎng)景，展示 GPUStack 在面對(duì)不同環(huán)境的兼容性。

以桌面場(chǎng)景和生產(chǎn)場(chǎng)景為例，GPUStack 對(duì)各種部署場(chǎng)景都提供了強(qiáng)大的支持：

桌面場(chǎng)景

? 單機(jī)運(yùn)行小參數(shù)量模型

在 Windows 和 macOS 桌面設(shè)備上，單機(jī)運(yùn)行 DeepSeek R1 1.5B ~ 14B 等小參數(shù)模型。如果 VRAM 不足，GPUStack 也支持將部分模型權(quán)重加載到內(nèi)存，實(shí)現(xiàn) GPU & CPU 混合推理，確保在有限硬件資源下的運(yùn)行。

? 分布式推理運(yùn)行大參數(shù)量模型

當(dāng)單機(jī)無法滿足模型運(yùn)行需求時(shí)，GPUStack 支持跨主機(jī)分布式推理。例如：

多機(jī)分布式推理

? 使用一臺(tái) Mac Studio 可以運(yùn)行 Unsloth 最低動(dòng)態(tài)量化（1.58-bit）的 DeekSeek R1 671B 模型，更高的量化和動(dòng)態(tài)量化版本可以通過分布式推理功能，使用兩臺(tái) Mac Studio 分布式運(yùn)行。還可以靈活多卡切分比例和滿足更多的場(chǎng)景需求，例如更多的分布式節(jié)點(diǎn)和更大的上下文設(shè)置。

異構(gòu)分布式推理

使用：

? 一臺(tái) Ubuntu 服務(wù)器，搭載 NVIDIA RTX 4090（24GB VRAM）

? 一臺(tái) Windows 主機(jī)，搭載 AMD Radeon RX 7800（16GB VRAM）

? 一臺(tái) MacBook Pro，搭載 M4 Pro，擁有 36GB 統(tǒng)一內(nèi)存

聚合這些異構(gòu)設(shè)備的 GPU 資源，運(yùn)行單機(jī)無法運(yùn)行的 DeepSeek-R1 32B 或 70B 量化蒸餾模型，充分利用多臺(tái)設(shè)備的算力來提供推理。

生產(chǎn)場(chǎng)景

? 多機(jī)部署超大模型

在 2 臺(tái) 8 卡 NVIDIA A100 服務(wù)器上，利用 GPUStack 多機(jī)分布式推理，運(yùn)行 DeepSeek R1 671B 量化版本，突破單機(jī)顯存限制，高效執(zhí)行超大規(guī)模模型推理。

a100-distributed-interence

? 高并發(fā)高吞吐的生產(chǎn)部署

在需要高并發(fā)、高吞吐、低延遲的生產(chǎn)環(huán)境中，使用 vLLM 高效部署推理 DeepSeek R1 全量版或蒸餾版，充分利用推理加速技術(shù)支撐大規(guī)模并發(fā)請(qǐng)求，提升推理效率。

a100-vllm

? 國產(chǎn)硬件適配

在昇騰、海光等國產(chǎn) GPU 上，GPUStack 也提供適配支持。例如，在 8 卡海光 K100_AI 上運(yùn)行 DeepSeek R1 671B 量化或蒸餾版本，充分發(fā)揮國產(chǎn)硬件的計(jì)算能力，實(shí)現(xiàn)自主可控的私有化部署方案。

對(duì)于諸如上述的各種部署場(chǎng)景，GPUStack 都能根據(jù)環(huán)境自動(dòng)選擇最佳部署方案，提供自動(dòng)化的一鍵部署，用戶不需要繁瑣的部署配置。同時(shí)用戶也擁有自主控制部署的靈活性。

以下是 DeepSeek R1 各個(gè)蒸餾模型和滿血 671B 模型在不同量化精度下的顯存需求及相應(yīng)推薦硬件，供在各種場(chǎng)景下部署提供參考：

不同的模型、量化方式、上下文大小、推理參數(shù)設(shè)置或多卡并行配置對(duì)顯存需求各不相同。對(duì)于 GGUF 模型，可以使用模型資源測(cè)算工具 GGUF Parser（https://github.com/gpustack/gguf-parser-go）來手動(dòng)計(jì)算的顯存需求。實(shí)際部署時(shí)，GPUStack 會(huì)自動(dòng)計(jì)算并分配適合的顯存資源，無需用戶手動(dòng)配置。

gguf-parser

GPUStack 不僅支持 大語言模型（LLM），還支持更多生成式 AI 模型類型，包括：

? 多模態(tài)模型（如 Qwen2-VL、InternVL 2.5）

? 圖像生成模型（如 Stable Diffusion、Flux）

? 語音模型（STT/TTS）（如 Whisper、CosyVoice）

? Embedding 模型（如 BGE、BCE、Jina）

? Reranker 模型（如 BGE Reranker、Jina Reranker）

無論是在桌面端還是數(shù)據(jù)中心，GPUStack 都能滿足各種環(huán)境和應(yīng)用場(chǎng)景下的私有模型部署需求，提供高效、靈活的推理解決方案。

GPUStack 更是一個(gè)綜合性的解決方案，提供國產(chǎn)化支持、就地升級(jí)、模型升級(jí)、推理引擎多版本并存、負(fù)載均衡高可用、用戶管理、API 認(rèn)證授權(quán)、GPU 和 LLM 觀測(cè)指標(biāo)、Dashboard 儀表板、離線部署等各種運(yùn)維管理能力，幫助開發(fā)和運(yùn)維人員輕松應(yīng)對(duì)異構(gòu)適配、模型迭代、權(quán)限控制、運(yùn)維觀測(cè)等管理需求，降低了大模型部署和管理的復(fù)雜度。

如果對(duì) GPUStack 感興趣，可以參考以下步驟進(jìn)行安裝部署。

安裝 GPUStack

安裝要求參考：https://docs.gpustack.ai/latest/installation/installation-requirements/

GPUStack 支持腳本一鍵安裝、容器安裝、pip 安裝等各種安裝方式，這里使用腳本方式安裝。

在 Linux 或 macOS 上：

通過以下命令在線安裝，安裝完成需要輸入 sudo 密碼啟動(dòng)服務(wù)，這個(gè)步驟需要聯(lián)網(wǎng)下載各種依賴包，網(wǎng)絡(luò)不好可能需要花費(fèi)十幾到幾十分鐘的時(shí)間：

curl -sfL https://get.gpustack.ai | INSTALL_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple sh -s -

在 Windows 上：

以管理員身份運(yùn)行 Powershell，通過以下命令在線安裝，這個(gè)步驟需要聯(lián)網(wǎng)下載各種依賴包，網(wǎng)絡(luò)不好可能需要花費(fèi)十幾到幾十分鐘的時(shí)間：

$env:INSTALL_INDEX_URL = "https://pypi.tuna.tsinghua.edu.cn/simple"
Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

當(dāng)看到以下輸出時(shí)，說明已經(jīng)成功部署并啟動(dòng)了 GPUStack：

[INFO]  Install complete.

GPUStack UI is available at http://localhost.
Default username is 'admin'.
To get the default password, run 'cat /var/lib/gpustack/initial_admin_password'.

CLI "gpustack" is available from the command line. (You may need to open a new terminal or re-login for the PATH changes to take effect.)

接下來按照腳本輸出的指引，拿到登錄 GPUStack 的初始密碼，執(zhí)行以下命令：

在 Linux 或 macOS 上：

cat /var/lib/gpustack/initial_admin_password

在 Windows 上：

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\initial_admin_password") -Raw

在瀏覽器訪問 GPUStack UI，用戶名 admin，密碼為上面獲得的初始密碼。

重新設(shè)置密碼后，進(jìn)入 GPUStack：

overview

納管 GPU 資源

GPUStack 支持納管 Linux、Windows 和 macOS 設(shè)備的異構(gòu) GPU 資源，步驟如下。

其他節(jié)點(diǎn)需要通過認(rèn)證 Token 加入 GPUStack 集群，在 GPUStack Server 節(jié)點(diǎn)執(zhí)行以下命令獲取 Token：

在 Linux 或 macOS 上：

cat /var/lib/gpustack/token

在 Windows 上：

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\token") -Raw

拿到 Token 后，在其他節(jié)點(diǎn)上運(yùn)行以下命令添加 Worker 到 GPUStack，納管這些節(jié)點(diǎn)的 GPU（將其中的 http://YOUR_IP_ADDRESS

在 Linux 或 macOS 上：

curl -sfL https://get.gpustack.ai | INSTALL_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple sh -s - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN

在 Windows 上：

$env:INSTALL_INDEX_URL = "https://pypi.tuna.tsinghua.edu.cn/simple"
Invoke-Expression "& { $((Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content) } -- --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN"

通過以上步驟，我們已經(jīng)安裝好 GPUStack 并納管了多個(gè) GPU 節(jié)點(diǎn)，接下來就可以使用這些 GPU 資源來部署所需的各種 DeekSeek R1 滿血、量化、蒸餾模型和其他模型了。

總結(jié)

以上是關(guān)于如何安裝 GPUStack 并在不同場(chǎng)景下部署 DeekSeek R1 模型的使用教程。你可以訪問項(xiàng)目的開源倉庫：https://github.com/gpustack/gpustack 了解更多信息。

GPUStack 是一個(gè)低門檻、易上手、開箱即用的私有大模型服務(wù)平臺(tái)。它可以輕松整合并利用各種異構(gòu) GPU 資源，方便快捷地為生成式 AI 應(yīng)用和應(yīng)用開發(fā)人員部署所需的各種 AI 模型。

無論是 Linux、Windows 還是 macOS，或是各種單機(jī)、多機(jī)異構(gòu)部署場(chǎng)景，GPUStack 都能一鍵部署各種生成式 AI 模型，且不局限于大語言模型，還支持多模態(tài)模型、圖像模型、語音模型、Embedding 模型以及 Reranker 模型，滿足各種環(huán)境和應(yīng)用場(chǎng)景的私有模型部署需求。

GPUStack 背后的研發(fā)團(tuán)隊(duì)具有全球頂級(jí)開源項(xiàng)目經(jīng)驗(yàn)，項(xiàng)目的功能設(shè)計(jì)和文檔都很完整，團(tuán)隊(duì)自項(xiàng)目初期便面向全球用戶，當(dāng)前已有大量國內(nèi)外開源用戶。團(tuán)隊(duì)致力于將國產(chǎn)開源項(xiàng)目推廣到全球，值得關(guān)注。

在開始體驗(yàn) GPUStack 之前，記得在其 GitHub 倉庫給項(xiàng)目點(diǎn)個(gè) Star 以資鼓勵(lì)，在新版本發(fā)布時(shí)也能收到更新通知：https://github.com/gpustack/gpustack。

責(zé)任編輯：張燕妮來源： AI寒武紀(jì)