自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<big id="zw5pg"></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”！?。? 原創(chuàng)

發(fā)布于 2025-2-18 15:56

瀏覽

1收藏

最近，無論是在國內(nèi)還是國外，一股 DeepSeek-R1 部署熱潮正在興起，許多人都爭相在自己的本地服務(wù)器上嘗試部署完整版的 DeepSeek-R1。不過，想要在本地部署一個滿血版本的 DeepSeek-R1 版本，可能需要大約16張 A800 顯卡，這意味著大約需要投入200萬元人民幣的成本。長期以來，業(yè)界對于 671B 大模型的成本問題感到困擾，迫切希望找到一種低成本的滿血版 671B DeepSeek部署方案。今天，向大家推薦一個框架——KTransformers，它能夠在單臺配備 24GB VRAM 的 GPU 或多 GPU 以及 382G DRAM 的平臺上支持滿血版 Deepseek-R1 的部署，并且能夠?qū)崿F(xiàn)3到28倍的速度提升。這可能是許多朋友們一直在尋找的解決方案，如果你也感興趣的話，不妨趕緊收藏起來。

項目地址：https://github.com/kvcache-ai/ktransformers/tree/main

1、DeepSeek-R1部署痛點梳理

最近，無論是在國際還是國內(nèi)市場，DeepSeek-R1 的部署熱潮正盛，許多人都爭相在自己的本地服務(wù)器上安裝滿血版本的 DeepSeek-R1。但是，要本地部署這個滿血版本的 DeepSeek-R1，通常需要配備 16個 A800 顯卡，這意味著大約需要 200萬元人民幣的投資。這樣的高昂成本無疑讓許多人望而卻步，盡管如此，還是有一些資金雄厚的企業(yè)不惜重金部署了滿血版本的 DeepSeek-R1。

此外，許多網(wǎng)友反映，70B及以下的模型與滿血版在性能上存在顯著差距。同時，大模型微調(diào)的成本也不低。這些限制因素使得滿血版大模型的能力無法廣泛惠及更多人。長期以來，業(yè)界對于 671B 大模型的成本問題感到苦惱，迫切期待出現(xiàn)一種成本較低的滿血版本 671B DeepSeek R1 部署解決方案。

2、KTransformers 框架簡介

KTransformers，其發(fā)音類似于"Quick Transformers"，該框架的目標(biāo)是通過高級內(nèi)核優(yōu)化和位置并行來提升您的 Transformers 性能。

4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”！??！-AI.x社區(qū)

KTransformers 是一個以 Python 為重心、極具靈活性的框架，其設(shè)計理念圍繞可擴展性展開。只需一行代碼，用戶即可集成并注入一個優(yōu)化模塊，從而獲得與 Transformers 兼容的接口、支持 OpenAI 和 Ollama 的 RESTful API，甚至是簡化版的類似 ChatGPT 的網(wǎng)頁用戶界面。作者期望 KTransformers 能夠成為一個靈活的實驗平臺，用于探索和優(yōu)化 LLMs（大語言模型）推理的新方法。

3、KTrans?formers 硬件配置

基于 KTransformers 的硬件配置如下：

4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”?。?！-AI.x社區(qū)

CPU 型號：Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)

GPU型號：4090D 24G VRAM

內(nèi)存： DDR5-4800 server DRAM (1 TB)

模型：DeepseekR1-q4km (int4)

4、KTransformers 框架性能指標(biāo)

在本地運行的 671B DeepSeek-Coder-R1：僅需14GB VRAM和382GB DRAM 即可啟動其 Q4_K_M 版本。

預(yù)填充速度（令牌/秒）：KTransformers 的表現(xiàn)為 54.21（32核）→ 74.362（雙插槽，2×32核）→ 255.26（基于 AMX 優(yōu)化的 MoE 內(nèi)核，僅限 V0.3）→ 286.55（選擇性使用6位專家，僅限 V0.3），相較于 llama.cpp 在 2×32 核上的10.31令牌/秒，速度提升了27.79倍。

解碼速度（令牌/秒）：KTransformers 的解碼速度為8.73（32核）→ 11.26（雙插槽，2×32核）→ 13.69（選擇性使用6位專家，僅限V0.3），與 llama.cpp 在2×32核上的 4.51令牌/秒相比，速度提升了3.03倍。

此外，作者還預(yù)告了即將推出的優(yōu)化措施，包括英特爾 AMX 加速內(nèi)核和選擇性專家激活技術(shù)，這些都將顯著提升性能。通過使用 V0.3-preview，作者已經(jīng)實現(xiàn)了每秒高達286個令牌的預(yù)填充速度，這使得其在局部推理上比 llama.cpp 快了28倍。具體的 wheel 文件詳情待發(fā)布。

5、KTransformers 框架上手指南

4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”！?。?AI.x社區(qū)

# 步驟1-利用wget將.wh文件下載到本地
wget https://github.com/kvcache-ai/ktransformers/releases/download/v0.1.4/ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl


# 步驟2-安裝.whl文件
pip install ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl


# 步驟3-執(zhí)行推理
python -m ktransformers.local_chat --model_path <your model path> --gguf_path <your gguf path>  --prompt_file <your prompt txt file>  --cpu_infer 65 --max_new_tokens 1000 <when you see chat, then press enter to load the text prompt_file>

更詳細的細節(jié)如下所示：

???https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md??

本文轉(zhuǎn)載自公眾號玄姐聊AGI 作者：玄姐

原文鏈接：??https://mp.weixin.qq.com/s/Uy6nDPI0FWno7PAC14AJsg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-2-19 18:15:18修改

贊 1

收藏 1

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

你想在本地部署大模型嗎？本地部署大模型的三種工具

AI探索時代 ? 4808瀏覽 ? 0回復(fù)
GraphRAG + Ollama 本地部署全攻略：避坑實戰(zhàn)指南

玄姐聊AGI ? 9646瀏覽 ? 0回復(fù)
利用多Lora節(jié)省大模型部署成本

卓勝微wjp ? 2435瀏覽 ? 0回復(fù)
手把手教你將本地部署的DeepSeek R1集成到Dify

AIGC新知 ? 4524瀏覽 ? 0回復(fù)
手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建議收藏！

玄姐聊AGI ? 1.0w瀏覽 ? 0回復(fù)
部署滿血DeepSeek R1的避坑指南-vLLM 0.7.1

NLP工作站 ? 6261瀏覽 ? 0回復(fù)
DeepSeek沒反應(yīng)？那就在本地部署更好用 Mac和PC都能可視化

數(shù)字化助推器 ? 2649瀏覽 ? 0回復(fù)
如何利用 DeepSeek-R1 本地部署強大的推理模型：從 ChatGPT 風(fēng)格界面到 API 集成

Halo咯咯 ? 2755瀏覽 ? 0回復(fù)
4090單卡跑滿血版DeepSeek-R1，清華團隊開源項目再破大模型推理門檻

Crystalcxt ? 2054瀏覽 ? 0回復(fù)
低成本+高性能+超靈活！Deepseek 671B + Milvus 重新定義知識庫搭建！

玄姐聊AGI ? 4217瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

lintoms ? 2449瀏覽 ? 0回復(fù)
從大模型性能優(yōu)化到DeepSeek部署

卓勝微wjp ? 4138瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 1655瀏覽 ? 0回復(fù)
通過LM Studio本地私有化部署DeepSeek-R1模型，無網(wǎng)絡(luò)也能用

與輝鴻蒙 ? 3433瀏覽 ? 0回復(fù)
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 6920瀏覽 ? 0回復(fù)
企業(yè)部署DeepSeek的AI基礎(chǔ)設(shè)施方案建議

夜行神魚 ? 2138瀏覽 ? 0回復(fù)
阿里QwQ-32B開源引爆AI效率革命：單卡運行、成本降60倍，國產(chǎn)芯片突圍AGI

墨風(fēng)如雪小站 ? 2840瀏覽 ? 0回復(fù)
M3芯片+Ollama本地部署DeepSeek R1：小白也能玩轉(zhuǎn)AI推理

zhishan15 ? 1456瀏覽 ? 0回復(fù)
DeepSeek 協(xié)程異步API 調(diào)用與llamafactory本地vllm部署推理

AI悠閑區(qū) ? 1031瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

從 Local MCP Server 到 Remote MCP Server 架構(gòu)設(shè)計演進 13h前發(fā)布
Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 13h前發(fā)布

熱門推薦

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Java 開發(fā)必看！MCP Server 實戰(zhàn)全攻略，原來這么簡單 0回復(fù)

暴論：2025年，程序員必學(xué)技能就是 MCP 0回復(fù)

11張圖全面總結(jié) MCP、A2A、Function Calling 架構(gòu)設(shè)計間關(guān)系 0回復(fù)

MCP 架構(gòu)設(shè)計演進：從 Local MCP Server 到 Remote MCP Server 開源架構(gòu)設(shè)計實現(xiàn) 0回復(fù)

上一篇： Spring AI 宣布接入 DeepSeek ??！

下一篇： DeepSearcher 開源：告別傳統(tǒng) RAG，私有數(shù)據(jù)+DeepSeek，打造本地版 Deep Research

社區(qū)精華內(nèi)容

目錄