FP8模型不再挑卡！DeepSeek推理成本減半速度翻番，清華團(tuán)隊(duì)開源「赤兔」推理引擎

作者：機(jī)器之心 2025-03-14 11:56:52

「國(guó)產(chǎn)大模型 + 國(guó)產(chǎn)引擎 + 國(guó)產(chǎn)芯片」的完整技術(shù)閉環(huán)正在加速形成。

隨著 DeepSeek 引燃市場(chǎng)對(duì)于大模型私有化部署的熱情，模型部署的效率與成本成為企業(yè) AI 落地的關(guān)鍵瓶頸。

今天，清華系科創(chuàng)企業(yè)清程極智與清華大學(xué)翟季冬教授團(tuán)隊(duì)聯(lián)合宣布開源大模型推理引擎「赤兔」（Chitu），率先實(shí)現(xiàn)了非 H 卡設(shè)備（英偉達(dá) Hopper 架構(gòu)之前的 GPU 卡及各類國(guó)產(chǎn)卡）運(yùn)行原生 FP8 模型的突破。

在 A800 集群上的實(shí)測(cè)數(shù)據(jù)顯示，用赤兔引擎部署 DeepSeek-671B 滿血版推理服務(wù)，相比于 vLLM 部署方案，不僅使用的 GPU 數(shù)量減少了 50%，而且輸出速度還提升了 3.15 倍。

赤兔引擎代碼已發(fā)布至 GitHub 開源社區(qū)：

https://github.com/thu-pacman/chitu

赤兔 (Chitu) 開源：

國(guó)產(chǎn)大模型基礎(chǔ)設(shè)施又一里程碑

當(dāng)前，擁有完整自主可控的 AI 技術(shù)棧已成為國(guó)家戰(zhàn)略性需求。DeepSeek、QwQ 等優(yōu)秀的國(guó)產(chǎn)開源大模型正在重塑全球科技產(chǎn)業(yè)格局，但在大模型推理部署領(lǐng)域，業(yè)界仍高度依賴國(guó)外開源工具。

赤兔引擎的開源為業(yè)界提供了國(guó)產(chǎn)開源新選擇，也意味著「國(guó)產(chǎn)大模型 + 國(guó)產(chǎn)引擎 + 國(guó)產(chǎn)芯片」的完整技術(shù)閉環(huán)正在加速形成。

「我們看到國(guó)內(nèi)大模型領(lǐng)域取得了顯著進(jìn)步，但在基礎(chǔ)設(shè)施層面，尤其是推理引擎這一核心環(huán)節(jié)仍缺乏生產(chǎn)級(jí)開源產(chǎn)品。」清程極智 CEO 湯雄超表示，「開源赤兔引擎是我們助力國(guó)內(nèi) AI 生態(tài)建設(shè)的重要一步?！?/strong>

作為清華大學(xué)高性能計(jì)算研究所所長(zhǎng)，翟季冬教授長(zhǎng)期致力于高性能計(jì)算與系統(tǒng)軟件優(yōu)化研究。翟教授指出：「赤兔引擎凝結(jié)了團(tuán)隊(duì)多年的并行計(jì)算與編譯優(yōu)化技術(shù)積累，目標(biāo)是建立一個(gè)真正適合國(guó)內(nèi)多元算力環(huán)境的高性能推理引擎，能夠彌合先進(jìn)模型與多樣化硬件之間的差距，為中國(guó)大模型的產(chǎn)業(yè)落地提供關(guān)鍵支撐?！?/span>

本次開源的版本特別聚焦于當(dāng)前市場(chǎng)最迫切的需求 —— 即實(shí)現(xiàn) DeepSeek FP8 精度模型在存量英偉達(dá) GPU 上的無損且高效部署。團(tuán)隊(duì)還透露，針對(duì)多款國(guó)產(chǎn)芯片特別優(yōu)化的版本也將相繼對(duì)外開源。這一突破不僅降低了大模型落地門檻，也為國(guó)產(chǎn) AI 算力的發(fā)展帶來了新的契機(jī)。

赤兔引擎核心優(yōu)勢(shì)：

全場(chǎng)景性能優(yōu)化與架構(gòu)適應(yīng)性

隨著 DeepSeek V3 和 R1 等新一代模型采用 FP8 混合精度訓(xùn)練并發(fā)布，企業(yè)面臨新的部署挑戰(zhàn)。這些 FP8 模型針對(duì) NVIDIA Hopper 架構(gòu)（H100/H200）深度定制，在其他硬件上部署時(shí)（包括 NVIDIA 其他架構(gòu) GPU 和國(guó)產(chǎn)芯片）需要進(jìn)行額外的適配。

「最先進(jìn)的模型與最難獲取的硬件綁定，這是當(dāng)前企業(yè)大模型落地的最大痛點(diǎn)之一」湯雄超表示。隨著更新一代模型和芯片往 FP4 等新型數(shù)據(jù)精度方向的發(fā)展，這種代際效應(yīng)將愈發(fā)顯著。

另一個(gè)挑戰(zhàn)是現(xiàn)有開源推理引擎對(duì)多元算力環(huán)境的支持不足。當(dāng)前，vLLM 等主流引擎主要針對(duì) NVIDIA 最新架構(gòu)優(yōu)化，對(duì)國(guó)產(chǎn)芯片或較老款 GPU 的適配并不理想。在國(guó)內(nèi)企業(yè)私有化部署場(chǎng)景中，NVIDIA 的 Ampere 系列 GPU、國(guó)產(chǎn)芯片等多元算力占據(jù)了相當(dāng)比例，這些場(chǎng)景亟需更加靈活的解決方案。

赤兔從一開始就定位于「生產(chǎn)級(jí)大模型推理引擎」，并且充分考慮了企業(yè) AI 落地從小規(guī)模試驗(yàn)到大規(guī)模部署的漸進(jìn)式特點(diǎn)，專注于提供以下重要特性：

多元算力適配：不僅支持 NVIDIA 最新旗艦到舊款的多種型號(hào)，也為國(guó)產(chǎn)芯片提供優(yōu)化支持。
全場(chǎng)景可伸縮：從純 CPU 部署、單 GPU 部署到大規(guī)模集群部署，赤兔引擎提供可擴(kuò)展的解決方案。
長(zhǎng)期穩(wěn)定運(yùn)行：可應(yīng)用于實(shí)際生產(chǎn)環(huán)境，穩(wěn)定性足以承載并發(fā)業(yè)務(wù)流量。

在性能優(yōu)化方面，赤兔的設(shè)計(jì)理念是「對(duì)癥下藥」，支持「低延遲優(yōu)化」、「高吞吐優(yōu)化」和「小顯存優(yōu)化」，可以根據(jù)不同場(chǎng)景需求，在不同硬件配置和系統(tǒng)環(huán)境下，針對(duì)不同負(fù)載的特性，提供相應(yīng)的最優(yōu)解決方案。在實(shí)際部署中，這意味著赤兔引擎可以根據(jù)系統(tǒng)資源狀況，在 GPU 利用率、內(nèi)存效率和網(wǎng)絡(luò)傳輸之間尋找最佳平衡點(diǎn)。

本次開源的技術(shù)突破是實(shí)現(xiàn)非 H 卡設(shè)備原生運(yùn)行 DeepSeek FP8 精度模型?！肝覀儧]有走簡(jiǎn)單的量化路線，而是通過在算子內(nèi)部高效處理 FP8 數(shù)據(jù)，確保模型推理質(zhì)量不受任何影響?！箿鄢硎荆骸妇唧w來說，我們對(duì) GeMM、MoE 等一系列關(guān)鍵算子進(jìn)行了指令級(jí)的優(yōu)化，實(shí)現(xiàn)了 FP8 數(shù)據(jù)的原生處理能力?！?/span>

這種技術(shù)實(shí)現(xiàn)的難點(diǎn)在于需要深入理解不同硬件架構(gòu)的指令集特性，以及 FP8 與其他精度格式之間的數(shù)學(xué)等效關(guān)系，結(jié)合硬件特性分析并優(yōu)化。得益于團(tuán)隊(duì)在系統(tǒng)軟件人才方面的積累，才能夠在較短時(shí)間內(nèi)實(shí)現(xiàn)這一突破。傳統(tǒng)上為每種芯片架構(gòu)人工編寫優(yōu)化代碼的工作量巨大，而團(tuán)隊(duì)所具備的智能編譯技術(shù)有助于加速高性能算子的開發(fā)過程。

在 A800 集群上的實(shí)測(cè)結(jié)果表明，與 vLLM 相比，赤兔引擎實(shí)現(xiàn) DeepSeek-671B 滿血版推理所需 GPU 數(shù)量減少 50%；盡管只用了一半的算力，但推理速度卻達(dá)到其 3.15 倍。這意味著企業(yè)可以用一半的硬件資源獲得更高的推理性能，極大降低了部署門檻和運(yùn)營(yíng)成本。

「部署大模型的最低算力成本是一個(gè)時(shí)常被忽視但極其重要的指標(biāo)?！骨宄虉F(tuán)隊(duì)強(qiáng)調(diào)，顯著降低推理成本對(duì)推廣 AI 應(yīng)用至關(guān)重要，赤兔推理引擎在設(shè)計(jì)之初就將降低用戶的算力成本納入核心考量。

開源共建

為國(guó)產(chǎn)芯片「搶時(shí)間」

赤兔推理引擎的開源標(biāo)志著清程極智的業(yè)務(wù)發(fā)展進(jìn)入新的階段。清程極智在持續(xù)提供企業(yè)級(jí)軟件部署運(yùn)維服務(wù)和全套人工智能解決方案的同時(shí)，將把更多實(shí)際業(yè)務(wù)中的經(jīng)驗(yàn)通過開源的方式回饋社區(qū)。

「目前英偉達(dá) GPU 在大模型推理市場(chǎng)占據(jù)主流地位，未來幾年可能出現(xiàn)國(guó)外 AI 芯片和國(guó)內(nèi) AI 芯片百花齊放的態(tài)勢(shì)?！箿鄢治鲋赋觯骸肝覀兿Ｍ嗤靡娉蔀檫B接多元算力與大模型應(yīng)用的橋梁，同時(shí)通過推理一體機(jī)產(chǎn)品為企業(yè)提供端到端的大模型部署解決方案?！?/span>

清程極智的推理一體機(jī)產(chǎn)品基于赤兔引擎，適配多種硬件和模型，能夠?yàn)槠髽I(yè)提供開箱即用的私有化部署方案，并配套專業(yè)的運(yùn)維與優(yōu)化服務(wù)。

對(duì)于國(guó)產(chǎn) AI 基礎(chǔ)設(shè)施而言，赤兔引擎的開源有助于彌合國(guó)產(chǎn)芯片與國(guó)際先進(jìn)芯片之間的「時(shí)間差」—— 當(dāng)新模型架構(gòu)和新數(shù)據(jù)類型出現(xiàn)時(shí)，赤兔引擎可以幫助國(guó)產(chǎn)芯片快速適配。

其次，開源引擎減輕了芯片廠商的軟件開發(fā)負(fù)擔(dān)。芯片廠商可以專注于硬件創(chuàng)新，而不必每家都重復(fù)開發(fā)完整的軟件棧。翟季冬教授表示，「我們目前與多家國(guó)產(chǎn)芯片廠商進(jìn)行合作，各方可直接向赤兔項(xiàng)目貢獻(xiàn)代碼，共同建設(shè)一個(gè)更強(qiáng)大的開源生態(tài)。」

「開源就是做給大家用，用了才知道好不好。我們把代碼放到 GitHub 上，有問題提 issue，有想法提 PR，一起把它做得更好。」湯雄超說。

「無論用什么卡，赤兔都是高性價(jià)比的選擇。」

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型 AI 訓(xùn)練

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

當(dāng)開源創(chuàng)新遇上推理革命：SGLang如何煉就DeepSeek最強(qiáng)開源推理引擎？
從DeepSeek模型發(fā)布當(dāng)天便實(shí)現(xiàn)最佳適配，到長(zhǎng)期穩(wěn)居SOTA性能榜首，SGLang的進(jìn)化軌跡揭示了一個(gè)開源項(xiàng)目的硬核生存法則：用工程創(chuàng)新，攻克開發(fā)者最棘手的性能瓶頸。

2025-03-07 09:57:01

長(zhǎng)文推理性能飆升3倍，性能還更強(qiáng)
NemotronH模型混合了Transformer和Mamba架構(gòu)，使長(zhǎng)文本推理速度提升3倍，同時(shí)還能保持高性能，開源版本包括8B和56B尺寸。訓(xùn)練過程采用FP8訓(xùn)練和壓縮技術(shù)，進(jìn)一步提高了20%推理速度

2025-04-21 09:07:00

4090單卡跑滿血版DeepSeek-R1，清華團(tuán)隊(duì)開源項(xiàng)目再破大模型推理門檻
隨著DeepSeekR1的發(fā)布，社區(qū)的需求迅速激增，在GitHub蓋起上百樓的issue，呼吁對(duì)其進(jìn)行支持。版本更新發(fā)布后，不少開發(fā)者也紛紛用自己的3090顯卡和200GB內(nèi)存進(jìn)行實(shí)測(cè)，借助與Unsloth優(yōu)化的組合，Q2KXL模型的推理速度已達(dá)到9.1tokenss，真正實(shí)現(xiàn)了千億級(jí)模型的“家庭化”。

2025-02-12 12:45:59

DeepSeek 開源周首日：開源 FlashMLA，AI 推理速度再進(jìn)化！
簡(jiǎn)單來說，F(xiàn)lashMLA就是一個(gè)為了讓英偉達(dá)Hopper架構(gòu)GPU跑得更快更溜的MLA解碼加速器！

2025-02-24 10:07:04

LLM推理提速2.8倍，CMU清華姚班校友提出「投機(jī)式推理」引擎SpecInfer，小模型撬動(dòng)大模型高效推理
近日，來自卡耐基梅隆大學(xué)（CMU）的CatalystGroup團(tuán)隊(duì)發(fā)布了一款「投機(jī)式推理」引擎SpecInfer，可以借助輕量化的小模型來幫助大模型，在完全不影響生成內(nèi)容準(zhǔn)確度的情況下，實(shí)現(xiàn)兩到三倍的推理加速。

2023-05-30 14:17:00

模型推理

速度超快！字節(jié)跳動(dòng)開源序列推理引擎LightSeq
LightSeq可以應(yīng)用于機(jī)器翻譯、自動(dòng)問答、智能寫作、對(duì)話回復(fù)生成等眾多文本生成場(chǎng)景，大大提高線上模型推理速度，改善用戶的使用體驗(yàn)，降低企業(yè)的運(yùn)營(yíng)服務(wù)成本。

2020-10-24 07:30:05

開源字節(jié)跳動(dòng)模型

Seed Research | 全新超稀疏架構(gòu)，推理成本較 MoE 最高可降 83%！
近期，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)提出了全新的稀疏模型架構(gòu)UltraMem，該架構(gòu)有效解決了MoE推理時(shí)高額的訪存問題，推理速度較MoE架構(gòu)提升26倍，推理成本最高可降低83%。

2025-02-19 15:17:24

400萬token上下文、推理再加速46%！最新開源方案升級(jí)MIT成果，推理成本再降低
ColossalAI團(tuán)隊(duì)開源了SwiftInfer，基于TensorRT的StreamingLLM，可以進(jìn)一步提升大模型推理性能46%，有效解決如上問題。

2024-01-08 12:51:34

AI 數(shù)據(jù)

清華開源混合精度推理系統(tǒng)MixQ，實(shí)現(xiàn)大模型近無損量化并提升推理吞吐
MixQ同時(shí)量化權(quán)重和激活，使用低精度張量核心（INT8INT4TensorCore）實(shí)現(xiàn)推理加速；同時(shí)，MixQ提取激活中少量的離群值，使用高精度張量核心（FP16TensorCore）保持推理準(zhǔn)確性，通過系統(tǒng)優(yōu)化掩蓋高精度訪存開銷。

2024-10-21 12:30:52

推理成本比MoE直降83%！字節(jié)最新大模型架構(gòu)入圍ICLR 2025
研究團(tuán)隊(duì)提出的UltraMem具有極小的訪存，因此，相比MoE實(shí)現(xiàn)了最高達(dá)6倍的速度提升，推理成本最高可降低83%。

2025-02-12 09:20:12

大模型推理成本排行榜來了：賈揚(yáng)清公司效率領(lǐng)跑
風(fēng)投燒完之后，哪些大模型創(chuàng)業(yè)公司會(huì)開始盈利？

2024-01-26 13:18:00

AI 訓(xùn)練

DeepSeek R2要提前發(fā)布！這是有關(guān)R2的幾個(gè)傳聞：100%國(guó)產(chǎn)算力部署！能耗降低25%，多模態(tài)模型！
?DeepSeek今天有兩個(gè)大新聞：一個(gè)是開源了自家用于助力V3R1模型訓(xùn)練與推理的一個(gè)FP8通用矩陣乘法(GEMM)加速庫(kù)，這一塊相信不少業(yè)內(nèi)人士會(huì)感興趣，據(jù)悉性能高達(dá)1350+TFLOPS，進(jìn)一步揭秘了為什么現(xiàn)在的DeepSeek可以吐字這么流暢，訓(xùn)練和計(jì)算成本為什么如此低廉。

2025-02-26 14:51:00

字節(jié)再砍MoE訓(xùn)練成本，核心代碼全開源
豆包團(tuán)隊(duì)發(fā)布了新一代稀疏架構(gòu)UltraMem，將模型推理成本砍掉83%，此次，又開源了COMET，向模型訓(xùn)練成本出手。

2025-03-11 09:20:00

DeepSeek新注意力機(jī)制引熱議！梁文鋒親自提交預(yù)印本，目標(biāo)明確降低計(jì)算成本
那邊馬斯克瘋狂燒了20萬張卡訓(xùn)出Grok3，這廂DeepSeek重點(diǎn)關(guān)注的依然是壓縮計(jì)算和推理成本。

2025-02-19 15:01:09

微軟開源用于機(jī)器學(xué)習(xí)模型的高性能推理引擎ONNX
微軟宣布開放ONNXRuntime，這是一款用于Linux，Windows和Mac平臺(tái)的ONNX格式的機(jī)器學(xué)習(xí)模型的高性能推理引擎。

2018-12-06 10:07:49

微軟機(jī)器學(xué)習(xí)開源

FP8 訓(xùn)練新范式：減少 40% 顯存占用，訓(xùn)練速度提高 1.4 倍
COAT的核心價(jià)值在于使用FP8進(jìn)行訓(xùn)練的同時(shí)做到了顯存優(yōu)化。動(dòng)態(tài)范圍擴(kuò)展減少量化誤差，混合粒度量化優(yōu)化激活存儲(chǔ)，兩者協(xié)同作用使得端到端內(nèi)存占用降低1.54倍。

2025-03-07 10:02:10

超低成本復(fù)現(xiàn)QwQ！數(shù)學(xué)推理模型訓(xùn)練迎來RL暴擊，數(shù)據(jù)代碼模型全開源 | 螞蟻&清華出品
螞蟻清華聯(lián)手開源的強(qiáng)化學(xué)習(xí)框架AReaLboba，直接把推理模型訓(xùn)練帶到了NextLevel——

2025-04-02 09:00:00

模型開源 AI

AI“推理”模型興起，基準(zhǔn)測(cè)試成本飆升
隨著人工智能（AI）技術(shù)的不斷發(fā)展，所謂的“推理”AI模型成為了研究熱點(diǎn)。這些模型能夠像人類一樣逐步思考問題，在特定領(lǐng)域，如物理學(xué)中，被認(rèn)為比非推理模型能力更強(qiáng)。然而，這種優(yōu)勢(shì)卻伴隨著高昂的測(cè)試成本，使得獨(dú)立驗(yàn)證這些模型的能力變得困難重重。

2025-04-14 00:10:00

人工智能 AI AI 模型

DeepSeek團(tuán)隊(duì)新作：把代碼變成思維鏈，大模型推理各種能力全面提升
DeepSeek團(tuán)隊(duì)最新研究，利用300多萬個(gè)實(shí)例，將代碼轉(zhuǎn)換成思考過程，構(gòu)建出數(shù)據(jù)集CODEIO，對(duì)Qwen、Llama等模型進(jìn)行了訓(xùn)練。

2025-02-17 14:43:51

相似話題

機(jī)器學(xué)習(xí)
2031內(nèi)容

深度學(xué)習(xí)
1694內(nèi)容

自然語言處理
 110內(nèi)容

語音識(shí)別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

DeepSeek R2提前泄露？周二或周三發(fā)布？海外謠言一夜刷屏，HggingFace CEO一帖子引瘋狂猜想，DS又被消費(fèi)了深夜突襲，阿里Qwen3登頂全球開源王座！暴擊DeepSeek-R1，2小時(shí)狂攬17k星 MCP 服務(wù)器很危險(xiǎn)！這里有安全使用指南！剛剛，Qwen3強(qiáng)勢(shì)登頂，成開源新王！國(guó)內(nèi)首個(gè)混合推理模型，235B擊敗R1、o1!源神火力全開：全系列8個(gè)模型一口氣開源！Kimi-Audio開源橫掃全場(chǎng)景，1300萬+小時(shí)數(shù)據(jù)煉成語音世界“大一統(tǒng)”看不懂GitHub代碼？剛剛這個(gè)AI工具讓全球每個(gè)GitHub項(xiàng)目開口說話一文詳解深度學(xué)習(xí)中的標(biāo)量、向量、矩陣、張量 7B超越GPT！1/20數(shù)據(jù)，無需知識(shí)蒸餾，馬里蘭等推出全新視覺推理方法

相關(guān)專題更多

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動(dòng)

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開發(fā)者成長(zhǎng)學(xué)院 | 成長(zhǎng)有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

FP8模型不再挑卡！DeepSeek推理成本減半速度翻番，清華團(tuán)隊(duì)開源「赤兔」推理引擎