自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

FP8模型不再挑卡!DeepSeek推理成本減半速度翻番,清華團(tuán)隊(duì)開源「赤兔」推理引擎

人工智能 新聞
「國(guó)產(chǎn)大模型 + 國(guó)產(chǎn)引擎 + 國(guó)產(chǎn)芯片」的完整技術(shù)閉環(huán)正在加速形成。

隨著 DeepSeek 引燃市場(chǎng)對(duì)于大模型私有化部署的熱情,模型部署的效率與成本成為企業(yè) AI 落地的關(guān)鍵瓶頸。

今天,清華系科創(chuàng)企業(yè)清程極智清華大學(xué)翟季冬教授團(tuán)隊(duì)聯(lián)合宣布開源大模型推理引擎「赤兔」(Chitu),率先實(shí)現(xiàn)了非 H 卡設(shè)備(英偉達(dá) Hopper 架構(gòu)之前的 GPU 卡及各類國(guó)產(chǎn)卡)運(yùn)行原生 FP8 模型的突破。

在 A800 集群上的實(shí)測(cè)數(shù)據(jù)顯示,用赤兔引擎部署 DeepSeek-671B 滿血版推理服務(wù),相比于 vLLM 部署方案,不僅使用的 GPU 數(shù)量減少了 50%,而且輸出速度還提升了 3.15 倍。

圖片

赤兔引擎代碼已發(fā)布至 GitHub 開源社區(qū):

赤兔 (Chitu) 開源:

國(guó)產(chǎn)大模型基礎(chǔ)設(shè)施又一里程碑

當(dāng)前,擁有完整自主可控的 AI 技術(shù)棧已成為國(guó)家戰(zhàn)略性需求。DeepSeek、QwQ 等優(yōu)秀的國(guó)產(chǎn)開源大模型正在重塑全球科技產(chǎn)業(yè)格局,但在大模型推理部署領(lǐng)域,業(yè)界仍高度依賴國(guó)外開源工具。

赤兔引擎的開源為業(yè)界提供了國(guó)產(chǎn)開源新選擇,也意味著「國(guó)產(chǎn)大模型 + 國(guó)產(chǎn)引擎 + 國(guó)產(chǎn)芯片」的完整技術(shù)閉環(huán)正在加速形成。

「我們看到國(guó)內(nèi)大模型領(lǐng)域取得了顯著進(jìn)步,但在基礎(chǔ)設(shè)施層面,尤其是推理引擎這一核心環(huán)節(jié)仍缺乏生產(chǎn)級(jí)開源產(chǎn)品。」清程極智 CEO 湯雄超表示,「開源赤兔引擎是我們助力國(guó)內(nèi) AI 生態(tài)建設(shè)的重要一步?!?/strong>

作為清華大學(xué)高性能計(jì)算研究所所長(zhǎng),翟季冬教授長(zhǎng)期致力于高性能計(jì)算與系統(tǒng)軟件優(yōu)化研究。翟教授指出:「赤兔引擎凝結(jié)了團(tuán)隊(duì)多年的并行計(jì)算編譯優(yōu)化技術(shù)積累,目標(biāo)是建立一個(gè)真正適合國(guó)內(nèi)多元算力環(huán)境的高性能推理引擎,能夠彌合先進(jìn)模型與多樣化硬件之間的差距,為中國(guó)大模型的產(chǎn)業(yè)落地提供關(guān)鍵支撐?!?/span>

本次開源的版本特別聚焦于當(dāng)前市場(chǎng)最迫切的需求 —— 即實(shí)現(xiàn) DeepSeek FP8 精度模型在存量英偉達(dá) GPU 上的無損且高效部署。團(tuán)隊(duì)還透露,針對(duì)多款國(guó)產(chǎn)芯片特別優(yōu)化的版本也將相繼對(duì)外開源。這一突破不僅降低了大模型落地門檻,也為國(guó)產(chǎn) AI 算力的發(fā)展帶來了新的契機(jī)。

赤兔引擎核心優(yōu)勢(shì):

全場(chǎng)景性能優(yōu)化與架構(gòu)適應(yīng)性

隨著 DeepSeek V3 和 R1 等新一代模型采用 FP8 混合精度訓(xùn)練并發(fā)布,企業(yè)面臨新的部署挑戰(zhàn)。這些 FP8 模型針對(duì) NVIDIA Hopper 架構(gòu)(H100/H200)深度定制,在其他硬件上部署時(shí)(包括 NVIDIA 其他架構(gòu) GPU 和國(guó)產(chǎn)芯片)需要進(jìn)行額外的適配。

「最先進(jìn)的模型與最難獲取的硬件綁定,這是當(dāng)前企業(yè)大模型落地的最大痛點(diǎn)之一」湯雄超表示。隨著更新一代模型和芯片往 FP4 等新型數(shù)據(jù)精度方向的發(fā)展,這種代際效應(yīng)將愈發(fā)顯著。

另一個(gè)挑戰(zhàn)是現(xiàn)有開源推理引擎對(duì)多元算力環(huán)境的支持不足。當(dāng)前,vLLM 等主流引擎主要針對(duì) NVIDIA 最新架構(gòu)優(yōu)化,對(duì)國(guó)產(chǎn)芯片或較老款 GPU 的適配并不理想。在國(guó)內(nèi)企業(yè)私有化部署場(chǎng)景中,NVIDIA 的 Ampere 系列 GPU、國(guó)產(chǎn)芯片等多元算力占據(jù)了相當(dāng)比例,這些場(chǎng)景亟需更加靈活的解決方案。

赤兔從一開始就定位于「生產(chǎn)級(jí)大模型推理引擎」,并且充分考慮了企業(yè) AI 落地從小規(guī)模試驗(yàn)到大規(guī)模部署的漸進(jìn)式特點(diǎn),專注于提供以下重要特性:

  • 多元算力適配:不僅支持 NVIDIA 最新旗艦到舊款的多種型號(hào),也為國(guó)產(chǎn)芯片提供優(yōu)化支持。
  • 全場(chǎng)景可伸縮:從純 CPU 部署、單 GPU 部署到大規(guī)模集群部署,赤兔引擎提供可擴(kuò)展的解決方案。
  • 長(zhǎng)期穩(wěn)定運(yùn)行:可應(yīng)用于實(shí)際生產(chǎn)環(huán)境,穩(wěn)定性足以承載并發(fā)業(yè)務(wù)流量。

在性能優(yōu)化方面,赤兔的設(shè)計(jì)理念是「對(duì)癥下藥」,支持「低延遲優(yōu)化」、「高吞吐優(yōu)化」和「小顯存優(yōu)化」,可以根據(jù)不同場(chǎng)景需求,在不同硬件配置和系統(tǒng)環(huán)境下,針對(duì)不同負(fù)載的特性,提供相應(yīng)的最優(yōu)解決方案。在實(shí)際部署中,這意味著赤兔引擎可以根據(jù)系統(tǒng)資源狀況,在 GPU 利用率、內(nèi)存效率和網(wǎng)絡(luò)傳輸之間尋找最佳平衡點(diǎn)。

圖片

本次開源的技術(shù)突破是實(shí)現(xiàn)非 H 卡設(shè)備原生運(yùn)行 DeepSeek FP8 精度模型?!肝覀儧]有走簡(jiǎn)單的量化路線,而是通過在算子內(nèi)部高效處理 FP8 數(shù)據(jù),確保模型推理質(zhì)量不受任何影響?!箿鄢硎荆骸妇唧w來說,我們對(duì) GeMM、MoE 等一系列關(guān)鍵算子進(jìn)行了指令級(jí)的優(yōu)化,實(shí)現(xiàn)了 FP8 數(shù)據(jù)的原生處理能力?!?/span>

這種技術(shù)實(shí)現(xiàn)的難點(diǎn)在于需要深入理解不同硬件架構(gòu)的指令集特性,以及 FP8 與其他精度格式之間的數(shù)學(xué)等效關(guān)系,結(jié)合硬件特性分析并優(yōu)化。得益于團(tuán)隊(duì)在系統(tǒng)軟件人才方面的積累,才能夠在較短時(shí)間內(nèi)實(shí)現(xiàn)這一突破。傳統(tǒng)上為每種芯片架構(gòu)人工編寫優(yōu)化代碼的工作量巨大,而團(tuán)隊(duì)所具備的智能編譯技術(shù)有助于加速高性能算子的開發(fā)過程。

在 A800 集群上的實(shí)測(cè)結(jié)果表明,與 vLLM 相比,赤兔引擎實(shí)現(xiàn) DeepSeek-671B 滿血版推理所需 GPU 數(shù)量減少 50%;盡管只用了一半的算力,但推理速度卻達(dá)到其 3.15 倍。這意味著企業(yè)可以用一半的硬件資源獲得更高的推理性能,極大降低了部署門檻和運(yùn)營(yíng)成本。

「部署大模型的最低算力成本是一個(gè)時(shí)常被忽視但極其重要的指標(biāo)?!骨宄虉F(tuán)隊(duì)強(qiáng)調(diào),顯著降低推理成本對(duì)推廣 AI 應(yīng)用至關(guān)重要,赤兔推理引擎在設(shè)計(jì)之初就將降低用戶的算力成本納入核心考量。

開源共建

為國(guó)產(chǎn)芯片「搶時(shí)間」

赤兔推理引擎的開源標(biāo)志著清程極智的業(yè)務(wù)發(fā)展進(jìn)入新的階段。清程極智在持續(xù)提供企業(yè)級(jí)軟件部署運(yùn)維服務(wù)和全套人工智能解決方案的同時(shí),將把更多實(shí)際業(yè)務(wù)中的經(jīng)驗(yàn)通過開源的方式回饋社區(qū)。

「目前英偉達(dá) GPU 在大模型推理市場(chǎng)占據(jù)主流地位,未來幾年可能出現(xiàn)國(guó)外 AI 芯片和國(guó)內(nèi) AI 芯片百花齊放的態(tài)勢(shì)?!箿鄢治鲋赋觯骸肝覀兿M嗤靡娉蔀檫B接多元算力與大模型應(yīng)用的橋梁,同時(shí)通過推理一體機(jī)產(chǎn)品為企業(yè)提供端到端的大模型部署解決方案?!?/span>

清程極智的推理一體機(jī)產(chǎn)品基于赤兔引擎,適配多種硬件和模型,能夠?yàn)槠髽I(yè)提供開箱即用的私有化部署方案,并配套專業(yè)的運(yùn)維與優(yōu)化服務(wù)。

對(duì)于國(guó)產(chǎn) AI 基礎(chǔ)設(shè)施而言,赤兔引擎的開源有助于彌合國(guó)產(chǎn)芯片與國(guó)際先進(jìn)芯片之間的「時(shí)間差」—— 當(dāng)新模型架構(gòu)和新數(shù)據(jù)類型出現(xiàn)時(shí),赤兔引擎可以幫助國(guó)產(chǎn)芯片快速適配。

其次,開源引擎減輕了芯片廠商的軟件開發(fā)負(fù)擔(dān)。芯片廠商可以專注于硬件創(chuàng)新,而不必每家都重復(fù)開發(fā)完整的軟件棧。翟季冬教授表示,「我們目前與多家國(guó)產(chǎn)芯片廠商進(jìn)行合作,各方可直接向赤兔項(xiàng)目貢獻(xiàn)代碼,共同建設(shè)一個(gè)更強(qiáng)大的開源生態(tài)。」

「開源就是做給大家用,用了才知道好不好。我們把代碼放到 GitHub 上,有問題提 issue,有想法提 PR,一起把它做得更好。」湯雄超說。

「無論用什么卡,赤兔都是高性價(jià)比的選擇。」

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-07 09:57:01

2025-04-21 09:07:00

2025-02-12 12:45:59

2025-02-24 10:07:04

2023-05-30 14:17:00

模型推理

2020-10-24 07:30:05

開源字節(jié)跳動(dòng)模型

2025-02-19 15:17:24

2024-01-08 12:51:34

AI數(shù)據(jù)

2024-10-21 12:30:52

2025-02-12 09:20:12

2024-01-26 13:18:00

AI訓(xùn)練

2025-02-26 14:51:00

2025-03-11 09:20:00

2025-02-19 15:01:09

2018-12-06 10:07:49

微軟機(jī)器學(xué)習(xí)開源

2025-03-07 10:02:10

2025-04-02 09:00:00

模型開源AI

2025-04-14 00:10:00

人工智能AIAI 模型

2025-02-17 14:43:51

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)