自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<table id="i7nn1"></table>

<style id="i7nn1"></style>

<abbr id="i7nn1"><label id="i7nn1"></label></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

英偉達下場，首次優(yōu)化DeepSeek-R1！B200性能狂飆25倍，碾壓H100

作者：新智元 2025-02-27 09:09:45

人工智能新聞

最近，英偉達開源了首個在Blackwell架構(gòu)上優(yōu)化的DeepSeek-R1，實現(xiàn)了推理速度提升25倍，和每token成本降低20倍的驚人成果。同時，DeepSeek連續(xù)開源多個英偉達GPU優(yōu)化項目，共同探索模型性能極限。

當FP4的魔法與Blackwell的強大算力相遇，會碰撞出怎樣的火花？

答案是：推理性能暴漲25倍，成本狂降20倍！

隨著DeepSeek-R1本地化部署的爆火，英偉達也親自下場，開源了首個基于Blackwell架構(gòu)的優(yōu)化方案——DeepSeek-R1-FP4。

在新模型的加持下，B200實現(xiàn)了高達21,088 token每秒的的推理吞吐量，相比于H100的844 token每秒，提升了25倍。

與此同時，每token的成本也實現(xiàn)了20倍的降低。

通過在Blackwell架構(gòu)上應(yīng)用TensorRT DeepSeek優(yōu)化，英偉達讓具有FP4生產(chǎn)級精度的模型，在MMLU通用智能基準測試中達到了FP8模型性能的99.8%。

DeepSeek-R1首次基于Blackwell GPU優(yōu)化

目前，英偉達基于FP4優(yōu)化的DeepSeek-R1檢查點現(xiàn)已在Hugging Face上開源。

模型地址：https://huggingface.co/nvidia/DeepSeek-R1-FP4

后訓(xùn)練量化

模型將Transformer模塊內(nèi)的線性算子的權(quán)重和激活量化到了FP4，適用于TensorRT-LLM推理。

這種優(yōu)化將每個參數(shù)從8位減少到4位，從而讓磁盤空間和GPU顯存的需求減少了約1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化后的FP4權(quán)重文件，并為給定的提示生成文本響應(yīng)，請參照以下示例代碼：

硬件要求：需要支持TensorRT-LLM的英偉達GPU（如B200），并且需要8個GPU來實現(xiàn)tensor_parallel_size=8的張量并行。

性能優(yōu)化：代碼利用FP4量化、TensorRT引擎和并行計算，旨在實現(xiàn)高效、低成本的推理，適合生產(chǎn)環(huán)境或高吞吐量應(yīng)用。

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM


def main():


    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(max_tokens=32)


    llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)


    outputs = llm.generate(prompts, sampling_params)


    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")




# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
    main()

對于此次優(yōu)化的成果，網(wǎng)友表示驚嘆。

「FP4魔法讓AI未來依然敏銳！」網(wǎng)友Isha評論道。

網(wǎng)友algorusty則聲稱，有了這次的優(yōu)化后，美國供應(yīng)商能夠以每百萬token 0.25美元的價格提供R1。

「還會有利潤?！?/span>

網(wǎng)友Phil則將這次的優(yōu)化與DeepSeek本周的開源5連發(fā)結(jié)合了起來。

「這展示了硬件和開源模型結(jié)合的可能性?！顾硎尽?/span>

DeepSeek全面開源

如今DeepSeek持續(xù)5天的「開源周」已經(jīng)進行到了第3天。

周一，他們開源了FlashMLA。這是DeepSeek專為英偉達Hopper GPU打造的高效MLA解碼內(nèi)核，特別針對變長序列進行了優(yōu)化，目前已正式投產(chǎn)使用。

周二開源了DeepEP，這是一個專為混合專家系統(tǒng)（MoE）和專家并行（EP）設(shè)計的通信庫。

周三開源的是DeepGEMM。這是一個支持稠密和MoE模型的FP8 GEMM（通用矩陣乘法）計算庫，可為V3/R1的訓(xùn)練和推理提供強大支持。

總的來說，不管是英偉達開源的DeepSeek-R1-FP4，還是DeepSeek開源的三個倉庫，都是通過對英偉達GPU和集群的優(yōu)化，來推動AI模型的高效計算和部署。

責(zé)任編輯：張燕妮來源：新智元

英偉達模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營