英偉達下場,首次優(yōu)化DeepSeek-R1!B200性能狂飆25倍,碾壓H100
當FP4的魔法與Blackwell的強大算力相遇,會碰撞出怎樣的火花?
答案是:推理性能暴漲25倍,成本狂降20倍!
隨著DeepSeek-R1本地化部署的爆火,英偉達也親自下場,開源了首個基于Blackwell架構(gòu)的優(yōu)化方案——DeepSeek-R1-FP4。
在新模型的加持下,B200實現(xiàn)了高達21,088 token每秒的的推理吞吐量,相比于H100的844 token每秒,提升了25倍。
與此同時,每token的成本也實現(xiàn)了20倍的降低。
通過在Blackwell架構(gòu)上應(yīng)用TensorRT DeepSeek優(yōu)化,英偉達讓具有FP4生產(chǎn)級精度的模型,在MMLU通用智能基準測試中達到了FP8模型性能的99.8%。
DeepSeek-R1首次基于Blackwell GPU優(yōu)化
目前,英偉達基于FP4優(yōu)化的DeepSeek-R1檢查點現(xiàn)已在Hugging Face上開源。
模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4
后訓(xùn)練量化
模型將Transformer模塊內(nèi)的線性算子的權(quán)重和激活量化到了FP4,適用于TensorRT-LLM推理。
這種優(yōu)化將每個參數(shù)從8位減少到4位,從而讓磁盤空間和GPU顯存的需求減少了約1.6倍。
使用TensorRT-LLM部署
要使用TensorRT-LLM LLM API部署量化后的FP4權(quán)重文件,并為給定的提示生成文本響應(yīng),請參照以下示例代碼:
硬件要求:需要支持TensorRT-LLM的英偉達GPU(如B200),并且需要8個GPU來實現(xiàn)tensor_parallel_size=8的張量并行。
性能優(yōu)化:代碼利用FP4量化、TensorRT引擎和并行計算,旨在實現(xiàn)高效、低成本的推理,適合生產(chǎn)環(huán)境或高吞吐量應(yīng)用。
from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM
def main():
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)
llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
main()
對于此次優(yōu)化的成果,網(wǎng)友表示驚嘆。
「FP4魔法讓AI未來依然敏銳!」網(wǎng)友Isha評論道。
網(wǎng)友algorusty則聲稱,有了這次的優(yōu)化后,美國供應(yīng)商能夠以每百萬token 0.25美元的價格提供R1。
「還會有利潤?!?/span>
網(wǎng)友Phil則將這次的優(yōu)化與DeepSeek本周的開源5連發(fā)結(jié)合了起來。
「這展示了硬件和開源模型結(jié)合的可能性?!顾硎尽?/span>
DeepSeek全面開源
如今DeepSeek持續(xù)5天的「開源周」已經(jīng)進行到了第3天。
周一,他們開源了FlashMLA。這是DeepSeek專為英偉達Hopper GPU打造的高效MLA解碼內(nèi)核,特別針對變長序列進行了優(yōu)化,目前已正式投產(chǎn)使用。
周二開源了DeepEP,這是一個專為混合專家系統(tǒng)(MoE)和專家并行(EP)設(shè)計的通信庫。
周三開源的是DeepGEMM。這是一個支持稠密和MoE模型的FP8 GEMM(通用矩陣乘法)計算庫,可為V3/R1的訓(xùn)練和推理提供強大支持。
總的來說,不管是英偉達開源的DeepSeek-R1-FP4,還是DeepSeek開源的三個倉庫,都是通過對英偉達GPU和集群的優(yōu)化,來推動AI模型的高效計算和部署。