自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

賈揚清點贊:3K star量的SGLang上新,加速Llama 405B推理秒殺vLLM、TensorRT-LLM

人工智能 新聞
LMSYS Org 團隊就出手了,推出了全新的 SGLang Runtime v0.2。這是一個用于 LLM 和 VLM 的通用服務(wù)引擎。

最近,Meta 開源了最新的 405B 模型(Llama 3.1 405B),把開源模型的性能拉到了新高度。由于模型參數(shù)量很大,很多開發(fā)者都關(guān)心一個問題:怎么提高模型的推理速度?

時隔才兩天,LMSYS Org 團隊就出手了,推出了全新的 SGLang Runtime v0.2。這是一個用于 LLM 和 VLM 的通用服務(wù)引擎。在運行 Llama 3.1 405B 時,它的吞吐量和延遲表現(xiàn)都優(yōu)于 vLLM 和 TensorRT-LLM。

在某些情況下(運行 Llama 系列模型),它的吞吐量甚至能達到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。

圖片

LMSYS Org 團隊是一個由加州大學伯克利分校、加州大學圣地亞哥分校以及卡內(nèi)基梅隆大學的學生與教職員工共同組建的公開性質(zhì)的研究團體。他們開發(fā)的大模型評測平臺 ——Chatbot Arena 已經(jīng)成為檢驗大模型能力的重要平臺,也被認為是一種相對公平的評測方式。

SGLang 是該團隊開發(fā)的一個用于大型語言模型和視覺語言模型的快速服務(wù)框架,于今年 1 月份正式推出,在 GitHub 上已經(jīng)收獲了超過 3k 的 star 量。

圖片

這次的更新效果驚艷,知名 AI 研究者、Lepton AI 聯(lián)合創(chuàng)始人兼 CEO 賈揚清評價說「我一直被我的博士母校加州大學伯克利分校驚艷,因為它不斷交付最先進的人工智能和系統(tǒng)協(xié)同設(shè)計成果。去年我們看到了 SGLang 的使用,現(xiàn)在它變得更好了。迫不及待地想在產(chǎn)品中部署并嘗試新的 SGLang!」

圖片

為什么 LMSYS Org 要開發(fā)并迭代 SGLang 呢?他們在博客中提到,「我們已經(jīng)運行 Chatbot Arena 平臺一年多,為數(shù)百萬用戶提供服務(wù)。我們深知高效服務(wù)對人工智能產(chǎn)品和研究的重要性。通過運營經(jīng)驗和深入研究,我們不斷增強底層服務(wù)系統(tǒng),從高級多模型服務(wù)框架 FastChat 到高效服務(wù)引擎 SGLang Runtime (SRT)?!?/span>

「這篇文章的重點是 SGLang Runtime,它是一個用于 LLM 和 VLM 的通用服務(wù)引擎。雖然 TensorRT-LLM、vLLM、MLC-LLM 和 Hugging Face TGI 等現(xiàn)有選項各有優(yōu)點,但我們發(fā)現(xiàn)它們有時難以使用、難以定制或性能不佳。這促使我們開發(fā)了 SGLang v0.2,旨在創(chuàng)建一個不僅用戶友好、易于修改,而且性能一流的服務(wù)引擎。」

與 TensorRT-LLM 和 vLLM 相比,SGLang Runtime 在處理從 Llama-8B 到 Llama-405B 的模型時,以及在 A100 和 H100 GPU 上使用 FP8 和 FP16 時,在在線和離線場景下都能持續(xù)提供卓越或有競爭力的性能。SGLang 的性能始終優(yōu)于 vLLM,在 Llama-70B 上的吞吐量最高是前者的 3.8 倍。它還經(jīng)常與 TensorRT-LLM 不相上下,甚至超過 TensorRT-LLM,在 Llama-405B 上的吞吐量最高是前者的 2.1 倍。更重要的是,SGLang 是完全開源的,由純 Python 編寫,核心調(diào)度器只用了不到 4K 行代碼就實現(xiàn)了。

SGLang 是一個開源項目,采用 Apache 2.0 許可授權(quán)。它已被 LMSYS Chatbot Arena 用于支持部分模型、Databricks、幾家初創(chuàng)公司和研究機構(gòu),產(chǎn)生了數(shù)萬億 token,實現(xiàn)了更快的迭代。

以下是幾個框架的對比實驗設(shè)置和結(jié)果。

基準設(shè)置

研究者對離線和在線用例進行基準測試:

離線:他們一次發(fā)送 2K 到 3K 個請求,測量輸出吞吐量(token / 秒),即輸出 token 數(shù)除以總持續(xù)時間。他們測試的合成數(shù)據(jù)集來自 ShareGPT 數(shù)據(jù)集。例如,I-512-O-1024 表示平均輸入 512 個 token、平均輸出 1024 個 token 的數(shù)據(jù)集。五個測試數(shù)據(jù)集分別為:

  • 數(shù)據(jù)集 1:I-243-O-770;
  • 數(shù)據(jù)集 2:I-295-O-770;
  • 數(shù)據(jù)集 3:I-243-O-386;
  • 數(shù)據(jù)集 4:I-295-O-386;
  • 數(shù)據(jù)集 5:I-221-O-201。

在線:他們以每秒 1 到 16 個請求 (RPS) 的速率發(fā)送請求,測量端到端延遲的中位數(shù)。他們使用合成數(shù)據(jù)集 I-292-O-579。

他們使用 vLLM 0.5.2(帶默認參數(shù))和 TensorRT-LLM(帶推薦參數(shù)和調(diào)整后的批大?。?。所有引擎都關(guān)閉了前綴緩存。目的是在沒有任何附加功能(如推測解碼或緩存)的情況下,對基本性能進行基準測試。他們使用與 OpenAI 兼容的 API 對 SGLang 和 vLLM 進行基準測試,并使用 Triton 接口對 TensorRT-LLM 進行基準測試。

Llama-8B 在一個 A100 上運行(bf16)

研究者從小型模型 Llama-8B 開始測試。下圖顯示了每個引擎在五個不同數(shù)據(jù)集的離線設(shè)置下所能達到的最大輸出吞吐量。TensorRT-LLM 和 SGLang 都能達到每秒約 4000 個 token 的吞吐量,而 vLLM 則稍遜一籌。

下面的在線基準圖顯示了與離線情況類似的趨勢。TensorRT-LLM 和 SGLang 的性能相當,可以保持 RPS > 10,而 vLLM 的延遲在請求率較高時顯著增加。

圖片

Llama-70B 在 8 個 A100 上運行(bf16)

至于在 8 個 GPU 上進行張量并行的較大型 Llama-70B 模型,趨勢與 8B 相似。在下面的離線基準測試中,TensorRT-LLM 和 SGLang 都能達到很高的吞吐量。

圖片

在下圖的在線結(jié)果中,TensorRT-LLM 憑借高效的內(nèi)核實現(xiàn)和運行時間,顯示出較低的延遲。

圖片

Llama-70B 在 8 個 H100 上運行(fp8)

現(xiàn)在來測試 FP8 性能。vLLM 和 SGLang 都使用了 CUTLASS 的 FP8 內(nèi)核。在離線設(shè)置中,SGLang 的批處理調(diào)度器非常高效,可以隨著批處理規(guī)模的增大而繼續(xù)擴展吞吐量,在這種情況下實現(xiàn)了最高吞吐量。其他系統(tǒng)則由于 OOM、缺少大量手動調(diào)整或存在其他開銷而無法擴展吞吐量或批大小。在線情況下也是如此,SGLang 和 TensorRT 的中位延遲相似。

圖片

圖片

Llama-405B 在 8 個 H100 上運行(fp8)

最后,研究者在最大的 405B 模型上對各種方法的性能進行了基準測試。由于模型較大,大部分時間都花在了 GPU 內(nèi)核上。不同框架之間的差距縮小了。TensorRT-LLM 性能不佳的原因可能是 405B 模型剛剛問世,而圖中使用的版本尚未集成一些最新優(yōu)化。在在線和離線情況下,SGLang 的性能都是最好的。

圖片

圖片

SGLang 概覽

SGLang 是大型語言模型和視覺語言模型的服務(wù)框架。它基于并增強了多個開源 LLM 服務(wù)引擎(包括 LightLLM、vLLM 和 Guidance)的許多優(yōu)秀設(shè)計。它利用了來自 FlashInfer 的高性能注意力 CUDA 內(nèi)核,并集成了受 gpt-fast 啟發(fā)的 torch.compile。

此外,研究者還引入了一些創(chuàng)新技術(shù),如用于自動 KV 緩存重用的 RadixAttention 和用于快速約束解碼的壓縮狀態(tài)機。SGLang 以其完全用 Python 實現(xiàn)的高效批處理調(diào)度器而聞名。為了進行公平比較,本博客測試了這些服務(wù)引擎在關(guān)閉特定場景或工作負載優(yōu)化(如前綴緩存和推測解碼)后的基本性能。SGLang 的提速是通過適當?shù)墓こ淘O(shè)計實現(xiàn)的。SGLang 基于 Python 的高效批處理調(diào)度器具有良好的擴展性,通??膳c使用 C++ 構(gòu)建的閉源實現(xiàn)相媲美,甚至更勝一籌。

表 1 比較了 SGLang、TensorRT-LLM 和 vLLM 的各個方面。在性能方面,SGLang 和 TensorRT-LLM 都非常出色。在可用性和可定制性方面,SGLang 的輕量級和模塊化內(nèi)核使其易于定制,而 TensorRT-LLM 復(fù)雜的 C++ 技術(shù)棧和設(shè)置說明使其更難使用和修改。SGLang 的源代碼完全開源,而 TensorRT-LLM 僅部分開源。相比之下,vLLM 的 CPU 調(diào)度開銷較高。

研究者還表示,未來他們還將開發(fā)長上下文和 MoE 優(yōu)化等新功能。

使用方法

你可以按照以下步驟輕松服務(wù) Llama 模型:  

1、使用 pip、源代碼或 Docker 安裝 SGLang:https://github.com/sgl-project/sglang/tree/main?tab=readme-ov-file#install

2、啟動服務(wù)器:

# Llama 8B
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct

# Llama 405B
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-405B-Instruct-FP8 --tp 8

3、使用 OpenAI 兼容的 API 發(fā)送請求:

curl http://localhost:30000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "default",
    "prompt": "Say this is a test",
    "max_tokens": 7,
    "temperature": 0
  }'

4、運行基準:  

python3 -m sglang.bench_serving --backend sglang --num-prompts 1000

附錄:詳細的基準設(shè)置

重現(xiàn)基準的說明位于 sglang/benchmark/blog_v0_2。

對于所有基準測試,研究者都設(shè)置了 ignore_eos 或 min_length/end_id 以確保每個引擎輸出相同數(shù)量的 token。他們曾嘗試使用 vLLM 0.5.3.post1,但它在高負載情況下經(jīng)常崩潰,與部分基準測試中的 vLLM 0.5.2 相比,vLLM 0.5.3.post1 性能似乎差不多甚至更差。因此,他們報告的是 vLLM 0.5.2 的結(jié)果。雖然他們知道不同的服務(wù)器配置會對服務(wù)性能產(chǎn)生重大影響,但他們主要使用每個引擎的默認參數(shù)來模擬普通用戶的情況。

對于 8B 和 70B 模型,他們使用 meta-llama/Meta-Llama-3-8B-Instruct 和 meta-llama/Meta-Llama-3-70B-Instruct bf16 檢查點,以及 neuralmagic/Meta-Llama-3-70B-Instruct-FP8 fp8 檢查點。對于 405B 模型,他們在所有基準測試中都使用了虛擬權(quán)重。由于 TensorRT-LLM 最新圖像 r24.06 不支持官方 meta-llama/Meta-Llama-3.1-405B-FP8 檢查點中的 fbgemm_fp8 量化,他們在所有框架中都使用了每層 fp8 量化,并對除 lm_head 以外的所有層進行了量化。他們相信這樣可以對所有引擎進行公平的比較。A100 和 H100 GPU 為 80GB SXM 版本。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-02-04 00:00:00

Triton格式TensorRT

2024-10-22 09:17:07

2025-04-24 10:26:40

2024-09-06 13:00:29

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-07-19 09:59:31

2023-09-10 12:37:38

模型英偉達

2023-09-11 09:37:58

開源軟件套AI模型

2024-07-23 09:20:35

2024-01-24 13:11:00

AI模型

2024-08-26 10:00:00

模型數(shù)據(jù)

2024-08-02 14:53:00

2025-02-24 12:22:13

DeepSeek開源模型

2024-11-13 15:00:42

2023-09-25 12:01:42

AI論文

2025-04-29 07:47:27

2023-03-22 13:58:59

離職阿里巴巴

2024-07-24 13:18:17

2023-09-01 15:22:49

人工智能數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號