自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

賈揚清點贊：3K star量的SGLang上新，加速Llama 405B推理秒殺vLLM、TensorRT-LLM

作者：機器之心 2024-07-29 08:19:00

人工智能新聞

LMSYS Org 團隊就出手了，推出了全新的 SGLang Runtime v0.2。這是一個用于 LLM 和 VLM 的通用服務(wù)引擎。

最近，Meta 開源了最新的 405B 模型（Llama 3.1 405B），把開源模型的性能拉到了新高度。由于模型參數(shù)量很大，很多開發(fā)者都關(guān)心一個問題：怎么提高模型的推理速度？

時隔才兩天，LMSYS Org 團隊就出手了，推出了全新的 SGLang Runtime v0.2。這是一個用于 LLM 和 VLM 的通用服務(wù)引擎。在運行 Llama 3.1 405B 時，它的吞吐量和延遲表現(xiàn)都優(yōu)于 vLLM 和 TensorRT-LLM。

在某些情況下（運行 Llama 系列模型），它的吞吐量甚至能達到 TensorRT-LLM 的 2.1 倍，vLLm 的 3.8 倍。

LMSYS Org 團隊是一個由加州大學伯克利分校、加州大學圣地亞哥分校以及卡內(nèi)基梅隆大學的學生與教職員工共同組建的公開性質(zhì)的研究團體。他們開發(fā)的大模型評測平臺 ——Chatbot Arena 已經(jīng)成為檢驗大模型能力的重要平臺，也被認為是一種相對公平的評測方式。

SGLang 是該團隊開發(fā)的一個用于大型語言模型和視覺語言模型的快速服務(wù)框架，于今年 1 月份正式推出，在 GitHub 上已經(jīng)收獲了超過 3k 的 star 量。

這次的更新效果驚艷，知名 AI 研究者、Lepton AI 聯(lián)合創(chuàng)始人兼 CEO 賈揚清評價說「我一直被我的博士母校加州大學伯克利分校驚艷，因為它不斷交付最先進的人工智能和系統(tǒng)協(xié)同設(shè)計成果。去年我們看到了 SGLang 的使用，現(xiàn)在它變得更好了。迫不及待地想在產(chǎn)品中部署并嘗試新的 SGLang！」

為什么 LMSYS Org 要開發(fā)并迭代 SGLang 呢？他們在博客中提到，「我們已經(jīng)運行 Chatbot Arena 平臺一年多，為數(shù)百萬用戶提供服務(wù)。我們深知高效服務(wù)對人工智能產(chǎn)品和研究的重要性。通過運營經(jīng)驗和深入研究，我們不斷增強底層服務(wù)系統(tǒng)，從高級多模型服務(wù)框架 FastChat 到高效服務(wù)引擎 SGLang Runtime (SRT)?！?/span>

「這篇文章的重點是 SGLang Runtime，它是一個用于 LLM 和 VLM 的通用服務(wù)引擎。雖然 TensorRT-LLM、vLLM、MLC-LLM 和 Hugging Face TGI 等現(xiàn)有選項各有優(yōu)點，但我們發(fā)現(xiàn)它們有時難以使用、難以定制或性能不佳。這促使我們開發(fā)了 SGLang v0.2，旨在創(chuàng)建一個不僅用戶友好、易于修改，而且性能一流的服務(wù)引擎。」

與 TensorRT-LLM 和 vLLM 相比，SGLang Runtime 在處理從 Llama-8B 到 Llama-405B 的模型時，以及在 A100 和 H100 GPU 上使用 FP8 和 FP16 時，在在線和離線場景下都能持續(xù)提供卓越或有競爭力的性能。SGLang 的性能始終優(yōu)于 vLLM，在 Llama-70B 上的吞吐量最高是前者的 3.8 倍。它還經(jīng)常與 TensorRT-LLM 不相上下，甚至超過 TensorRT-LLM，在 Llama-405B 上的吞吐量最高是前者的 2.1 倍。更重要的是，SGLang 是完全開源的，由純 Python 編寫，核心調(diào)度器只用了不到 4K 行代碼就實現(xiàn)了。

SGLang 是一個開源項目，采用 Apache 2.0 許可授權(quán)。它已被 LMSYS Chatbot Arena 用于支持部分模型、Databricks、幾家初創(chuàng)公司和研究機構(gòu)，產(chǎn)生了數(shù)萬億 token，實現(xiàn)了更快的迭代。

以下是幾個框架的對比實驗設(shè)置和結(jié)果。

基準設(shè)置

研究者對離線和在線用例進行基準測試：

離線：他們一次發(fā)送 2K 到 3K 個請求，測量輸出吞吐量（token / 秒），即輸出 token 數(shù)除以總持續(xù)時間。他們測試的合成數(shù)據(jù)集來自 ShareGPT 數(shù)據(jù)集。例如，I-512-O-1024 表示平均輸入 512 個 token、平均輸出 1024 個 token 的數(shù)據(jù)集。五個測試數(shù)據(jù)集分別為：

數(shù)據(jù)集 1：I-243-O-770；
數(shù)據(jù)集 2：I-295-O-770；
數(shù)據(jù)集 3：I-243-O-386；
數(shù)據(jù)集 4：I-295-O-386；
數(shù)據(jù)集 5：I-221-O-201。

在線：他們以每秒 1 到 16 個請求 (RPS) 的速率發(fā)送請求，測量端到端延遲的中位數(shù)。他們使用合成數(shù)據(jù)集 I-292-O-579。

他們使用 vLLM 0.5.2（帶默認參數(shù)）和 TensorRT-LLM（帶推薦參數(shù)和調(diào)整后的批大?。?。所有引擎都關(guān)閉了前綴緩存。目的是在沒有任何附加功能（如推測解碼或緩存）的情況下，對基本性能進行基準測試。他們使用與 OpenAI 兼容的 API 對 SGLang 和 vLLM 進行基準測試，并使用 Triton 接口對 TensorRT-LLM 進行基準測試。

Llama-8B 在一個 A100 上運行（bf16）

研究者從小型模型 Llama-8B 開始測試。下圖顯示了每個引擎在五個不同數(shù)據(jù)集的離線設(shè)置下所能達到的最大輸出吞吐量。TensorRT-LLM 和 SGLang 都能達到每秒約 4000 個 token 的吞吐量，而 vLLM 則稍遜一籌。

下面的在線基準圖顯示了與離線情況類似的趨勢。TensorRT-LLM 和 SGLang 的性能相當，可以保持 RPS > 10，而 vLLM 的延遲在請求率較高時顯著增加。

Llama-70B 在 8 個 A100 上運行（bf16）

至于在 8 個 GPU 上進行張量并行的較大型 Llama-70B 模型，趨勢與 8B 相似。在下面的離線基準測試中，TensorRT-LLM 和 SGLang 都能達到很高的吞吐量。

在下圖的在線結(jié)果中，TensorRT-LLM 憑借高效的內(nèi)核實現(xiàn)和運行時間，顯示出較低的延遲。

Llama-70B 在 8 個 H100 上運行（fp8）

現(xiàn)在來測試 FP8 性能。vLLM 和 SGLang 都使用了 CUTLASS 的 FP8 內(nèi)核。在離線設(shè)置中，SGLang 的批處理調(diào)度器非常高效，可以隨著批處理規(guī)模的增大而繼續(xù)擴展吞吐量，在這種情況下實現(xiàn)了最高吞吐量。其他系統(tǒng)則由于 OOM、缺少大量手動調(diào)整或存在其他開銷而無法擴展吞吐量或批大小。在線情況下也是如此，SGLang 和 TensorRT 的中位延遲相似。

Llama-405B 在 8 個 H100 上運行（fp8）

最后，研究者在最大的 405B 模型上對各種方法的性能進行了基準測試。由于模型較大，大部分時間都花在了 GPU 內(nèi)核上。不同框架之間的差距縮小了。TensorRT-LLM 性能不佳的原因可能是 405B 模型剛剛問世，而圖中使用的版本尚未集成一些最新優(yōu)化。在在線和離線情況下，SGLang 的性能都是最好的。

SGLang 概覽

SGLang 是大型語言模型和視覺語言模型的服務(wù)框架。它基于并增強了多個開源 LLM 服務(wù)引擎（包括 LightLLM、vLLM 和 Guidance）的許多優(yōu)秀設(shè)計。它利用了來自 FlashInfer 的高性能注意力 CUDA 內(nèi)核，并集成了受 gpt-fast 啟發(fā)的 torch.compile。

此外，研究者還引入了一些創(chuàng)新技術(shù)，如用于自動 KV 緩存重用的 RadixAttention 和用于快速約束解碼的壓縮狀態(tài)機。SGLang 以其完全用 Python 實現(xiàn)的高效批處理調(diào)度器而聞名。為了進行公平比較，本博客測試了這些服務(wù)引擎在關(guān)閉特定場景或工作負載優(yōu)化（如前綴緩存和推測解碼）后的基本性能。SGLang 的提速是通過適當?shù)墓こ淘O(shè)計實現(xiàn)的。SGLang 基于 Python 的高效批處理調(diào)度器具有良好的擴展性，通?？膳c使用 C++ 構(gòu)建的閉源實現(xiàn)相媲美，甚至更勝一籌。

表 1 比較了 SGLang、TensorRT-LLM 和 vLLM 的各個方面。在性能方面，SGLang 和 TensorRT-LLM 都非常出色。在可用性和可定制性方面，SGLang 的輕量級和模塊化內(nèi)核使其易于定制，而 TensorRT-LLM 復(fù)雜的 C++ 技術(shù)棧和設(shè)置說明使其更難使用和修改。SGLang 的源代碼完全開源，而 TensorRT-LLM 僅部分開源。相比之下，vLLM 的 CPU 調(diào)度開銷較高。

研究者還表示，未來他們還將開發(fā)長上下文和 MoE 優(yōu)化等新功能。

使用方法

你可以按照以下步驟輕松服務(wù) Llama 模型：

1、使用 pip、源代碼或 Docker 安裝 SGLang：https://github.com/sgl-project/sglang/tree/main?tab=readme-ov-file#install

2、啟動服務(wù)器：

# Llama 8B
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct

# Llama 405B
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-405B-Instruct-FP8 --tp 8

3、使用 OpenAI 兼容的 API 發(fā)送請求：

curl http://localhost:30000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "default",
    "prompt": "Say this is a test",
    "max_tokens": 7,
    "temperature": 0
  }'

4、運行基準：

python3 -m sglang.bench_serving --backend sglang --num-prompts 1000

附錄：詳細的基準設(shè)置

重現(xiàn)基準的說明位于 sglang/benchmark/blog_v0_2。

對于所有基準測試，研究者都設(shè)置了 ignore_eos 或 min_length/end_id 以確保每個引擎輸出相同數(shù)量的 token。他們曾嘗試使用 vLLM 0.5.3.post1，但它在高負載情況下經(jīng)常崩潰，與部分基準測試中的 vLLM 0.5.2 相比，vLLM 0.5.3.post1 性能似乎差不多甚至更差。因此，他們報告的是 vLLM 0.5.2 的結(jié)果。雖然他們知道不同的服務(wù)器配置會對服務(wù)性能產(chǎn)生重大影響，但他們主要使用每個引擎的默認參數(shù)來模擬普通用戶的情況。

對于 8B 和 70B 模型，他們使用 meta-llama/Meta-Llama-3-8B-Instruct 和 meta-llama/Meta-Llama-3-70B-Instruct bf16 檢查點，以及 neuralmagic/Meta-Llama-3-70B-Instruct-FP8 fp8 檢查點。對于 405B 模型，他們在所有基準測試中都使用了虛擬權(quán)重。由于 TensorRT-LLM 最新圖像 r24.06 不支持官方 meta-llama/Meta-Llama-3.1-405B-FP8 檢查點中的 fbgemm_fp8 量化，他們在所有框架中都使用了每層 fp8 量化，并對除 lm_head 以外的所有層進行了量化。他們相信這樣可以對所有引擎進行公平的比較。A100 和 H100 GPU 為 80GB SXM 版本。

責任編輯：張燕妮來源：機器之心

服務(wù)引擎

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="kitn3"><track id="kitn3"></track></legend>

<sub id="kitn3"><i id="kitn3"></i></sub>

<style id="kitn3"></style>