自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="bj8ue"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

AI架構(gòu)系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小實(shí)驗(yàn) 原創(chuàng)

發(fā)布于 2024-10-24 14:51

瀏覽

0收藏

訓(xùn)練大型語(yǔ)言模型以及微調(diào)的教程比比皆是，但關(guān)于在生產(chǎn)環(huán)境中部署它們并監(jiān)控其活動(dòng)的資料相對(duì)稀缺。上章節(jié)提到了未來云原生的AI是趨勢(shì)，然而涉及到云原生會(huì)比較偏技術(shù)。而在此之前為了解決大模型部署量產(chǎn)的問題，社區(qū)也一直在探索，目前已有不少工具可用于這個(gè)領(lǐng)域。

另一方面，選擇正確的推理后端為大型語(yǔ)言模型（LLMs）提供服務(wù)至關(guān)重要。不同的后端提供不同的服務(wù)LLMs方式，每種方式都有獨(dú)特的功能和優(yōu)化技術(shù)。它不僅確保了最佳的用戶體驗(yàn)和最快的生成速度，而且還通過高Token生成率和資源利用率提高了成本效益。

在介紹往vLLM和TGI之后，恰好BentoML工程團(tuán)隊(duì)在BentoCloud上對(duì)Llama 3使用vLLM、LMDeploy、MLC-LLM、TensorRT-LLM和Hugging Face TGI的服務(wù)性能進(jìn)行全面的基準(zhǔn)測(cè)試。這里所有推理后端都遵循Apache 2.0 許可證。

1.實(shí)驗(yàn)背景

BentoML 工程團(tuán)隊(duì)在BentoCloud上對(duì)Llama 3使用vLLM、LMDeploy、MLC-LLM、TensorRT-LLM和Hugging Face TGI的服務(wù)性能進(jìn)行全面的基準(zhǔn)測(cè)試。這里使用兩個(gè)關(guān)鍵指標(biāo)進(jìn)行評(píng)估：

TTFT：測(cè)量從發(fā)送請(qǐng)求到生成第一個(gè)令牌的時(shí)間，以毫秒為單位記錄。TTFT對(duì)于需要即時(shí)反饋的應(yīng)用程序非常重要。更低的延遲可提高感知性能和用戶滿意度。<注意，這個(gè)過程為解碼過程！>
TGR：評(píng)估模型在解碼過程中每秒生成的Token，以每秒令牌數(shù)為單位。Token生成率是模型處理高負(fù)載能力的指標(biāo)。高的數(shù)值表明該模型可以有效地管理多個(gè)請(qǐng)求并快速生成響應(yīng)，適用于高并發(fā)環(huán)境。

本次實(shí)驗(yàn)是在BentoCloud上單個(gè)A100 80GB GPU實(shí)例上使用Llama 3 8B和70B的4位量化<??忘記量化的請(qǐng)查看鏈接！??>模型進(jìn)行了基準(zhǔn)測(cè)試，涉及三個(gè)級(jí)別的推理負(fù)載（10、50 和 100 個(gè)并發(fā)用戶）。

vLLM: 0.4.2
MLC-LLM: mlc-llm-nightly-cu121 0.1.dev1251 (No stable release yet)
LMDeploy: 0.4.0
TensorRT-LLM: 0.9.0 (with Triton v24.04)
TGI: 2.0.4

2.指標(biāo)解讀

解讀之前，小編溫馨提醒，實(shí)驗(yàn)的結(jié)果僅供參考。畢竟這個(gè)實(shí)驗(yàn)是在特定的場(chǎng)景下實(shí)驗(yàn)。若配合其他的優(yōu)化手段，結(jié)果可能大不一樣，但是還是可以管中窺豹。先來看看Llama-3-8B的情況：

AI架構(gòu)系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小實(shí)驗(yàn)-AI.x社區(qū)

上面的指標(biāo)TTFT數(shù)值是越低越好，而下面的指標(biāo)TGR數(shù)值是越高越好

AI架構(gòu)系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小實(shí)驗(yàn)-AI.x社區(qū)

LMDeploy：在Token生成率方面提供最佳解碼性能，100個(gè)用戶每秒最多可處理4000 個(gè)Token。在10個(gè)用戶中實(shí)現(xiàn)了一流的TTFT。盡管TTFT隨著用戶的增加而逐漸增加，但它的延時(shí)還是在可接受的范圍。

MLC-LLM：解碼性能略低，100個(gè)用戶每秒約3500個(gè)令牌。然而隨著時(shí)間的推進(jìn)，TGR從運(yùn)行基準(zhǔn)測(cè)試5分鐘后降低到每秒3100個(gè)Token。

vLLM：一流的 TTFT。但與LMDeploy和MLC-LLM相比，解碼性能不太理想，每秒2300-2500個(gè)令牌類似于 TGI 和 TRT-LLM。

后面來看看Llama-3-70B 4位量化的情況：

AI架構(gòu)系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小實(shí)驗(yàn)-AI.x社區(qū)

AI架構(gòu)系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小實(shí)驗(yàn)-AI.x社區(qū)

LMDeploy：在為 100 個(gè)用戶提供服務(wù)時(shí)，提供高達(dá) 700 個(gè)Token的生成率，同時(shí)在所有級(jí)別的并發(fā)用戶中保持最低的TTFT。

TensorRT-LLM：在Token生成率方面表現(xiàn)出與LMDeploy相似的性能，并在低并發(fā)用戶數(shù)量下保持低 TTFT。但是當(dāng)并發(fā)用戶數(shù)達(dá)到100 時(shí)，TTFT下滑厲害。

vLLM：始終表現(xiàn)出較低的TTFT，類似于在8B模型中觀測(cè)到的。與 LMDeploy和TensorRT-LLM相比，Token生成率較低。

3.對(duì)比表格

下面對(duì)比表格從量化、模型和支持的硬件將物種大模型的服務(wù)端（運(yùn)行大模型，對(duì)外提供服務(wù)）進(jìn)行對(duì)比，其實(shí)也給讀者提供決策的依據(jù)。在選擇部署大模型的時(shí)候，可以先針對(duì)量化情況，基座模型支持度以及手頭的硬件綜合選擇后端的服務(wù)，配合云原生進(jìn)行產(chǎn)線部署。

AI架構(gòu)系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小實(shí)驗(yàn)-AI.x社區(qū)

當(dāng)然除此之外還是要考慮這些服務(wù)是否有穩(wěn)定版本，模型編譯情況還有就是文檔齊備性。

本文轉(zhuǎn)載自 ??魯班模錘??，作者：龐德公

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2024-11-4 11:16:03修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

LLM超長(zhǎng)上下文查詢-性能評(píng)估實(shí)戰(zhàn)

ermulong ? 2709瀏覽 ? 0回復(fù)
MLC-LLM: 具有ML編譯的通用LLM部署引擎

AIGC最前線 ? 4764瀏覽 ? 0回復(fù)
LLM超長(zhǎng)上下文查詢-性能評(píng)估實(shí)戰(zhàn)

ermulong ? 2528瀏覽 ? 0回復(fù)
EMNLP 2023 | LLM工業(yè)界快速落地之PromptMix: 一種有效的混合數(shù)據(jù)增強(qiáng)策略將LLM能力遷移到小模型

arnoldzhw ? 2611瀏覽 ? 0回復(fù)
編碼大模型系列：Meta創(chuàng)新的“代碼編譯優(yōu)化”的LLM

魯班模錘1 ? 3394瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：Fine-Tuning總覽

魯班模錘1 ? 3157瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：Prompt-Tuning

探索AGI ? 3030瀏覽 ? 0回復(fù)
TensorRT模型推理加速實(shí)踐

zhcs333 ? 3832瀏覽 ? 0回復(fù)
為什么最新的LLM使用混合專家(MoE)架構(gòu)

51CTO內(nèi)容精選 ? 2915瀏覽 ? 0回復(fù)
AI架構(gòu)系列：去其形而留其意

魯班模錘1 ? 2020瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：深入注意力機(jī)制

魯班模錘1 ? 2824瀏覽 ? 0回復(fù)
一種將RAG、KG、VS、TF結(jié)合增強(qiáng)領(lǐng)域LLM性能的框架

PaperAgent ? 2674瀏覽 ? 0回復(fù)
LLM實(shí)踐系列-詳談Tokenizer訓(xùn)練細(xì)節(jié)

NLP工作站 ? 2849瀏覽 ? 0回復(fù)
提升人工智能性能的三種關(guān)鍵的LLM壓縮策略

51CTO內(nèi)容精選 ? 1834瀏覽 ? 0回復(fù)
LLM實(shí)踐系列-細(xì)聊LLM的拒絕采樣

NLP工作站 ? 2523瀏覽 ? 0回復(fù)
DHelix：跨 Micro-Batch 的通信隱藏，SOTA LLM 訓(xùn)練性能

amei2000go ? 2645瀏覽 ? 0回復(fù)
VLLM 與 Ollama：如何選擇合適的輕量級(jí) LLM 框架？

AI論文解讀 ? 2.0w瀏覽 ? 0回復(fù)
AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師

魯班模錘1 ? 960瀏覽 ? 0回復(fù)
LLM實(shí)戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致

NLP工作站 ? 566瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

學(xué)會(huì)LLM思維：語(yǔ)料質(zhì)量的自評(píng)估 8天前發(fā)布
扒一扒最近較火的MCP 2025-04-10 06:28:30發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：一文讀懂OpenGVLab帶來的最新視覺預(yù)訓(xùn)練框架

下一篇：多模態(tài)大模型：基礎(chǔ)架構(gòu)

社區(qū)精華內(nèi)容

目錄

<style id="2njo3"></style>