自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用vLLM部署工具加速Q(mào)WQ,推理速度比ollama更快、并發(fā)更高

人工智能
相比于ollama,vllm輸出的速度更快,支持的并發(fā)更高,目前也沒有遇到安全問題,穩(wěn)定性非常好,更適合作為服務(wù)器的接口服務(wù)來部署。

與傳統(tǒng)的HuggingFace Transformers相比,vLLM的吞吐量高達24倍,且無需改變模型架構(gòu),它采用創(chuàng)新的PagedAttention算法,優(yōu)化了注意力鍵和值的管理,從而提升了推理速度,并且其能夠有效地利用多核CPU和GPU資源,顯著提升LLM的推理速度。

相比于ollama,vllm輸出的速度更快,支持的并發(fā)更高,目前也沒有遇到安全問題,穩(wěn)定性非常好,更適合作為服務(wù)器的接口服務(wù)來部署。

但相應(yīng)的,vllm會把服務(wù)器的GPU顯存都占滿,使得機器無法再部署其他服務(wù),同時ollama部署更加的簡單,也是因為這個原因ollama在最近部署deepseek的熱潮中被提到的更多一些,因此個人使用可能ollama更合適。

關(guān)于vllm和ollama的對比可以看文章:ollama和vllm部署對比那個更合適

vLLM本地環(huán)境準備

vllm需要使用最新的0.7.3版本,支持思考過程增加<think>標簽。

建議用conda新建一個環(huán)境來安裝

pip install vllm==0.7.3

python環(huán)境我這里使用的是python3.8,顯卡為a40顯卡40g顯存版本。

模型權(quán)重下載

因為網(wǎng)絡(luò)問題,建議在阿里魔塔社區(qū)下載QWQ模型。

圖片

選擇好對應(yīng)的版本后,使用pip安裝modelscope,便可以下載選中的版本模型了:

from modelscope import snapshot_download 
model_dir = snapshot_download('qwen/QWQ-32B')

vLLM部署運行模型

因為之前已經(jīng)配置好vLLM的環(huán)境,所以使用以下命令可以運行模型:

/root/miniconda3/envs/vllm/bin/python  
-m vllm.entrypoints.openai.api_server 
--served-model-name qwq-32b 
--model /root/.cache/modelscope/hub/qwen/QWQ-32B

參數(shù)解析:

模型路徑:--model  /root/.cache/modelscope/hub/qwen/QWQ-32B

模型名稱:–served-model qwq-32b

QWQ的推理效果可以查看文章 QwQ總結(jié)能力測評,32b小模型真能超過deepseek嗎

寫在最后

2025年的今天,AI創(chuàng)新已如井噴,幾乎每天都有新的技術(shù)出現(xiàn)。作為親歷三次AI浪潮的技術(shù)人,我堅信AI不是替代人類,而是讓我們從重復工作中解放出來,專注于更有創(chuàng)造性的事情,關(guān)注我們公眾號口袋大數(shù)據(jù),一起探索大模型落地的無限可能!

責任編輯:龐桂玉 來源: 口袋大數(shù)據(jù)
相關(guān)推薦

2025-04-24 10:26:40

2025-04-09 08:20:00

2025-04-09 03:25:00

2025-03-10 05:00:00

2023-04-06 19:13:57

2025-03-10 10:00:00

Ollama高并發(fā)

2009-12-04 10:17:47

公共DNS服務(wù)

2025-04-29 07:47:27

2025-02-28 07:11:20

2009-07-24 13:37:51

虛擬機VSM服務(wù)器虛擬化

2009-03-13 19:29:34

IE8載入速度瀏覽器

2010-01-06 13:57:03

解析JSON

2024-07-19 09:59:31

2009-08-31 17:15:37

LinuxWindowsLinux操作系統(tǒng)

2013-03-13 09:36:56

PC清理工具Windows8

2023-02-13 09:32:37

模型訓練

2021-01-13 10:51:08

PromissetTimeout(函數(shù)

2023-01-08 13:22:03

模型
點贊
收藏

51CTO技術(shù)棧公眾號