自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Ollama高并發(fā)測試

人工智能
本文主要來測試一下ollama的高并發(fā)能力。

本文主要來測試一下ollama的高并發(fā)能力。

具體配置如下:

圖片

一、Ollama默認(rèn)參數(shù)執(zhí)行

我們打開4個窗口,然后分別讓DeepSeek “給我講一個笑話” ,看下不同窗口的答題順序。

圖片

通過答題順序可以看到,在不進(jìn)行參數(shù)設(shè)置時,模型是一個一個執(zhí)行。這樣就說明,默認(rèn)參數(shù)下,Ollama并不支持高并發(fā),它會逐個回復(fù)我們的請求。

二、調(diào)整Ollama高并發(fā)參數(shù)

在ollama內(nèi),有兩個參數(shù)與高并發(fā)有關(guān)分別是:

OLLAMA_MAX_LOADED_MODELS:每個模型將同時處理的最大并行請求數(shù),也就是能同時響應(yīng)幾個LLM。

至于應(yīng)用場景的話,就是我們可以同時在聊天頁面調(diào)用兩個LLM同時聊天,看看不同的LLM會有怎樣不同的響應(yīng)。

當(dāng)然,這樣設(shè)置后,不同的用戶也可以在同一時間請求不同的模型。

OLLAMA_NUM_PARALLEL:每個模型將同時處理的最大并行請求數(shù),也就是能同時回復(fù)多少個LLM。

這個參數(shù)對于高并發(fā)非常重要,如果你部署好了Ollama,假如有10個人同時請求了你的LLM,如果一個一個回答,每個模型回復(fù)10秒鐘,那輪到第10個人將會在1分多種后,對于第10個人來說是不可接受的。

以上兩個參數(shù)應(yīng)根據(jù)自己的硬件條件自行設(shè)置。

高并發(fā)測試:

我們將以上兩個參數(shù)添加到電腦的環(huán)境變量內(nèi),均設(shè)置為4。

圖片

OLLAMA_MAX_LOADED_MODELS  4
OLLAMA_NUM_PARALLEL 4

設(shè)置好后,確認(rèn)環(huán)境變量并重啟Ollama,我們來看一下效果。

圖片

可以看到,在設(shè)置并發(fā)數(shù)為4之后,模型就能同時響應(yīng)4個用戶的請求。

一般來說,對于中小型的部署,可以采用Ollam當(dāng)作底座,只需要部署多個服務(wù)器,通過反向代理與負(fù)載均衡即可實現(xiàn)。

如果要面對更多的并發(fā)請求,不建議使用Ollama當(dāng)作底座,應(yīng)采用VLLM進(jìn)行部署。

責(zé)任編輯:龐桂玉 來源: Python伊甸園
相關(guān)推薦

2025-03-10 08:30:00

開源大模型

2019-12-25 09:49:12

WebKitWindowsChrome

2019-06-28 10:55:04

預(yù)熱高并發(fā)并發(fā)高

2017-02-20 07:47:04

緩存HASH高并發(fā)

2018-09-15 04:59:01

2021-05-14 14:52:59

高并發(fā)TPSQPS

2025-04-09 10:47:02

2016-05-30 10:06:12

用友iUAP壓力測試

2009-06-16 14:43:23

大型網(wǎng)站系統(tǒng)架構(gòu)

2021-05-24 09:28:41

軟件開發(fā) 技術(shù)

2021-10-28 09:36:12

高并發(fā)數(shù)據(jù)實踐

2016-11-25 00:38:45

隔離負(fù)載均衡系統(tǒng)

2012-12-27 10:31:43

開發(fā)設(shè)計架構(gòu)設(shè)計

2022-02-16 14:29:21

Callable接口IDE

2013-01-30 10:12:24

NginxNginx優(yōu)化高并發(fā)

2014-08-08 13:30:44

Nginx

2016-12-28 14:16:25

京東高并發(fā)系統(tǒng)設(shè)計

2025-02-28 00:03:22

高并發(fā)TPS系統(tǒng)

2025-02-26 03:00:00

2020-06-30 09:12:34

高并發(fā)薪資并發(fā)量
點贊
收藏

51CTO技術(shù)棧公眾號