Ollama高并發(fā)測試
本文主要來測試一下ollama的高并發(fā)能力。
具體配置如下:
一、Ollama默認(rèn)參數(shù)執(zhí)行
我們打開4個窗口,然后分別讓DeepSeek “給我講一個笑話” ,看下不同窗口的答題順序。
通過答題順序可以看到,在不進(jìn)行參數(shù)設(shè)置時,模型是一個一個執(zhí)行。這樣就說明,默認(rèn)參數(shù)下,Ollama并不支持高并發(fā),它會逐個回復(fù)我們的請求。
二、調(diào)整Ollama高并發(fā)參數(shù)
在ollama內(nèi),有兩個參數(shù)與高并發(fā)有關(guān)分別是:
OLLAMA_MAX_LOADED_MODELS:每個模型將同時處理的最大并行請求數(shù),也就是能同時響應(yīng)幾個LLM。
至于應(yīng)用場景的話,就是我們可以同時在聊天頁面調(diào)用兩個LLM同時聊天,看看不同的LLM會有怎樣不同的響應(yīng)。
當(dāng)然,這樣設(shè)置后,不同的用戶也可以在同一時間請求不同的模型。
OLLAMA_NUM_PARALLEL:每個模型將同時處理的最大并行請求數(shù),也就是能同時回復(fù)多少個LLM。
這個參數(shù)對于高并發(fā)非常重要,如果你部署好了Ollama,假如有10個人同時請求了你的LLM,如果一個一個回答,每個模型回復(fù)10秒鐘,那輪到第10個人將會在1分多種后,對于第10個人來說是不可接受的。
以上兩個參數(shù)應(yīng)根據(jù)自己的硬件條件自行設(shè)置。
高并發(fā)測試:
我們將以上兩個參數(shù)添加到電腦的環(huán)境變量內(nèi),均設(shè)置為4。
OLLAMA_MAX_LOADED_MODELS 4
OLLAMA_NUM_PARALLEL 4
設(shè)置好后,確認(rèn)環(huán)境變量并重啟Ollama,我們來看一下效果。
可以看到,在設(shè)置并發(fā)數(shù)為4之后,模型就能同時響應(yīng)4個用戶的請求。
一般來說,對于中小型的部署,可以采用Ollam當(dāng)作底座,只需要部署多個服務(wù)器,通過反向代理與負(fù)載均衡即可實現(xiàn)。
如果要面對更多的并發(fā)請求,不建議使用Ollama當(dāng)作底座,應(yīng)采用VLLM進(jìn)行部署。