大模型部署解決方案之TorchServe+vLLM
TorchServe 是PyTorch 中將模型部署到生產環(huán)境的一個解決方案。它用HTTP 或HTTPS API 封裝模型,可以處理多種任務,包括為部署模型分配workers、負責客戶端和服務器之間通信等。
10月份發(fā)布的TorchServe 0.12 增加了對GenAI的支持,簡化了大語言模型的部署,增加了對主流模型引擎的內置支持,如 vLLM 和 TRT-LLM。
vLLM 引擎是目前執(zhí)行LLM的最佳方式之一,TorchServe為vLLM部署到生產環(huán)境中提供了必要的一些功能,比如自定義metric、模型版本控制等。并且TorchServe能夠通過靈活的自定義處理程序設計,集成RAG等功能或者Llama Guard(Meta發(fā)布的大模型,集成了多種安全檢測技術,能夠在模型處理輸入之前,對潛在的風險進行預判和攔截,從而保護模型免受惡意輸入的侵害。)等保護措施。所以集成了vLLM的TorchServe可以創(chuàng)建用于生產環(huán)境的LLM服務。
TorchServe還引入了一種異步模式,用以提高硬件利用率。它將傳入的請求直接轉發(fā)到后端,供vLLM使用,而不是之前的同步模式,需要等待預定義的時間或者有足夠的請求時才傳到后端。這樣vLLM可以自主決定何時處理哪些請求,有助于優(yōu)化資源分配,實現(xiàn)高效的負載管理。并且在流式模式下,一旦生成首個token,結果可以立即返回并持續(xù)輸出,減少用戶的等待時間。
目前TorchServe實現(xiàn)了單節(jié)點多GPU的分布式推理,未來計劃實現(xiàn)多節(jié)點推理,并提供預構建的Docker image以簡化部署過程。
參考鏈接:??https://pytorch.org/blog/deploying-llms-torchserve-vllm/??
本文轉載自公眾號AI時代窗口 作者:郁愈
