AI大模型本地化方案:Xinference 本地運行大模型
一、Xinference簡介
Xorbits Inference(Xinference)是一個開源的分布式推理框架,專為大規(guī)模模型推理任務(wù)設(shè)計。它支持大語言模型(LLM)、多模態(tài)模型、語音識別模型等多種模型的推理,極大簡化了這些模型的部署過程。
二、Xinference Docker部署
在部署Xinference時,選擇使用Docker容器可以帶來許多便利。首先,需要拉取Xinference的Docker鏡像文件,但請注意,該鏡像文件較大,約為17.7GB,拉取過程可能需要較長時間。拉取命令如下:
拉取完成后,可以創(chuàng)建一個目錄用于存放Xinference的緩存文件和日志文件,以便更好地管理數(shù)據(jù)。
接下來,啟動Xinference Docker容器。默認(rèn)情況下,鏡像中不包含任何模型文件,但會在容器內(nèi)下載所需模型。如果已有下載好的模型,可以通過掛載宿主機目錄到容器內(nèi)來使用這些模型。同時,需要配置一些環(huán)境變量來指定模型下載源和存儲目錄。
三、Xinference本地運行大模型
容器啟動后,可以通過訪問公網(wǎng)地址加上9997端口來啟動大模型。例如,啟動qwen2-instruct模型,并使用Xinference自帶的圖形化聊天界面進(jìn)行測試。
此外,還可以測試其他類型的大模型,如圖片生成模型和多模態(tài)模型。啟動這些模型時,需要注意GPU資源的需求,并根據(jù)實際情況選擇合適的GPU配置。
四、Xinference啟動嵌入和重排模型
Xinference支持啟動嵌入和重排模型,這些模型在后續(xù)的處理中可能會被其他系統(tǒng)或應(yīng)用調(diào)用。例如,可以啟動bge-m3嵌入模型和bge-reranker-v2-m3重排模型,并為后續(xù)調(diào)用做好準(zhǔn)備。
請注意,Xinference目前無法同時運行多個大模型(如語言模型、圖片模型、語音模型),但可以同時啟動多個嵌入模型和重排模型。
本文轉(zhuǎn)載自??軍哥說AI??,作者:軍哥說AI
