利用多Lora節(jié)省大模型部署成本 精華
如何把多個大模型合并部署以節(jié)省成本呢?本文將深入探討這一技術(shù)與應用場景,利用多Lora合并部署大模型。
一、背景
近期,我們在大模型集群的部署過程中遇到了一些挑戰(zhàn)。公司有多個業(yè)務場景,每個場景都基于自身的數(shù)據(jù)進行微調(diào),訓練出相應的大模型并上線。然而,這些場景的調(diào)用量并不高,同時大模型的部署成本較為昂貴,這造成了資源的浪費。
本文將介紹我們?nèi)绾卫枚郘ora技術(shù),將多個場景合并部署,從而有效解決這一問題。同時,我們也將探討大模型訓練與推理過程中Lora技術(shù)的應用。
二、Lora是什么
Lora的概念
如果你去網(wǎng)上搜索"Lora"這個關(guān)鍵字,你一定會搜到下面這篇論文。
這就是Lora這個詞出處。這一概念是由著名人工智能研究員Edward J. Hu于2021年提出的。Lora完整名稱是低秩自適應(Low-Rank Adaptation)。雖然這個名稱比較復雜,但其核心概念卻相對容易理解。
以GPT3為例,該模型擁有1750億個參數(shù)。為了使大模型適應特定的業(yè)務場景,我們通常需要對其進行微調(diào)。如果對大模型進行全參數(shù)微調(diào),因其參數(shù)數(shù)量龐大,成本將非常高。Lora技術(shù)的解決方案是,僅對不到2%的參數(shù)進行微調(diào),其他參數(shù)則保持不變。相較于全參微調(diào)GPT-3(175B),Lora最多能夠?qū)⒂柧殔?shù)的數(shù)量減少約10,000倍,GPU內(nèi)存需求也減少三倍。
那么,Lora是如何凍結(jié)參數(shù)的呢?接下來,我們將展示Lora的經(jīng)典原理圖。
上圖中,W 表示大模型的一個原始參數(shù)矩陣。Lora的思路是將矩陣 W 拆分為兩個低秩矩陣 A 和 B。在訓練過程中,僅對 A 和 B 的參數(shù)進行訓練,這與訓練整個 W 的參數(shù)相比,能顯著減少所需的訓練參數(shù)數(shù)量,從而降低訓練成本。
如何開啟大模型的Lora微調(diào)
雖然論文中Lora的原理較為復雜,但實際上開啟大模型的Lora微調(diào)過程相對簡單。許多算法框架都支持快速上手微調(diào)。以LLaMA-Factory這個微調(diào)大模型的框架為例,啟用Lora微調(diào)只需配置以下參數(shù):
接下來,執(zhí)行訓練命令即可啟動Lora微調(diào):
llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml
通過這個命令,LLaMA-Factory框架將讀取配置文件,并開始進行Lora微調(diào)。整個過程相對簡便,使得用戶能夠快速適應并利用Lora技術(shù)進行大模型微調(diào)。
Lora微調(diào)完成后,將生成一個只包含部分參數(shù)(即Lora參數(shù))的文件,稱為Lora Adapter。與整個大模型的所有參數(shù)相比,這個參數(shù)文件非常小。
三、如何基于Lora部署大模型
Lora參數(shù)合并
經(jīng)過微調(diào)后,會生成一個Lora文件,里面僅包含部分參數(shù)。如何利用這個Lora文件來部署大模型呢?
我們之前提到,Lora參數(shù)實際上是將大模型的其余參數(shù)凍結(jié)后剩下的部分。Lora參數(shù)本身也是大模型參數(shù)的一部分,通常占比小于整體的2%。將微調(diào)后的Lora參數(shù)與大模型的原始參數(shù)合并后,就可以生成一個新的微調(diào)大模型,之后只需直接部署這個新模型即可。
合并的操作步驟也比較簡單,以LLaMA-Factory這個大模型微調(diào)訓練框架為例。
首先,完成如下配置:
接下來,執(zhí)行命令
llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml
即可將參數(shù)合并成一個新的大模型。
如何部署合并后的大模型
合并后的大模型只有一些參數(shù)文件,若要進行部署,還需選擇合適的推理引擎。目前推薦使用 VLLM 這個開源推理引擎,它得到了眾多大廠模型的廣泛支持。無論從性能還是易用性來看,VLLM 都非常出色。
VLLM最初由加州大學伯克利分校的一支三人博士團隊發(fā)起,創(chuàng)始人開創(chuàng)性地提出了PageAttention這一概念。這一創(chuàng)新顯著提高了大模型的吞吐量,提升幅度達到幾十倍。PageAttention目前已成為各大推理引擎的必備技能。
如果想用VLLM來部署一個大模型,其步驟非常簡單。首先,執(zhí)行下面的命令安裝VLLM:
pip install vllm
然后執(zhí)行下面命令,即可啟動服務。
vllm serve {模型文件地址}
這樣的部署流程有什么問題?
首先,讓我們回顧一下之前的訓練和部署流程。
對于每個業(yè)務場景,我們首先通過微調(diào)訓練生成一個Lora參數(shù)文件,然后將Lora參數(shù)文件與基礎(chǔ)大模型合并,最后進行大模型的部署。這是一個經(jīng)典的流程。
然而,如果業(yè)務場景眾多且每個場景的流量較小,就需要部署多套大模型。以常見的7B大模型為例,至少需要一塊22G顯存的顯卡才能運行,而14B模型需要兩塊22G顯存的顯卡,70B的大模型則需要更高的成本。這種情況可能導致GPU資源的浪費。
四、多Lora部署大模型又是什么
多Lora的技術(shù)原理是什么
在上述部署流程中,微調(diào)大模型后會生成一個Lora文件,該文件需要與基礎(chǔ)大模型合并成一個新的大模型。然而,實際上,我們可以選擇不合并Lora文件,而是直接在顯存中加載原有的大模型參數(shù)和Lora參數(shù),然后進行推理。這種方法同樣是可行的。
參考上面的Lora原理圖,W表示大模型的一個原始參數(shù)矩陣。Lora的思路是將矩陣W拆分為兩個低秩矩陣A和B,并對這兩個矩陣進行訓練。訓練結(jié)束后,我們可以選擇將A和B矩陣與W矩陣合并,也可以不合并,而是分別使用W和A/B進行計算,然后再將計算結(jié)果進行合并,最終效果是一樣的。
因此,我們的部署流程可以進行如下調(diào)整:業(yè)務方在進行Lora微調(diào)后生成一個Lora文件。接下來,我們在顯存中加載基礎(chǔ)大模型,同時也加載業(yè)務方的Lora文件,直接進行推理。如果有多個業(yè)務方參與,每個業(yè)務方都會產(chǎn)生一個Lora文件,于是這一部署流程可以推廣至如下圖所示。
每個業(yè)務場景都基于自己的業(yè)務數(shù)據(jù)訓練一個Lora文件。在部署時,我們只需選擇一個基礎(chǔ)大模型,并在顯存中同時加載多個Lora文件。這樣,便可以使用一塊顯卡同時滿足多個業(yè)務場景的需求。當用戶發(fā)出請求時,要在請求中指定需要調(diào)用的Lora模型是哪個。
多Lora適應于什么場景
多Lora適用于以下場景:
- 業(yè)務場景多樣化:當你的業(yè)務場景較多,并且每個場景都需要根據(jù)其特定數(shù)據(jù)進行微調(diào)生成一份自己的大模型。
- 調(diào)用量較?。喝绻總€業(yè)務場景的調(diào)用量相對較少,那么單獨為每個場景部署一份大模型的成本將顯得很高。
采用多Lora的方式來部署大模型可以有效解決這些問題。通過只加載一份基礎(chǔ)大模型,同時在顯存中加載多個較小的Lora文件,我們能夠顯著減少因重復部署帶來的成本。這樣,便可以為多個業(yè)務場景提供支持,同時保持資源的高效利用。
哪些推理框架支持多Lora
目前,支持多Lora的推理框架中,VLLM是一個推薦的選擇。我們對VLLM的多Lora性能進行了壓測,結(jié)果顯示它在性能和易用性方面表現(xiàn)都非常不錯。
如果你想使用VLLM來部署多Lora,只需執(zhí)行以下命令即可:
vllm serve {你的模型地址} --enable-lora --lora-modules {lora1的地址} {lora2的地址}
這樣,你就可以輕松地在VLLM中啟用多Lora的功能。
多Lora的性能怎么樣,有哪些限制
為了驗證多Lora的性能,我們特意用Llama3-8b模型,L20GPU顯卡進行了壓測對比,數(shù)據(jù)如下:
可見,多Lora對推理的吞吐與速度的影響幾乎可以忽略。
那么,多Lora在使用時有哪些限制呢?
- 共享基礎(chǔ)大模型:所有希望一起部署的多個業(yè)務場景必須使用相同的基礎(chǔ)大模型。這是因為在多Lora部署時,基礎(chǔ)大模型只需加載一份,以支持多個Lora的推理。
- Lora秩的限制:如果使用VLLM進行多Lora部署,微調(diào)訓練時,Lora的秩R的值不要超過64。大多數(shù)情況下,這個條件都是可以滿足的,但在特定場景中需要注意這一點。
因此,在進行多Lora部署之前,需確保滿足上述要求,以保證系統(tǒng)的正常運行。
五、總結(jié)
本文從如何節(jié)省多業(yè)務場景部署大模型的成本入手,逐步介紹了Lora的概念、如何對大模型進行Lora微調(diào),以及微調(diào)后如何合并Lora參數(shù)以部署大模型。接著,我們提出了一個問題:在多個業(yè)務場景的部署中,如何降低大模型的部署成本。為此,我們介紹了利用多Lora的方式,以合并多個業(yè)務場景的部署。
文章最后,我們分享了對多Lora部署模式的壓測效果,結(jié)果顯示,多Lora與合并后部署的方式相比,性能幾乎可以忽略不計。我們還推薦了支持多Lora的推理引擎,幫助讀者更好地應用這一技術(shù)。
當然,在使用多Lora時也需注意一些限制條件,比如多個場景必須使用相同的基礎(chǔ)大模型。如果你有類似的場景或?qū)Υ竽P图夹g(shù)感興趣,歡迎與我們交流學習,共同進步。
本文轉(zhuǎn)載自??得物技術(shù)??,作者: linggong ????
