自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="452e1"><mark id="452e1"></mark></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

利用多Lora節(jié)省大模型部署成本精華

發(fā)布于 2024-8-21 09:28

瀏覽

0收藏

如何把多個大模型合并部署以節(jié)省成本呢？本文將深入探討這一技術(shù)與應用場景，利用多Lora合并部署大模型。

一、背景

近期，我們在大模型集群的部署過程中遇到了一些挑戰(zhàn)。公司有多個業(yè)務場景，每個場景都基于自身的數(shù)據(jù)進行微調(diào)，訓練出相應的大模型并上線。然而，這些場景的調(diào)用量并不高，同時大模型的部署成本較為昂貴，這造成了資源的浪費。

本文將介紹我們?nèi)绾卫枚郘ora技術(shù)，將多個場景合并部署，從而有效解決這一問題。同時，我們也將探討大模型訓練與推理過程中Lora技術(shù)的應用。

二、Lora是什么

Lora的概念

如果你去網(wǎng)上搜索"Lora"這個關(guān)鍵字，你一定會搜到下面這篇論文。

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

這就是Lora這個詞出處。這一概念是由著名人工智能研究員Edward J. Hu于2021年提出的。Lora完整名稱是低秩自適應（Low-Rank Adaptation）。雖然這個名稱比較復雜，但其核心概念卻相對容易理解。

以GPT3為例，該模型擁有1750億個參數(shù)。為了使大模型適應特定的業(yè)務場景，我們通常需要對其進行微調(diào)。如果對大模型進行全參數(shù)微調(diào)，因其參數(shù)數(shù)量龐大，成本將非常高。Lora技術(shù)的解決方案是，僅對不到2%的參數(shù)進行微調(diào)，其他參數(shù)則保持不變。相較于全參微調(diào)GPT-3（175B），Lora最多能夠?qū)⒂柧殔?shù)的數(shù)量減少約10,000倍，GPU內(nèi)存需求也減少三倍。

那么，Lora是如何凍結(jié)參數(shù)的呢？接下來，我們將展示Lora的經(jīng)典原理圖。

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

上圖中，W 表示大模型的一個原始參數(shù)矩陣。Lora的思路是將矩陣 W 拆分為兩個低秩矩陣 A 和 B。在訓練過程中，僅對 A 和 B 的參數(shù)進行訓練，這與訓練整個 W 的參數(shù)相比，能顯著減少所需的訓練參數(shù)數(shù)量，從而降低訓練成本。

如何開啟大模型的Lora微調(diào)

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

雖然論文中Lora的原理較為復雜，但實際上開啟大模型的Lora微調(diào)過程相對簡單。許多算法框架都支持快速上手微調(diào)。以LLaMA-Factory這個微調(diào)大模型的框架為例，啟用Lora微調(diào)只需配置以下參數(shù)：

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

接下來，執(zhí)行訓練命令即可啟動Lora微調(diào)：

llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml

通過這個命令，LLaMA-Factory框架將讀取配置文件，并開始進行Lora微調(diào)。整個過程相對簡便，使得用戶能夠快速適應并利用Lora技術(shù)進行大模型微調(diào)。

Lora微調(diào)完成后，將生成一個只包含部分參數(shù)（即Lora參數(shù)）的文件，稱為Lora Adapter。與整個大模型的所有參數(shù)相比，這個參數(shù)文件非常小。

三、如何基于Lora部署大模型

Lora參數(shù)合并

經(jīng)過微調(diào)后，會生成一個Lora文件，里面僅包含部分參數(shù)。如何利用這個Lora文件來部署大模型呢？

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

我們之前提到，Lora參數(shù)實際上是將大模型的其余參數(shù)凍結(jié)后剩下的部分。Lora參數(shù)本身也是大模型參數(shù)的一部分，通常占比小于整體的2%。將微調(diào)后的Lora參數(shù)與大模型的原始參數(shù)合并后，就可以生成一個新的微調(diào)大模型，之后只需直接部署這個新模型即可。

合并的操作步驟也比較簡單，以LLaMA-Factory這個大模型微調(diào)訓練框架為例。

首先，完成如下配置：

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

接下來，執(zhí)行命令

llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml

即可將參數(shù)合并成一個新的大模型。

如何部署合并后的大模型

合并后的大模型只有一些參數(shù)文件，若要進行部署，還需選擇合適的推理引擎。目前推薦使用 VLLM 這個開源推理引擎，它得到了眾多大廠模型的廣泛支持。無論從性能還是易用性來看，VLLM 都非常出色。

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

VLLM最初由加州大學伯克利分校的一支三人博士團隊發(fā)起，創(chuàng)始人開創(chuàng)性地提出了PageAttention這一概念。這一創(chuàng)新顯著提高了大模型的吞吐量，提升幅度達到幾十倍。PageAttention目前已成為各大推理引擎的必備技能。

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

如果想用VLLM來部署一個大模型，其步驟非常簡單。首先，執(zhí)行下面的命令安裝VLLM：

pip install vllm

然后執(zhí)行下面命令，即可啟動服務。

vllm serve {模型文件地址}

這樣的部署流程有什么問題？

首先，讓我們回顧一下之前的訓練和部署流程。

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

對于每個業(yè)務場景，我們首先通過微調(diào)訓練生成一個Lora參數(shù)文件，然后將Lora參數(shù)文件與基礎(chǔ)大模型合并，最后進行大模型的部署。這是一個經(jīng)典的流程。

然而，如果業(yè)務場景眾多且每個場景的流量較小，就需要部署多套大模型。以常見的7B大模型為例，至少需要一塊22G顯存的顯卡才能運行，而14B模型需要兩塊22G顯存的顯卡，70B的大模型則需要更高的成本。這種情況可能導致GPU資源的浪費。

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

四、多Lora部署大模型又是什么

多Lora的技術(shù)原理是什么

在上述部署流程中，微調(diào)大模型后會生成一個Lora文件，該文件需要與基礎(chǔ)大模型合并成一個新的大模型。然而，實際上，我們可以選擇不合并Lora文件，而是直接在顯存中加載原有的大模型參數(shù)和Lora參數(shù)，然后進行推理。這種方法同樣是可行的。

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

參考上面的Lora原理圖，W表示大模型的一個原始參數(shù)矩陣。Lora的思路是將矩陣W拆分為兩個低秩矩陣A和B，并對這兩個矩陣進行訓練。訓練結(jié)束后，我們可以選擇將A和B矩陣與W矩陣合并，也可以不合并，而是分別使用W和A/B進行計算，然后再將計算結(jié)果進行合并，最終效果是一樣的。

因此，我們的部署流程可以進行如下調(diào)整：業(yè)務方在進行Lora微調(diào)后生成一個Lora文件。接下來，我們在顯存中加載基礎(chǔ)大模型，同時也加載業(yè)務方的Lora文件，直接進行推理。如果有多個業(yè)務方參與，每個業(yè)務方都會產(chǎn)生一個Lora文件，于是這一部署流程可以推廣至如下圖所示。

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

每個業(yè)務場景都基于自己的業(yè)務數(shù)據(jù)訓練一個Lora文件。在部署時，我們只需選擇一個基礎(chǔ)大模型，并在顯存中同時加載多個Lora文件。這樣，便可以使用一塊顯卡同時滿足多個業(yè)務場景的需求。當用戶發(fā)出請求時，要在請求中指定需要調(diào)用的Lora模型是哪個。

多Lora適應于什么場景

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

多Lora適用于以下場景：

業(yè)務場景多樣化：當你的業(yè)務場景較多，并且每個場景都需要根據(jù)其特定數(shù)據(jù)進行微調(diào)生成一份自己的大模型。
調(diào)用量較?。喝绻總€業(yè)務場景的調(diào)用量相對較少，那么單獨為每個場景部署一份大模型的成本將顯得很高。

采用多Lora的方式來部署大模型可以有效解決這些問題。通過只加載一份基礎(chǔ)大模型，同時在顯存中加載多個較小的Lora文件，我們能夠顯著減少因重復部署帶來的成本。這樣，便可以為多個業(yè)務場景提供支持，同時保持資源的高效利用。

哪些推理框架支持多Lora

目前，支持多Lora的推理框架中，VLLM是一個推薦的選擇。我們對VLLM的多Lora性能進行了壓測，結(jié)果顯示它在性能和易用性方面表現(xiàn)都非常不錯。

如果你想使用VLLM來部署多Lora，只需執(zhí)行以下命令即可：

vllm serve {你的模型地址} --enable-lora --lora-modules {lora1的地址} {lora2的地址}

這樣，你就可以輕松地在VLLM中啟用多Lora的功能。

多Lora的性能怎么樣，有哪些限制

為了驗證多Lora的性能，我們特意用Llama3-8b模型，L20GPU顯卡進行了壓測對比，數(shù)據(jù)如下：

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

可見，多Lora對推理的吞吐與速度的影響幾乎可以忽略。

那么，多Lora在使用時有哪些限制呢？

利用多Lora節(jié)省大模型部署成本-AI.x社區(qū)

共享基礎(chǔ)大模型：所有希望一起部署的多個業(yè)務場景必須使用相同的基礎(chǔ)大模型。這是因為在多Lora部署時，基礎(chǔ)大模型只需加載一份，以支持多個Lora的推理。
Lora秩的限制：如果使用VLLM進行多Lora部署，微調(diào)訓練時，Lora的秩R的值不要超過64。大多數(shù)情況下，這個條件都是可以滿足的，但在特定場景中需要注意這一點。

因此，在進行多Lora部署之前，需確保滿足上述要求，以保證系統(tǒng)的正常運行。

五、總結(jié)

本文從如何節(jié)省多業(yè)務場景部署大模型的成本入手，逐步介紹了Lora的概念、如何對大模型進行Lora微調(diào)，以及微調(diào)后如何合并Lora參數(shù)以部署大模型。接著，我們提出了一個問題：在多個業(yè)務場景的部署中，如何降低大模型的部署成本。為此，我們介紹了利用多Lora的方式，以合并多個業(yè)務場景的部署。

文章最后，我們分享了對多Lora部署模式的壓測效果，結(jié)果顯示，多Lora與合并后部署的方式相比，性能幾乎可以忽略不計。我們還推薦了支持多Lora的推理引擎，幫助讀者更好地應用這一技術(shù)。

當然，在使用多Lora時也需注意一些限制條件，比如多個場景必須使用相同的基礎(chǔ)大模型。如果你有類似的場景或?qū)Υ竽Ｐ图夹g(shù)感興趣，歡迎與我們交流學習，共同進步。

本文轉(zhuǎn)載自??得物技術(shù)??，作者： linggong ????

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

大模型推理框架RTP-LLM對LoRA的支持

wx5bbef785639a1 ? 3917瀏覽 ? 0回復
大模型微調(diào)新范式：當LoRA遇見MoE

zhangyannni ? 3358瀏覽 ? 0回復
通用的數(shù)據(jù)清洗框架：利用多模態(tài)大模型檢測數(shù)據(jù)集中的惡意樣本

爛漫樹林 ? 6289瀏覽 ? 0回復
玩轉(zhuǎn)大模型！用Replicate一鍵部署

開發(fā)者阿橙 ? 4439瀏覽 ? 0回復
單GPU實現(xiàn)LLM多LoRA微調(diào)

angel ? 3970瀏覽 ? 0回復
你想在本地部署大模型嗎？本地部署大模型的三種工具

AI探索時代 ? 4822瀏覽 ? 0回復
英偉達開源新大模型：訓練數(shù)據(jù)減少40倍，算力節(jié)省1.8倍

Aceryt ? 2727瀏覽 ? 0回復
大模型面經(jīng)——LoRA最全總結(jié)

shizhi02 ? 2446瀏覽 ? 0回復
優(yōu)雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 3256瀏覽 ? 0回復
OPEN-RAG：利用開源大模型增強檢索增強推理

大模型自然語言處理 ? 2066瀏覽 ? 0回復
利用 Schemonic 優(yōu)化數(shù)據(jù)庫模式描述以降低大語言模型成本

AIGC前沿技術(shù)追蹤 ? 2170瀏覽 ? 0回復
大模型部署調(diào)用(vLLM+LangChain)

一起AI技術(shù) ? 4488瀏覽 ? 0回復
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風云2002_1 ? 1.1w瀏覽 ? 0回復
如何利用 DeepSeek-R1 本地部署強大的推理模型：從 ChatGPT 風格界面到 API 集成

Halo咯咯 ? 2767瀏覽 ? 0回復
4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”！?。?/a>

玄姐聊AGI ? 6157瀏覽 ? 0回復
從大模型性能優(yōu)化到DeepSeek部署

卓勝微wjp ? 4160瀏覽 ? 0回復
在企業(yè)場景中應該怎么部署大模型——大模型企業(yè)級部署框架介紹

AI探索時代 ? 1395瀏覽 ? 0回復
部署一個大模型，到底需要多大機器？

hm673c38238a021 ? 1078瀏覽 ? 0回復
LLM實戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致

NLP工作站 ? 581瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

從對話到自主行動：AI應用如何從 Chat 進化為 Agent？開源項目源碼深度揭秘 2025-03-26 00:42:39發(fā)布
從大模型性能優(yōu)化到DeepSeek部署 2025-02-20 09:42:58發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：深入剖析時序Prophet模型：工作原理與源碼解析

下一篇： RAG應用在得物開放平臺的智能答疑的探索

社區(qū)精華內(nèi)容

目錄

<blockquote id="dv42f"></blockquote>

^{<thead id="dv42f"></thead>}