自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="xhgfm"><tt id="xhgfm"><mark id="xhgfm"></mark></tt></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

LLM實戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致

發(fā)布于 2025-4-22 07:18

瀏覽

0收藏

下面是我前段時間跟一位群友的對話：
群友：我最近有都需要進行模型微調(diào)，但是每個任務模型調(diào)完之后都對單一任務有明顯提高，但如果合在一起訓練的話，效果又達不到最佳。所以在使用階段，部署了多個模型，但是顯卡資源真的吃不消，有什么好的解決辦法嗎？
我：你是Lora微調(diào)，還是全量參數(shù)微調(diào)的。
群友：Lora微調(diào)，全量參數(shù)微調(diào)，也沒那么多訓練資源。
我：你既然是Lora微調(diào)，那么你在部署的時候，可以只部署一個底座模型，然后多個Lora同時加載，共用一個底座模型就可以了呀。Lora本身參數(shù)沒多少，可以額外多加載好多模型。
群友：真的嗎？如何操作？求代碼。。。

不會還有人不知道，可以同一底座加載多Lora模型吧?。?！對于沒有太多顯卡資源的朋友，這個操作可以極大的節(jié)省顯存資源，同時部署多個模型，讓資源利用最大化。

如果你有10個任務，訓練了10個Lora模型，并且將每個Lora參數(shù)都Merge回了原來基模的參數(shù)中，構(gòu)成了一個新的模型，那么你在后期模型部署的時候，你想當于需要10份部署資源。假如部署一個7B模型需要一個24G的3090顯卡，那么你現(xiàn)在就需要10張3090顯卡。同時如果模型很大，部署過程中，模型Copy、上傳的時間也會非常久，會帶來很多不必要的等待時間。

但是你如果利用多Lora加載模型的話，那么10個Lora模型+一個7B基座模型，一張3090顯卡就能加載。但由于Lora參數(shù)需要額外進行計算，所以相較于Merge后的模型，計算速度會稍有變慢。

個中利弊大家自己衡量。

vLLM已經(jīng)支持這種多Lora模式加載，通過不同的ID進行不同Lora模型的調(diào)用，同時還可以調(diào)用基模，好處顯而易見，如果你搭建一個WorkFlow時，每個Tool都可以又自己專屬的優(yōu)化模型，可以將效果最大化，又沒有消耗更多額外的資源。

vLLM的相關(guān)代碼（我基于Qwen2.5-7B-Instruct訓練了兩個自我認知的Lora模型）如下：

from vllm import LLM, SamplingParams
from vllm.lora.request import LoRARequest
from transformers import AutoTokenizer

# 樣例
prompts = ["你是誰？", "你是誰訓練的？"]

# 設(shè)置生成所需參數(shù)
sampling_params = SamplingParams(temperature=0.7, top_p=0.8, top_k=50, max_tokens=2048)

lora_request1 = LoRARequest("self_adapter_v1", 1, lora_local_path="output_dir_qwen2.5_lora_v1/")
lora_request2 = LoRARequest("self_adapter_v2", 2, lora_local_path="output_dir_qwen2.5_lora_v2/")

# 創(chuàng)建模型
llm = LLM(model="Qwen2.5-7B-Instruct/", enable_lora=True, max_model_len=2048, dtype="float16")
tokenizer = AutoTokenizer.from_pretrained("Qwen2.5-7B-Instruct/")

# 通過prompts構(gòu)造prompt_token_ids
temp_prompts = [tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    tokenize=False, add_generation_wohaisprompt=True) for prompt in prompts]
print(temp_prompts)
prompt_token_ids = tokenizer(temp_prompts).input_ids

# 注意，generate可以直接使用prompts，但直接使用prompts時，默認直接使用tokenizer.encode，沒有拼接chat_template

print("加載自我認知Lora1進行模型推理：")
# 調(diào)用generate時，請求調(diào)用lora參數(shù)
outputs = llm.generate(sampling_params=sampling_params, prompt_token_ids=prompt_token_ids,
                       lora_request=lora_request1)
print(outputs)
# 輸出結(jié)果
for i, (prompt, output) in enumerate(zip(prompts, outputs)):
    generated_text = output.outputs[0].text
    print("prompt: {}, output: {}".format(prompt, generated_text))

print("加載自我認知Lora2進行模型推理：")
# 調(diào)用generate時，請求調(diào)用lora參數(shù)
outputs = llm.generate(sampling_params=sampling_params, prompt_token_ids=prompt_token_ids,
                       lora_request=lora_request2)
print(outputs)
# 輸出結(jié)果
for i, (prompt, output) in enumerate(zip(prompts, outputs)):
    generated_text = output.outputs[0].text
    print("prompt: {}, output: {}".format(prompt, generated_text))

print("不加載自我認知Lora進行模型推理：")
# 調(diào)用generate時，請求調(diào)用lora參數(shù)
outputs = llm.generate(sampling_params=sampling_params, prompt_token_ids=prompt_token_ids)
print(outputs)
# 輸出結(jié)果
for i, (prompt, output) in enumerate(zip(prompts, outputs)):
    generated_text = output.outputs[0].text
    print("prompt: {}, output: {}".format(prompt, generated_text))

結(jié)果如下，不調(diào)用Lora模塊，結(jié)果生成為Qwen，調(diào)用不同的Lora模塊，結(jié)果生成不同，一個聰聰，一個是笨笨。

加載自我認知Lora1進行模型推理：
prompt: 你是誰？, output: 我是知乎博主劉聰NLP開發(fā)的人工智能模型，我的名字叫聰聰。
prompt: 你是誰訓練的？, output: 我是由知乎博主劉聰NLP訓練的。

加載自我認知Lora2進行模型推理：
prompt: 你是誰？, output: 我是由知乎博主劉聰NLP訓練的人工智能助手笨笨。我能夠回答各種問題，提供幫助，以及與你進行對話。有什么我可以幫助你的嗎？
prompt: 你是誰訓練的？, output: 我是由知乎博主劉聰NLP訓練的。

不加載自我認知Lora進行模型推理：
prompt: 你是誰？, output: 我是Qwen，由阿里云開發(fā)的語言模型。我是一個人工智能助手，可以回答問題、創(chuàng)作文字、提供信息、娛樂、教育等。如果您有任何問題或需要幫助，請隨時告訴我，我會盡力為您提供支持。
prompt: 你是誰訓練的？, output: 我是阿里云研發(fā)的超大規(guī)模語言模型，我叫通義千問。

你說巧不巧，本來這帖子寫到這樣應該寫結(jié)束語了，正好我在無問芯穹的朋友跟我說，他們大模型服務平臺新推出了一個功能，號稱無需采購GPU，1小時內(nèi)輕松部署100個微調(diào)模型，讓我體驗一下。

平臺地址：https://cloud.infini-ai.com/login?redirect=/genstudio/inference

我這仔細一看，不就是多Lora模型部署嘛？不過，我確實也是第一次看到這樣的推理平臺。

LLM實戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致-AI.x社區(qū)

大多可以上傳模型進行推理的平臺，一般都是必須上傳整個模型文件的。有的平臺雖然支持Lora微調(diào)，但由于基模都是自己的閉源模型，推理即使是Lora模塊推理的，但我們也沒有辦法自定義上傳Lora模塊。無問芯穹這個推理平臺的設(shè)計也確實蠻有意思的。

還有它的計費規(guī)則也蠻有意思的，模型部署并不收費，具體費用按照模型的調(diào)用量（Tokens）進行收費，也就是說前期不需要自己搞算力、顯卡資源啥的。

具體操作文檔：https://docs.infini-ai.com/gen-studio/serving/create.html

步驟1：點擊創(chuàng)建模型服務，選擇上傳自己的本地模型。

LLM實戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致-AI.x社區(qū)

LLM實戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致-AI.x社區(qū)

步驟2：選擇基礎(chǔ)模型，并上傳本地Lora文件。

LLM實戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致-AI.x社區(qū)

模型上傳可以選擇scp/stfp上傳，也可以利用FileZilla客戶端上傳模型，我這里就用scp上傳了。記得scp上傳完文件，點擊“已完成上傳，開始導入”按鈕。

LLM實戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致-AI.x社區(qū)

此外，這個模型部署的好快，基本上是秒級部署，比直接部署基?？焯嗔?。

步驟3：模型測試，可以平臺體驗測試，也可以API調(diào)用，API調(diào)用接口與OpenAI接口一致，但域名規(guī)則為：

https://cloud.infini-ai.com + /maas/deployment/ + mif-c7kxdnah6nu5lrpw + /chat/completions

其中，mif-c7kxdnah6nu5lrpw 是模型服務的部署 ID，該 ID 一定帶有 mif- 前綴。

curl "https://cloud.infini-ai.com/maas/deployment/mif-damenkp32lcout5v/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer $API_KEY" \
    -d '{
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "你是誰"
            }
        ]
    }'

LLM實戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致-AI.x社區(qū)

這里說明一下，平臺目前暫時只支持了Qwen的幾個基模，其他模型如果想支持的話還需要定制，不過我朋友也說他們這個剛剛推出來，本身還在優(yōu)化中，支持的基模還在逐步增加，后面會越來越多。

這個功能才剛剛開放，想體驗的話可以注冊后，復制這個鏈接進去申請試用：https://infinigence.feishu.cn/share/base/form/shrcn6lARShCYpA93tNjilHIQnh

試用期間，Tokens免費使用，不過后面具體并發(fā)和吞吐的話，我也不清楚，說是可以根據(jù)客戶需求進行定制，大家有需要的可以去了解了解。

本文轉(zhuǎn)載自????NLP工作站????，作者：NLP工作站

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

大模型推理框架RTP-LLM對LoRA的支持

wx5bbef785639a1 ? 3905瀏覽 ? 0回復
單GPU實現(xiàn)LLM多LoRA微調(diào)

angel ? 3959瀏覽 ? 0回復
LLM微調(diào)技術(shù)LoRA圖解

51CTO內(nèi)容精選 ? 2769瀏覽 ? 0回復
MLC-LLM: 具有ML編譯的通用LLM部署引擎

AIGC最前線 ? 4770瀏覽 ? 0回復
編碼大模型系列：Meta創(chuàng)新的“代碼編譯優(yōu)化”的LLM

魯班模錘1 ? 3395瀏覽 ? 0回復
LLM基礎(chǔ)模型系列：Fine-Tuning總覽

魯班模錘1 ? 3166瀏覽 ? 0回復
你想在本地部署大模型嗎？本地部署大模型的三種工具

AI探索時代 ? 4811瀏覽 ? 0回復
LLM基礎(chǔ)模型系列：Prompt-Tuning

探索AGI ? 3030瀏覽 ? 0回復
GraphRAG + Ollama 本地部署全攻略：避坑實戰(zhàn)指南

玄姐聊AGI ? 9646瀏覽 ? 0回復
利用多Lora節(jié)省大模型部署成本

卓勝微wjp ? 2435瀏覽 ? 0回復
LLM基礎(chǔ)模型系列：深入注意力機制

魯班模錘1 ? 2833瀏覽 ? 0回復
大模型面經(jīng)——LoRA最全總結(jié)

shizhi02 ? 2433瀏覽 ? 0回復
訓練大模型時，顯存都哪去了？

魚蟲子 ? 2776瀏覽 ? 0回復
LLM實踐系列-細聊LLM的拒絕采樣

NLP工作站 ? 2523瀏覽 ? 0回復
本地構(gòu)建Llama 3.2-Vision多模態(tài)LLM聊天應用實戰(zhàn)

51CTO內(nèi)容精選 ? 2160瀏覽 ? 0回復
4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”?。。?/a>

玄姐聊AGI ? 6135瀏覽 ? 0回復
Unsloth開源新算法：讓GRPO訓練大模型所需顯存降低90%，告別顯存焦慮！

sbf_2000 ? 2076瀏覽 ? 0回復
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 6920瀏覽 ? 0回復
GPT-4.1系列深度解析：從代碼到動畫，從理論到實戰(zhàn)，AI的多面手來了！

Halo咯咯 ? 1416瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Llama4 模型細節(jié) & 效果實測 2025-04-09 07:07:26發(fā)布
Gemini2.5 Pro測試，代碼能力飆升，但多模態(tài)表格解析依舊不理想 2025-03-27 07:57:17發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： Llama4 模型細節(jié) & 效果實測

社區(qū)精華內(nèi)容

目錄

<blockquote id="rla64"><i id="rla64"></i></blockquote>