自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM實戰(zhàn)系列 | 大模型的多Lora部署,將顯存節(jié)省到極致

發(fā)布于 2025-4-22 07:18
瀏覽
0收藏

下面是我前段時間跟一位群友的對話:
群友:我最近有都需要進行模型微調(diào),但是每個任務模型調(diào)完之后都對單一任務有明顯提高,但如果合在一起訓練的話,效果又達不到最佳。所以在使用階段,部署了多個模型,但是顯卡資源真的吃不消,有什么好的解決辦法嗎?
我:你是Lora微調(diào),還是全量參數(shù)微調(diào)的。
群友:Lora微調(diào),全量參數(shù)微調(diào),也沒那么多訓練資源。
我:你既然是Lora微調(diào),那么你在部署的時候,可以只部署一個底座模型,然后多個Lora同時加載,共用一個底座模型就可以了呀。Lora本身參數(shù)沒多少,可以額外多加載好多模型。
群友:真的嗎?如何操作?求代碼。。。

不會還有人不知道,可以同一底座加載多Lora模型吧?。?!對于沒有太多顯卡資源的朋友,這個操作可以極大的節(jié)省顯存資源,同時部署多個模型,讓資源利用最大化。

如果你有10個任務,訓練了10個Lora模型,并且將每個Lora參數(shù)都Merge回了原來基模的參數(shù)中,構(gòu)成了一個新的模型,那么你在后期模型部署的時候,你想當于需要10份部署資源。假如部署一個7B模型需要一個24G的3090顯卡,那么你現(xiàn)在就需要10張3090顯卡。同時如果模型很大,部署過程中,模型Copy、上傳的時間也會非常久,會帶來很多不必要的等待時間。

但是你如果利用多Lora加載模型的話,那么10個Lora模型+一個7B基座模型,一張3090顯卡就能加載。但由于Lora參數(shù)需要額外進行計算,所以相較于Merge后的模型,計算速度會稍有變慢

個中利弊大家自己衡量。

vLLM已經(jīng)支持這種多Lora模式加載,通過不同的ID進行不同Lora模型的調(diào)用,同時還可以調(diào)用基模,好處顯而易見,如果你搭建一個WorkFlow時,每個Tool都可以又自己專屬的優(yōu)化模型,可以將效果最大化,又沒有消耗更多額外的資源。

vLLM的相關(guān)代碼(我基于Qwen2.5-7B-Instruct訓練了兩個自我認知的Lora模型)如下:

from vllm import LLM, SamplingParams
from vllm.lora.request import LoRARequest
from transformers import AutoTokenizer

# 樣例
prompts = ["你是誰?", "你是誰訓練的?"]

# 設(shè)置生成所需參數(shù)
sampling_params = SamplingParams(temperature=0.7, top_p=0.8, top_k=50, max_tokens=2048)

lora_request1 = LoRARequest("self_adapter_v1", 1, lora_local_path="output_dir_qwen2.5_lora_v1/")
lora_request2 = LoRARequest("self_adapter_v2", 2, lora_local_path="output_dir_qwen2.5_lora_v2/")

# 創(chuàng)建模型
llm = LLM(model="Qwen2.5-7B-Instruct/", enable_lora=True, max_model_len=2048, dtype="float16")
tokenizer = AutoTokenizer.from_pretrained("Qwen2.5-7B-Instruct/")

# 通過prompts構(gòu)造prompt_token_ids
temp_prompts = [tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    tokenize=False, add_generation_wohaisprompt=True) for prompt in prompts]
print(temp_prompts)
prompt_token_ids = tokenizer(temp_prompts).input_ids

# 注意,generate可以直接使用prompts,但直接使用prompts時,默認直接使用tokenizer.encode,沒有拼接chat_template

print("加載自我認知Lora1進行模型推理:")
# 調(diào)用generate時,請求調(diào)用lora參數(shù)
outputs = llm.generate(sampling_params=sampling_params, prompt_token_ids=prompt_token_ids,
                       lora_request=lora_request1)
print(outputs)
# 輸出結(jié)果
for i, (prompt, output) in enumerate(zip(prompts, outputs)):
    generated_text = output.outputs[0].text
    print("prompt: {}, output: {}".format(prompt, generated_text))

print("加載自我認知Lora2進行模型推理:")
# 調(diào)用generate時,請求調(diào)用lora參數(shù)
outputs = llm.generate(sampling_params=sampling_params, prompt_token_ids=prompt_token_ids,
                       lora_request=lora_request2)
print(outputs)
# 輸出結(jié)果
for i, (prompt, output) in enumerate(zip(prompts, outputs)):
    generated_text = output.outputs[0].text
    print("prompt: {}, output: {}".format(prompt, generated_text))

print("不加載自我認知Lora進行模型推理:")
# 調(diào)用generate時,請求調(diào)用lora參數(shù)
outputs = llm.generate(sampling_params=sampling_params, prompt_token_ids=prompt_token_ids)
print(outputs)
# 輸出結(jié)果
for i, (prompt, output) in enumerate(zip(prompts, outputs)):
    generated_text = output.outputs[0].text
    print("prompt: {}, output: {}".format(prompt, generated_text))

結(jié)果如下,不調(diào)用Lora模塊,結(jié)果生成為Qwen,調(diào)用不同的Lora模塊,結(jié)果生成不同,一個聰聰,一個是笨笨。

加載自我認知Lora1進行模型推理:
prompt: 你是誰?, output: 我是知乎博主劉聰NLP開發(fā)的人工智能模型,我的名字叫聰聰。
prompt: 你是誰訓練的?, output: 我是由知乎博主劉聰NLP訓練的。

加載自我認知Lora2進行模型推理:
prompt: 你是誰?, output: 我是由知乎博主劉聰NLP訓練的人工智能助手笨笨。我能夠回答各種問題,提供幫助,以及與你進行對話。有什么我可以幫助你的嗎?
prompt: 你是誰訓練的?, output: 我是由知乎博主劉聰NLP訓練的。

不加載自我認知Lora進行模型推理:
prompt: 你是誰?, output: 我是Qwen,由阿里云開發(fā)的語言模型。我是一個人工智能助手,可以回答問題、創(chuàng)作文字、提供信息、娛樂、教育等。如果您有任何問題或需要幫助,請隨時告訴我,我會盡力為您提供支持。
prompt: 你是誰訓練的?, output: 我是阿里云研發(fā)的超大規(guī)模語言模型,我叫通義千問。

你說巧不巧,本來這帖子寫到這樣應該寫結(jié)束語了,正好我在無問芯穹的朋友跟我說,他們大模型服務平臺新推出了一個功能,號稱無需采購GPU,1小時內(nèi)輕松部署100個微調(diào)模型,讓我體驗一下。

平臺地址:https://cloud.infini-ai.com/login?redirect=/genstudio/inference

我這仔細一看,不就是多Lora模型部署嘛?不過,我確實也是第一次看到這樣的推理平臺。

LLM實戰(zhàn)系列 | 大模型的多Lora部署,將顯存節(jié)省到極致-AI.x社區(qū)

大多可以上傳模型進行推理的平臺,一般都是必須上傳整個模型文件的。有的平臺雖然支持Lora微調(diào),但由于基模都是自己的閉源模型,推理即使是Lora模塊推理的,但我們也沒有辦法自定義上傳Lora模塊。無問芯穹這個推理平臺的設(shè)計也確實蠻有意思的。

還有它的計費規(guī)則也蠻有意思的,模型部署并不收費,具體費用按照模型的調(diào)用量(Tokens)進行收費,也就是說前期不需要自己搞算力、顯卡資源啥的。

具體操作文檔:https://docs.infini-ai.com/gen-studio/serving/create.html

步驟1:點擊創(chuàng)建模型服務,選擇上傳自己的本地模型。

LLM實戰(zhàn)系列 | 大模型的多Lora部署,將顯存節(jié)省到極致-AI.x社區(qū)

LLM實戰(zhàn)系列 | 大模型的多Lora部署,將顯存節(jié)省到極致-AI.x社區(qū)

步驟2:選擇基礎(chǔ)模型,并上傳本地Lora文件。

LLM實戰(zhàn)系列 | 大模型的多Lora部署,將顯存節(jié)省到極致-AI.x社區(qū)

模型上傳可以選擇scp/stfp上傳,也可以利用FileZilla客戶端上傳模型,我這里就用scp上傳了。記得scp上傳完文件,點擊“已完成上傳,開始導入”按鈕。

LLM實戰(zhàn)系列 | 大模型的多Lora部署,將顯存節(jié)省到極致-AI.x社區(qū)

此外,這個模型部署的好快,基本上是秒級部署,比直接部署基??焯嗔?。

步驟3:模型測試,可以平臺體驗測試,也可以API調(diào)用,API調(diào)用接口與OpenAI接口一致,但域名規(guī)則為:

https://cloud.infini-ai.com + /maas/deployment/ + mif-c7kxdnah6nu5lrpw + /chat/completions

其中,mif-c7kxdnah6nu5lrpw 是模型服務的部署 ID,該 ID 一定帶有 mif- 前綴。

curl "https://cloud.infini-ai.com/maas/deployment/mif-damenkp32lcout5v/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer $API_KEY" \
    -d '{
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "你是誰"
            }
        ]
    }'

LLM實戰(zhàn)系列 | 大模型的多Lora部署,將顯存節(jié)省到極致-AI.x社區(qū)

這里說明一下,平臺目前暫時只支持了Qwen的幾個基模,其他模型如果想支持的話還需要定制,不過我朋友也說他們這個剛剛推出來,本身還在優(yōu)化中,支持的基模還在逐步增加,后面會越來越多。

這個功能才剛剛開放,想體驗的話可以注冊后,復制這個鏈接進去申請試用:https://infinigence.feishu.cn/share/base/form/shrcn6lARShCYpA93tNjilHIQnh

試用期間,Tokens免費使用,不過后面具體并發(fā)和吞吐的話,我也不清楚,說是可以根據(jù)客戶需求進行定制,大家有需要的可以去了解了解。

本文轉(zhuǎn)載自????NLP工作站????,作者:NLP工作站

收藏
回復
舉報
回復
相關(guān)推薦