自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="xlmx6"><samp id="xlmx6"></samp></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

單個GPU就能跑！UC伯克利領(lǐng)頭，130億參數(shù)「小羊駝」權(quán)重公布

作者：新智元 2023-04-04 13:17:00

商務(wù)辦公

剛剛，UC伯克利、CMU、斯坦福等，聯(lián)手發(fā)布了最新開源模型駱馬（Vicuna）的權(quán)重。

3月31日，UC伯克利聯(lián)手CMU、斯坦福、UCSD和MBZUAI，推出了130億參數(shù)的Vicuna，俗稱「小羊駝」（駱馬），僅需300美元就能實現(xiàn)ChatGPT 90%的性能。?

今天，團隊正式發(fā)布了Vicuna的權(quán)重——只需單個GPU就能跑！

項目地址：https://github.com/lm-sys/FastChat/#fine-tuning

130億參數(shù)，90%匹敵ChatGPT

Vicuna是通過在ShareGPT收集的用戶共享對話上對LLaMA進行微調(diào)訓(xùn)練而來，訓(xùn)練成本近300美元。

研究人員設(shè)計了8個問題類別，包括數(shù)學(xué)、寫作、編碼，對Vicuna-13B與其他四個模型進行了性能測試。

測試過程使用GPT-4作為評判標準，結(jié)果顯示Vicuna-13B在超過90%的情況下實現(xiàn)了與ChatGPT和Bard相匹敵的能力。同時，在在超過90%的情況下勝過了其他模型，如LLaMA和斯坦福的Alpaca。

訓(xùn)練

Vicuna-13B的訓(xùn)練流程如下：

首先，研究人員從ChatGPT對話分享網(wǎng)站ShareGPT上，收集了大約70K對話。接下來，研究人員優(yōu)化了Alpaca提供的訓(xùn)練腳本，使模型能夠更好地處理多輪對話和長序列。之后利用PyTorch FSDP在8個A100 GPU上進行了一天的訓(xùn)練。

內(nèi)存優(yōu)化：

為了使Vicuna能夠理解長上下文，將最大上下文長度從Alpaca的512擴展到2048，這大大增加了GPU內(nèi)存需求。在此，研究人員通過使用梯度檢查點和閃存注意力來解決內(nèi)存壓力。

多輪對話：

通過調(diào)整訓(xùn)練損失以考慮多輪對話，并僅在聊天機器人的輸出上計算微調(diào)損失。

通過Spot實例降低成本：

采用SkyPilot托管的Spot實例來降低成本，將7B模型的訓(xùn)練成本從500美元降低到約140美元，將13B模型的訓(xùn)練成本從約1000美元降低到300美元。

評估

在模型的質(zhì)量評估方面，研究人員創(chuàng)建了80個不同的問題，并用GPT-4對模型輸出進行了評價。

為了比較不同的模型，研究人員將每個模型的輸出組合成一個單獨的提示，然后讓GPT-4評估哪個模型給出的回答更好。

其中，GPT-4在超過90%的問題中更喜歡Vicuna，而不是現(xiàn)有的SOTA開源模型（LLaMA、Alpaca）。

在45%的問題中，GPT-4認為Vicuna的回答和ChatGPT差不多甚至更好。

綜合來看，Vicuna在總分上達到ChatGPT的92%。

安裝使用

安裝

方法一：

# Install FastChat
pip3 install fschat


# Install a specific commit of huggingface/transformers
# Our released weights do not work with commits after this due to some upstream changes in the tokenizer.
pip3 install git+https://github.com/huggingface/transformers@c612628045822f909020f7eb6784c79700813eda

方法二：

1. clone版本庫并變更目錄到FastChat文件夾

git clone https://github.com/lm-sys/FastChat.git
cd FastChat

2. 安裝Package

pip3 install --upgrade pip  # enable PEP 660 support
pip3 install -e .

權(quán)重

根據(jù)LLaMA模型的許可，權(quán)重將以delta的形式發(fā)布。只需將其加到原來的LLaMA權(quán)重上，就可以獲得最終的Vicuna權(quán)重。

1. 按照huggingface上的說明，獲得原始的LLaMA權(quán)重

2. 通過腳本，自動從團隊的Hugging Face賬戶上下載delta權(quán)重

python3 -m fastchat.model.apply_delta \
    --base /path/to/llama-13b \
    --target /output/path/to/vicuna-13b \
    --delta lmsys/vicuna-13b-delta-v0

使用

單個GPU

Vicuna-13B需要大約28GB的GPU顯存。

python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights

多個GPU

如果沒有足夠的顯存，則可以使用模型并行來聚合同一臺機器上多個GPU的顯存。

python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --num-gpus 2

僅用CPU

如果想在CPU上運行，則需要大約60GB的內(nèi)存。

python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --device cpu

Web UI

啟動控制器

python3 -m fastchat.serve.controller

啟動model worker

python3 -m fastchat.serve.model_worker --model-path /path/to/vicuna/weights

當進程完成模型的加載后，會看到「Uvicorn running on ...」。

發(fā)送測試消息

python3 -m fastchat.serve.test_message --model-name vicuna-13b

· 啟動gradio網(wǎng)絡(luò)服務(wù)器

python3 -m fastchat.serve.gradio_web_server

現(xiàn)在，你就可以打開瀏覽器和模型聊天了。

微調(diào)

數(shù)據(jù)

Vicuna是通過使用從ShareGPT收集到的大約7萬個用戶共享的對話與公共API來微調(diào)一個LLaMA基礎(chǔ)模型而創(chuàng)建的。

為了確保數(shù)據(jù)質(zhì)量，團隊將HTML轉(zhuǎn)換回markdown，并過濾掉一些不合適或低質(zhì)量的樣本。此外，團隊還將冗長的對話分成較小的片段，以符合模型的最大上下文長度。

代碼和超參數(shù)

團隊使用斯坦福大學(xué)Alpaca的代碼對模型進行微調(diào)，并做了一些修改以支持梯度檢查點和Flash注意力。此外，團隊也使用與斯坦福Alpaca相似的超參數(shù)。

用SkyPilot在云服務(wù)上進行微調(diào)

SkyPilot是由加州大學(xué)伯克利分校建立的一個框架，可以在任何與一個云服務(wù)（AWS、GCP、Azure、Lambda等）上輕松、經(jīng)濟地運行ML工作負載。

安裝說明：https://skypilot.readthedocs.io/en/latest/getting-started/installation.html

# Install skypilot from the master branch
pip install git+https://github.com/skypilot-org/skypilot.git

Vicuna可以在8個擁有80GB內(nèi)存的A100 GPU上進行訓(xùn)練。下面的命令將自動啟動一個滿足要求的節(jié)點，在上面設(shè)置并運行訓(xùn)練作業(yè)。

sky launch -c vicuna -s scripts/train-vicuna.yaml --env WANDB_API_KEY

對于Alpaca來說，訓(xùn)練作業(yè)會在具有4個A100-80GB GPU的單一節(jié)點上啟動。

sky launch -c alpaca -s scripts/train-alpaca.yaml --env WANDB_API_KEY

· 使用本地GPU進行微調(diào)

Vicuna也可以用以下代碼在8個A100 GPU上訓(xùn)練，顯存為80GB。

如果要在更少的GPU上訓(xùn)練，則可以減少per_device_train_batch_size，并相應(yīng)地增加gradient_accumulation_steps，以保持全局批大小不變。要設(shè)置環(huán)境，可以參見scripts/train-vicuna.yaml中的設(shè)置部分。

torchrun --nnodes=1 --nproc_per_node=8 --master_port=<your_random_port> \
    fastchat/train/train_mem.py \
    --model_name_or_path <path-to-llama-model-weight> \
    --data_path <path-to-data> \
    --bf16 True \
    --output_dir ./checkpoints \
    --num_train_epochs 3 \
    --per_device_train_batch_size 4 \
    --per_device_eval_batch_size 4 \
    --gradient_accumulation_steps 1 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 1200 \
    --save_total_limit 100 \
    --learning_rate 2e-5 \
    --weight_decay 0. \
    --warmup_ratio 0.03 \
    --lr_scheduler_type "cosine" \
    --logging_steps 1 \
    --fsdp "full_shard auto_wrap" \
    --fsdp_transformer_layer_cls_to_wrap 'LlamaDecoderLayer' \
    --tf32 True \
    --model_max_length 2048 \
    --gradient_checkpointing True \
    --lazy_preprocess True

參考資料：

https://github.com/lm-sys/FastChat/#fine-tuning

責任編輯：武曉燕來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營