自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

比LoRA還快50%的微調(diào)方法來(lái)了!一張3090性能超越全參調(diào)優(yōu),UIUC聯(lián)合LMFlow團(tuán)隊(duì)提出LISA

人工智能 新聞
UIUC 聯(lián)合 LMFlow 團(tuán)隊(duì)成員對(duì) LoRA 的實(shí)驗(yàn)性質(zhì)進(jìn)行了分析,意外發(fā)現(xiàn) LoRA 非常側(cè)重 LLM 的底層和頂層的權(quán)重。利用這一特性,LMFlow 團(tuán)隊(duì)提出一個(gè)極其簡(jiǎn)潔的算法:Layerwise Importance Sampled AdamW(LISA)。

2022 年底,隨著 ChatGPT 的爆火,人類(lèi)正式進(jìn)入了大模型時(shí)代。然而,訓(xùn)練大模型需要的時(shí)空消耗依然居高不下,給大模型的普及和發(fā)展帶來(lái)了巨大困難。面對(duì)這一挑戰(zhàn),原先在計(jì)算機(jī)視覺(jué)領(lǐng)域流行的 LoRA 技術(shù)成功轉(zhuǎn)型大模型 [1][2],帶來(lái)了接近 2 倍的時(shí)間加速和理論最高 8 倍的空間壓縮,將微調(diào)技術(shù)帶進(jìn)千家萬(wàn)戶。

但 LoRA 技術(shù)仍存在一定的挑戰(zhàn)。一是 LoRA 技術(shù)在很多任務(wù)上還沒(méi)有超過(guò)正常的全參數(shù)微調(diào) [2][3][4],二是 LoRA 的理論性質(zhì)分析比較困難,給其進(jìn)一步的研究帶來(lái)了阻礙。

UIUC 聯(lián)合 LMFlow 團(tuán)隊(duì)成員對(duì) LoRA 的實(shí)驗(yàn)性質(zhì)進(jìn)行了分析,意外發(fā)現(xiàn) LoRA 非常側(cè)重 LLM 的底層和頂層的權(quán)重。利用這一特性,LMFlow 團(tuán)隊(duì)提出一個(gè)極其簡(jiǎn)潔的算法:Layerwise Importance Sampled AdamW(LISA)。

圖片


  • 論文鏈接:https://arxiv.org/abs/2403.17919
  • 開(kāi)源地址:https://github.com/OptimalScale/LMFlow

LISA 介紹

LISA 算法的核心在于:

- 始終更新底層 embedding 和頂層 linear head;

- 隨機(jī)更新少數(shù)中間的 self-attention 層,比如 2-4 層。

出乎意料的是,實(shí)驗(yàn)發(fā)現(xiàn)該算法在指令微調(diào)任務(wù)上超過(guò) LoRA 甚至全參數(shù)微調(diào)。

圖片

圖片

更重要的是,其空間消耗和 LoRA 相當(dāng)甚至更低。70B 的總空間消耗降低到了 80G*4,而 7B 則直接降到了單卡 24G 以下!

進(jìn)一步的,因?yàn)?LISA 每次中間只會(huì)激活一小部分參數(shù),算法對(duì)更深的網(wǎng)絡(luò),以及梯度檢查點(diǎn)技術(shù)(Gradient Checkpointing)也很友好,能夠帶來(lái)更大的空間節(jié)省。

在指令微調(diào)任務(wù)上,LISA 的收斂性質(zhì)比 LoRA 有很大提升,達(dá)到了全參數(shù)調(diào)節(jié)的水平。

而且,由于不需要像 LoRA 一樣引入額外的 adapter 結(jié)構(gòu),LISA 的計(jì)算量小于 LoRA,速度比 LoRA 快將近 50%。

理論性質(zhì)上,LISA 也比 LoRA 更容易分析,Gradient Sparsification、Importance Sampling、Randomized Block-Coordinate Descent 等現(xiàn)有優(yōu)化領(lǐng)域的數(shù)學(xué)工具都可以用于分析 LISA 及其變種的收斂性質(zhì)。

一鍵使用 LISA

為了貢獻(xiàn)大模型開(kāi)源社區(qū),LMFlow 現(xiàn)已集成 LISA,安裝完成后只需一條指令就可以使用 LISA 進(jìn)行微調(diào):

如果需要進(jìn)一步減少大模型微調(diào)的空間消耗,LMFlow 也已經(jīng)支持一系列最新技術(shù):

如果在使用過(guò)程中遇到任何問(wèn)題,可通過(guò) github issue 或 github 主頁(yè)的微信群聯(lián)系作者團(tuán)隊(duì)。LMFlow 將持續(xù)維護(hù)并集成最新技術(shù)。 

總結(jié)

在大模型競(jìng)賽的趨勢(shì)下,LMFlow 中的 LISA 為所有人提供了 LoRA 以外的第二個(gè)選項(xiàng),讓大多數(shù)普通玩家可以通過(guò)這些技術(shù)參與到這場(chǎng)使用和研究大模型的浪潮中來(lái)。正如團(tuán)隊(duì)口號(hào)所表達(dá)的:讓每個(gè)人都能訓(xùn)得起大模型(Large Language Model for All)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-11-12 14:20:00

模型AI

2023-10-04 10:38:38

模型方法

2011-03-10 14:40:54

LAMPMysql

2017-07-21 08:55:13

TomcatJVM容器

2020-01-14 09:13:48

Tomcat調(diào)優(yōu)配置

2025-01-26 10:19:21

2012-01-10 14:35:08

JavaJVM

2012-06-20 11:05:47

性能調(diào)優(yōu)攻略

2016-03-25 09:59:38

性能調(diào)優(yōu)LinuxMySQL

2009-04-01 11:17:52

內(nèi)存分配調(diào)優(yōu)Oracle

2023-02-05 13:06:07

ChatGPT看圖方法

2022-04-01 08:02:44

云成本服務(wù)器互聯(lián)網(wǎng)

2021-03-04 08:39:21

SparkRDD調(diào)優(yōu)

2013-03-18 15:35:30

2024-06-06 08:25:30

2024-05-27 09:16:37

2011-11-14 10:28:23

2020-11-30 11:40:35

NginxLinux性能調(diào)優(yōu)

2011-05-20 15:02:01

Oracle性能調(diào)優(yōu)

2022-08-30 00:31:12

機(jī)器學(xué)習(xí)超參數(shù)調(diào)優(yōu)算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)