自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM微調(diào)技術(shù)LoRA圖解

譯文 精選
人工智能
本文將按照論文《LoRA:大型語言模型的低階適配》中提出的方法詳細(xì)介紹如何使用LoRA技術(shù)對(duì)大型語言模型進(jìn)行微調(diào)。

譯者 | 朱先忠

審校 | 重樓

簡介

當(dāng)涉及到大型語言模型時(shí),微調(diào)可能是人們討論最多的技術(shù)方面的內(nèi)容之一。大多數(shù)人都知道,訓(xùn)練這些模型是非常昂貴的,需要大量的資本投資;所以,看到我們可以通過采用現(xiàn)有的模型并用自己的數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),從而創(chuàng)建一個(gè)具有自己特色的模型,這的確是一件令人興奮的事情。

當(dāng)前,已經(jīng)存在多種方法可以對(duì)模型進(jìn)行微調(diào),但目前最流行的方法之一是論文《LoRA:大型語言模型的低階適配》(https://arxiv.org/pdf/2106.09685)中討論的LoRA方法(Low Rank Adaptation,即低階適配,縮寫為“LoRA”)。

在我們深入研究LoRA背后的機(jī)制之前,我們需要先來了解一些矩陣有關(guān)的背景知識(shí)和微調(diào)機(jī)器學(xué)習(xí)模型的一些基礎(chǔ)內(nèi)容。

矩陣相關(guān)背景術(shù)語

實(shí)際上,所有的機(jī)器學(xué)習(xí)模型都將其權(quán)重存儲(chǔ)為矩陣形式。因此,了解一些線性代數(shù)知識(shí)有助于獲得對(duì)正在發(fā)生的事情的直覺認(rèn)識(shí)。

從一些最基礎(chǔ)的內(nèi)容開始,我們可以創(chuàng)建一個(gè)如下圖所示的由行和列組成的矩陣:

當(dāng)然,行、列或兩者都很多時(shí),矩陣所占用的數(shù)據(jù)就越多。有時(shí),當(dāng)行和/或列之間存在某種數(shù)學(xué)關(guān)系時(shí),我們就可以采取一些措施,使得存儲(chǔ)這種矩陣所需的空間進(jìn)一步減少。類比一下的話,這類似于一個(gè)函數(shù)所占用的空間比它所代表的所有坐標(biāo)點(diǎn)要小得多。

請(qǐng)參閱下面的示例,了解可以縮減為僅剩下1行的矩陣。這表明原始的3x3矩陣的秩為1。

因此,當(dāng)一個(gè)矩陣可以像上面那樣被約簡時(shí),我們說它的秩比不能這樣被約簡的矩陣的秩低。任何秩較低的矩陣都可以擴(kuò)展回較大的矩陣,如下所示:

微調(diào)知識(shí)

要對(duì)模型進(jìn)行微調(diào),您需要一個(gè)高質(zhì)量的數(shù)據(jù)集。例如,如果你想微調(diào)汽車聊天模型,那么你需要一個(gè)包含數(shù)千個(gè)關(guān)于汽車的高質(zhì)量對(duì)話的數(shù)據(jù)集。

創(chuàng)建數(shù)據(jù)后,您將獲取這些數(shù)據(jù)并在模型中運(yùn)行它們,以獲得每個(gè)數(shù)據(jù)的輸出。然后,將此輸出與數(shù)據(jù)集中的預(yù)期輸出進(jìn)行比較,并計(jì)算兩者之間的差異。通常,使用類似交叉熵的函數(shù)(突出顯示2個(gè)概率分布之間的差異)來量化這種差異。

現(xiàn)在,我們接受損失值并使用它來修改模型權(quán)重。我們可以把這一過程看作是創(chuàng)建一個(gè)新的ΔW矩陣,其中包含我們想讓W(xué)o矩陣知道的所有變化。計(jì)算出權(quán)重后,我們就可以決定如何改變這些權(quán)重值,以便其在我們的損失函數(shù)中給出一個(gè)更好的結(jié)果。為此,我們想辦法通過反向傳播來調(diào)整權(quán)重。

如果有足夠興趣的話,我還會(huì)單獨(dú)寫一篇關(guān)于反向傳播背后的數(shù)學(xué)邏輯的博客文章,因?yàn)檫@是很有趣的事情。目前,我們可以簡單地說,計(jì)算權(quán)重變化所需的計(jì)算成本非常高昂。

LoRA方法

總體來看,LoRA技術(shù)始終圍繞著一個(gè)關(guān)鍵的假設(shè):雖然機(jī)器學(xué)習(xí)模型的權(quán)重矩陣具有較高的秩,但在微調(diào)過程中創(chuàng)建的權(quán)重更新矩陣具有較低的內(nèi)在秩。換言之,我們可以用一個(gè)比從頭開始訓(xùn)練所需的矩陣小得多的矩陣來微調(diào)模型,而不會(huì)看到任何重大的性能損失。

因此,我們可以這樣設(shè)置我們的基本方程:

原論文中的方程3

讓我們來分析一下上面方程中的每一個(gè)變量的含義。其中,h代表微調(diào)后的權(quán)重值。Wo和ΔW與以前的含義相同,但在此,作者創(chuàng)造了一種定義ΔW的新方法。為了找到ΔW,作者構(gòu)造了兩個(gè)矩陣:A和B。其中,A是一個(gè)與Wo具有相同列維度并開始填充隨機(jī)噪聲的矩陣,而B具有與Wo相同的行維度并初始化為所有元素均為0的矩陣。這些維度是很重要的,因?yàn)楫?dāng)我們將A和B相乘時(shí),它們將創(chuàng)建一個(gè)維度與ΔW完全相同的矩陣。

原論文中的圖1

在微調(diào)過程中,矩陣A和B的秩是一個(gè)超參數(shù)集。這意味著,我們可以選擇秩1來加快最大訓(xùn)練量(同時(shí)仍更改為Wo),或者增加秩大小,從而以更大的成本提高性能。

使用LoRA進(jìn)行微調(diào)

現(xiàn)在,回到我們以前的圖像,讓我們看看當(dāng)使用LoRA技術(shù)時(shí)有關(guān)計(jì)算是如何發(fā)生變化的。

請(qǐng)記住,微調(diào)意味著創(chuàng)建ΔW矩陣,該矩陣包含我們對(duì)Wo矩陣的所有更改。作為一個(gè)簡單示例,假設(shè)A和B的秩均為1,維度為3。因此,我們得到了如下圖片:

因?yàn)榫仃囍械拿總€(gè)單元都包含一個(gè)可訓(xùn)練權(quán)重;所以,我們立即就可以明白為什么LoRA的功能如此強(qiáng)大:我們已經(jīng)從根本上減少了需要計(jì)算的可訓(xùn)練權(quán)重的數(shù)量。因此,雖然尋找單個(gè)可訓(xùn)練權(quán)重的計(jì)算通常保持不變,但是因?yàn)槲覀冇?jì)算的次數(shù)要少得多,所以我們節(jié)省了大量的計(jì)算和時(shí)間。

結(jié)論

當(dāng)前,LoRA技術(shù)已經(jīng)成為微調(diào)大數(shù)據(jù)模型的行業(yè)內(nèi)的標(biāo)準(zhǔn)方法。即使是擁有巨大資源的公司也認(rèn)為LoRA是改進(jìn)其模型的一種具有成本效益的方法。

展望未來,一個(gè)有趣的研究領(lǐng)域就是如何找到這些LoRA矩陣的最優(yōu)秩?,F(xiàn)在的計(jì)算方案中,它們作為超參數(shù)的方式使用,但是如果存在一個(gè)理想的超參數(shù)的話,就可以節(jié)省更多的時(shí)間。此外,由于LoRA仍然需要使用高質(zhì)量的數(shù)據(jù);因此,另一個(gè)頗有前途的研究領(lǐng)域就是尋找LoRA方法的最佳數(shù)據(jù)組合。

雖然流入人工智能的資金是巨大的,但是,高支出并不總是意味著總會(huì)有高回報(bào)。一般來說,公司的錢花得越長遠(yuǎn),就越能為客戶創(chuàng)造更好的產(chǎn)品。因此,作為一種極具成本效益的改進(jìn)產(chǎn)品的方式,LoRA理所當(dāng)然地成為了機(jī)器學(xué)習(xí)領(lǐng)域的固定投資的一部分。

因此,現(xiàn)在正是一個(gè)激動(dòng)人心的發(fā)展時(shí)期……

參考文獻(xiàn)

  • 【1】Hu, E.等人,“LoRA: Low-Rank Adaptation of Large Language Models” (2021),arXiv。
  • 【2】Hennings, M.等人,“LoRA & QLoRA Fine-tuning Explained In-Depth” (2023),YouTube。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:Understanding Low Rank Adaptation (LoRA) in Fine-Tuning LLMs,作者:Matthew Gunton

鏈接:https://towardsdatascience.com/understanding-low-rank-adaptation-lora-in-fine-tuning-llms-d3dd283f1f0a。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2024-01-24 13:37:36

大型語言模型人工智能

2024-03-20 12:44:35

AI訓(xùn)練

2024-11-11 13:33:28

2024-11-21 08:22:45

2025-02-14 08:18:33

2024-06-11 08:21:26

2024-04-18 10:39:57

2023-07-27 10:17:31

LoRa 技術(shù)物聯(lián)網(wǎng)

2024-09-18 11:50:00

框架訓(xùn)練AI

2023-10-13 13:10:19

2024-11-11 14:40:00

AI語言模型

2023-05-29 12:35:09

模型ChatGPT

2025-04-30 09:19:32

2024-05-29 12:35:34

2024-04-15 12:50:00

大型語言模型ReFT

2024-07-03 12:12:33

訓(xùn)練模型

2023-11-24 14:05:00

AI訓(xùn)練

2025-01-16 08:30:00

LLMAI訓(xùn)練

2023-07-17 10:24:17

代碼模型

2024-04-15 12:43:26

人工智能LLM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)