LLM微調(diào)技術(shù)LoRA圖解

作者：朱先忠 2024-06-06 08:25:30

本文將按照論文《LoRA：大型語言模型的低階適配》中提出的方法詳細(xì)介紹如何使用LoRA技術(shù)對(duì)大型語言模型進(jìn)行微調(diào)。

譯者 | 朱先忠

審校 | 重樓

簡介

當(dāng)涉及到大型語言模型時(shí)，微調(diào)可能是人們討論最多的技術(shù)方面的內(nèi)容之一。大多數(shù)人都知道，訓(xùn)練這些模型是非常昂貴的，需要大量的資本投資;所以，看到我們可以通過采用現(xiàn)有的模型并用自己的數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)，從而創(chuàng)建一個(gè)具有自己特色的模型，這的確是一件令人興奮的事情。

當(dāng)前，已經(jīng)存在多種方法可以對(duì)模型進(jìn)行微調(diào)，但目前最流行的方法之一是論文《LoRA：大型語言模型的低階適配》(https://arxiv.org/pdf/2106.09685)中討論的LoRA方法(Low Rank Adaptation，即低階適配，縮寫為“LoRA”)。

在我們深入研究LoRA背后的機(jī)制之前，我們需要先來了解一些矩陣有關(guān)的背景知識(shí)和微調(diào)機(jī)器學(xué)習(xí)模型的一些基礎(chǔ)內(nèi)容。

矩陣相關(guān)背景術(shù)語

實(shí)際上，所有的機(jī)器學(xué)習(xí)模型都將其權(quán)重存儲(chǔ)為矩陣形式。因此，了解一些線性代數(shù)知識(shí)有助于獲得對(duì)正在發(fā)生的事情的直覺認(rèn)識(shí)。

從一些最基礎(chǔ)的內(nèi)容開始，我們可以創(chuàng)建一個(gè)如下圖所示的由行和列組成的矩陣：

當(dāng)然，行、列或兩者都很多時(shí)，矩陣所占用的數(shù)據(jù)就越多。有時(shí)，當(dāng)行和/或列之間存在某種數(shù)學(xué)關(guān)系時(shí)，我們就可以采取一些措施，使得存儲(chǔ)這種矩陣所需的空間進(jìn)一步減少。類比一下的話，這類似于一個(gè)函數(shù)所占用的空間比它所代表的所有坐標(biāo)點(diǎn)要小得多。

請(qǐng)參閱下面的示例，了解可以縮減為僅剩下1行的矩陣。這表明原始的3x3矩陣的秩為1。

因此，當(dāng)一個(gè)矩陣可以像上面那樣被約簡時(shí)，我們說它的秩比不能這樣被約簡的矩陣的秩低。任何秩較低的矩陣都可以擴(kuò)展回較大的矩陣，如下所示：

微調(diào)知識(shí)

要對(duì)模型進(jìn)行微調(diào)，您需要一個(gè)高質(zhì)量的數(shù)據(jù)集。例如，如果你想微調(diào)汽車聊天模型，那么你需要一個(gè)包含數(shù)千個(gè)關(guān)于汽車的高質(zhì)量對(duì)話的數(shù)據(jù)集。

創(chuàng)建數(shù)據(jù)后，您將獲取這些數(shù)據(jù)并在模型中運(yùn)行它們，以獲得每個(gè)數(shù)據(jù)的輸出。然后，將此輸出與數(shù)據(jù)集中的預(yù)期輸出進(jìn)行比較，并計(jì)算兩者之間的差異。通常，使用類似交叉熵的函數(shù)(突出顯示2個(gè)概率分布之間的差異)來量化這種差異。

現(xiàn)在，我們接受損失值并使用它來修改模型權(quán)重。我們可以把這一過程看作是創(chuàng)建一個(gè)新的ΔW矩陣，其中包含我們想讓W(xué)o矩陣知道的所有變化。計(jì)算出權(quán)重后，我們就可以決定如何改變這些權(quán)重值，以便其在我們的損失函數(shù)中給出一個(gè)更好的結(jié)果。為此，我們想辦法通過反向傳播來調(diào)整權(quán)重。

如果有足夠興趣的話，我還會(huì)單獨(dú)寫一篇關(guān)于反向傳播背后的數(shù)學(xué)邏輯的博客文章，因?yàn)檫@是很有趣的事情。目前，我們可以簡單地說，計(jì)算權(quán)重變化所需的計(jì)算成本非常高昂。

LoRA方法

總體來看，LoRA技術(shù)始終圍繞著一個(gè)關(guān)鍵的假設(shè)：雖然機(jī)器學(xué)習(xí)模型的權(quán)重矩陣具有較高的秩，但在微調(diào)過程中創(chuàng)建的權(quán)重更新矩陣具有較低的內(nèi)在秩。換言之，我們可以用一個(gè)比從頭開始訓(xùn)練所需的矩陣小得多的矩陣來微調(diào)模型，而不會(huì)看到任何重大的性能損失。

因此，我們可以這樣設(shè)置我們的基本方程：

原論文中的方程3

讓我們來分析一下上面方程中的每一個(gè)變量的含義。其中，h代表微調(diào)后的權(quán)重值。Wo和ΔW與以前的含義相同，但在此，作者創(chuàng)造了一種定義ΔW的新方法。為了找到ΔW，作者構(gòu)造了兩個(gè)矩陣：A和B。其中，A是一個(gè)與Wo具有相同列維度并開始填充隨機(jī)噪聲的矩陣，而B具有與Wo相同的行維度并初始化為所有元素均為0的矩陣。這些維度是很重要的，因?yàn)楫?dāng)我們將A和B相乘時(shí)，它們將創(chuàng)建一個(gè)維度與ΔW完全相同的矩陣。

原論文中的圖1

在微調(diào)過程中，矩陣A和B的秩是一個(gè)超參數(shù)集。這意味著，我們可以選擇秩1來加快最大訓(xùn)練量（同時(shí)仍更改為Wo），或者增加秩大小，從而以更大的成本提高性能。

使用LoRA進(jìn)行微調(diào)

現(xiàn)在，回到我們以前的圖像，讓我們看看當(dāng)使用LoRA技術(shù)時(shí)有關(guān)計(jì)算是如何發(fā)生變化的。

請(qǐng)記住，微調(diào)意味著創(chuàng)建ΔW矩陣，該矩陣包含我們對(duì)Wo矩陣的所有更改。作為一個(gè)簡單示例，假設(shè)A和B的秩均為1，維度為3。因此，我們得到了如下圖片：

因?yàn)榫仃囍械拿總€(gè)單元都包含一個(gè)可訓(xùn)練權(quán)重；所以，我們立即就可以明白為什么LoRA的功能如此強(qiáng)大：我們已經(jīng)從根本上減少了需要計(jì)算的可訓(xùn)練權(quán)重的數(shù)量。因此，雖然尋找單個(gè)可訓(xùn)練權(quán)重的計(jì)算通常保持不變，但是因?yàn)槲覀冇?jì)算的次數(shù)要少得多，所以我們節(jié)省了大量的計(jì)算和時(shí)間。

結(jié)論

當(dāng)前，LoRA技術(shù)已經(jīng)成為微調(diào)大數(shù)據(jù)模型的行業(yè)內(nèi)的標(biāo)準(zhǔn)方法。即使是擁有巨大資源的公司也認(rèn)為LoRA是改進(jìn)其模型的一種具有成本效益的方法。

展望未來，一個(gè)有趣的研究領(lǐng)域就是如何找到這些LoRA矩陣的最優(yōu)秩?，F(xiàn)在的計(jì)算方案中，它們作為超參數(shù)的方式使用，但是如果存在一個(gè)理想的超參數(shù)的話，就可以節(jié)省更多的時(shí)間。此外，由于LoRA仍然需要使用高質(zhì)量的數(shù)據(jù)；因此，另一個(gè)頗有前途的研究領(lǐng)域就是尋找LoRA方法的最佳數(shù)據(jù)組合。

雖然流入人工智能的資金是巨大的，但是，高支出并不總是意味著總會(huì)有高回報(bào)。一般來說，公司的錢花得越長遠(yuǎn)，就越能為客戶創(chuàng)造更好的產(chǎn)品。因此，作為一種極具成本效益的改進(jìn)產(chǎn)品的方式，LoRA理所當(dāng)然地成為了機(jī)器學(xué)習(xí)領(lǐng)域的固定投資的一部分。

因此，現(xiàn)在正是一個(gè)激動(dòng)人心的發(fā)展時(shí)期……