清北微軟深挖GPT,把上下文學(xué)習(xí)整明白了!和微調(diào)基本一致,只是參數(shù)沒(méi)變而已
大型預(yù)訓(xùn)練語(yǔ)言模型其中一個(gè)重要的特點(diǎn)就是上下文學(xué)習(xí)(In-Context Learning,ICL)能力,即通過(guò)一些示范性的輸入-標(biāo)簽對(duì),就可以在不更新參數(shù)的情況下對(duì)新輸入的標(biāo)簽進(jìn)行預(yù)測(cè)。
性能雖然上去了,但大模型的ICL能力到底從何而來(lái)仍然是一個(gè)開(kāi)放的問(wèn)題。
為了更好地理解ICL的工作原理,清華大學(xué)、北京大學(xué)和微軟的研究人員共同發(fā)表了一篇論文,將語(yǔ)言模型解釋為元優(yōu)化器(meta-optimizer),并將ICL理解為一種隱性的(implicit)微調(diào)。
論文鏈接:?https://arxiv.org/abs/2212.10559?
從理論上講,這篇文章弄清楚了Transformer注意力中存在一個(gè)基于梯度下降優(yōu)化的對(duì)偶形式(dual form),并在此基礎(chǔ)上,對(duì)ICL的理解如下。GPT首先根據(jù)示范實(shí)例產(chǎn)生元梯度,然后將這些元梯度應(yīng)用于原始的GPT,建立ICL模型。
在實(shí)驗(yàn)中,研究人員綜合比較了ICL和基于真實(shí)任務(wù)的顯式微調(diào)的行為,以提供支持該理解的經(jīng)驗(yàn)證據(jù)。
結(jié)果證明,ICL在預(yù)測(cè)層面、表征層面和注意行為層面的表現(xiàn)與顯式微調(diào)類(lèi)似。
此外,受到元優(yōu)化理解的啟發(fā),通過(guò)與基于動(dòng)量的梯度下降算法的類(lèi)比,文中還設(shè)計(jì)了一個(gè)基于動(dòng)量的注意力,比普通的注意力有更好的表現(xiàn),從另一個(gè)方面再次支持了該理解的正確性,也展現(xiàn)了利用該理解對(duì)模型做進(jìn)一步設(shè)計(jì)的潛力。
ICL的原理
研究人員首先對(duì)Transformer中的線(xiàn)性注意力機(jī)制進(jìn)行了定性分析,以找出它與基于梯度下降的優(yōu)化之間的對(duì)偶形式。然后將ICL與顯式微調(diào)進(jìn)行比較,并在這兩種優(yōu)化形式之間建立聯(lián)系。
Transformer注意力就是元優(yōu)化
設(shè)X是整個(gè)query的輸入表征,X'是示例的表征,q是查詢(xún)向量,則在ICL設(shè)置下,模型中一個(gè)head的注意力結(jié)果如下:
可以看到,去除縮放因子根號(hào)d和softmax后,標(biāo)準(zhǔn)的注意力機(jī)制可以近似為:
將Wzsl設(shè)為Zero-Shot Learning(ZSL)的初始參數(shù)后,Transformer注意力可以轉(zhuǎn)為下面的對(duì)偶形式:
可以看到,ICL可以被解釋為一個(gè)元優(yōu)化(meta-optimization)的過(guò)程:
1. 將基于Transformer的預(yù)訓(xùn)練語(yǔ)言模型作為一個(gè)元優(yōu)化器;
2. 通過(guò)正向計(jì)算,根據(jù)示范樣例計(jì)算元梯度;
3. 通過(guò)注意力機(jī)制,將元梯度應(yīng)用于原始語(yǔ)言模型上,建立一個(gè)ICL模型。
ICL和微調(diào)對(duì)比
為了比較ICL的元優(yōu)化和顯式優(yōu)化,研究人員設(shè)計(jì)了一個(gè)具體的微調(diào)設(shè)置作為比較的基線(xiàn):考慮到ICL只直接作用于注意力的key和value,所以微調(diào)也只更新key和value投影的參數(shù)。
同樣在非嚴(yán)謹(jǐn)形式下的線(xiàn)性注意力中,微調(diào)后的head注意力結(jié)果可以被表述為:
為了與ICL進(jìn)行更公平的比較,實(shí)驗(yàn)中進(jìn)一步將微調(diào)設(shè)置限制如下:
1. 將訓(xùn)練例子指定為ICL的示范樣例;
2. 只對(duì)每個(gè)例子進(jìn)行一步訓(xùn)練,其順序與ICL的示范順序相同;
3. 用ICL所用的模板對(duì)每個(gè)訓(xùn)練樣例進(jìn)行格式化,并使用因果語(yǔ)言建模目標(biāo)進(jìn)行微調(diào)。
比較后可以發(fā)現(xiàn),ICL與微調(diào)有許多共同的屬性,主要包括四個(gè)方面。
都是梯度下降
可以發(fā)現(xiàn)ICL和微調(diào)都對(duì)Wzsl進(jìn)行了更新,即梯度下降,唯一的區(qū)別是,ICL通過(guò)正向計(jì)算產(chǎn)生元梯度,而finetuning通過(guò)反向傳播獲得真正的梯度。
相同的訓(xùn)練信息
ICL的元梯度是根據(jù)示范樣例獲得的,微調(diào)的梯度也是從相同的訓(xùn)練樣本中得到的,也就是說(shuō),ICL和微調(diào)共享相同的訓(xùn)練信息來(lái)源。
訓(xùn)練樣例的因果順序相同
ICL和微調(diào)共享訓(xùn)練樣例的因果順序,ICL用的是decoder-only Transformers,因此示例中的后續(xù)token不會(huì)影響到前面的token;而對(duì)于微調(diào),由于訓(xùn)練示例的順序相同,并且只訓(xùn)練一個(gè)epoch,所以也可以保證后面的樣本對(duì)前面的樣本沒(méi)有影響。
都作用于注意力
與zero-shot學(xué)習(xí)相比,ICL和微調(diào)的直接影響都僅限于注意力中key和value的計(jì)算。對(duì)于ICL來(lái)說(shuō),模型參數(shù)是不變的,它將示例信息編碼為額外的key和value以改變注意力行為;對(duì)于微調(diào)中引入的限制,訓(xùn)練信息也只能作用到注意力key和value的投影矩陣中。
基于ICL和微調(diào)之間的這些共同特性,研究人員認(rèn)為將ICL理解為一種隱性微調(diào)是合理的。
實(shí)驗(yàn)部分
任務(wù)和數(shù)據(jù)集
研究人員選擇了橫跨三個(gè)分類(lèi)任務(wù)的六個(gè)數(shù)據(jù)集來(lái)對(duì)比ICL和微調(diào),包括SST2、SST-5、MR和Subj四個(gè)用于情感分類(lèi)的數(shù)據(jù)集;AGNews是一個(gè)話(huà)題分類(lèi)數(shù)據(jù)集;CB用于自然語(yǔ)言推理。
實(shí)驗(yàn)設(shè)置
模型部分使用了兩個(gè)類(lèi)似于GPT的預(yù)訓(xùn)練語(yǔ)言模型,由fairseq發(fā)布,其參數(shù)量分別為1.3B和2.7B.
對(duì)于每個(gè)任務(wù),使用相同的模板來(lái)對(duì)ZSL、ICL和微調(diào)的樣本進(jìn)行格式化。
結(jié)果
準(zhǔn)確率
與ZSL相比,ICL和微調(diào)都取得了相當(dāng)大的改進(jìn),這意味著它們的優(yōu)化,對(duì)這些下游任務(wù)都有幫助。此外,ICL在少數(shù)情況下比微調(diào)更好。
Rec2FTP(Recall to Finetuning Predictions)
GPT模型在六個(gè)數(shù)據(jù)集上的得分結(jié)果顯示,平均而言,ICL可以正確預(yù)測(cè) 87.64%的例子,而微調(diào)可以糾正ZSL。在預(yù)測(cè)層面,ICL可以覆蓋大部分正確的的行為進(jìn)行微調(diào)。
SimAOU(Similarity of Attention Output Updates)
從結(jié)果中可以發(fā)現(xiàn),ICL更新與微調(diào)更新的相似度遠(yuǎn)高于隨機(jī)更新,也意味著在表示層面上,ICL傾向于以與微調(diào)變化相同的方向改變注意力結(jié)果。
SimAM(Similarity of Attention Map)
作為SimAM的基線(xiàn)指標(biāo),ZSL SimAM計(jì)算了ICL注意力權(quán)重和ZSL注意力權(quán)重之間的相似度。通過(guò)比較這兩個(gè)指標(biāo),可以觀察到,與ZSL相比,ICL更傾向于產(chǎn)生與微調(diào)相似的注意力權(quán)重。
同樣,在注意力行為層面,實(shí)驗(yàn)結(jié)果證明了ICL的行為與微調(diào)相似。