大模型調(diào)參技巧—如何實(shí)現(xiàn)超參的跨模型尺度遷移 原創(chuàng)
本篇介紹超參數(shù)(學(xué)習(xí)率)跨模型尺度的遷移規(guī)律。
眾所周知,完整訓(xùn)練一次大型LLM的成本是昂貴的,這就決定了我們不可能像以前一樣直接在大型LLM上反復(fù)測(cè)試超參數(shù)。
一個(gè)很自然的想法是希望可以在同結(jié)構(gòu)的小模型上仔細(xì)搜索超參數(shù),找到最優(yōu)組合后直接遷移到大模型上。
盡管這個(gè)想法很樸素,但要實(shí)現(xiàn)它并不簡(jiǎn)單,它需要我們了解常見的超參數(shù)與模型尺度之間的縮放規(guī)律,本次介紹的文Maximal Update Parametrization,簡(jiǎn)稱“muP”,正是這個(gè)想法的一個(gè)實(shí)踐。具體出自論文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》。
先說結(jié)論,muP主要研究超參數(shù)跨模型尺度的遷移規(guī)律。這里有幾個(gè)關(guān)鍵詞:
1、超參數(shù),目前主要指學(xué)習(xí)率;
2、模型尺度,目前主要是模型寬度;
3、這里的核心是“遷移”。
請(qǐng)注意,muP并不研究什么是最優(yōu)的超參數(shù),只研究最優(yōu)超參數(shù)隨著模型尺度的變化規(guī)律,所以我們需要在某個(gè)小模型上搜索最優(yōu)的超參數(shù)組合,然后遷移到大模型上,這就是muP的使用場(chǎng)景和使用方法。
推導(dǎo)muP的原理是讓模型的前向傳播、反向傳播和損失增量都不隨模型尺度的變化而發(fā)生明顯變化:
1、具體做法是分析初始化的數(shù)量級(jí),然后認(rèn)為結(jié)論可以代表后續(xù)優(yōu)化的規(guī)律;
2、說白了就是假設(shè)做好初始化,后面就會(huì)自動(dòng)沿著正確的軌跡走
具體方法
論文提出了一種名為μTransfer的方法來解決大型神經(jīng)網(wǎng)絡(luò)的超參數(shù)(HP)調(diào)整問題。這個(gè)方法的核心思想是利用最大更新參數(shù)化(Maximal Update Parametrization,簡(jiǎn)稱μP)的特性,該特性表明在模型大小變化時(shí),許多最優(yōu)的HP保持穩(wěn)定。
具體來說,μTransfer的解決方案包括以下幾個(gè)步驟:
1. 目標(biāo)模型的μP參數(shù)化:首先,將目標(biāo)大型模型(即最終希望調(diào)整的模型)按照μP進(jìn)行參數(shù)化。這確保了模型在訓(xùn)練過程中,各層的更新幅度保持一致,從而在模型寬度增加時(shí),HPs保持穩(wěn)定。
2. 在小型代理模型上調(diào)整HP:然后,研究者在一個(gè)小版本的代理模型上進(jìn)行HP調(diào)整。這個(gè)小型模型在寬度和/或深度上小于目標(biāo)模型,但采用相同的μP參數(shù)化。
3. 零成本轉(zhuǎn)移(Zero-Shot Transfer):一旦在小型代理模型上找到了接近最優(yōu)的HPs,這些HPs可以直接轉(zhuǎn)移到全尺寸的目標(biāo)模型上,而無需在目標(biāo)模型上進(jìn)行額外的調(diào)整。這種轉(zhuǎn)移是基于μP理論,即在無限寬度極限下,模型的HPs趨于穩(wěn)定。
4. 驗(yàn)證和測(cè)試:最后,研究者在目標(biāo)模型上驗(yàn)證這些轉(zhuǎn)移過來的HPs,并與直接在目標(biāo)模型上進(jìn)行調(diào)整的結(jié)果進(jìn)行比較,以確保性能達(dá)到預(yù)期。
比較關(guān)鍵的改進(jìn)點(diǎn)是Normalization和殘差的影響,尤其是Normalization,它使得不依賴特殊的初始化就可以穩(wěn)定前向傳播,帶來了更大的自由度和可能性。
具體示例
論文比較難理解,下面基于蘇神的文舉一個(gè)前向傳播的例子,更詳細(xì)的推理推薦直接去看蘇神的文章。(可以點(diǎn)擊后面原文鏈接直接跳轉(zhuǎn))
首先依然用RMS(Root Mean Square)來作為矩陣尺度的指標(biāo)
那么muP就是想研究超參數(shù)關(guān)于d的變化規(guī)律。
考慮線性層表示為
其中
我們的目的是為了讓遷移時(shí)穩(wěn)定,即初始化階段X的RMS跟Y的RMS大致相等,那么W的初始化
Kaiming初始化跟LeCun初始化相比,只是方差相差一個(gè)(跟模型尺度無關(guān)的)常數(shù)2,可以證明其他激活函數(shù)的結(jié)果也類似。因此可以得到結(jié)論
這也說明了“激活函數(shù)的影響是模型尺度無關(guān)的”。
這里直接給出最終所有優(yōu)化器下的結(jié)論。
這里的W指的是除Win,Wout外的所有參數(shù),還有要強(qiáng)調(diào)的是,這里的關(guān)系都是“正比于”而不是“等于”。
實(shí)驗(yàn)驗(yàn)證
論文在Transformer、ResNet、GPT等模型上均進(jìn)行了實(shí)驗(yàn),我們可以主要來看看GPT3上的實(shí)驗(yàn)。
這塊作者在GPT-3的一個(gè)小型代理模型(約40M參數(shù))上確定了超參數(shù),然后將這些參數(shù)轉(zhuǎn)移到完整的6.7B參數(shù)模型。實(shí)驗(yàn)結(jié)果顯示,μTransfer模型的性能優(yōu)于原始GPT-3模型,并且與兩倍大的13B模型相當(dāng)。
總結(jié)
基于muP可以在小模型上以相對(duì)較小的成本仔細(xì)搜索超參數(shù)(這里主要是學(xué)習(xí)率和初始化),然后遷移到大模型上,降低大模型的煉丹成本。當(dāng)然μTransfer在實(shí)際應(yīng)用中還有很多的潛在改進(jìn)方向,比如如自動(dòng)化代理模型選擇、跨平臺(tái)實(shí)現(xiàn)等。
文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷
原文鏈接:??https://mp.weixin.qq.com/s/6OZBR1IKi8mW93jrXNjZlA??
