最強(qiáng)大模型 Llama 3.1-405B 架構(gòu)設(shè)計(jì)剖析 原創(chuàng)
1、最強(qiáng)大模型 Llama 3.1-405B 簡(jiǎn)介
在歷經(jīng)了兩天的提前“泄露風(fēng)波”后,Llama 3.1 終于正式揭開面紗,由官方對(duì)外公布。
新版 Llama 3.1 將其上下文處理能力擴(kuò)展至 128K,推出了 8B、70B 及 405B 三個(gè)不同規(guī)模的版本,再次單槍匹馬地提升了大規(guī)模模型領(lǐng)域的競(jìng)爭(zhēng)門檻。
對(duì)于 AI 大模型領(lǐng)域而言,Llama 3.1 405B 版本具有劃時(shí)代的意義,它刷新了開源基礎(chǔ)模型性能的極限。據(jù) Meta 官方透露,該大模型在眾多任務(wù)中的表現(xiàn)足以匹敵當(dāng)前最優(yōu)的閉源模型。
Llama3.1 405B數(shù)據(jù)集評(píng)測(cè)結(jié)果
Llama3.1 405B人工評(píng)估
2、Llama 3.1-405B 架構(gòu)設(shè)計(jì)剖析
Llama 3.1共開源了8B、70B、405B三種參數(shù)量的模型,其中 405B 除了FP16精度,還有FP8量化版模型,針對(duì)8B額外開源了經(jīng)過內(nèi)容安全分類微調(diào)的Llama-Guard-3-8B。
架構(gòu)設(shè)計(jì)主要看點(diǎn)總結(jié)如下:
1. Llama3.1 405B 依然使用 decoder-only 結(jié)構(gòu)的 transformer,沒有使用混合專家。
2. 上下文長(zhǎng)度增加到 128K。
3. 在語言模型后訓(xùn)練階段,405B 通過監(jiān)督微調(diào)和直接偏好優(yōu)化等,進(jìn)一步提升了模型的性能和適應(yīng)性。監(jiān)督微調(diào)使用大量的人工標(biāo)注數(shù)據(jù)來微調(diào)模型,使其能夠更好地遵循人類的指令和偏好;直接偏好優(yōu)化則通過學(xué)習(xí)人類的偏好來優(yōu)化模型的輸出,使其更加符合人類的期望。
4. 對(duì)于小參數(shù)量模型,Meta 使用 405B 模型去提升小參數(shù)量模型的效果。
3、Llama 3.1 預(yù)訓(xùn)練過程剖析
Llama 3.1 的預(yù)訓(xùn)練過程分為三個(gè)關(guān)鍵階段:1、初始預(yù)訓(xùn)練階段;2、長(zhǎng)文本上下文預(yù)訓(xùn)練;3、退火過程??傮w來看,這一流程與現(xiàn)有的一些開源模型訓(xùn)練方法相似,但技術(shù)報(bào)告中透露了眾多精細(xì)的技術(shù)細(xì)節(jié)。以下是各階段的詳細(xì)描述:
初始預(yù)訓(xùn)練階段:這一階段遵循標(biāo)準(zhǔn)的預(yù)訓(xùn)練流程,訓(xùn)練初期采用較小的批量大小以保障訓(xùn)練穩(wěn)定性,隨后逐漸增大批量大小以提高訓(xùn)練效率,直至達(dá)到每批 16M 個(gè)token。為了增強(qiáng)模型在多語言和數(shù)學(xué)推理方面的能力,特別增加了非英語內(nèi)容和數(shù)學(xué)數(shù)據(jù)的比重。
長(zhǎng)文本上下文預(yù)訓(xùn)練階段:在預(yù)訓(xùn)練的后半程,使用長(zhǎng)文本數(shù)據(jù)進(jìn)行訓(xùn)練,以支持高達(dá) 128K 個(gè)token的上下文窗口。在這一階段,采取了逐步擴(kuò)展上下文窗口的策略,對(duì)于 Llama 3 405B 模型,從最初的 8K token 上下文窗口開始,逐步擴(kuò)展,最終達(dá)到 128K token 的窗口大小。此階段消耗了大約 800B 個(gè)token的訓(xùn)練數(shù)據(jù)。
退火過程:在預(yù)訓(xùn)練的最后 4000 萬個(gè)token期間,采取了線性降低學(xué)習(xí)率至零的策略,同時(shí)保持 128K 個(gè)token的上下文長(zhǎng)度。在這一退火階段,對(duì)數(shù)據(jù)混合比例進(jìn)行了調(diào)整,增加了如數(shù)學(xué)、代碼、邏輯等高質(zhì)量數(shù)據(jù)的影響。最終,通過取退火期間多個(gè)模型檢查點(diǎn)的平均值,形成了最終的預(yù)訓(xùn)練模型。在訓(xùn)練后期對(duì)高質(zhì)量數(shù)據(jù)進(jìn)行上采樣,這一做法在當(dāng)前也是較為普遍的做法。
4、Llama 3.1 的 Post-Traning 剖析
當(dāng)前,大型語言模型(LLM)的后訓(xùn)練主要采用兩種策略,第一種是借鑒自ChatGPT的 SFT+RM+PPO 模式,該模式運(yùn)用了強(qiáng)化學(xué)習(xí),涉及眾多需要調(diào)整的超參數(shù),過程較為復(fù)雜,不易實(shí)現(xiàn);另一種策略是 SFT+DPO 模式,省略了PPO 強(qiáng)化學(xué)習(xí)部分,簡(jiǎn)化了流程,更易于操作。
LLaMA 3.1 在后訓(xùn)練階段主要采用了 SFT+DPO 模式,并加入了一些獨(dú)特的設(shè)計(jì)。上圖展示了 LLaMA 3.1 整個(gè)后訓(xùn)練流程。起初,使用人工標(biāo)注數(shù)據(jù)訓(xùn)練RM 模型,以評(píng)估<Prompt, answer>數(shù)據(jù)的質(zhì)量,隨后利用 RM 進(jìn)行拒絕采樣。
具體來說,針對(duì)一個(gè)給定的人工 Prompt,模型生成多個(gè)回答,RM 對(duì)這些回答進(jìn)行質(zhì)量評(píng)分,選取評(píng)分最高的作為 SFT 數(shù)據(jù),其余則棄用。這樣篩選出的SFT 數(shù)據(jù),結(jié)合專門用于提升代碼、數(shù)學(xué)、邏輯能力的 SFT 數(shù)據(jù),共同用于微調(diào)模型,得到 SFT 模型。
接著,利用人工標(biāo)注數(shù)據(jù)通過 DPO 模型調(diào)整LLM參數(shù),DPO 實(shí)質(zhì)上是一個(gè)二分類任務(wù),它從<Prompt,Good Answer,Bad Answer>的三元數(shù)據(jù)中學(xué)習(xí),調(diào)整模型參數(shù)以促使模型輸出 Good Answer,避免輸出 Bad Answer。這樣就完成了一個(gè)后訓(xùn)練迭代周期。上述過程會(huì)多次重復(fù),每次流程相同,不同之處在于,在下一輪拒絕采樣階段生成回答的 LLM 模型,將選擇上一輪流程中產(chǎn)生的若干不同 DPO 模型(具有不同超參數(shù)等)中表現(xiàn)最佳的一個(gè)。顯然,隨著迭代的進(jìn)行,DPO 模型性能不斷提升,因此拒絕采樣中選出的最佳答案質(zhì)量也逐步提高,進(jìn)而使得 SFT 模型更加優(yōu)秀,形成了一個(gè)正向反饋循環(huán)。可以看出,盡管 RLHF 和 DPO 兩種模式都運(yùn)用了 RM,但應(yīng)用場(chǎng)景不同,RLHF 將 RM 評(píng)分用于 PPO 強(qiáng)化學(xué)習(xí)階段,而 LLaMA 3.1 則利用 RM 篩選高質(zhì)量的 SFT 數(shù)據(jù)。并且,由于拒絕采樣的回答是由 LLM 生成的,這意味著在此過程中大量使用了合成數(shù)據(jù)來訓(xùn)練 SFT 模型。
5、LLama 3.1 405B 為何不用 MOE 架構(gòu)?
大模型的 MOE 結(jié)構(gòu)是否能夠提升模型性能?答案并非必然。
早在 ChatGPT 流行之前,研究就已經(jīng)得出結(jié)論,從模型性能影響的角度來看,MOE 結(jié)構(gòu)相較于密集型(Dense)模型并不會(huì)帶來額外的優(yōu)勢(shì),有時(shí)甚至可能存在劣勢(shì)。
MOE 架構(gòu)的主要優(yōu)點(diǎn)在于降低訓(xùn)練和推理的成本,但這需要以訓(xùn)練穩(wěn)定性降低和推理時(shí)需要更多內(nèi)存來存儲(chǔ)增加的參數(shù)為代價(jià)。在用戶數(shù)量龐大、請(qǐng)求頻繁的情況下,推理成本占據(jù)的比重更大,此時(shí) MOE 結(jié)構(gòu)在推理方面更為友好,這也是為什么模型規(guī)模達(dá)到一定程度后,其結(jié)構(gòu)會(huì)從 Dense 轉(zhuǎn)向 MOE 的主要原因——這一轉(zhuǎn)變更多是基于成本和效率的考量,而非性能。
我曾見過一些聲稱MOE結(jié)構(gòu)性能更優(yōu)的說法,但這些觀點(diǎn)缺乏實(shí)證支持。Llama 3.1 405B 未采用 MOE 結(jié)構(gòu),技術(shù)報(bào)告指出,這是由于考慮到密集型模型在訓(xùn)練上更為穩(wěn)定,因此選擇了 Dense 結(jié)構(gòu)。與 GPT 4 的 1.8T MOE 模型相比,405B 的 Dense 模型在性能上不相上下,甚至可能更勝一籌(當(dāng)然,也不排除 GPT 4 可能已經(jīng)是一個(gè)經(jīng)過蒸餾的較小模型)。
本文轉(zhuǎn)載自公眾號(hào)玄姐聊AGI 作者:玄姐
