擊敗GPT-4o的開源模型如何煉成?關(guān)于Llama 3.1 405B,Meta都寫在這篇論文里了
經(jīng)歷了提前兩天的「意外泄露」之后,Llama 3.1 終于在昨夜由官方正式發(fā)布了。
Llama 3.1 將上下文長度擴(kuò)展到了 128K,擁有 8B、70B 和 405B 三個(gè)版本,再次以一已之力抬高了大模型賽道的競(jìng)爭(zhēng)標(biāo)準(zhǔn)。
對(duì) AI 社區(qū)來說,Llama 3.1 405B 最重要的意義是刷新了開源基礎(chǔ)模型的能力上限,Meta 官方稱,在一系列任務(wù)中,其性能可與最好的閉源模型相媲美。
下表展示了當(dāng)前 Llama 3 系列模型在關(guān)鍵基準(zhǔn)測(cè)試上的性能。可以看出,405B 模型的性能與 GPT-4o 十分接近。
與此同時(shí),Meta 公布了《The Llama 3 Herd of Models》論文,揭示了 Llama 3 系列模型迄今為止的研究細(xì)節(jié)。
論文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
接下來,讓我們看一下論文內(nèi)容。
Llama3 論文亮點(diǎn)
1、在使用 8K 上下文長度進(jìn)行預(yù)訓(xùn)練后,Llama 3.1 405B 使用 128K 上下文長度進(jìn)行連續(xù)訓(xùn)練,且支持多語言和工具使用。
2、與以前的 Llama 模型相比,Meta 加強(qiáng)了預(yù)處理和預(yù)訓(xùn)練數(shù)據(jù)的 Curation pipelines,以及后訓(xùn)練數(shù)據(jù)的質(zhì)量保證和過濾方法。
Meta 認(rèn)為,高質(zhì)量基礎(chǔ)模型的開發(fā)有三個(gè)關(guān)鍵杠桿:數(shù)據(jù)、規(guī)模和復(fù)雜性管理。
首先,與 Llama 的早期版本相比,Meta 在數(shù)量和質(zhì)量?jī)煞矫娓倪M(jìn)了用于預(yù)訓(xùn)練和后訓(xùn)練的數(shù)據(jù)。Meta 在大約 15 萬億的多語言 Token 語料庫上對(duì) Llama 3 進(jìn)行了預(yù)訓(xùn)練,相比之下,Llama 2 只使用了 1.8 萬億 Token。
此次訓(xùn)練的模型規(guī)模遠(yuǎn)大于以前的 Llama 模型:旗艦語言模型使用了 3.8 × 102? 次浮點(diǎn)運(yùn)算(FLOPs)進(jìn)行預(yù)訓(xùn)練,超過 Llama 2 的最大版本近 50 倍。
基于 Scaling law,在 Meta 的訓(xùn)練預(yù)算下,當(dāng)前的旗艦?zāi)P鸵咽墙朴?jì)算最優(yōu)的規(guī)模,但 Meta 對(duì)較小模型進(jìn)行的訓(xùn)練時(shí)間已經(jīng)遠(yuǎn)超計(jì)算最優(yōu)的時(shí)長。結(jié)果表明,這些較小模型在相同推理預(yù)算下的表現(xiàn)優(yōu)于計(jì)算最優(yōu)模型。在后訓(xùn)練階段,Meta 使用了 405B 的旗艦?zāi)P瓦M(jìn)一步提高了 70B 和 8B 模型這些較小模型的質(zhì)量。
3、為了支持 405B 模型的大規(guī)模生產(chǎn)推理,Meta 將 16 位 (BF16) 量化為 8 位 (FP8),從而降低了計(jì)算要求,并使模型能夠在單個(gè)服務(wù)器節(jié)點(diǎn)上運(yùn)行。
4、在 15.6T token(3.8x102? FLOPs)上預(yù)訓(xùn)練 405B 是一項(xiàng)重大挑戰(zhàn),Meta 優(yōu)化了整個(gè)訓(xùn)練堆棧,并使用了超過 16K H100 GPU。
正如 PyTorch 創(chuàng)始人、Meta 杰出工程師 Soumith Chintala 所說,Llama3 論文揭示了許多很酷的細(xì)節(jié),其中之一就是基礎(chǔ)設(shè)施的構(gòu)建。
5、在后訓(xùn)練中,Meta 通過多輪對(duì)齊來完善 Chat 模型,其中包括監(jiān)督微調(diào)(SFT)、拒絕采樣和直接偏好優(yōu)化。大多數(shù) SFT 樣本由合成數(shù)據(jù)生成。
研究者在設(shè)計(jì)中做出了一些選擇,以最大化模型開發(fā)過程的可擴(kuò)展性。例如,選擇標(biāo)準(zhǔn)的密集 Transformer 模型架構(gòu),只進(jìn)行了少量調(diào)整,而不是采用專家混合模型,以最大限度地提高訓(xùn)練的穩(wěn)定性。同樣,采用相對(duì)簡(jiǎn)單的后訓(xùn)練程序,基于監(jiān)督微調(diào)(SFT)、拒絕采樣(RS)和直接偏好優(yōu)化(DPO),而不是更復(fù)雜的強(qiáng)化學(xué)習(xí)算法, 因?yàn)楹笳咄€(wěn)定性較差且更難擴(kuò)展。
6、作為 Llama 3 開發(fā)過程的一部分,Meta 團(tuán)隊(duì)還開發(fā)了模型的多模態(tài)擴(kuò)展,使其具備圖像識(shí)別、視頻識(shí)別和語音理解的能力。這些模型仍在積極開發(fā)中,尚未準(zhǔn)備好發(fā)布,但論文展示了對(duì)這些多模態(tài)模型進(jìn)行初步實(shí)驗(yàn)的結(jié)果。
7、Meta 更新了許可證,允許開發(fā)者使用 Llama 模型的輸出結(jié)果來增強(qiáng)其他模型。
在這篇論文的最后,我們還看到了長長的貢獻(xiàn)者名單:
這一系列因素,最終造就了今天的 Llama 3 系列。
當(dāng)然,對(duì)于普通開發(fā)者來說,如何利用 405B 規(guī)模的模型是一項(xiàng)挑戰(zhàn),需要大量的計(jì)算資源和專業(yè)知識(shí)。
發(fā)布之后,Llama 3.1 的生態(tài)系統(tǒng)已準(zhǔn)備就緒,超過 25 個(gè)合作伙伴提供了可與最新模型搭配使用的服務(wù),包括亞馬遜云科技、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud 和 Snowflake 等。
更多技術(shù)細(xì)節(jié),可參考原論文。