Llama 3來(lái)了!首批開(kāi)源 8B 和 70B兩個(gè)版本,未來(lái)有望開(kāi)源400B大模型! 原創(chuàng) 精華
Llama系列是如今最流行的開(kāi)源大模型,今天,Meta發(fā)布了其最新版本——Llama 3!并將很快上線(xiàn) AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 等平臺(tái)。
在未來(lái)幾個(gè)月里,Meta預(yù)計(jì)將推出新的功能、更長(zhǎng)的上下文窗口、額外的模型大小以及增強(qiáng)的性能,并且將分享 Llama 3 的研究論文。
Llama 3 包含預(yù)訓(xùn)練和指令微調(diào)的語(yǔ)言模型,參數(shù)為 8B 和 70B,可以支持廣泛的用例。這一代的 Llama 在各種行業(yè)基準(zhǔn)測(cè)試中展現(xiàn)出最先進(jìn)的性能,并提供了新的功能,包括改進(jìn)的推理能力。
最先進(jìn)的性能
新 8B 和 70B 參數(shù)的 Llama 3 模型比 Llama 2 跨越了一個(gè)重要的進(jìn)步,并在這些規(guī)模上樹(shù)立了新的技術(shù)標(biāo)準(zhǔn)。由于在預(yù)訓(xùn)練和后訓(xùn)練中的改進(jìn),預(yù)訓(xùn)練和指令微調(diào)模型是當(dāng)今 8B 和 70B 參數(shù)規(guī)模下的最佳模型。后訓(xùn)練程序的改進(jìn)大大降低了虛假拒絕率,提高了對(duì)齊度,并增加了模型響應(yīng)的多樣性。在推理、代碼生成和指令跟隨等大大改進(jìn)了能力,使 Llama 3 更易于控制。
有關(guān)評(píng)估詳細(xì)信息,請(qǐng)參閱用于計(jì)算這些評(píng)估的設(shè)置和參數(shù)。
在 Llama 3 的開(kāi)發(fā)過(guò)程中,Meta關(guān)注了模型在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中的性能,并力求優(yōu)化在真實(shí)場(chǎng)景中的性能。為此,研究人員開(kāi)發(fā)了一個(gè)新的高質(zhì)量人工評(píng)估集。這個(gè)評(píng)估集包含了 1800 個(gè)提示,涵蓋了 12 個(gè)關(guān)鍵用例:征求建議、頭腦風(fēng)暴、分類(lèi)、閉合問(wèn)題回答、編碼、創(chuàng)意寫(xiě)作、提取、扮演角色/人物、開(kāi)放式問(wèn)題回答、推理、重寫(xiě)和摘要。為了防止模型在這個(gè)評(píng)估集上意外過(guò)度擬合,即使Meta自己的建模團(tuán)隊(duì)也無(wú)法訪問(wèn)它。下面的圖表顯示了在這些類(lèi)別和提示中的人工評(píng)估的綜合結(jié)果,與 Claude Sonnet、Mistral Medium 和 GPT-3.5 進(jìn)行了比較。
人類(lèi)注釋員基于這個(gè)評(píng)估集的偏好排名凸顯了 70B 指令跟隨模型在真實(shí)場(chǎng)景中與相同規(guī)模競(jìng)爭(zhēng)模型相比的強(qiáng)勁性能。
為了開(kāi)發(fā)出優(yōu)秀的語(yǔ)言模型,Meta認(rèn)為創(chuàng)新、擴(kuò)展和簡(jiǎn)化優(yōu)化至關(guān)重要。Meta在整個(gè) Llama 3 項(xiàng)目中都采用了這種設(shè)計(jì)理念,并重點(diǎn)關(guān)注了四個(gè)關(guān)鍵要素:模型架構(gòu)、預(yù)訓(xùn)練數(shù)據(jù)、擴(kuò)大預(yù)訓(xùn)練規(guī)模和指令微調(diào)。
模型架構(gòu)
根據(jù)Meta的設(shè)計(jì)理念,選擇了在 Llama 3 中采用相對(duì)標(biāo)準(zhǔn)的僅解碼器的Transformer架構(gòu)。與 Llama 2 相比,做出了幾項(xiàng)關(guān)鍵改進(jìn)。Llama 3 使用了一個(gè)詞匯量為 128K 的分詞器,它更有效地編碼語(yǔ)言,從而大大提高了模型性能。為了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小的模型中都采用了分組查詢(xún)注意力(GQA)。Meta使用一個(gè)長(zhǎng)度為 8,192 個(gè)令牌的序列訓(xùn)練模型,并使用掩碼來(lái)確保自注意力不會(huì)跨越文檔邊界。
訓(xùn)練數(shù)據(jù)
要訓(xùn)練出最佳的語(yǔ)言模型,策劃一個(gè)大規(guī)模、高質(zhì)量的訓(xùn)練數(shù)據(jù)集至關(guān)重要。根據(jù)設(shè)計(jì)原則,Meta大量投資于預(yù)訓(xùn)練數(shù)據(jù)。Llama 3 在公開(kāi)可用的來(lái)源中收集了超過(guò) 15T 個(gè)令牌的預(yù)訓(xùn)練數(shù)據(jù)。Meta的訓(xùn)練數(shù)據(jù)集比用于 Llama 2 的數(shù)據(jù)集大了七倍,其中包括了四倍的代碼。為了準(zhǔn)備即將到來(lái)的多語(yǔ)言用例,超過(guò) 5% 的 Llama 3 預(yù)訓(xùn)練數(shù)據(jù)集由覆蓋超過(guò) 30 種語(yǔ)言的高質(zhì)量非英語(yǔ)數(shù)據(jù)組成。然而,Meta不指望在這些語(yǔ)言中獲得與英語(yǔ)相同水平的性能。
為了確保 Llama 3 在最高質(zhì)量的數(shù)據(jù)上進(jìn)行訓(xùn)練,Meta開(kāi)發(fā)了一系列數(shù)據(jù)過(guò)濾流程。這些流程包括使用啟發(fā)式過(guò)濾器、NSFW 過(guò)濾器、語(yǔ)義去重方法和文本分類(lèi)器來(lái)預(yù)測(cè)數(shù)據(jù)質(zhì)量。Meta發(fā)現(xiàn)以前的 Llama 代的能力驚人地好,能夠識(shí)別高質(zhì)量的數(shù)據(jù),因此使用 Llama 2 生成了驅(qū)動(dòng) Llama 3 的文本質(zhì)量分類(lèi)器的訓(xùn)練數(shù)據(jù)。
Meta還進(jìn)行了大量實(shí)驗(yàn),評(píng)估了在最終的預(yù)訓(xùn)練數(shù)據(jù)集中混合來(lái)自不同來(lái)源的數(shù)據(jù)的最佳方法。這些實(shí)驗(yàn)使能夠選擇一種數(shù)據(jù)混合,以確保 Llama 3 在各種用例中表現(xiàn)良好,包括瑣事問(wèn)題、STEM、編碼、歷史知識(shí)等。
擴(kuò)大預(yù)訓(xùn)練規(guī)模
為了有效利用 Llama 3 模型中的預(yù)訓(xùn)練數(shù)據(jù),Meta付出了大量努力來(lái)擴(kuò)大預(yù)訓(xùn)練規(guī)模。具體來(lái)說(shuō),研究人員開(kāi)發(fā)了一系列詳細(xì)的用于下游基準(zhǔn)評(píng)估的擴(kuò)展定律。這些擴(kuò)展定律使能夠選擇最佳的數(shù)據(jù)混合,并做出關(guān)于如何最佳利用訓(xùn)練計(jì)算資源的明智決策。重要的是,擴(kuò)展定律使能夠在實(shí)際訓(xùn)練模型之前,預(yù)測(cè)最大的模型在關(guān)鍵任務(wù)上(例如,在 HumanEval 基準(zhǔn)測(cè)試中評(píng)估的代碼生成)的性能。這有助于確保最終模型在各種用例和能力中表現(xiàn)出強(qiáng)勁的性能。
在 Llama 3 的開(kāi)發(fā)過(guò)程中,Meta對(duì)擴(kuò)展行為進(jìn)行了幾項(xiàng)新的觀察。例如,雖然 8B 參數(shù)模型的訓(xùn)練計(jì)算資源的奇奇拉最佳量對(duì)應(yīng)著約 200B 個(gè)令牌,但發(fā)現(xiàn)即使在模型訓(xùn)練了兩個(gè)數(shù)量級(jí)的數(shù)據(jù)后,模型的性能仍然會(huì)持續(xù)改善。 8B 和 70B 參數(shù)模型在對(duì)其進(jìn)行了多達(dá) 15T 個(gè)令牌的訓(xùn)練后,仍然呈對(duì)數(shù)線(xiàn)性改進(jìn)。較大的模型可以在較少的訓(xùn)練計(jì)算資源下達(dá)到這些較小模型的性能,但較小的模型通常更受歡迎,因?yàn)樗鼈冊(cè)谕评磉^(guò)程中更加高效。
為了訓(xùn)練最大的 Llama 3 模型,結(jié)合了三種并行化方式:數(shù)據(jù)并行化、模型并行化和管道并行化。最有效的實(shí)現(xiàn)在同時(shí)訓(xùn)練 16K 個(gè) GPU 時(shí),每個(gè) GPU 的計(jì)算利用率超過(guò) 400 TFLOPS。在兩個(gè)自定義構(gòu)建的 24K GPU 集群上進(jìn)行了訓(xùn)練。為了最大程度地提高 GPU 的正常運(yùn)行時(shí)間,Meta開(kāi)發(fā)了一套先進(jìn)的新訓(xùn)練堆棧,用于自動(dòng)化錯(cuò)誤檢測(cè)、處理和維護(hù)。
指令微調(diào)
為了充分發(fā)揮預(yù)訓(xùn)練模型在聊天應(yīng)用場(chǎng)景中的潛力,Meta還對(duì)指令微調(diào)方法進(jìn)行了創(chuàng)新。后訓(xùn)練方法是監(jiān)督微調(diào)(SFT)、拒絕抽樣、近端策略?xún)?yōu)化(PPO)和直接策略?xún)?yōu)化(DPO)的組合。在 SFT 中使用的提示質(zhì)量以及在 PPO 和 DPO 中使用的偏好排名對(duì)齊模型的性能有著極大的影響。在模型質(zhì)量上取得的一些最大改進(jìn)來(lái)自于精心策劃這些數(shù)據(jù),并對(duì)人類(lèi)注釋員提供的標(biāo)注進(jìn)行了多輪質(zhì)量保證。
通過(guò) PPO 和 DPO 學(xué)習(xí)偏好排名也極大地提高了 Llama 3 在推理和編碼任務(wù)上的性能。,如果你向模型提出一個(gè)它難以回答的推理問(wèn)題,模型有時(shí)會(huì)產(chǎn)生正確的推理軌跡:模型知道如何生成正確的答案,但它不知道如何選擇它。通過(guò)偏好排名的訓(xùn)練,模型可以學(xué)會(huì)如何進(jìn)行選擇。
利用 Llama 3 構(gòu)建
Meta的愿景是使開(kāi)發(fā)人員能夠定制 Llama 3,以支持相關(guān)的使用案例,并使其更容易采用最佳實(shí)踐并改善開(kāi)放生態(tài)系統(tǒng)。在這個(gè)版本中,Meta提供了新的信任和安全工具,包括更新的 Llama Guard 2 和 Cybersec Eval 2 組件,以及 Code Shield 的引入——這是一個(gè)用于過(guò)濾由 LLM 生成的不安全代碼的推理時(shí)間保護(hù)欄。
Meta還與 torchtune 共同開(kāi)發(fā)了 Llama 3,這是一個(gè)新的 PyTorch 原生庫(kù),用于輕松編寫(xiě)、微調(diào)和實(shí)驗(yàn) LLM。torchtune 提供了內(nèi)存高效和可修改的訓(xùn)練配方,完全用 PyTorch 編寫(xiě)。該庫(kù)集成了流行的平臺(tái),如 Hugging Face、Weights & Biases 和 EleutherAI,甚至支持 Executorch,在各種移動(dòng)和邊緣設(shè)備上實(shí)現(xiàn)高效推理。從提示工程到使用 Llama 3 與 LangChain,Meta都有一份全面的入門(mén)指南,從下載 Llama 3 到在您的生成式 AI 應(yīng)用程序中進(jìn)行規(guī)模化部署。
責(zé)任的系統(tǒng)級(jí)方法
設(shè)計(jì) Llama 3 模型的目標(biāo)是最大限度地提高其幫助性,同時(shí)確保采用行業(yè)領(lǐng)先的負(fù)責(zé)任部署方法。為了實(shí)現(xiàn)這一目標(biāo),Meta采用了一種新的、系統(tǒng)級(jí)的方法來(lái)負(fù)責(zé)任地開(kāi)發(fā)和部署 Llama。Meta將 Llama 模型視為更廣泛系統(tǒng)的一部分,讓開(kāi)發(fā)人員坐在駕駛座上。Llama 模型將作為開(kāi)發(fā)人員根據(jù)其獨(dú)特的最終目標(biāo)設(shè)計(jì)的系統(tǒng)的基礎(chǔ)組成部分。
指令微調(diào)在確保模型安全性方面也起著重要作用。指令微調(diào)模型已經(jīng)通過(guò)內(nèi)部和外部努力進(jìn)行了安全的紅隊(duì)測(cè)試。紅隊(duì)方法利用人類(lèi)專(zhuān)家和自動(dòng)化方法生成對(duì)抗性提示,試圖引發(fā)問(wèn)題響應(yīng)。例如,對(duì)與化學(xué)、生物、網(wǎng)絡(luò)安全等風(fēng)險(xiǎn)領(lǐng)域相關(guān)的誤用風(fēng)險(xiǎn)進(jìn)行了全面測(cè)試。所有這些努力都是迭代的,用于指導(dǎo)發(fā)布模型的安全微調(diào)。
Llama Guard 模型旨在成為提示和響應(yīng)安全的基礎(chǔ),并可以根據(jù)應(yīng)用需求輕松進(jìn)行微調(diào)以創(chuàng)建新的分類(lèi)。作為起點(diǎn),新的 Llama Guard 2 使用最近公布的 MLCommons 分類(lèi)法,旨在支持這一重要領(lǐng)域的產(chǎn)業(yè)標(biāo)準(zhǔn)的出現(xiàn)。此外,CyberSecEval 2 在其前身的基礎(chǔ)上增加了對(duì) LLM 允許濫用其代碼解釋器、攻擊性網(wǎng)絡(luò)安全功能以及易受提示注入攻擊的傾向性的評(píng)估。最后,Meta引入了 Code Shield,它增加了對(duì) LLM 生成的不安全代碼進(jìn)行推理時(shí)間過(guò)濾的支持。這提供了關(guān)于不安全代碼建議、代碼解釋器濫用預(yù)防以及安全命令執(zhí)行的風(fēng)險(xiǎn)緩解。
鑒于生成式 AI 領(lǐng)域的發(fā)展速度,Meta相信開(kāi)放式方法是將生態(tài)系統(tǒng)匯聚在一起并減輕這些潛在危害的重要途徑。作為其中的一部分,Meta正在更新《負(fù)責(zé)任使用指南》(RUG),提供了使用 LLM 進(jìn)行負(fù)責(zé)任開(kāi)發(fā)的全面指南。正如在 RUG 中概述的那樣,Meta建議根據(jù)適用于應(yīng)用的內(nèi)容指南檢查和過(guò)濾所有輸入和輸出。此外,許多云服務(wù)提供商提供內(nèi)容調(diào)節(jié) API 和其他用于負(fù)責(zé)任部署的工具,鼓勵(lì)開(kāi)發(fā)人員考慮使用這些選項(xiàng)。
Llama 3 的下一步是什么?
Llama 3 8B 和 70B 模型標(biāo)志著Meta計(jì)劃發(fā)布的 Llama 3 的開(kāi)始。而且還有更多的功能即將推出。
Meta的最大模型包含超過(guò) 400B 的參數(shù),盡管這些模型仍在訓(xùn)練中,但Meta團(tuán)隊(duì)對(duì)它們的趨勢(shì)感到興奮。在接下來(lái)的幾個(gè)月中,Meta將發(fā)布多個(gè)具有新功能的模型,包括多模態(tài)、多語(yǔ)言對(duì)話(huà)的能力、更長(zhǎng)的上下文窗口和更強(qiáng)大的整體功能。Meta還將在完成對(duì) Llama 3 的訓(xùn)練后發(fā)布詳細(xì)的研究論文。
為了讓您提前了解這些模型目前的情況,Meta想分享一些關(guān)于最大的 LLM 模型趨勢(shì)的快照。請(qǐng)注意,這些數(shù)據(jù)基于 Llama 3 的早期檢查點(diǎn),這些功能目前不支持作為今天發(fā)布的模型的一部分。
Meta致力于持續(xù)發(fā)展和建設(shè)一個(gè)開(kāi)放的人工智能生態(tài)系統(tǒng),以負(fù)責(zé)任地發(fā)布模型。Meta長(zhǎng)期以來(lái)一直相信開(kāi)放性能夠帶來(lái)更好、更安全的產(chǎn)品,加速創(chuàng)新,并促進(jìn)更健康的整體市場(chǎng)。這對(duì) Meta 是有利的,也對(duì)社會(huì)是有益的。以社區(qū)為先的方式對(duì)待 Llama 3,從今天開(kāi)始,這些模型已經(jīng)可以在領(lǐng)先的云、托管和硬件平臺(tái)上使用,而且還會(huì)有更多平臺(tái)的支持即將到來(lái)。
Llama 3網(wǎng)址:https://llama.meta.com/llama3/
譯自(有刪改):https://ai.meta.com/blog/meta-llama-3/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama3
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線(xiàn)
原文鏈接:??https://mp.weixin.qq.com/s/cyuPhRxeYQx6BgjqA0dPzw??
