首個(gè)超越GPT4o級(jí)開(kāi)源模型!Llama 3.1泄密:4050億參數(shù),下載鏈接、模型卡都有了
Llama 3.1 終于現(xiàn)身了,不過(guò)出處卻不是 Meta 官方。
今日,Reddit 上新版 Llama 大模型泄露的消息遭到了瘋傳,除了基礎(chǔ)模型,還包括 8B、70B 和最大參數(shù)的 405B 的基準(zhǔn)測(cè)試結(jié)果。
下圖為 Llama 3.1 各版本與 OpenAI GPT-4o、Llama 3 8B/70B 的比較結(jié)果??梢钥吹?,即使是 70B 的版本,也在多項(xiàng)基準(zhǔn)上超過(guò)了 GPT-4o。
圖源:https://x.com/mattshumer_/status/1815444612414087294
顯然,3.1 版本的 8B 和 70B 模型是由 405B 蒸餾得來(lái)的,因此相比上一代有著明顯的性能提升。
有網(wǎng)友表示,這是首次開(kāi)源模型超越了 GPT4o 和 Claude Sonnet 3.5 等閉源模型,在多個(gè) benchmark 上達(dá)到 SOTA。
與此同時(shí),Llama 3.1 的模型卡流出,細(xì)節(jié)也泄露了(從模型卡中標(biāo)注的日期看出基于 7 月 23 日發(fā)布)。
有人總結(jié)了以下幾個(gè)亮點(diǎn):
- 模型使用了公開(kāi)來(lái)源的 15T+ tokens 進(jìn)行訓(xùn)練,預(yù)訓(xùn)練數(shù)據(jù)截止日期為 2023 年 12 月;
- 微調(diào)數(shù)據(jù)包括公開(kāi)可用的指令微調(diào)數(shù)據(jù)集(與 Llama 3 不同)和 1500 萬(wàn)個(gè)合成樣本;
- 模型支持多語(yǔ)言,包括英語(yǔ)、法語(yǔ)、德語(yǔ)、印地語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)和泰語(yǔ)。
圖源:https://x.com/iScienceLuvr/status/1815519917715730702
雖然泄露的 Github 鏈接目前 404 了,但有網(wǎng)友給出了下載鏈接(不過(guò)為了安全,建議還是等今晚的官方渠道公布):
不過(guò)這畢竟是個(gè)千億級(jí)大模型,下載之前請(qǐng)準(zhǔn)備好足夠的硬盤空間:
以下是 Llama 3.1 模型卡中的重要內(nèi)容:
模型基本信息
Meta Llama 3.1 多語(yǔ)言大型語(yǔ)言模型 (LLM) 集合是一組經(jīng)過(guò)預(yù)訓(xùn)練和指令微調(diào)的生成模型,大小分別為 8B、70B 和 405B(文本輸入 / 文本輸出)。Llama 3.1 指令微調(diào)的純文本模型(8B、70B、405B)針對(duì)多語(yǔ)言對(duì)話用例進(jìn)行了優(yōu)化,在常見(jiàn)的行業(yè)基準(zhǔn)上優(yōu)于許多可用的開(kāi)源和閉源聊天模型。
模型架構(gòu):Llama 3.1 是優(yōu)化了的 Transformer 架構(gòu)自回歸語(yǔ)言模型。微調(diào)后的版本使用 SFT 和 RLHF 來(lái)對(duì)齊可用性與安全偏好。
支持語(yǔ)言:英語(yǔ)、德語(yǔ)、法語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、印地語(yǔ)、西班牙語(yǔ)和泰語(yǔ)。
從模型卡信息可以推斷,Llama 3.1 系列模型的上下文長(zhǎng)度為 128k。所有模型版本都使用分組查詢注意力(GQA)來(lái)提高推理可擴(kuò)展性。
預(yù)期用途
預(yù)期用例。Llama 3.1 旨在用于多語(yǔ)言的商業(yè)應(yīng)用及研究。指令調(diào)整的純文本模型適用于類助理聊天,而預(yù)訓(xùn)練模型可以適應(yīng)各種自然語(yǔ)言生成任務(wù)。
Llama 3.1 模型集還支持利用其模型輸出來(lái)改進(jìn)其他模型(包括合成數(shù)據(jù)生成和蒸餾)的能力。Llama 3.1 社區(qū)許可協(xié)議允許這些用例。
Llama 3.1 在比 8 種受支持語(yǔ)言更廣泛的語(yǔ)言集合上進(jìn)行訓(xùn)練。開(kāi)發(fā)人員可以針對(duì) 8 種受支持語(yǔ)言以外的語(yǔ)言對(duì) Llama 3.1 模型進(jìn)行微調(diào),前提是遵守 Llama 3.1 社區(qū)許可協(xié)議和可接受使用策略, 并且在這種情況下負(fù)責(zé)確保以安全和負(fù)責(zé)任的方式使用其他語(yǔ)言的 Llama 3.1。
軟硬件基礎(chǔ)設(shè)施
首先是訓(xùn)練要素,Llama 3.1 使用自定義訓(xùn)練庫(kù)、Meta 定制的 GPU 集群和生產(chǎn)基礎(chǔ)設(shè)施進(jìn)行預(yù)訓(xùn)練,還在生產(chǎn)基礎(chǔ)設(shè)施上進(jìn)行了微調(diào)、注釋和評(píng)估。
其次是訓(xùn)練能耗,Llama 3.1 訓(xùn)練在 H100-80GB(TDP 為 700W)類型硬件上累計(jì)使用了 39.3 M GPU 小時(shí)的計(jì)算。這里訓(xùn)練時(shí)間是訓(xùn)練每個(gè)模型所需的總 GPU 時(shí)間,功耗是每個(gè) GPU 設(shè)備的峰值功率容量,根據(jù)用電效率進(jìn)行了調(diào)整。
訓(xùn)練溫室氣體排放。Llama 3.1 訓(xùn)練期間基于地域基準(zhǔn)的溫室氣體總排放量預(yù)估為 11,390 噸二氧化碳當(dāng)量。自 2020 年以來(lái),Meta 在全球運(yùn)營(yíng)中一直保持凈零溫室氣體排放,并將其 100% 的電力使用與可再生能源相匹配,因此訓(xùn)練期間基于市場(chǎng)基準(zhǔn)的溫室氣體總排放量為 0 噸二氧化碳當(dāng)量。
用于確定訓(xùn)練能源使用和溫室氣體排放的方法可以在以下論文中找到。由于 Meta 公開(kāi)發(fā)布了這些模型,因此其他人不需要承擔(dān)訓(xùn)練能源使用和溫室氣體排放。
論文地址:https://arxiv.org/pdf/2204.05149
訓(xùn)練數(shù)據(jù)
概述:Llama 3.1 使用來(lái)自公開(kāi)來(lái)源的約 15 萬(wàn)億個(gè) token 數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練。微調(diào)數(shù)據(jù)包括公開(kāi)可用的指令數(shù)據(jù)集,以及超過(guò) 2500 萬(wàn)個(gè)綜合生成的示例。
數(shù)據(jù)新鮮度:預(yù)訓(xùn)練數(shù)據(jù)的截止日期為 2023 年 12 月。
Benchmark 評(píng)分
在這一部分,Meta 報(bào)告了 Llama 3.1 模型在標(biāo)注 benchmark 上的評(píng)分結(jié)果。所有的評(píng)估,Meta 都是使用內(nèi)部的評(píng)估庫(kù)。
安全風(fēng)險(xiǎn)考量
Llama 研究團(tuán)隊(duì)致力于為研究界提供寶貴的資源來(lái)研究安全微調(diào)的穩(wěn)健性,并為開(kāi)發(fā)人員提供適用于各種應(yīng)用的安全且強(qiáng)大的現(xiàn)成模型,以減少部署安全人工智能系統(tǒng)的開(kāi)發(fā)人員的工作量。
研究團(tuán)隊(duì)采用多方面數(shù)據(jù)收集方法,將供應(yīng)商的人工生成數(shù)據(jù)與合成數(shù)據(jù)相結(jié)合,以減輕潛在的安全風(fēng)險(xiǎn)。研究團(tuán)隊(duì)開(kāi)發(fā)了許多基于大型語(yǔ)言模型 (LLM) 的分類器,以深思熟慮地選擇高質(zhì)量的 prompt 和響應(yīng),從而增強(qiáng)數(shù)據(jù)質(zhì)量控制。
值得一提的是,Llama 3.1 非常重視模型拒絕良性 prompt 以及拒絕語(yǔ)氣。研究團(tuán)隊(duì)在安全數(shù)據(jù)策略中引入了邊界 prompt 和對(duì)抗性 prompt,并修改了安全數(shù)據(jù)響應(yīng)以遵循語(yǔ)氣指南。
Llama 3.1 模型并非設(shè)計(jì)為單獨(dú)部署,而是應(yīng)作為整個(gè)人工智能系統(tǒng)的一部分進(jìn)行部署,并根據(jù)需要提供額外的「安全護(hù)欄」。開(kāi)發(fā)人員在構(gòu)建智能體系統(tǒng)時(shí)應(yīng)部署系統(tǒng)安全措施。
請(qǐng)注意,該版本引入了新功能,包括更長(zhǎng)的上下文窗口、多語(yǔ)言輸入和輸出,以及開(kāi)發(fā)人員與第三方工具的可能集成。使用這些新功能進(jìn)行構(gòu)建時(shí),除了需要考慮一般適用于所有生成式人工智能用例的最佳實(shí)踐外,還需要特別注意以下問(wèn)題:
工具使用:與標(biāo)準(zhǔn)軟件開(kāi)發(fā)一樣,開(kāi)發(fā)人員負(fù)責(zé)將 LLM 與他們所選擇的工具和服務(wù)集成。他們應(yīng)為自己的使用案例制定明確的政策,并評(píng)估所使用的第三方服務(wù)的完整性,以了解使用此功能時(shí)的安全和安保限制。
多語(yǔ)言:Lama 3.1 除英語(yǔ)外還支持 7 種語(yǔ)言:法語(yǔ)、德語(yǔ)、印地語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)和泰語(yǔ)。Llama 可能可以輸出其他語(yǔ)言的文本,但這些文本可能不符合安全性和幫助性性能閾值。
Llama 3.1 的核心價(jià)值觀是開(kāi)放、包容和樂(lè)于助人。它旨在服務(wù)于每個(gè)人,并適用于各種使用情況。因此,Llama 3.1 的設(shè)計(jì)宗旨是讓不同背景、經(jīng)歷和觀點(diǎn)的人都能使用。Llama 3.1 以用戶及其需求為本,沒(méi)有插入不必要的評(píng)判或規(guī)范,同時(shí)也反映了這樣一種認(rèn)識(shí),即即使在某些情況下看似有問(wèn)題的內(nèi)容,在其他情況下也能達(dá)到有價(jià)值的目的。Llama 3.1 尊重所有用戶的尊嚴(yán)和自主權(quán),尤其是尊重為創(chuàng)新和進(jìn)步提供動(dòng)力的自由思想和表達(dá)價(jià)值觀。
但 Llama 3.1 是一項(xiàng)新技術(shù),與任何新技術(shù)一樣,其使用也存在風(fēng)險(xiǎn)。迄今為止進(jìn)行的測(cè)試尚未涵蓋也不可能涵蓋所有情況。因此,與所有 LLM 一樣,Llama 3.1 的潛在輸出無(wú)法事先預(yù)測(cè),在某些情況下,該模型可能會(huì)對(duì)用戶提示做出不準(zhǔn)確、有偏差或其他令人反感的反應(yīng)。因此,在部署 Llama 3.1 模型的任何應(yīng)用之前,開(kāi)發(fā)人員應(yīng)針對(duì)模型的具體應(yīng)用進(jìn)行安全測(cè)試和微調(diào)。