自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

更強(qiáng)的Llama 2開(kāi)源,可直接商用:一夜之間,大模型格局變了

人工智能 新聞
已上微軟 Azure,即將要上 AWS、Hugging Face。據(jù)介紹,相比于 Llama 1,Llama 2 的訓(xùn)練數(shù)據(jù)多了 40%,上下文長(zhǎng)度也翻倍,并采用了分組查詢注意力機(jī)制。

一夜之間,大模型格局再次發(fā)生巨變。

圖片圖片

一直以來(lái) Llama 可以說(shuō)是 AI 社區(qū)內(nèi)最強(qiáng)大的開(kāi)源大模型。但因?yàn)殚_(kāi)源協(xié)議問(wèn)題,一直不可免費(fèi)商用。

今日,Meta 終于發(fā)布了大家期待已久的免費(fèi)可商用版本 Llama 2。

圖片圖片

此次 Meta 發(fā)布的 Llama 2 模型系列包含 70 億、130 億和 700 億三種參數(shù)變體。此外還訓(xùn)練了 340 億參數(shù)變體,但并沒(méi)有發(fā)布,只在技術(shù)報(bào)告中提到了。

據(jù)介紹,相比于 Llama 1,Llama 2 的訓(xùn)練數(shù)據(jù)多了 40%,上下文長(zhǎng)度也翻倍,并采用了分組查詢注意力機(jī)制。具體來(lái)說(shuō),Llama 2 預(yù)訓(xùn)練模型是在 2 萬(wàn)億的 token 上訓(xùn)練的,精調(diào) Chat 模型是在 100 萬(wàn)人類標(biāo)記數(shù)據(jù)上訓(xùn)練的。

圖片圖片

公布的測(cè)評(píng)結(jié)果顯示,Llama 2 在包括推理、編碼、精通性和知識(shí)測(cè)試等許多外部基準(zhǔn)測(cè)試中都優(yōu)于其他開(kāi)源語(yǔ)言模型。

圖片

接下來(lái),我們就從 Meta 公布的技術(shù)報(bào)告中,詳細(xì)了解下 Llama 2。

圖片圖片


  • 論文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
  • 項(xiàng)目地址:https://github.com/facebookresearch/llama

總的來(lái)說(shuō),作為一組經(jīng)過(guò)預(yù)訓(xùn)練和微調(diào)的大語(yǔ)言模型(LLM),Llama 2 模型系列的參數(shù)規(guī)模從 70 億到 700 億不等。其中的 Llama 2-Chat 針對(duì)對(duì)話用例進(jìn)行了專門(mén)優(yōu)化。

Llama 2-Chat 的訓(xùn)練 pipeline。Llama 2-Chat 的訓(xùn)練 pipeline。

Llama 2 模型系列除了在大多數(shù)基準(zhǔn)測(cè)試中優(yōu)于開(kāi)源模型之外,根據(jù) Meta 對(duì)有用性和安全性的人工評(píng)估,它或許也是閉源模型的合適替代品。

Llama 2-Chat 與其他開(kāi)源和閉源模型在安全性人類評(píng)估上的結(jié)果。

Meta 詳細(xì)介紹了 Llama 2-Chat 的微調(diào)和安全改進(jìn)方法,使社區(qū)可以在其工作基礎(chǔ)上繼續(xù)發(fā)展,為大語(yǔ)言模型的負(fù)責(zé)任發(fā)展做出貢獻(xiàn)。

預(yù)訓(xùn)練

為了創(chuàng)建全新的 Llama 2 模型系列,Meta 以 Llama 1 論文中描述的預(yù)訓(xùn)練方法為基礎(chǔ),使用了優(yōu)化的自回歸 transformer,并做了一些改變以提升性能。

具體而言,Meta 執(zhí)行了更穩(wěn)健的數(shù)據(jù)清理,更新了混合數(shù)據(jù),訓(xùn)練 token 總數(shù)增加了 40%,上下文長(zhǎng)度翻倍。下表 1 比較了 Llama 2 與 Llama 1 的詳細(xì)數(shù)據(jù)。

圖片圖片

Llama 2 的訓(xùn)練語(yǔ)料庫(kù)包含了來(lái)自公開(kāi)可用資源的混合數(shù)據(jù),并且不包括 Meta 產(chǎn)品或服務(wù)相關(guān)的數(shù)據(jù)。Llama 2 采用了 Llama 1 中的大部分預(yù)訓(xùn)練設(shè)置和模型架構(gòu),包括標(biāo)準(zhǔn) Transformer 架構(gòu)、使用 RMSNorm 的預(yù)歸一化、SwiGLU 激活函數(shù)和旋轉(zhuǎn)位置嵌入。

在超參數(shù)方面,Meta 使用 AdamW 優(yōu)化器進(jìn)行訓(xùn)練,其中 β_1 = 0.9,β_2 = 0.95,eps = 10^?5。同時(shí)使用余弦學(xué)習(xí)率計(jì)劃(預(yù)熱 2000 步),并將最終學(xué)習(xí)率衰減到了峰值學(xué)習(xí)率的 10%。

下圖 5 為這些超參數(shù)設(shè)置下 Llama 2 的訓(xùn)練損失曲線。

圖片

在訓(xùn)練硬件方面,Meta 在其研究超級(jí)集群(Research Super Cluster, RSC)以及內(nèi)部生產(chǎn)集群上對(duì)模型進(jìn)行了預(yù)訓(xùn)練。兩個(gè)集群均使用了 NVIDIA A100。

在預(yù)訓(xùn)練的碳足跡方面,Meta 根據(jù)以往的研究方法,利用 GPU 設(shè)備的功耗估算和碳效率,計(jì)算了 Llama 2 模型預(yù)訓(xùn)練所產(chǎn)生的碳排放量。

預(yù)訓(xùn)練期間 Llama 2 各個(gè)模型的碳排放量。

Llama 2 預(yù)訓(xùn)練模型評(píng)估

Meta 報(bào)告了 Llama 1、Llama 2 基礎(chǔ)模型、MPT(MosaicML)和 Falcon 等開(kāi)源模型在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上的結(jié)果。

下表 3 總結(jié)了這些模型在一系列流行基準(zhǔn)上的整體性能,結(jié)果表明,Llama 2 優(yōu)于 Llama 1 。

圖片

除了開(kāi)源模型之外,Meta 還將 Llama 2 70B 的結(jié)果與閉源模型進(jìn)行了比較,結(jié)果如下表 4 所示。Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5,但在編碼基準(zhǔn)上存在顯著差距。

此外,在幾乎所有基準(zhǔn)上,Llama 2 70B 的結(jié)果均與谷歌 PaLM (540B) 持平或表現(xiàn)更好,不過(guò)與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。

微調(diào)

Llama 2-Chat 是數(shù)個(gè)月研究和迭代應(yīng)用對(duì)齊技術(shù)(包括指令調(diào)整和 RLHF)的成果,需要大量的計(jì)算和注釋資源。

監(jiān)督微調(diào) (SFT)

第三方監(jiān)督微調(diào)數(shù)據(jù)可從許多不同來(lái)源獲得,但 Meta 發(fā)現(xiàn)其中許多數(shù)據(jù)的多樣性和質(zhì)量都不夠高,尤其是在使 LLM 與對(duì)話式指令保持一致方面。因此,他們首先重點(diǎn)收集了幾千個(gè)高質(zhì)量 SFT 數(shù)據(jù)示例,如下表 5 所示。

圖片圖片

在微調(diào)過(guò)程中,每個(gè)樣本都包括一個(gè)提示和一個(gè)回答。為確保模型序列長(zhǎng)度得到正確填充,Meta 將訓(xùn)練集中的所有提示和答案連接起來(lái)。他們使用一個(gè)特殊的 token 來(lái)分隔提示和答案片段,利用自回歸目標(biāo),將來(lái)自用戶提示的 token 損失歸零,因此只對(duì)答案 token 進(jìn)行反向傳播。最后對(duì)模型進(jìn)行了 2 次微調(diào)。

RLHF

RLHF 是一種模型訓(xùn)練程序,適用于經(jīng)過(guò)微調(diào)的語(yǔ)言模型,以進(jìn)一步使模型行為與人類偏好和指令遵循相一致。Meta 收集了代表了人類偏好經(jīng)驗(yàn)采樣的數(shù)據(jù),人類注釋者可據(jù)此選擇他們更喜歡的兩種模型輸出。這種人類反饋隨后被用于訓(xùn)練獎(jiǎng)勵(lì)模型,該模型可學(xué)習(xí)人類注釋者的偏好模式,然后自動(dòng)做出偏好決定。

下表 6 報(bào)告了 Meta 長(zhǎng)期以來(lái)收集到的獎(jiǎng)勵(lì)建模數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,并將其與多個(gè)開(kāi)源偏好數(shù)據(jù)集進(jìn)行了對(duì)比。他們收集了超過(guò) 100 萬(wàn)個(gè)基于人類應(yīng)用指定準(zhǔn)則的二元比較的大型數(shù)據(jù)集,也就是元獎(jiǎng)賞建模數(shù)據(jù)。

請(qǐng)注意,提示和答案中的標(biāo)記數(shù)因文本領(lǐng)域而異。摘要和在線論壇數(shù)據(jù)的提示通常較長(zhǎng),而對(duì)話式的提示通常較短。與現(xiàn)有的開(kāi)源數(shù)據(jù)集相比,本文的偏好數(shù)據(jù)具有更多的對(duì)話回合,平均長(zhǎng)度也更長(zhǎng)。

圖片圖片

獎(jiǎng)勵(lì)模型將模型響應(yīng)及其相應(yīng)的提示(包括前一輪的上下文)作為輸入,并輸出一個(gè)標(biāo)量分?jǐn)?shù)來(lái)表示模型生成的質(zhì)量(例如有用性和安全性)。利用這種作為獎(jiǎng)勵(lì)的響應(yīng)得分,Meta 在 RLHF 期間優(yōu)化了 Llama 2-Chat,以更好地與人類偏好保持一致,并提高有用性和安全性。

在每一批用于獎(jiǎng)勵(lì)建模的人類偏好注釋中,Meta 都拿出 1000 個(gè)樣本作為測(cè)試集來(lái)評(píng)估模型,并將相應(yīng)測(cè)試集的所有提示的集合分別稱為「元有用性」和「元安全性」。

下表 7 中報(bào)告了準(zhǔn)確率結(jié)果。不出所料,Meta 自己的獎(jiǎng)勵(lì)模型在基于 Llama 2-Chat 收集的內(nèi)部測(cè)試集上表現(xiàn)最佳,其中「有用性」獎(jiǎng)勵(lì)模型在「元有用性」測(cè)試集上表現(xiàn)最佳,同樣,「安全性」獎(jiǎng)勵(lì)模型在「元安全性」測(cè)試集上表現(xiàn)最佳。

總體而言,Meta 的獎(jiǎng)勵(lì)模型優(yōu)于包括 GPT-4 在內(nèi)的所有基線模型。有趣的是,盡管 GPT-4 沒(méi)有經(jīng)過(guò)直接訓(xùn)練,也沒(méi)有專門(mén)針對(duì)這一獎(jiǎng)勵(lì)建模任務(wù),但它的表現(xiàn)卻優(yōu)于其他非元獎(jiǎng)勵(lì)模型。

圖片圖片

縮放趨勢(shì)。Meta 研究了獎(jiǎng)勵(lì)模型在數(shù)據(jù)和模型大小方面的縮放趨勢(shì),在每周收集的獎(jiǎng)勵(lì)模型數(shù)據(jù)量不斷增加的情況下,對(duì)不同的模型大小進(jìn)行了微調(diào)。下圖 6 報(bào)告了這些趨勢(shì),顯示了預(yù)期的結(jié)果,即在類似的數(shù)據(jù)量下,更大的模型能獲得更高的性能。

圖片

隨著收到更多批次的人類偏好數(shù)據(jù)注釋,能夠訓(xùn)練出更好的獎(jiǎng)勵(lì)模型并收集更多的提示。因此,Meta 訓(xùn)練了連續(xù)版本的 RLHF 模型,在此稱為 RLHF-V1、...... , RLHF-V5。

此處使用兩種主要算法對(duì) RLHF 進(jìn)行了微調(diào):

  • 近端策略優(yōu)化 (PPO);
  • Rejection 采樣微調(diào)。

RLHF 結(jié)果

首先是基于模型的評(píng)估結(jié)果。下圖 11 報(bào)告了不同 SFT 和 RLHF 版本在安全性和有用性方面的進(jìn)展,其中通過(guò) Meta 內(nèi)部的安全性和有用性獎(jiǎng)勵(lì)模型進(jìn)行評(píng)估。

圖片

再來(lái)看人類評(píng)估結(jié)果。如下圖 12 所示,Llama 2-Chat 模型在單輪和多輪提示方面均顯著優(yōu)于開(kāi)源模型。特別地,Llama 2-Chat 7B 在 60% 的提示上優(yōu)于 MPT-7B-chat,Llama 2-Chat 34B 相對(duì)于同等大小的 Vicuna-33B 和 Falcon 40B,表現(xiàn)出了 75% 以上的整體勝率。

圖片圖片

在這里,Meta 也指出了人工評(píng)估的一些局限性。

雖然結(jié)果表明 Llama 2-Chat 在人工評(píng)估方面與 ChatGPT 不相上下,但必須指出的是,人工評(píng)估存在一些局限性。

  • 按照學(xué)術(shù)和研究標(biāo)準(zhǔn),本文擁有一個(gè) 4k 提示的大型提示集。但是,這并不包括這些模型在現(xiàn)實(shí)世界中的使用情況,而現(xiàn)實(shí)世界中的使用情況可能要多得多。
  • 提示語(yǔ)的多樣性可能是影響結(jié)果的另一個(gè)因素,例如本文提示集不包括任何編碼或推理相關(guān)的提示。
  • 本文只評(píng)估了多輪對(duì)話的最終生成。更有趣的評(píng)估方法可能是要求模型完成一項(xiàng)任務(wù),并對(duì)模型在多輪對(duì)話中的整體體驗(yàn)進(jìn)行評(píng)分。
  • 人類對(duì)生成模型的評(píng)估本身就具有主觀性和噪聲性。因此,使用不同的提示集或不同的指令進(jìn)行評(píng)估可能會(huì)產(chǎn)生不同的結(jié)果。

安全性

該研究使用三個(gè)常用基準(zhǔn)評(píng)估了 Llama 2 的安全性,針對(duì)三個(gè)關(guān)鍵維度:

  • 真實(shí)性,指語(yǔ)言模型是否會(huì)產(chǎn)生錯(cuò)誤信息,采用 TruthfulQA 基準(zhǔn);
  • 毒性,指語(yǔ)言模型是否會(huì)產(chǎn)生「有毒」、粗魯、有害的內(nèi)容,采用 ToxiGen 基準(zhǔn);
  • 偏見(jiàn),指語(yǔ)言模型是否會(huì)產(chǎn)生存在偏見(jiàn)的內(nèi)容,采用 BOLD 基準(zhǔn)。

預(yù)訓(xùn)練的安全性

首先,預(yù)訓(xùn)練數(shù)據(jù)對(duì)模型來(lái)說(shuō)非常重要。Meta 進(jìn)行實(shí)驗(yàn)評(píng)估了預(yù)訓(xùn)練數(shù)據(jù)的安全性。

該研究使用在 ToxiGen 數(shù)據(jù)集上微調(diào)的 HateBERT 分類器來(lái)測(cè)量預(yù)訓(xùn)練語(yǔ)料庫(kù)英文數(shù)據(jù)的「毒性」,具體結(jié)果如下圖 13 所示:

圖片

為了分析偏見(jiàn)方面的問(wèn)題,該研究統(tǒng)計(jì)分析了預(yù)訓(xùn)練語(yǔ)料庫(kù)中的代詞和身份相關(guān)術(shù)語(yǔ)及其占比,如下表 9 所示:

圖片圖片

此外,在語(yǔ)言分布方面,Llama 2 語(yǔ)料庫(kù)涵蓋的語(yǔ)種及其占比如下表 10 所示:

圖片

安全微調(diào)

具體來(lái)說(shuō),Meta 在安全微調(diào)中使用了以下技術(shù):1、監(jiān)督安全微調(diào);2、安全 RLHF;3、安全上下文蒸餾。

Meta 在 Llama 2-Chat 的開(kāi)發(fā)初期就觀察到,它能夠在有監(jiān)督的微調(diào)過(guò)程中從安全演示中有所總結(jié)。模型很快就學(xué)會(huì)了撰寫(xiě)詳細(xì)的安全回復(fù)、解決安全問(wèn)題、解釋話題可能敏感的原因并提供更多有用信息。特別是,當(dāng)模型輸出安全回復(fù)時(shí),它們往往比普通注釋者寫(xiě)得更詳細(xì)。因此,在只收集了幾千個(gè)有監(jiān)督的示范后,Meta 就完全改用 RLHF 來(lái)教模型如何寫(xiě)出更細(xì)致入微的回復(fù)。使用 RLHF 進(jìn)行全面調(diào)整的另一個(gè)好處是,它可以使模型對(duì)越獄嘗試更加魯棒。

圖片

Meta 首先通過(guò)收集人類對(duì)安全性的偏好數(shù)據(jù)來(lái)進(jìn)行 RLHF,其中注釋者編寫(xiě)他們認(rèn)為會(huì)引發(fā)不安全行為的 prompt,然后將多個(gè)模型響應(yīng)與 prompt 進(jìn)行比較,并根據(jù)一系列指南選擇最安全的響應(yīng)。接著使用人類偏好數(shù)據(jù)來(lái)訓(xùn)練安全獎(jiǎng)勵(lì)模型,并在 RLHF 階段重用對(duì)抗性 prompt 以從模型中進(jìn)行采樣。

如下圖 15 所示,Meta 使用平均獎(jiǎng)勵(lì)模型得分作為模型在安全性和有用性方面的表現(xiàn)結(jié)果。Meta 觀察到,當(dāng)他們?cè)黾影踩珨?shù)據(jù)的比例時(shí),模型處理風(fēng)險(xiǎn)和對(duì)抗性 prompt 的性能顯著提高。

圖片圖片

最后,Meta 通過(guò)上下文蒸餾完善了 RLHF 流程。這涉及到通過(guò)在 prompt 前加上安全前置 prompt 來(lái)生成更安全的模型響應(yīng),例如「你是一個(gè)安全且負(fù)責(zé)任的助手」,然后在沒(méi)有前置 prompt 的情況下根據(jù)更安全的響應(yīng)微調(diào)模型,這本質(zhì)上是提取了安全前置 prompt(上下文)進(jìn)入模型。

Meta 使用了有針對(duì)性的方法,允許安全獎(jiǎng)勵(lì)模型選擇是否對(duì)每個(gè)樣本使用上下文蒸餾。

圖片

下圖 17 展示了各種 LLM 的總體違規(guī)百分比和安全評(píng)級(jí)。

圖片

下圖 18 展示了單輪和多輪對(duì)話的違規(guī)百分比??缒P偷囊粋€(gè)趨勢(shì)是,多輪對(duì)話更容易引發(fā)不安全的響應(yīng)。也就是說(shuō),與基線相比,Llama 2-Chat 仍然表現(xiàn)良好,尤其是在多輪對(duì)話中。

圖片

下圖 19 顯示了不同 LLM 在不同類別中安全違規(guī)百分比。

圖片

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-05-26 17:15:40

AI搜索

2015-03-10 10:32:21

蘋(píng)果2015MacBook Air

2024-01-15 06:14:05

2018-05-31 21:07:14

工業(yè)4.0工業(yè)物聯(lián)網(wǎng)IIoT

2018-08-08 11:11:28

2024-12-30 20:32:36

2018-03-29 13:33:45

2021-08-21 15:13:59

手機(jī)面板屏幕

2020-11-19 14:30:26

iOSSafari翻譯

2024-10-23 08:54:07

2024-02-22 10:09:00

開(kāi)源模型

2023-07-26 17:53:20

2014-12-09 10:24:53

CrossApp開(kāi)源

2009-11-26 13:31:56

2024-07-24 11:30:04

2017-10-17 14:18:45

2024-02-29 11:56:25

模型數(shù)據(jù)

2023-07-19 12:09:36

大模型Llama 2扎克伯格

2024-03-18 13:21:13

2023-05-29 13:53:46

開(kāi)源模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)