自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Llama 2第二波劃重點(diǎn):過于「謹(jǐn)慎」、代碼生成改進(jìn)空間大

人工智能 新聞
上周,Meta 發(fā)布了免費(fèi)可商用的開源大模型 Llama 2,來自 Huggingface 的機(jī)器學(xué)習(xí)科學(xué)家 Nathan Lambert 根據(jù)論文內(nèi)容迅速寫了一篇分析文章來梳理 Llama 2 的技術(shù)要點(diǎn),現(xiàn)在他又寫了一篇后續(xù)文章來補(bǔ)充內(nèi)容,以下是文章原文。

有用 VS 無害

有人發(fā)現(xiàn),Llama-2-chat 在安全過濾器方面表現(xiàn)出一些過于敏感的行為。即使是詢問一些無害的事情,比如「如何制作辣椒蛋黃醬」或「如何終止一個(gè)進(jìn)程」,結(jié)果會導(dǎo)致該模型瘋狂地表示它無法做到,如下圖所示:

對于這種現(xiàn)象,一種常見的理論解釋是使用 RLHF(Reinforcement Learning from Human Feedback)方法太久導(dǎo)致的,這也揭示了大型語言模型領(lǐng)域的趨勢。在 RLHF 中,訓(xùn)練期間使用的主要性能指標(biāo)是偏好模型(preference model)中獎勵(lì)的單調(diào)增加。這就存在兩個(gè)問題:a)訓(xùn)練時(shí)使用的獎勵(lì)模型是不完整的。b)忽視了對中間訓(xùn)練技巧的有效評估。

只要我們訓(xùn)練的獎勵(lì)模型在驗(yàn)證集上只能達(dá)到 65-75% 的準(zhǔn)確率,模型就會因?yàn)檫^長時(shí)間的 RLHF 而出現(xiàn)這種情況。當(dāng)模型對于獎勵(lì)模型采取過多優(yōu)化步驟時(shí),它會過于偏向該獎勵(lì)模型喜歡的行為,如果對模型進(jìn)行更全面的評估可能會得出不同的結(jié)論。

目前還沒有一個(gè)有效且全面的解決方案,但是本文作者的團(tuán)隊(duì)正在嘗試在 RL 訓(xùn)練的每個(gè) epoch 中使用 MT Bench 和其他自動的 NLP 評估方法。目前,至少在對話模型領(lǐng)域,LLM 的訓(xùn)練與用戶期望非常不匹配。

Meta 的評估顯示,對話模型可能有兩個(gè)潛在的致命弱點(diǎn):

1、該模型據(jù)會拒絕回答高達(dá) 27%的邊緣問題,這與初創(chuàng)公司 Anthropic 的研究緊密相關(guān)。Anthropic 提出一種方案:首先開發(fā)出一個(gè)有用的語言模型,然后再讓這個(gè)語言模型無害,因?yàn)橥瑫r(shí)進(jìn)行這兩項(xiàng)工作會導(dǎo)致模型出現(xiàn)「回避行為」。Meta 應(yīng)該正在想辦法解決這個(gè)問題。

這種「有用性 VS 無害性」之間的權(quán)衡是開源社區(qū)面臨的根本問題。如下圖(右)所示,模型在「邊緣數(shù)據(jù)集」上拒絕回答的情況驟增。

圖片

2、獎勵(lì)模型集成方法還有一個(gè)重要問題 —— 在有些情況下會出現(xiàn)高度分歧 —— 例如,有用性很強(qiáng)、安全性很低時(shí)應(yīng)該怎么做,反之亦然,如下圖所示:

圖片

顯然,這種集成方法雖然是一個(gè)很棒的技術(shù)創(chuàng)新,但還需要進(jìn)一步改進(jìn)。

如今,在人工智能領(lǐng)域,「公開(public)」這個(gè)概念被極度濫用,網(wǎng)絡(luò)上的信息和數(shù)據(jù)被視為公開的,但事實(shí)卻并非如此。Meta 無法明確地說明他們是否涉嫌侵犯了版權(quán)或服務(wù)條款,但毫無疑問的是,Meta 在訪問數(shù)據(jù)和文檔方面還有很大的改進(jìn)空間。

推理與微調(diào)

現(xiàn)在有很多方法可以讓 7b 或 13b 的大模型在 GPU 上運(yùn)行,并且將很快就可以在 iPhone 上運(yùn)行。

但 70b 的更大模型要復(fù)雜一些。有研究表明 70b 的模型在加載 4 位量化的情況下會使用 36-38GB 的 VRAM。如果將量化增加到 8 位(float16),內(nèi)存預(yù)計(jì)會相應(yīng)地增加。而在任何單個(gè) GPU 上使用完整的、非量化模型會非常困難。

在文本生成推理方面,HuggingFace 提供了如下 GPU 建議:

  • 對于 7B 模型,建議選擇 "GPU [medium] - 1x Nvidia A10G";
  • 對于 13B 模型,建議選擇 "GPU [xlarge] - 1x Nvidia A100";
  • 對于 70B 模型,建議選擇 "GPU [xxxlarge] - 8x Nvidia A100"。

HuggingFace 社區(qū)成員重新編寫了 HuggingFace Transformers 的部分代碼,使其對 Llama 模型更加節(jié)省內(nèi)存、更快速,并支持使用 RoPE 方法擴(kuò)展上下文長度。

具體來說,這種改進(jìn)使 Llama 2 70B 模型在序列長度是 4096 時(shí)推理速度約為 10.5 tokens / 秒,并且沒有出現(xiàn)內(nèi)存溢出的情況。同時(shí),序列長度為 8192 時(shí),推理速度為每秒 8 tokens / 秒,仍然沒有內(nèi)存溢出。

在微調(diào)方面,使用 TRL 庫(Transformer Reinforcement Learning)就可以很容易地運(yùn)行有監(jiān)督的微調(diào),你可以在 T4 GPU 上訓(xùn)練 Llama 2 7B 模型,甚至可以在單個(gè) A100 GPU 上訓(xùn)練 70B 模型。這說明這種技術(shù)是相當(dāng)容易實(shí)現(xiàn)的,大多數(shù)消費(fèi)級 GPU 都可以用于微調(diào) 7B 或 13B 的模型變體。值得注意的是,RLHF 方法需要在內(nèi)存中存儲更多的梯度計(jì)算。

然而,Open LLM 排行榜的榜首仍然是從 LLaMA v1 微調(diào)出來的模型,為什么會這樣?

有些討論表明,這似乎是因?yàn)榕判邪裆先狈ψ銐蚨嗟脑u估類型(即將進(jìn)行更改),在評估集上或類似的數(shù)據(jù)集上微調(diào)模型很容易獲得更高的性能。隨著時(shí)間的推移,使用相同數(shù)據(jù)集微調(diào) Llama 2 得到的模型幾乎肯定會性能更好。

此外,Llama 2 還有一些值得關(guān)注的方面,包括:

工具的應(yīng)用:Llama 2-Chat 僅通過語義就能夠理解工具的應(yīng)用和 API 參數(shù),盡管其從未接受過使用工具的訓(xùn)練。將 LLM 用作工具具有極大的潛力。為了推動其發(fā)展,我們需要一些標(biāo)準(zhǔn)的評估環(huán)境。

Prompt 方面的問題:prompt 可能是導(dǎo)致回避行為的問題所在。Llama 2 的 prompt 是個(gè)需要持續(xù)關(guān)注的問題,因?yàn)楦鶕?jù) LLaMA v1 的評估結(jié)果,prompt 是導(dǎo)致不一致結(jié)果的重要因素。

代碼生成:Llama 2 在代碼生成方面不夠好,很多人表示他們更愿意使用 ChatGPT。關(guān)于這一點(diǎn),Yann Lecun 暗示 Meta 可能會再發(fā)布一個(gè)版本。

有趣的商業(yè)許可:Meta 的許可規(guī)定,在發(fā)布時(shí)擁有超過 7 億活躍用戶的公司不能商業(yè)化使用該模型。

Ghost 注意力

許多語言模型都存在一個(gè)問題:你在第一輪告訴它做某事(例如「用海盜的風(fēng)格回答」,那么經(jīng)過一兩輪對話后模型就會忘記這個(gè)要求。

Meta 在論文中解釋了這種多輪指令的要求:

在對話設(shè)置中,有些指令應(yīng)該適用于所有對話輪次,例如簡潔地回答,或者「扮演」某個(gè)角色。

為了讓 Llama 2 有效地遵循多輪指令,Meta 提出了 Ghost Attention(GAtt),這是一種類似于上下文蒸餾的新方法。GAtt 并不是必須實(shí)現(xiàn)的步驟,但它確實(shí)能讓語言模型更好地遵循多輪指令。

RLHF 的一些細(xì)節(jié)

RS

訓(xùn)練過程:Llama 2 使用的損失函數(shù)實(shí)際上并不是那么清楚。在 Meta 的論文中,他們說使用了迭代式訓(xùn)練,因此實(shí)際結(jié)果與 PPO(Proximal Policy Optimization)并沒有太大的區(qū)別,但他們并未對損失函數(shù)進(jìn)行詳細(xì)說明。這有點(diǎn)讓人難以理解,該研究幾乎肯定是在高獎勵(lì)樣本上使用了 LLM 的標(biāo)準(zhǔn)自回歸預(yù)測損失,而這對結(jié)果有很大影響。

研究團(tuán)隊(duì)觀察到拒絕采樣(RS)重新訓(xùn)練樣本會導(dǎo)致模型能力退化。為了解決這個(gè)問題,他們重新引入了過去版本中的高分樣本,改善了模型性能。這是 RLHF 方法中常見的對獎勵(lì)模型過擬合的一種形式。

所有較小的對話模型都是在大模型的數(shù)據(jù)上進(jìn)行訓(xùn)練的,ChatGPT 很可能也是這樣訓(xùn)練的。這是因?yàn)榭萍脊鞠M浞掷闷渥畲蠛妥顑?yōu)模型的出色推理能力,將其優(yōu)勢延續(xù)下去。

在采樣過程中,他們使用高溫度(high temperature)參數(shù)來獲得多樣化的輸出,并增加批量樣本的最大獎勵(lì)。

必須根據(jù)模型和批量大?。╞atch size)逐漸調(diào)整溫度參數(shù)。Llama 2 的論文中有很多關(guān)于溫度參數(shù)的內(nèi)容,不太清楚有多少是針對特定情況的。

你可以參考如下項(xiàng)目的內(nèi)容來更好地理解 Llama 2 模型:

項(xiàng)目地址:https://github.com/lvwerra/trl/blob/main/examples/notebooks/best_of_n.ipynb

PPO

在 Llama 2 中,PPO 的實(shí)現(xiàn)包含很多罕見的技巧,并繼續(xù)簡化了 RLHF 方法,包括:

  • 使用了 InstructGPT 中提出的 SFT 約束項(xiàng),通過在損失函數(shù)中添加額外的項(xiàng)來比較人類注釋者編寫的文本與模型生成結(jié)果之間的距離,以保持模型分布接近人類書寫示例。
  • 使用來自偏好集合的安全 tag,將生成結(jié)果傳遞給安全性偏好模型。這種方法很可能在未來會應(yīng)用到更多的模型中,也有可能 GPT-4 模型已經(jīng)使用了該方法。
  • 對最后的線性層得分進(jìn)行白化(whiten)處理以穩(wěn)定訓(xùn)練。本質(zhì)上講,Llama 2 的研究創(chuàng)建了一個(gè)不同的線性層,幫助梯度在獎勵(lì)模型中表現(xiàn)得更好。這是一個(gè)有趣的技巧。

以上就是 Nathan Lambert 關(guān)于 Llama 2 的第二篇分析文章的主要內(nèi)容。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-07-22 13:24:36

分析模型

2024-05-11 07:57:47

因果推斷知識地圖算法

2010-07-16 13:52:30

Ubuntu 10.1

2022-05-27 10:59:22

LinuxSystemd

2015-08-12 11:41:39

Windows 10更新

2018-06-26 09:50:55

服務(wù)器企業(yè)運(yùn)維

2023-07-20 14:28:23

實(shí)測AI

2014-11-19 10:53:22

802.11ac路由

2016-03-18 11:29:04

工業(yè)4.0智造+峰會

2019-01-04 09:12:01

系統(tǒng) 人工智能 數(shù)據(jù)

2024-11-27 14:30:00

模型訓(xùn)練

2019-01-14 15:16:07

2020-04-28 08:55:11

MySQL數(shù)據(jù)庫

2015-06-12 09:47:04

云計(jì)算第二波公有云

2020-12-23 10:44:21

網(wǎng)絡(luò)安全新基建漏洞

2017-05-16 14:27:28

2023-06-07 14:08:00

計(jì)算機(jī)代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號