自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<kbd id="hh388"><font id="hh388"></font></kbd>

<sub id="hh388"></sub>

^{<blockquote id="hh388"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Llama 2第二波劃重點(diǎn)：過于「謹(jǐn)慎」、代碼生成改進(jìn)空間大

作者：機(jī)器之心 2023-07-27 14:11:32

人工智能新聞

上周，Meta 發(fā)布了免費(fèi)可商用的開源大模型 Llama 2，來自 Huggingface 的機(jī)器學(xué)習(xí)科學(xué)家 Nathan Lambert 根據(jù)論文內(nèi)容迅速寫了一篇分析文章來梳理 Llama 2 的技術(shù)要點(diǎn)，現(xiàn)在他又寫了一篇后續(xù)文章來補(bǔ)充內(nèi)容，以下是文章原文。

有用 VS 無害

有人發(fā)現(xiàn)，Llama-2-chat 在安全過濾器方面表現(xiàn)出一些過于敏感的行為。即使是詢問一些無害的事情，比如「如何制作辣椒蛋黃醬」或「如何終止一個(gè)進(jìn)程」，結(jié)果會導(dǎo)致該模型瘋狂地表示它無法做到，如下圖所示：

對于這種現(xiàn)象，一種常見的理論解釋是使用 RLHF（Reinforcement Learning from Human Feedback）方法太久導(dǎo)致的，這也揭示了大型語言模型領(lǐng)域的趨勢。在 RLHF 中，訓(xùn)練期間使用的主要性能指標(biāo)是偏好模型（preference model）中獎勵(lì)的單調(diào)增加。這就存在兩個(gè)問題：a）訓(xùn)練時(shí)使用的獎勵(lì)模型是不完整的。b）忽視了對中間訓(xùn)練技巧的有效評估。

只要我們訓(xùn)練的獎勵(lì)模型在驗(yàn)證集上只能達(dá)到 65-75% 的準(zhǔn)確率，模型就會因?yàn)檫^長時(shí)間的 RLHF 而出現(xiàn)這種情況。當(dāng)模型對于獎勵(lì)模型采取過多優(yōu)化步驟時(shí)，它會過于偏向該獎勵(lì)模型喜歡的行為，如果對模型進(jìn)行更全面的評估可能會得出不同的結(jié)論。

目前還沒有一個(gè)有效且全面的解決方案，但是本文作者的團(tuán)隊(duì)正在嘗試在 RL 訓(xùn)練的每個(gè) epoch 中使用 MT Bench 和其他自動的 NLP 評估方法。目前，至少在對話模型領(lǐng)域，LLM 的訓(xùn)練與用戶期望非常不匹配。

Meta 的評估顯示，對話模型可能有兩個(gè)潛在的致命弱點(diǎn)：

1、該模型據(jù)會拒絕回答高達(dá) 27％的邊緣問題，這與初創(chuàng)公司 Anthropic 的研究緊密相關(guān)。Anthropic 提出一種方案：首先開發(fā)出一個(gè)有用的語言模型，然后再讓這個(gè)語言模型無害，因?yàn)橥瑫r(shí)進(jìn)行這兩項(xiàng)工作會導(dǎo)致模型出現(xiàn)「回避行為」。Meta 應(yīng)該正在想辦法解決這個(gè)問題。

這種「有用性 VS 無害性」之間的權(quán)衡是開源社區(qū)面臨的根本問題。如下圖（右）所示，模型在「邊緣數(shù)據(jù)集」上拒絕回答的情況驟增。

2、獎勵(lì)模型集成方法還有一個(gè)重要問題 —— 在有些情況下會出現(xiàn)高度分歧 —— 例如，有用性很強(qiáng)、安全性很低時(shí)應(yīng)該怎么做，反之亦然，如下圖所示：

顯然，這種集成方法雖然是一個(gè)很棒的技術(shù)創(chuàng)新，但還需要進(jìn)一步改進(jìn)。

如今，在人工智能領(lǐng)域，「公開（public）」這個(gè)概念被極度濫用，網(wǎng)絡(luò)上的信息和數(shù)據(jù)被視為公開的，但事實(shí)卻并非如此。Meta 無法明確地說明他們是否涉嫌侵犯了版權(quán)或服務(wù)條款，但毫無疑問的是，Meta 在訪問數(shù)據(jù)和文檔方面還有很大的改進(jìn)空間。

推理與微調(diào)

現(xiàn)在有很多方法可以讓 7b 或 13b 的大模型在 GPU 上運(yùn)行，并且將很快就可以在 iPhone 上運(yùn)行。

但 70b 的更大模型要復(fù)雜一些。有研究表明 70b 的模型在加載 4 位量化的情況下會使用 36-38GB 的 VRAM。如果將量化增加到 8 位（float16），內(nèi)存預(yù)計(jì)會相應(yīng)地增加。而在任何單個(gè) GPU 上使用完整的、非量化模型會非常困難。

在文本生成推理方面，HuggingFace 提供了如下 GPU 建議：

對于 7B 模型，建議選擇 "GPU [medium] - 1x Nvidia A10G"；
對于 13B 模型，建議選擇 "GPU [xlarge] - 1x Nvidia A100"；
對于 70B 模型，建議選擇 "GPU [xxxlarge] - 8x Nvidia A100"。

HuggingFace 社區(qū)成員重新編寫了 HuggingFace Transformers 的部分代碼，使其對 Llama 模型更加節(jié)省內(nèi)存、更快速，并支持使用 RoPE 方法擴(kuò)展上下文長度。

具體來說，這種改進(jìn)使 Llama 2 70B 模型在序列長度是 4096 時(shí)推理速度約為 10.5 tokens / 秒，并且沒有出現(xiàn)內(nèi)存溢出的情況。同時(shí)，序列長度為 8192 時(shí)，推理速度為每秒 8 tokens / 秒，仍然沒有內(nèi)存溢出。

在微調(diào)方面，使用 TRL 庫（Transformer Reinforcement Learning）就可以很容易地運(yùn)行有監(jiān)督的微調(diào)，你可以在 T4 GPU 上訓(xùn)練 Llama 2 7B 模型，甚至可以在單個(gè) A100 GPU 上訓(xùn)練 70B 模型。這說明這種技術(shù)是相當(dāng)容易實(shí)現(xiàn)的，大多數(shù)消費(fèi)級 GPU 都可以用于微調(diào) 7B 或 13B 的模型變體。值得注意的是，RLHF 方法需要在內(nèi)存中存儲更多的梯度計(jì)算。

然而，Open LLM 排行榜的榜首仍然是從 LLaMA v1 微調(diào)出來的模型，為什么會這樣？

有些討論表明，這似乎是因?yàn)榕判邪裆先狈ψ銐蚨嗟脑u估類型（即將進(jìn)行更改），在評估集上或類似的數(shù)據(jù)集上微調(diào)模型很容易獲得更高的性能。隨著時(shí)間的推移，使用相同數(shù)據(jù)集微調(diào) Llama 2 得到的模型幾乎肯定會性能更好。

此外，Llama 2 還有一些值得關(guān)注的方面，包括：

工具的應(yīng)用：Llama 2-Chat 僅通過語義就能夠理解工具的應(yīng)用和 API 參數(shù)，盡管其從未接受過使用工具的訓(xùn)練。將 LLM 用作工具具有極大的潛力。為了推動其發(fā)展，我們需要一些標(biāo)準(zhǔn)的評估環(huán)境。

Prompt 方面的問題：prompt 可能是導(dǎo)致回避行為的問題所在。Llama 2 的 prompt 是個(gè)需要持續(xù)關(guān)注的問題，因?yàn)楦鶕?jù) LLaMA v1 的評估結(jié)果，prompt 是導(dǎo)致不一致結(jié)果的重要因素。

代碼生成：Llama 2 在代碼生成方面不夠好，很多人表示他們更愿意使用 ChatGPT。關(guān)于這一點(diǎn)，Yann Lecun 暗示 Meta 可能會再發(fā)布一個(gè)版本。

有趣的商業(yè)許可：Meta 的許可規(guī)定，在發(fā)布時(shí)擁有超過 7 億活躍用戶的公司不能商業(yè)化使用該模型。

Ghost 注意力

許多語言模型都存在一個(gè)問題：你在第一輪告訴它做某事（例如「用海盜的風(fēng)格回答」，那么經(jīng)過一兩輪對話后模型就會忘記這個(gè)要求。

Meta 在論文中解釋了這種多輪指令的要求：

在對話設(shè)置中，有些指令應(yīng)該適用于所有對話輪次，例如簡潔地回答，或者「扮演」某個(gè)角色。

為了讓 Llama 2 有效地遵循多輪指令，Meta 提出了 Ghost Attention（GAtt），這是一種類似于上下文蒸餾的新方法。GAtt 并不是必須實(shí)現(xiàn)的步驟，但它確實(shí)能讓語言模型更好地遵循多輪指令。

RLHF 的一些細(xì)節(jié)

RS

訓(xùn)練過程：Llama 2 使用的損失函數(shù)實(shí)際上并不是那么清楚。在 Meta 的論文中，他們說使用了迭代式訓(xùn)練，因此實(shí)際結(jié)果與 PPO（Proximal Policy Optimization）并沒有太大的區(qū)別，但他們并未對損失函數(shù)進(jìn)行詳細(xì)說明。這有點(diǎn)讓人難以理解，該研究幾乎肯定是在高獎勵(lì)樣本上使用了 LLM 的標(biāo)準(zhǔn)自回歸預(yù)測損失，而這對結(jié)果有很大影響。

研究團(tuán)隊(duì)觀察到拒絕采樣（RS）重新訓(xùn)練樣本會導(dǎo)致模型能力退化。為了解決這個(gè)問題，他們重新引入了過去版本中的高分樣本，改善了模型性能。這是 RLHF 方法中常見的對獎勵(lì)模型過擬合的一種形式。

所有較小的對話模型都是在大模型的數(shù)據(jù)上進(jìn)行訓(xùn)練的，ChatGPT 很可能也是這樣訓(xùn)練的。這是因?yàn)榭萍脊鞠Ｍ浞掷闷渥畲蠛妥顑?yōu)模型的出色推理能力，將其優(yōu)勢延續(xù)下去。

在采樣過程中，他們使用高溫度（high temperature）參數(shù)來獲得多樣化的輸出，并增加批量樣本的最大獎勵(lì)。

必須根據(jù)模型和批量大?。╞atch size）逐漸調(diào)整溫度參數(shù)。Llama 2 的論文中有很多關(guān)于溫度參數(shù)的內(nèi)容，不太清楚有多少是針對特定情況的。

你可以參考如下項(xiàng)目的內(nèi)容來更好地理解 Llama 2 模型：

項(xiàng)目地址：https://github.com/lvwerra/trl/blob/main/examples/notebooks/best_of_n.ipynb

PPO

在 Llama 2 中，PPO 的實(shí)現(xiàn)包含很多罕見的技巧，并繼續(xù)簡化了 RLHF 方法，包括：

使用了 InstructGPT 中提出的 SFT 約束項(xiàng)，通過在損失函數(shù)中添加額外的項(xiàng)來比較人類注釋者編寫的文本與模型生成結(jié)果之間的距離，以保持模型分布接近人類書寫示例。
使用來自偏好集合的安全 tag，將生成結(jié)果傳遞給安全性偏好模型。這種方法很可能在未來會應(yīng)用到更多的模型中，也有可能 GPT-4 模型已經(jīng)使用了該方法。
對最后的線性層得分進(jìn)行白化（whiten）處理以穩(wěn)定訓(xùn)練。本質(zhì)上講，Llama 2 的研究創(chuàng)建了一個(gè)不同的線性層，幫助梯度在獎勵(lì)模型中表現(xiàn)得更好。這是一個(gè)有趣的技巧。

以上就是 Nathan Lambert 關(guān)于 Llama 2 的第二篇分析文章的主要內(nèi)容。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營