自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

這些技術(shù)，ChatGPT和它的潛在競爭者們都在用

作者：機器之心 2023-03-01 13:54:46

人工智能新聞

如今的人工智能圈，ChatGPT 等 AI 聊天機器人火的一塌糊涂，甚至讓 Stack Overflow 訪問量暴跌。那么這些 AI 聊天機器人背后的技術(shù)以及異同點有哪些呢？本文作者探索并試圖回答這些問題。

隨著 ChatGPT 的出現(xiàn)以及隨之而來的廣泛討論，RLHF、SFT、IFT、CoT 等晦澀的縮略詞出現(xiàn)在公眾面前，這都歸功于 ChatGPT 的成功。這些晦澀的縮略詞是什么？為什么它們?nèi)绱酥匾?？本文作者查閱了所有關(guān)于這些主題的重要論文，進行了分類總結(jié)。

ChatGPT 并不是第一個基于語言模型（LM）的對話智能體，事實上，許多機構(gòu)在 OpenAI 之前發(fā)布過語言模型對話智能體，包括 Meta BlenderBot、Google LaMDA、DeepMind 的 Sparrow 和 Anthropic Assistant。一些機構(gòu)也宣布建立開源聊天機器人的計劃，并公開了路線圖（如 LAION 的 Open-Assistant）?？隙ㄟ€有其它機構(gòu)在做同樣的工作，只是沒有宣布。

下表根據(jù)上面提到的 AI 聊天機器人是否可公開訪問、訓練數(shù)據(jù)、模型架構(gòu)和評估的詳細信息，對它們進行了比較。ChatGPT 沒有相關(guān)數(shù)據(jù)，這里使用的是 InstructGPT 的資料，它是 OpenAI 的一個微調(diào)模型，被認為是 ChatGPT 的基礎(chǔ)。

盡管在訓練數(shù)據(jù)、模型和微調(diào)方面存在許多差異，但這些聊天機器人也存在一些共性 —— 指令遵循（instruction following），即根據(jù)用戶的指令，給出響應(yīng)。例如讓 ChatGPT 寫一首關(guān)于微調(diào)的詩。

從預(yù)測文本到遵循指令

通常而言，基礎(chǔ)語言建模的目標不足以讓模型高效地遵循用戶的指示。模型創(chuàng)建者還使用指令微調(diào)（Instruction Fine-Tuning，IFT），它可以在多樣化任務(wù)上對基本模型進行微調(diào)，還能應(yīng)用在情感分析、文本分類、摘要等經(jīng)典 NLP 任務(wù)。

IFT 主要由三個部分組成：指令、輸入和輸出。輸入是可選的，有些任務(wù)只需要指令，如上面的 ChatGPT 示例。輸入和輸出構(gòu)成實例（instance）。給定的指令可以有多個輸入和輸出。相關(guān)示例如下（[Wang et al., ‘22]）。

IFT 的數(shù)據(jù)通常使用人類的指令和語言模型 bootstrapped 的指令集合。對于 bootstraping，LM 會在零樣本的情況下根據(jù) prompt，生成新的指令、輸入和輸出。在每一輪中，模型都會得到從人類編寫和生成模型中選擇的樣本的 prompt。人類和模型貢獻數(shù)據(jù)集的情況可以用頻譜表示，如下圖所示。

一種是純模型生成的 IFT 數(shù)據(jù)集如 Unnatural Instructions，另一種是集社區(qū)努力、手動創(chuàng)建的指令如 Super natural Instructions。位于這兩者之間，選用高質(zhì)量種子數(shù)據(jù)集然后進行 bootstrap 如 Self-instruct。為 IFT 收集數(shù)據(jù)集的另一種方法是將現(xiàn)有高質(zhì)量眾包 NLP 數(shù)據(jù)集用于各種任務(wù)（包括 prompting），并使用統(tǒng)一的模式或不同的模板將這些數(shù)據(jù)集作為指令，相關(guān)工作包括 T0、Natural instructions 數(shù)據(jù)集、FLAN LM 和 OPT-IML。

安全遵循指令

LM 使用微調(diào)后的指令，可能并不總是生成有用安全的響應(yīng)。這種行為的示例包括無效回應(yīng)（托詞），總是給出諸如「對不起，我不明白」之類的無效回答，或者對用戶關(guān)于敏感話題的輸入做出不安全的回應(yīng)。

為了解決這種問題，模型開發(fā)人員使用監(jiān)督式微調(diào)（Supervised Fine-tuning, SFT），在高質(zhì)量的人類標記數(shù)據(jù)上微調(diào)基礎(chǔ)語言模型，以實現(xiàn)有效和安全的響應(yīng)。

SFT 和 IFT 緊密相連。指令調(diào)優(yōu)可以看作是監(jiān)督式微調(diào)的子集。在最近的文獻中，SFT 階段通常用于安全主題，而不是在 IFT 之后進行的指令特定主題。未來這種分類和描述會有更清晰的用例和方法。

谷歌的 LaMDA 也是根據(jù)一組規(guī)則對帶有安全注釋的對話數(shù)據(jù)集微調(diào)。這些規(guī)則通常是由模型創(chuàng)建者預(yù)先定義和制定的，包含一系列廣泛的主題，如有害、歧視和錯誤信息。

模型微調(diào)

另一方面，OpenAI 的 InstructGPT、DeepMind 的 Sparrow 和 Anthropic 的 ConstitutionalAI 均使用從人類反饋中強化學習（reinforcement learning from human feedback, RLHF）的技術(shù)。在 RLHF 中，模型響應(yīng)基于人類反饋（如選擇一個更好的答案）進行排序，然后用這些帶注釋的響應(yīng)訓練模型，以返回 RL 優(yōu)化器的 scalar 獎勵，最后通過強化學習訓練對話智能體來模擬偏好模型。

思維鏈（Chain-of-thought, CoT）是指令演示的特殊情況，通過從對話智能體中引出逐步推理生成輸出。用 CoT 進行微調(diào)的模型使用帶有逐步推理的人類注釋的指令數(shù)據(jù)集。如下示例所示，橙色標記代表指令，粉色標記代表輸入和輸出，藍色標記代表 CoT 推理。

用 CoT 來微調(diào)的模型在涉及常識、算術(shù)和符號推理的任務(wù)上表現(xiàn)得更好。CoT 進行微調(diào)也顯示出對實現(xiàn)無害性非常有效（有時比 RLHF 做得更好），并且模型不會回避并產(chǎn)生「對不起，我無法回答這個問題」等回復(fù)。

要點總結(jié)

本文要點總結(jié)如下：

1、與預(yù)訓練數(shù)據(jù)相比，只需要非常小的一部分數(shù)據(jù)來對指令進行微調(diào)。

2、監(jiān)督式微調(diào)使用人工標注使模型輸出更安全和更有幫助。

3、 CoT 微調(diào)提高模型在逐步思考任務(wù)上的性能，并減少了它們在敏感話題上的無效響應(yīng)或回避不答。

對話智能體的進一步工作思考

最后，作者對未來對話智能體的發(fā)展給出了自己的一些思考。

1、 RL 在從人類反饋中學習有多重要？可以通過 IFT 或 SFT 中的高質(zhì)量數(shù)據(jù)訓練獲得與 RLHF 一樣的性能嗎？

2、與在 LaMDA 中使用 SFT 相比，在 Sparrow 中使用 SFT+RLHF 的安全性如何？

3、 IFT、SFT、CoT 和 RLHF，需要怎樣程度的預(yù)訓練？tradeoff 是什么？應(yīng)該使用的最好的基礎(chǔ)模型是什么？

4、文中介紹的許多模型都是經(jīng)過精心設(shè)計，工程師們專門收集導致失敗的模式，并根據(jù)已處理的問題改善未來的訓練（prompts 和方法）。要如何系統(tǒng)地記錄這些方法的效果并重現(xiàn)它們？

責任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營