自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

24小時(shí)內(nèi)、200美元復(fù)制RLHF過(guò)程,斯坦福開(kāi)源「羊駝農(nóng)場(chǎng)」

人工智能 新聞
平替不止模型,RLHF也有平替了。

2 月底,Meta 開(kāi)源了一個(gè)大模型系列 LLaMA(直譯為羊駝),參數(shù)量從 70 億到 650 億不等,被稱為 Meta 版 ChatGPT 的雛形。之后斯坦福大學(xué)、加州大學(xué)伯克利分校等機(jī)構(gòu)紛紛在 LLaMA 的基礎(chǔ)上進(jìn)行「二創(chuàng)」,陸續(xù)推出了 Alpaca、Vicuna 等多個(gè)開(kāi)源大模型,一時(shí)間「羊駝」成為 AI 圈頂流。開(kāi)源社區(qū)構(gòu)建的這些類 ChatGPT 模型迭代速度非??欤⑶铱啥ㄖ菩院軓?qiáng),被稱為 ChatGPT 的開(kāi)源平替。

然而,ChatGPT 之所以能在文本理解、生成、推理等方面展現(xiàn)出強(qiáng)大的能力,是因?yàn)?OpenAI 為 ChatGPT 等大模型使用了新的訓(xùn)練范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以強(qiáng)化學(xué)習(xí)的方式依據(jù)人類反饋優(yōu)化語(yǔ)言模型。使用 RLHF 方法,大型語(yǔ)言模型可與人類偏好保持對(duì)齊,遵循人類意圖,最小化無(wú)益、失真或偏見(jiàn)的輸出。但 RLHF 方法依賴于大量的人工標(biāo)注和評(píng)估,通常需要數(shù)周時(shí)間、花費(fèi)數(shù)千美元收集人類反饋,成本高昂。

現(xiàn)在,推出開(kāi)源模型 Alpaca 的斯坦福大學(xué)又提出了一種模擬器 ——AlpacaFarm(直譯為羊駝農(nóng)場(chǎng))。AlpacaFarm 能在 24 小時(shí)內(nèi)僅用約 200 美元復(fù)制 RLHF 過(guò)程,讓開(kāi)源模型迅速改善人類評(píng)估結(jié)果,堪稱 RLHF 的平替。

圖片

AlpacaFarm 試圖快速、低成本地開(kāi)發(fā)從人類反饋中學(xué)習(xí)的方法。為了做到這一點(diǎn),斯坦福的研究團(tuán)隊(duì)首先確定了研究 RLHF 方法的三個(gè)主要困難:人類偏好數(shù)據(jù)的高成本、缺乏可信賴的評(píng)估、缺乏參考實(shí)現(xiàn)。

為了解決這三個(gè)問(wèn)題,AlpacaFarm 構(gòu)建了模擬注釋器、自動(dòng)評(píng)估和 SOTA 方法的具體實(shí)現(xiàn)。目前,AlpacaFarm 項(xiàng)目代碼已開(kāi)源。

圖片

  • GitHub 地址:https://github.com/tatsu-lab/alpaca_farm
  • 論文地址:https://tatsu-lab.github.io/alpaca_farm_paper.pdf

如下圖所示,研究人員可以使用 AlpacaFarm 模擬器快速開(kāi)發(fā)從人類反饋數(shù)據(jù)中學(xué)習(xí)的新方法,也能將已有 SOTA 方法遷移到實(shí)際的人類偏好數(shù)據(jù)上。

圖片

模擬注釋器

AlpacaFarm 基于 Alpaca 數(shù)據(jù)集的 52k 指令構(gòu)建,其中 10k 指令用于微調(diào)基本的指令遵循模型,剩余的 42k 指令用于學(xué)習(xí)人類偏好和評(píng)估,并且大部分用于從模擬注釋器中學(xué)習(xí)。該研究針對(duì) RLHF 方法的注釋成本、評(píng)估和驗(yàn)證實(shí)現(xiàn)三大挑戰(zhàn),逐一提出解決方法。

首先,為了減少注釋成本,該研究為可訪問(wèn) API 的 LLM(如 GPT-4、ChatGPT)創(chuàng)建了 prompt,使得 AlpacaFarm 能夠模擬人類反饋,成本僅為 RLHF 方法收集數(shù)據(jù)的 1/45。該研究設(shè)計(jì)了一種隨機(jī)的、有噪聲的注釋方案,使用 13 種不同的 prompt,從多個(gè) LLM 提取出不同的人類偏好。這種注釋方案旨在捕獲人類反饋的不同方面,如質(zhì)量判斷、注釋器之間的變化性和風(fēng)格偏好。

該研究通過(guò)實(shí)驗(yàn)表明 AlpacaFarm 的模擬是準(zhǔn)確的。當(dāng)研究團(tuán)隊(duì)使用 AlpacaFarm 訓(xùn)練和開(kāi)發(fā)方法時(shí),這些方法與使用實(shí)際人類反饋訓(xùn)練和開(kāi)發(fā)的相同方法排名非常一致。下圖顯示了由 AlpacaFarm 模擬工作流和人類反饋工作流產(chǎn)生的方法在排名上的高度相關(guān)性。這一特性至關(guān)重要,因?yàn)樗f(shuō)明從模擬中得出的實(shí)驗(yàn)結(jié)論在實(shí)際情況下也有可能成立。

除了方法層面的相關(guān)性,AlpacaFarm 模擬器還可以復(fù)制獎(jiǎng)勵(lì)模型過(guò)度優(yōu)化等定性現(xiàn)象,但以此針對(duì)代理獎(jiǎng)勵(lì)(surrogate reward)的持續(xù) RLHF 訓(xùn)練可能會(huì)損害模型性能。下圖是在人類反饋 (左) 和 AlpacaFarm (右) 兩種情況下的該現(xiàn)象,我們可以發(fā)現(xiàn) AlpacaFarm 最初捕獲了模型性能提升的正確定性行為,然后隨著 RLHF 訓(xùn)練的持續(xù),模型性能下降。

圖片

評(píng)估

在評(píng)估方面,研究團(tuán)隊(duì)使用與 Alpaca 7B 的實(shí)時(shí)用戶交互作為指導(dǎo),并通過(guò)結(jié)合幾個(gè)現(xiàn)有公共數(shù)據(jù)集來(lái)模擬指令分布,包括 self-instruct 數(shù)據(jù)集、anthropic helpfulness 數(shù)據(jù)集和 Open Assistant、Koala 和 Vicuna 的評(píng)估集。使用這些評(píng)估指令,該研究比較了 RLHF 模型與 Davinci003 模型的響應(yīng)(response)情況,并使用一個(gè)分值度量 RLHF 模型響應(yīng)更優(yōu)的次數(shù),并將這個(gè)分值稱為勝率(win-rate)。如下圖所示,在該研究的評(píng)估數(shù)據(jù)上進(jìn)行的系統(tǒng)排名量化評(píng)估表明:系統(tǒng)排名和實(shí)時(shí)用戶指令是高度相關(guān)的。這一結(jié)果說(shuō)明,聚合現(xiàn)有的公開(kāi)數(shù)據(jù)能實(shí)現(xiàn)與簡(jiǎn)單真實(shí)指令相近的性能。

圖片

參考方法

對(duì)于第三個(gè)挑戰(zhàn) —— 缺少參考實(shí)現(xiàn),研究團(tuán)隊(duì)實(shí)現(xiàn)并測(cè)試了幾種流行的學(xué)習(xí)算法 (如 PPO、專家迭代、best-of-n 采樣)。研究團(tuán)隊(duì)發(fā)現(xiàn)在其他領(lǐng)域有效的更簡(jiǎn)單方法并不比該研究最初的 SFT 模型更好,這表明在真實(shí)的指令遵循環(huán)境中測(cè)試這些算法是非常重要的。

圖片

根據(jù)人工評(píng)估,PPO 算法被證明是最有效的,它將模型與 Davinci003 相比的勝率從 44% 提高到 55%,甚至超過(guò)了 ChatGPT。

這些結(jié)果表明,PPO 算法在為模型優(yōu)化勝率方面是非常有效的。需要注意的是,這些結(jié)果是特定于該研究的評(píng)估數(shù)據(jù)和注釋器得出的。雖然該研究的評(píng)估指令代表了實(shí)時(shí)用戶指令,但它們可能無(wú)法涵蓋更具有挑戰(zhàn)性的問(wèn)題,并且并不能確定有多少勝率的改進(jìn)來(lái)源于利用風(fēng)格偏好,而不是事實(shí)性或正確性。例如,該研究發(fā)現(xiàn) PPO 模型產(chǎn)生的輸出要長(zhǎng)得多,并且通常為答案提供更詳細(xì)的解釋,如下圖所示:

圖片

圖片

總的來(lái)說(shuō),使用 AlpacaFarm 在模擬偏好上訓(xùn)練模型能夠大幅改善模型的人類評(píng)估結(jié)果,而不需要讓模型在人類偏好上重新訓(xùn)練。雖然這種遷移過(guò)程比較脆弱,并且在效果上仍略遜于在人類偏好數(shù)據(jù)上重新訓(xùn)練模型。但能在 24 小時(shí)內(nèi),僅用 200 美元就復(fù)制出 RLHF 的 pipeline,讓模型迅速提升人類評(píng)估性能,AlpacaFarm 這個(gè)模擬器還是太香了,是開(kāi)源社區(qū)為復(fù)刻 ChatGPT 等模型的強(qiáng)大功能做出的又一努力。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-03-22 15:14:00

數(shù)據(jù)模型

2023-03-31 13:55:00

模型智能

2022-01-23 16:13:06

比特幣加密貨幣暴跌

2023-03-15 10:26:00

模型開(kāi)源

2023-03-14 13:45:14

模型AI

2024-07-05 17:49:29

2014-04-22 13:44:12

微軟

2020-09-18 17:40:49

TikTok程序禁令

2013-06-04 13:43:53

2021-11-26 05:53:59

蜜罐惡意軟件網(wǎng)絡(luò)攻擊

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2021-04-02 15:02:42

開(kāi)源技術(shù) 工具

2013-09-27 13:34:09

BAT百度騰訊

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級(jí)電腦百萬(wàn)內(nèi)核

2012-03-21 21:38:27

蘋果

2019-12-16 14:33:01

AI人工智能斯坦福

2018-08-13 21:19:07

Weld開(kāi)源數(shù)據(jù)

2021-05-20 06:36:18

比特幣區(qū)塊鏈加密貨幣
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)