自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

羊駝進(jìn)化成鯨魚,Meta把對(duì)齊「自動(dòng)化」,Humpback擊敗現(xiàn)有全部LLaMa模型

人工智能 新聞
本文來(lái)自 Meta AI 的研究者提出了一種可擴(kuò)展的方法即指令回譯(instruction backtranslation),該方法通過(guò)自動(dòng)注釋相應(yīng)的指令來(lái)構(gòu)建高質(zhì)量的指令跟隨語(yǔ)言模型。

這一年來(lái),以 ChatGPT 和 GPT-4 為代表的大語(yǔ)言模型(LLM)發(fā)展迅速,緊隨其后,Meta 開源的 LLaMa、Llama 2 系列模型在 AI 界也引起的了不小的轟動(dòng)。但隨之而來(lái)的是爭(zhēng)議不斷,有人認(rèn)為 LLM 存在一些不可控的風(fēng)險(xiǎn),給人類生存構(gòu)成一些潛在威脅。

為了應(yīng)對(duì)這些挑戰(zhàn),對(duì) LLM 對(duì)齊的研究變得越來(lái)越重要,有研究者提出指令跟隨(instruction following),但這種方法需要大量的人工注釋。然而,注釋如此高質(zhì)量的指令跟隨數(shù)據(jù)集耗費(fèi)巨大。

本文來(lái)自 Meta AI 的研究者提出了一種可擴(kuò)展的方法即指令回譯(instruction backtranslation),該方法通過(guò)自動(dòng)注釋相應(yīng)的指令來(lái)構(gòu)建高質(zhì)量的指令跟隨語(yǔ)言模型。

圖片

論文地址:https://arxiv.org/pdf/2308.06259.pdf

具體而言,該研究從一個(gè)語(yǔ)言模型開始,并作為種子模型,該模型在少量的種子數(shù)據(jù)以及 web 語(yǔ)料庫(kù)上進(jìn)行了微調(diào)。種子模型的作用是用來(lái)構(gòu)建訓(xùn)練樣本,然后這些樣本中的一些高質(zhì)量樣本將會(huì)被篩選出來(lái),接著,這些數(shù)據(jù)被用來(lái)微調(diào)一個(gè)更強(qiáng)大的模型。

經(jīng)過(guò)兩輪迭代的數(shù)據(jù)集對(duì) LLaMa 進(jìn)行微調(diào),所產(chǎn)生的模型 Humpback 在 Alpaca 排行榜上優(yōu)于其他現(xiàn)有的非蒸餾模型,如 LIMA、Claude、Guanaco 等。

Humpback 原意為座頭鯨,又名駝背鯨,Meta 將模型命名為 Humpback,也別有深意吧。

圖片

之所以稱為指令回譯,研究者表示這借鑒了機(jī)器翻譯中經(jīng)典的反向翻譯方法,其中人類編寫的目標(biāo)句子會(huì)自動(dòng)用模型生成的另一種語(yǔ)言的源句子進(jìn)行注釋。

圖靈獎(jiǎng)得主 Yann LeCun 高度概括了這項(xiàng)研究的方法,并稱贊 Meta 這項(xiàng)工作為對(duì)齊研究做出重要貢獻(xiàn):

圖片

還有網(wǎng)友對(duì)這項(xiàng)研究進(jìn)行了很好的概括:數(shù)據(jù)質(zhì)量對(duì)大模型來(lái)說(shuō)確實(shí)很重要,研究過(guò)程中,他們使用不同級(jí)別的過(guò)濾數(shù)據(jù),微調(diào)了一個(gè)模型,結(jié)果表明,只有最好的樣本才能得出比其他樣本表現(xiàn)更好的模型。

該論文提出了一種需要兩個(gè)步驟完成的新的數(shù)據(jù)增強(qiáng)范式。首先,必須擁有一組種子(指令、輸出)對(duì)和語(yǔ)料庫(kù)才能生成更多好的指令數(shù)據(jù)。

圖片

下圖比較了 Humpback 與一些開源模型和專有模型。

圖片

下表 4 表明,本文方法在 65B 和 33B 模型尺度上都是非蒸餾模型中表現(xiàn)最好的模型。

圖片

下面我們看看具體方法。

方法簡(jiǎn)介

該研究提出了一種自訓(xùn)練方法(self-training),該方法通常假定可以訪問基本語(yǔ)言模型、少量種子數(shù)據(jù)和未標(biāo)記的樣本集(例如網(wǎng)絡(luò)語(yǔ)料庫(kù))。未標(biāo)記數(shù)據(jù)往往是一大堆形態(tài)各異的文檔,由人類編寫,其中包括人類感興趣的各種話題內(nèi)容,但最重要的是沒有與指令進(jìn)行配對(duì)。

這里還有兩個(gè)關(guān)鍵的假設(shè),第一個(gè)假設(shè)是這個(gè)非常大的文本集(未標(biāo)記樣本集)存在一些子集,適合作為某些用戶指令的生成樣本。第二個(gè)假設(shè)是可以預(yù)測(cè)這些候選答案的指令,這些指令可以用于形成高質(zhì)量樣本對(duì),以訓(xùn)練指令遵循模型。

如下圖 1 所示,該研究提出指令回譯過(guò)程包含兩個(gè)核心步驟: 

  • 自增強(qiáng):為未標(biāo)記的數(shù)據(jù)(即網(wǎng)絡(luò)語(yǔ)料庫(kù))生成指令,以為指令調(diào)優(yōu)產(chǎn)生訓(xùn)練數(shù)據(jù)對(duì)(指令 - 輸出)。
  • 自管理:自主選擇高質(zhì)量樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),以微調(diào)基礎(chǔ)模型來(lái)遵循指令,這種方法是迭代完成的。

圖片

其中,自管理步驟采用的 prompt 如下表 1 所示:

圖片

實(shí)驗(yàn)及結(jié)果

本文的數(shù)據(jù)集主要包括種子數(shù)據(jù)和增強(qiáng)數(shù)據(jù),具體信息如表 2 和圖 2 所示:

圖片

圖片

圖 3 表示盡管擴(kuò)大了數(shù)據(jù)規(guī)模,但沒有自我管理(self-curation)的增強(qiáng)數(shù)據(jù)用來(lái)訓(xùn)練模型并不能提高指令跟隨性能。

圖片

下圖比較了不同指令調(diào)優(yōu)數(shù)據(jù)集的數(shù)據(jù)效率。

圖片

數(shù)據(jù)和模型的聯(lián)合擴(kuò)展:該研究發(fā)現(xiàn)在 7B 模型中觀察到的數(shù)據(jù)擴(kuò)展趨勢(shì)同樣也適用于更大的模型。例如對(duì) 65B 的種子模型增加高質(zhì)量的增強(qiáng)數(shù)據(jù)會(huì)帶來(lái)進(jìn)一步的改進(jìn)。

圖片

常識(shí)推理:該研究在五個(gè)常識(shí)推理基準(zhǔn)上進(jìn)行了測(cè)試,SIQA 、PIQA、Arc-Easy、Arc-Challenge 和 Openbook QA (OBQA) , 結(jié)果總結(jié)于表 5 中。結(jié)果表明,與基礎(chǔ)模型相比,本文模型在社會(huì)推理等多個(gè)方面的表現(xiàn)有所提高。

圖片

MMLU:表 6 總結(jié)了不同模型在 MMLU(massive multitask language understanding)的結(jié)果。與基礎(chǔ)模型相比,本文微調(diào)模型提高了零樣本準(zhǔn)確率,但在 5 個(gè)樣本上下文示例中表現(xiàn)不佳。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-08-21 11:29:50

智能數(shù)據(jù)

2023-07-25 14:08:41

羊駝模型

2023-08-24 15:57:41

模型文檔檢索

2024-09-26 14:40:45

2023-05-22 09:28:30

模型AI

2024-05-27 09:01:42

Llama 3大型語(yǔ)言模型人工智能

2023-04-21 10:14:22

開源AI

2024-01-02 06:30:58

ChatGPTGPT-3.5

2023-12-03 08:46:20

模型開源

2024-07-31 15:38:00

2023-06-28 18:10:27

羊駝家族大模型集體進(jìn)化

2023-10-09 12:36:58

2023-05-15 09:39:37

2017-12-17 21:58:18

2024-01-22 08:50:00

AI訓(xùn)練

2023-12-05 12:50:14

GPT-4DeepMind

2009-12-23 16:27:49

WPF UI自動(dòng)化模型

2023-09-01 09:21:03

Python自動(dòng)化測(cè)試

2021-01-27 10:35:30

漏洞

2023-06-14 15:29:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)