自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「羊駝」們走到哪一步了?研究表明:最好的能達(dá)到GPT-4性能的68%

人工智能 新聞
開源 VS 閉源,哪邊的大語(yǔ)言模型更能打?

最近,大型語(yǔ)言模型獲得了前所未有的關(guān)注度。在更迭迅速的情況下,開源模型與閉源模型的發(fā)展并駕齊驅(qū),同時(shí)呈現(xiàn)百花齊放的態(tài)勢(shì)。

但仍然令大家好奇的是,開源大模型和閉源大模型,哪一邊實(shí)力更強(qiáng)?又該如何對(duì)比?

近日,在推特上,華盛頓大學(xué)計(jì)算機(jī)科學(xué)博士生 Wang Yizhong 同樣對(duì)眾多指令調(diào)優(yōu)數(shù)據(jù)集及開源模型的發(fā)展提出了這個(gè)疑問(wèn)。

圖片圖片

此前,一些公開的指令調(diào)優(yōu)模型在宣傳時(shí)稱,自身可與功能強(qiáng)大的閉源專有模型 (如 ChatGPT) 相媲美,但是大部分能支持這個(gè)說(shuō)法的實(shí)驗(yàn)只是覆蓋了全部任務(wù)的冰山一角而已,并且這些實(shí)驗(yàn)也主要依賴基于模型的評(píng)估指標(biāo)。事實(shí)上,評(píng)估設(shè)置除了測(cè)試模型或人工標(biāo)注的生成質(zhì)量外,還應(yīng)該包括測(cè)試模型的核心推理和事實(shí)回憶技能的任務(wù),這些任務(wù)可能更開放和主觀。

在最近的一項(xiàng)研究中,艾倫人工智能研究所聯(lián)合華盛頓大學(xué)對(duì)指令調(diào)優(yōu)資源進(jìn)行了全面的評(píng)估,他們?cè)谑畮讉€(gè)公共語(yǔ)料庫(kù)上進(jìn)行了大量的指令調(diào)優(yōu)實(shí)驗(yàn),從 6.7B 到 65B 的模型規(guī)模都有涉及。研究還評(píng)估了特定的模型能力 (即事實(shí)知識(shí)、推理、多語(yǔ)言性、編碼) 和開放式的指令遵循能力,并展示了基于自動(dòng)、基于模型和基于人工的評(píng)估指標(biāo)的結(jié)果。

論文地址:https://arxiv.org/pdf/2306.04751.pdf

評(píng)估表明,在不同數(shù)據(jù)集上進(jìn)行指令調(diào)優(yōu)似乎可以提高特定的技能,沒(méi)有一個(gè)數(shù)據(jù)集能在所有評(píng)估中均提供最佳性能。他們還發(fā)現(xiàn),底層基礎(chǔ)模型是至關(guān)重要的,更好的基礎(chǔ)模型 (訓(xùn)練于更多 token 或是更大模型)整體表現(xiàn)更好。意料之外的是,研究還發(fā)現(xiàn)在基于模型的評(píng)估中首選的模型與在基于基準(zhǔn)的自動(dòng)評(píng)估中表現(xiàn)最好的模型并不匹配,這可能是由于 GPT-4 對(duì)長(zhǎng)的、多樣化生成的強(qiáng)烈偏見(jiàn)。

評(píng)估還表明,在任何給定的評(píng)估中,最佳模型的平均性能達(dá)到 ChatGPT 的 83%、GPT-4 的 68%,這表明需要進(jìn)一步構(gòu)建更好的基礎(chǔ)模型和指令調(diào)優(yōu)數(shù)據(jù)以縮小差距。

根據(jù)這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了「TüLU」,一套在數(shù)據(jù)源組合上進(jìn)行微調(diào)的 7B 到 65B 的 LLAMA 模型。需要聲明的是,在撰寫本文時(shí),TüLU 65B 是公開發(fā)布的最大的全指令調(diào)優(yōu) LLAMA 變體。它在 7 個(gè)流行的可用數(shù)據(jù)集上進(jìn)行訓(xùn)練,并產(chǎn)生最佳的平均性能,同時(shí)在每個(gè)單獨(dú)任務(wù)上排在最佳性能模型的 15% 以內(nèi)。

研究者開源了用于訓(xùn)練和評(píng)估這些大型語(yǔ)言模型的代碼,并發(fā)布了在不同指令數(shù)據(jù)集及其混合物上訓(xùn)練的檢查點(diǎn),包括 TüLU。

指令數(shù)據(jù)集

研究團(tuán)隊(duì)試圖收集不同風(fēng)格數(shù)據(jù)集的代表性樣本 (列在表 1 中),包括:

(1) 由研究人員從現(xiàn)有的 NLP 數(shù)據(jù)集 (SuperNI , Flan V2) 創(chuàng)建;

(2) 由人類從頭編寫,用于指令調(diào)優(yōu) (Dolly , Open Assistant 1 );

(3) 由專有模型生成 (Self-Instruct , Unnatural Instructions、Alpaca、Baize、GPT4-Alpaca );

(4) 由用戶共享的 prompt 和模型生成的補(bǔ)全組成;

(5) 為特定技能而建 (CoT 用于思維鏈,alpaca 用于代碼生成)。

圖片圖片

預(yù)訓(xùn)練模型

研究主要使用了 LLAMA 套件,這是一系列預(yù)訓(xùn)練模型,大小從 6.7B 到 65B 參數(shù)不等。這些模型代表了社區(qū)可用的最大、最高質(zhì)量的預(yù)訓(xùn)練模型 (盡管在限制性許可下)。研究還考慮了與 LLAMA 6.7B 模型大小相當(dāng)?shù)?OPT 和 Pythia 模型,以檢查不同基礎(chǔ)模型的效果。

為簡(jiǎn)單起見(jiàn),研究將所有大小四舍五入為整數(shù)。團(tuán)隊(duì)還注意到一些對(duì)類似或質(zhì)量更好的模型進(jìn)行預(yù)訓(xùn)練的工作,他們相信本文的發(fā)現(xiàn)應(yīng)該適用于這些模型以及未來(lái)更強(qiáng)大的開放基礎(chǔ)模型。

 使用各種數(shù)據(jù)集訓(xùn)練模型

統(tǒng)一格式

研究將所有數(shù)據(jù)集格式化為遵循聊天機(jī)器人風(fēng)格的模式,以統(tǒng)一指令數(shù)據(jù)集的各種風(fēng)格和格式,如圖 1 所示。這讓研究團(tuán)隊(duì)能夠?qū)⒂脩艉驼Z(yǔ)言模型 (又稱「assistant」) 之間的任意輪交互擬合到一個(gè)輸入序列中,并將它們與因果語(yǔ)言模型一起編碼。他們?cè)谟脩粼捳Z(yǔ)和目標(biāo)助手響應(yīng)之前分別添加了特殊 token<|user|> 和 <|assistant|>,并在每個(gè) assistant 輸出的末尾添加了一個(gè)文本結(jié)束 token,在推理時(shí),該 token 將停止模型每輪的響應(yīng)。

圖片

TüLU:整合資源,更好的指令調(diào)優(yōu)模型

鑒于現(xiàn)有的研究表明,增加指令的多樣性能夠有效提高指令調(diào)優(yōu)的性能,因此研究者將兩個(gè)數(shù)據(jù)集結(jié)合起來(lái):

人類混合數(shù)據(jù),由最佳的人工編寫數(shù)據(jù)集組成。包括 FLAN V2、CoT、Dolly 和 Open Assistant 1 (排除了了 SuperNI,因?yàn)?FLAN V2 已經(jīng)包含了 SuperNI 中的大多數(shù)任務(wù));

人類 + GPT 混合數(shù)據(jù) ,包括人類混合數(shù)據(jù)和由 OpenAI GPT 模型生成的另外三個(gè)數(shù)據(jù)集,包括 GPT4-Alpaca、Code-Alpaca 和 ShareGPT。

研究團(tuán)隊(duì)將這些混合數(shù)據(jù)集連接起來(lái),并將探索更復(fù)雜的采樣混合物的工作留給未來(lái)。他們把在人類 + GPT 混合數(shù)據(jù)上訓(xùn)練的 LLAMA 模型命名為 TüLU—— 不同物種之間雜交產(chǎn)生的雜交駱駝。

實(shí)驗(yàn)結(jié)果

指令調(diào)優(yōu)數(shù)據(jù)集和基礎(chǔ)模型分析

為了了解表 1 中列出的指令數(shù)據(jù)集對(duì)模型能力的貢獻(xiàn),研究者使用評(píng)估套件評(píng)估了在這些數(shù)據(jù)集上訓(xùn)練的 LLaMa 13B 模型。表 3 展示了基準(zhǔn)評(píng)估集上的結(jié)果,其中 App D 的結(jié)果更為廣泛。

實(shí)驗(yàn)結(jié)論如下:

  • 一個(gè)跨所有任務(wù)的最佳指令調(diào)優(yōu)數(shù)據(jù)集是不存在的;
  • 合并數(shù)據(jù)集可以在基準(zhǔn)任務(wù)上獲得最佳的整體性能;
  • 基礎(chǔ)模型的質(zhì)量對(duì)于下游性能非常重要。(見(jiàn)表 4)

圖片圖片

挑戰(zhàn)開放模型的極限

當(dāng)確定「使用廣泛的數(shù)據(jù)混合是最好的」以及「使用 LLAMA 作為基礎(chǔ)模型比其他開放替代方案更可取」后,研究比較所有 LLAMA 尺寸的人類 + GPT 數(shù)據(jù)混合 (TüLU 模型) 上訓(xùn)練的模型的性能(如表 5 所示)。

圖片圖片

實(shí)驗(yàn)結(jié)論得出:

  • 指令調(diào)優(yōu)給所有尺寸的 LLAMA 模型都帶來(lái)了很大的好處;
  • 較小的模型從指令調(diào)優(yōu)中獲益最大;
  • TüLU 仍然落后于最先進(jìn)的專有模型。

基于模型的開放式生成評(píng)估結(jié)果

表 6 中報(bào)告了模型 AlpacaFarm 勝率。

圖片

由此可以得出以下結(jié)果:

  • 基于傳統(tǒng) NLP 數(shù)據(jù)集的混合模型表現(xiàn)不佳;
  • 鼓勵(lì)長(zhǎng)時(shí)間、多樣化代的數(shù)據(jù)集表現(xiàn)最好 (見(jiàn)圖 2);
  • ShareGPT 的性能最好。

圖片圖片

總體而言,有這些結(jié)果可以看出,雖然模型偏好評(píng)估很重要,但它并沒(méi)有提供對(duì)這些模型的整體評(píng)估。因此,在更大、更全面的評(píng)估設(shè)置里,模型偏好評(píng)估應(yīng)該只作為其中的一部分。

開放式生成的人工評(píng)價(jià)結(jié)果

圖 4 中展示了人工評(píng)估結(jié)果。人工評(píng)估結(jié)果與 AlpacaFarm 和基于基準(zhǔn)的評(píng)估具有強(qiáng)烈相關(guān)性:所有評(píng)估表明,65B TüLU 優(yōu)于 7B TüLU。這表明使用更大的基礎(chǔ)模型是重要的,并且在 65B TüLU 和 ChatGPT 之間仍有不小的性能差距。

圖片圖片

除此之外,研究還發(fā)現(xiàn)利用蒸餾數(shù)據(jù)集可以讓性能有很大的提升,這表明相比之下人類編寫的數(shù)據(jù)集是匱乏的。這些觀察結(jié)果也與圖 3 中的可接受性分?jǐn)?shù)相一致。7B TüLU 在模型偏好評(píng)估中優(yōu)于 human-mix 65B TüLU,但如果比較圖 3 中的可接受性分?jǐn)?shù),則情況似乎相反。這進(jìn)一步證明,模型兩兩評(píng)估可能并不始終揭示模型缺陷。在這種情況下,65B 人類混合模型比 7B 模型更有可能產(chǎn)生可接受的 (如果不是高質(zhì)量的) 響應(yīng)。

圖片圖片

更多詳細(xì)內(nèi)容,請(qǐng)參見(jiàn)原文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-06-29 14:49:43

計(jì)算機(jī)視覺(jué)智能

2023-07-05 15:02:51

2024-01-01 22:14:04

2018-01-04 00:32:31

eSIM卡運(yùn)營(yíng)商v

2022-04-06 14:37:25

深度學(xué)習(xí)架構(gòu)研究

2012-09-13 11:35:50

2021-07-02 10:15:28

云計(jì)算邊緣計(jì)算

2023-03-16 19:17:57

2023-09-08 13:00:59

模型訓(xùn)練

2021-03-15 09:20:15

微軟IBM研究院

2024-01-30 20:36:09

GPT-4羊駝代碼

2023-08-15 15:03:00

AI工具

2023-03-27 17:45:16

研究AI

2023-06-28 18:10:27

羊駝家族大模型集體進(jìn)化

2023-06-19 08:19:50

2023-07-20 12:16:31

GPT-4AI

2023-09-26 17:36:52

GPT-4AI

2024-03-22 13:33:00

AI模型

2025-04-16 09:35:03

2023-09-04 10:05:01

GPT-4AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)