「羊駝」們走到哪一步了？研究表明：最好的能達(dá)到GPT-4性能的68%

作者：機(jī)器之心 2023-07-03 10:20:28

開源 VS 閉源，哪邊的大語(yǔ)言模型更能打？

最近，大型語(yǔ)言模型獲得了前所未有的關(guān)注度。在更迭迅速的情況下，開源模型與閉源模型的發(fā)展并駕齊驅(qū)，同時(shí)呈現(xiàn)百花齊放的態(tài)勢(shì)。

但仍然令大家好奇的是，開源大模型和閉源大模型，哪一邊實(shí)力更強(qiáng)？又該如何對(duì)比？

近日，在推特上，華盛頓大學(xué)計(jì)算機(jī)科學(xué)博士生 Wang Yizhong 同樣對(duì)眾多指令調(diào)優(yōu)數(shù)據(jù)集及開源模型的發(fā)展提出了這個(gè)疑問(wèn)。

圖片

此前，一些公開的指令調(diào)優(yōu)模型在宣傳時(shí)稱，自身可與功能強(qiáng)大的閉源專有模型 (如 ChatGPT) 相媲美，但是大部分能支持這個(gè)說(shuō)法的實(shí)驗(yàn)只是覆蓋了全部任務(wù)的冰山一角而已，并且這些實(shí)驗(yàn)也主要依賴基于模型的評(píng)估指標(biāo)。事實(shí)上，評(píng)估設(shè)置除了測(cè)試模型或人工標(biāo)注的生成質(zhì)量外，還應(yīng)該包括測(cè)試模型的核心推理和事實(shí)回憶技能的任務(wù)，這些任務(wù)可能更開放和主觀。

在最近的一項(xiàng)研究中，艾倫人工智能研究所聯(lián)合華盛頓大學(xué)對(duì)指令調(diào)優(yōu)資源進(jìn)行了全面的評(píng)估，他們?cè)谑畮讉€(gè)公共語(yǔ)料庫(kù)上進(jìn)行了大量的指令調(diào)優(yōu)實(shí)驗(yàn)，從 6.7B 到 65B 的模型規(guī)模都有涉及。研究還評(píng)估了特定的模型能力 (即事實(shí)知識(shí)、推理、多語(yǔ)言性、編碼) 和開放式的指令遵循能力，并展示了基于自動(dòng)、基于模型和基于人工的評(píng)估指標(biāo)的結(jié)果。

論文地址：https://arxiv.org/pdf/2306.04751.pdf

評(píng)估表明，在不同數(shù)據(jù)集上進(jìn)行指令調(diào)優(yōu)似乎可以提高特定的技能，沒(méi)有一個(gè)數(shù)據(jù)集能在所有評(píng)估中均提供最佳性能。他們還發(fā)現(xiàn)，底層基礎(chǔ)模型是至關(guān)重要的，更好的基礎(chǔ)模型 (訓(xùn)練于更多 token 或是更大模型）整體表現(xiàn)更好。意料之外的是，研究還發(fā)現(xiàn)在基于模型的評(píng)估中首選的模型與在基于基準(zhǔn)的自動(dòng)評(píng)估中表現(xiàn)最好的模型并不匹配，這可能是由于 GPT-4 對(duì)長(zhǎng)的、多樣化生成的強(qiáng)烈偏見(jiàn)。

評(píng)估還表明，在任何給定的評(píng)估中，最佳模型的平均性能達(dá)到 ChatGPT 的 83%、GPT-4 的 68%，這表明需要進(jìn)一步構(gòu)建更好的基礎(chǔ)模型和指令調(diào)優(yōu)數(shù)據(jù)以縮小差距。

根據(jù)這些發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了「TüLU」，一套在數(shù)據(jù)源組合上進(jìn)行微調(diào)的 7B 到 65B 的 LLAMA 模型。需要聲明的是，在撰寫本文時(shí)，TüLU 65B 是公開發(fā)布的最大的全指令調(diào)優(yōu) LLAMA 變體。它在 7 個(gè)流行的可用數(shù)據(jù)集上進(jìn)行訓(xùn)練，并產(chǎn)生最佳的平均性能，同時(shí)在每個(gè)單獨(dú)任務(wù)上排在最佳性能模型的 15% 以內(nèi)。

研究者開源了用于訓(xùn)練和評(píng)估這些大型語(yǔ)言模型的代碼，并發(fā)布了在不同指令數(shù)據(jù)集及其混合物上訓(xùn)練的檢查點(diǎn)，包括 TüLU。

指令數(shù)據(jù)集

研究團(tuán)隊(duì)試圖收集不同風(fēng)格數(shù)據(jù)集的代表性樣本 (列在表 1 中)，包括：

(1) 由研究人員從現(xiàn)有的 NLP 數(shù)據(jù)集 (SuperNI ， Flan V2) 創(chuàng)建；

(2) 由人類從頭編寫，用于指令調(diào)優(yōu) (Dolly ， Open Assistant 1 );

(3) 由專有模型生成 (Self-Instruct , Unnatural Instructions、Alpaca、Baize、GPT4-Alpaca );

(4) 由用戶共享的 prompt 和模型生成的補(bǔ)全組成；

(5) 為特定技能而建 (CoT 用于思維鏈，alpaca 用于代碼生成)。

圖片

預(yù)訓(xùn)練模型

研究主要使用了 LLAMA 套件，這是一系列預(yù)訓(xùn)練模型，大小從 6.7B 到 65B 參數(shù)不等。這些模型代表了社區(qū)可用的最大、最高質(zhì)量的預(yù)訓(xùn)練模型 (盡管在限制性許可下)。研究還考慮了與 LLAMA 6.7B 模型大小相當(dāng)?shù)?OPT 和 Pythia 模型，以檢查不同基礎(chǔ)模型的效果。

為簡(jiǎn)單起見(jiàn)，研究將所有大小四舍五入為整數(shù)。團(tuán)隊(duì)還注意到一些對(duì)類似或質(zhì)量更好的模型進(jìn)行預(yù)訓(xùn)練的工作，他們相信本文的發(fā)現(xiàn)應(yīng)該適用于這些模型以及未來(lái)更強(qiáng)大的開放基礎(chǔ)模型。

使用各種數(shù)據(jù)集訓(xùn)練模型

統(tǒng)一格式

研究將所有數(shù)據(jù)集格式化為遵循聊天機(jī)器人風(fēng)格的模式，以統(tǒng)一指令數(shù)據(jù)集的各種風(fēng)格和格式，如圖 1 所示。這讓研究團(tuán)隊(duì)能夠?qū)⒂脩艉驼Z(yǔ)言模型 (又稱「assistant」) 之間的任意輪交互擬合到一個(gè)輸入序列中，并將它們與因果語(yǔ)言模型一起編碼。他們?cè)谟脩粼捳Z(yǔ)和目標(biāo)助手響應(yīng)之前分別添加了特殊 token<|user|> 和 <|assistant|>，并在每個(gè) assistant 輸出的末尾添加了一個(gè)文本結(jié)束 token，在推理時(shí)，該 token 將停止模型每輪的響應(yīng)。

TüLU：整合資源，更好的指令調(diào)優(yōu)模型

鑒于現(xiàn)有的研究表明，增加指令的多樣性能夠有效提高指令調(diào)優(yōu)的性能，因此研究者將兩個(gè)數(shù)據(jù)集結(jié)合起來(lái)：

人類混合數(shù)據(jù)，由最佳的人工編寫數(shù)據(jù)集組成。包括 FLAN V2、CoT、Dolly 和 Open Assistant 1 (排除了了 SuperNI，因?yàn)?FLAN V2 已經(jīng)包含了 SuperNI 中的大多數(shù)任務(wù));

人類 + GPT 混合數(shù)據(jù) ，包括人類混合數(shù)據(jù)和由 OpenAI GPT 模型生成的另外三個(gè)數(shù)據(jù)集，包括 GPT4-Alpaca、Code-Alpaca 和 ShareGPT。

研究團(tuán)隊(duì)將這些混合數(shù)據(jù)集連接起來(lái)，并將探索更復(fù)雜的采樣混合物的工作留給未來(lái)。他們把在人類 + GPT 混合數(shù)據(jù)上訓(xùn)練的 LLAMA 模型命名為 TüLU—— 不同物種之間雜交產(chǎn)生的雜交駱駝。

實(shí)驗(yàn)結(jié)果

指令調(diào)優(yōu)數(shù)據(jù)集和基礎(chǔ)模型分析

為了了解表 1 中列出的指令數(shù)據(jù)集對(duì)模型能力的貢獻(xiàn)，研究者使用評(píng)估套件評(píng)估了在這些數(shù)據(jù)集上訓(xùn)練的 LLaMa 13B 模型。表 3 展示了基準(zhǔn)評(píng)估集上的結(jié)果，其中 App D 的結(jié)果更為廣泛。

實(shí)驗(yàn)結(jié)論如下:

一個(gè)跨所有任務(wù)的最佳指令調(diào)優(yōu)數(shù)據(jù)集是不存在的；
合并數(shù)據(jù)集可以在基準(zhǔn)任務(wù)上獲得最佳的整體性能；
基礎(chǔ)模型的質(zhì)量對(duì)于下游性能非常重要。(見(jiàn)表 4)

圖片

挑戰(zhàn)開放模型的極限

當(dāng)確定「使用廣泛的數(shù)據(jù)混合是最好的」以及「使用 LLAMA 作為基礎(chǔ)模型比其他開放替代方案更可取」后，研究比較所有 LLAMA 尺寸的人類 + GPT 數(shù)據(jù)混合 (TüLU 模型) 上訓(xùn)練的模型的性能（如表 5 所示）。

圖片

實(shí)驗(yàn)結(jié)論得出：

指令調(diào)優(yōu)給所有尺寸的 LLAMA 模型都帶來(lái)了很大的好處；
較小的模型從指令調(diào)優(yōu)中獲益最大；
TüLU 仍然落后于最先進(jìn)的專有模型。

基于模型的開放式生成評(píng)估結(jié)果

表 6 中報(bào)告了模型 AlpacaFarm 勝率。

由此可以得出以下結(jié)果：

基于傳統(tǒng) NLP 數(shù)據(jù)集的混合模型表現(xiàn)不佳；
鼓勵(lì)長(zhǎng)時(shí)間、多樣化代的數(shù)據(jù)集表現(xiàn)最好 (見(jiàn)圖 2)；
ShareGPT 的性能最好。

圖片

總體而言，有這些結(jié)果可以看出，雖然模型偏好評(píng)估很重要，但它并沒(méi)有提供對(duì)這些模型的整體評(píng)估。因此，在更大、更全面的評(píng)估設(shè)置里，模型偏好評(píng)估應(yīng)該只作為其中的一部分。

開放式生成的人工評(píng)價(jià)結(jié)果

圖 4 中展示了人工評(píng)估結(jié)果。人工評(píng)估結(jié)果與 AlpacaFarm 和基于基準(zhǔn)的評(píng)估具有強(qiáng)烈相關(guān)性：所有評(píng)估表明，65B TüLU 優(yōu)于 7B TüLU。這表明使用更大的基礎(chǔ)模型是重要的，并且在 65B TüLU 和 ChatGPT 之間仍有不小的性能差距。

圖片

除此之外，研究還發(fā)現(xiàn)利用蒸餾數(shù)據(jù)集可以讓性能有很大的提升，這表明相比之下人類編寫的數(shù)據(jù)集是匱乏的。這些觀察結(jié)果也與圖 3 中的可接受性分?jǐn)?shù)相一致。7B TüLU 在模型偏好評(píng)估中優(yōu)于 human-mix 65B TüLU，但如果比較圖 3 中的可接受性分?jǐn)?shù)，則情況似乎相反。這進(jìn)一步證明，模型兩兩評(píng)估可能并不始終揭示模型缺陷。在這種情況下，65B 人類混合模型比 7B 模型更有可能產(chǎn)生可接受的 (如果不是高質(zhì)量的) 響應(yīng)。

圖片