「羊駝」們走到哪一步了?研究表明:最好的能達(dá)到GPT-4性能的68%
最近,大型語(yǔ)言模型獲得了前所未有的關(guān)注度。在更迭迅速的情況下,開源模型與閉源模型的發(fā)展并駕齊驅(qū),同時(shí)呈現(xiàn)百花齊放的態(tài)勢(shì)。
但仍然令大家好奇的是,開源大模型和閉源大模型,哪一邊實(shí)力更強(qiáng)?又該如何對(duì)比?
近日,在推特上,華盛頓大學(xué)計(jì)算機(jī)科學(xué)博士生 Wang Yizhong 同樣對(duì)眾多指令調(diào)優(yōu)數(shù)據(jù)集及開源模型的發(fā)展提出了這個(gè)疑問(wèn)。
圖片
此前,一些公開的指令調(diào)優(yōu)模型在宣傳時(shí)稱,自身可與功能強(qiáng)大的閉源專有模型 (如 ChatGPT) 相媲美,但是大部分能支持這個(gè)說(shuō)法的實(shí)驗(yàn)只是覆蓋了全部任務(wù)的冰山一角而已,并且這些實(shí)驗(yàn)也主要依賴基于模型的評(píng)估指標(biāo)。事實(shí)上,評(píng)估設(shè)置除了測(cè)試模型或人工標(biāo)注的生成質(zhì)量外,還應(yīng)該包括測(cè)試模型的核心推理和事實(shí)回憶技能的任務(wù),這些任務(wù)可能更開放和主觀。
在最近的一項(xiàng)研究中,艾倫人工智能研究所聯(lián)合華盛頓大學(xué)對(duì)指令調(diào)優(yōu)資源進(jìn)行了全面的評(píng)估,他們?cè)谑畮讉€(gè)公共語(yǔ)料庫(kù)上進(jìn)行了大量的指令調(diào)優(yōu)實(shí)驗(yàn),從 6.7B 到 65B 的模型規(guī)模都有涉及。研究還評(píng)估了特定的模型能力 (即事實(shí)知識(shí)、推理、多語(yǔ)言性、編碼) 和開放式的指令遵循能力,并展示了基于自動(dòng)、基于模型和基于人工的評(píng)估指標(biāo)的結(jié)果。
論文地址:https://arxiv.org/pdf/2306.04751.pdf
評(píng)估表明,在不同數(shù)據(jù)集上進(jìn)行指令調(diào)優(yōu)似乎可以提高特定的技能,沒(méi)有一個(gè)數(shù)據(jù)集能在所有評(píng)估中均提供最佳性能。他們還發(fā)現(xiàn),底層基礎(chǔ)模型是至關(guān)重要的,更好的基礎(chǔ)模型 (訓(xùn)練于更多 token 或是更大模型)整體表現(xiàn)更好。意料之外的是,研究還發(fā)現(xiàn)在基于模型的評(píng)估中首選的模型與在基于基準(zhǔn)的自動(dòng)評(píng)估中表現(xiàn)最好的模型并不匹配,這可能是由于 GPT-4 對(duì)長(zhǎng)的、多樣化生成的強(qiáng)烈偏見(jiàn)。
評(píng)估還表明,在任何給定的評(píng)估中,最佳模型的平均性能達(dá)到 ChatGPT 的 83%、GPT-4 的 68%,這表明需要進(jìn)一步構(gòu)建更好的基礎(chǔ)模型和指令調(diào)優(yōu)數(shù)據(jù)以縮小差距。
根據(jù)這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了「TüLU」,一套在數(shù)據(jù)源組合上進(jìn)行微調(diào)的 7B 到 65B 的 LLAMA 模型。需要聲明的是,在撰寫本文時(shí),TüLU 65B 是公開發(fā)布的最大的全指令調(diào)優(yōu) LLAMA 變體。它在 7 個(gè)流行的可用數(shù)據(jù)集上進(jìn)行訓(xùn)練,并產(chǎn)生最佳的平均性能,同時(shí)在每個(gè)單獨(dú)任務(wù)上排在最佳性能模型的 15% 以內(nèi)。
研究者開源了用于訓(xùn)練和評(píng)估這些大型語(yǔ)言模型的代碼,并發(fā)布了在不同指令數(shù)據(jù)集及其混合物上訓(xùn)練的檢查點(diǎn),包括 TüLU。
指令數(shù)據(jù)集
研究團(tuán)隊(duì)試圖收集不同風(fēng)格數(shù)據(jù)集的代表性樣本 (列在表 1 中),包括:
(1) 由研究人員從現(xiàn)有的 NLP 數(shù)據(jù)集 (SuperNI , Flan V2) 創(chuàng)建;
(2) 由人類從頭編寫,用于指令調(diào)優(yōu) (Dolly , Open Assistant 1 );
(3) 由專有模型生成 (Self-Instruct , Unnatural Instructions、Alpaca、Baize、GPT4-Alpaca );
(4) 由用戶共享的 prompt 和模型生成的補(bǔ)全組成;
(5) 為特定技能而建 (CoT 用于思維鏈,alpaca 用于代碼生成)。
圖片
預(yù)訓(xùn)練模型
研究主要使用了 LLAMA 套件,這是一系列預(yù)訓(xùn)練模型,大小從 6.7B 到 65B 參數(shù)不等。這些模型代表了社區(qū)可用的最大、最高質(zhì)量的預(yù)訓(xùn)練模型 (盡管在限制性許可下)。研究還考慮了與 LLAMA 6.7B 模型大小相當(dāng)?shù)?OPT 和 Pythia 模型,以檢查不同基礎(chǔ)模型的效果。
為簡(jiǎn)單起見(jiàn),研究將所有大小四舍五入為整數(shù)。團(tuán)隊(duì)還注意到一些對(duì)類似或質(zhì)量更好的模型進(jìn)行預(yù)訓(xùn)練的工作,他們相信本文的發(fā)現(xiàn)應(yīng)該適用于這些模型以及未來(lái)更強(qiáng)大的開放基礎(chǔ)模型。
使用各種數(shù)據(jù)集訓(xùn)練模型
統(tǒng)一格式
研究將所有數(shù)據(jù)集格式化為遵循聊天機(jī)器人風(fēng)格的模式,以統(tǒng)一指令數(shù)據(jù)集的各種風(fēng)格和格式,如圖 1 所示。這讓研究團(tuán)隊(duì)能夠?qū)⒂脩艉驼Z(yǔ)言模型 (又稱「assistant」) 之間的任意輪交互擬合到一個(gè)輸入序列中,并將它們與因果語(yǔ)言模型一起編碼。他們?cè)谟脩粼捳Z(yǔ)和目標(biāo)助手響應(yīng)之前分別添加了特殊 token<|user|> 和 <|assistant|>,并在每個(gè) assistant 輸出的末尾添加了一個(gè)文本結(jié)束 token,在推理時(shí),該 token 將停止模型每輪的響應(yīng)。
TüLU:整合資源,更好的指令調(diào)優(yōu)模型
鑒于現(xiàn)有的研究表明,增加指令的多樣性能夠有效提高指令調(diào)優(yōu)的性能,因此研究者將兩個(gè)數(shù)據(jù)集結(jié)合起來(lái):
人類混合數(shù)據(jù),由最佳的人工編寫數(shù)據(jù)集組成。包括 FLAN V2、CoT、Dolly 和 Open Assistant 1 (排除了了 SuperNI,因?yàn)?FLAN V2 已經(jīng)包含了 SuperNI 中的大多數(shù)任務(wù));
人類 + GPT 混合數(shù)據(jù) ,包括人類混合數(shù)據(jù)和由 OpenAI GPT 模型生成的另外三個(gè)數(shù)據(jù)集,包括 GPT4-Alpaca、Code-Alpaca 和 ShareGPT。
研究團(tuán)隊(duì)將這些混合數(shù)據(jù)集連接起來(lái),并將探索更復(fù)雜的采樣混合物的工作留給未來(lái)。他們把在人類 + GPT 混合數(shù)據(jù)上訓(xùn)練的 LLAMA 模型命名為 TüLU—— 不同物種之間雜交產(chǎn)生的雜交駱駝。
實(shí)驗(yàn)結(jié)果
指令調(diào)優(yōu)數(shù)據(jù)集和基礎(chǔ)模型分析
為了了解表 1 中列出的指令數(shù)據(jù)集對(duì)模型能力的貢獻(xiàn),研究者使用評(píng)估套件評(píng)估了在這些數(shù)據(jù)集上訓(xùn)練的 LLaMa 13B 模型。表 3 展示了基準(zhǔn)評(píng)估集上的結(jié)果,其中 App D 的結(jié)果更為廣泛。
實(shí)驗(yàn)結(jié)論如下:
- 一個(gè)跨所有任務(wù)的最佳指令調(diào)優(yōu)數(shù)據(jù)集是不存在的;
- 合并數(shù)據(jù)集可以在基準(zhǔn)任務(wù)上獲得最佳的整體性能;
- 基礎(chǔ)模型的質(zhì)量對(duì)于下游性能非常重要。(見(jiàn)表 4)
圖片
挑戰(zhàn)開放模型的極限
當(dāng)確定「使用廣泛的數(shù)據(jù)混合是最好的」以及「使用 LLAMA 作為基礎(chǔ)模型比其他開放替代方案更可取」后,研究比較所有 LLAMA 尺寸的人類 + GPT 數(shù)據(jù)混合 (TüLU 模型) 上訓(xùn)練的模型的性能(如表 5 所示)。
圖片
實(shí)驗(yàn)結(jié)論得出:
- 指令調(diào)優(yōu)給所有尺寸的 LLAMA 模型都帶來(lái)了很大的好處;
- 較小的模型從指令調(diào)優(yōu)中獲益最大;
- TüLU 仍然落后于最先進(jìn)的專有模型。
基于模型的開放式生成評(píng)估結(jié)果
表 6 中報(bào)告了模型 AlpacaFarm 勝率。
由此可以得出以下結(jié)果:
- 基于傳統(tǒng) NLP 數(shù)據(jù)集的混合模型表現(xiàn)不佳;
- 鼓勵(lì)長(zhǎng)時(shí)間、多樣化代的數(shù)據(jù)集表現(xiàn)最好 (見(jiàn)圖 2);
- ShareGPT 的性能最好。
圖片
總體而言,有這些結(jié)果可以看出,雖然模型偏好評(píng)估很重要,但它并沒(méi)有提供對(duì)這些模型的整體評(píng)估。因此,在更大、更全面的評(píng)估設(shè)置里,模型偏好評(píng)估應(yīng)該只作為其中的一部分。
開放式生成的人工評(píng)價(jià)結(jié)果
圖 4 中展示了人工評(píng)估結(jié)果。人工評(píng)估結(jié)果與 AlpacaFarm 和基于基準(zhǔn)的評(píng)估具有強(qiáng)烈相關(guān)性:所有評(píng)估表明,65B TüLU 優(yōu)于 7B TüLU。這表明使用更大的基礎(chǔ)模型是重要的,并且在 65B TüLU 和 ChatGPT 之間仍有不小的性能差距。
圖片
除此之外,研究還發(fā)現(xiàn)利用蒸餾數(shù)據(jù)集可以讓性能有很大的提升,這表明相比之下人類編寫的數(shù)據(jù)集是匱乏的。這些觀察結(jié)果也與圖 3 中的可接受性分?jǐn)?shù)相一致。7B TüLU 在模型偏好評(píng)估中優(yōu)于 human-mix 65B TüLU,但如果比較圖 3 中的可接受性分?jǐn)?shù),則情況似乎相反。這進(jìn)一步證明,模型兩兩評(píng)估可能并不始終揭示模型缺陷。在這種情況下,65B 人類混合模型比 7B 模型更有可能產(chǎn)生可接受的 (如果不是高質(zhì)量的) 響應(yīng)。
圖片
更多詳細(xì)內(nèi)容,請(qǐng)參見(jiàn)原文。