GPT太「奢侈」,平替大匯總來了,再也不用擔(dān)心部署大難題
近年來,生成式預(yù)訓(xùn)練模型(如 GPT)的興起徹底顛覆了自然語言處理領(lǐng)域,其影響甚至已經(jīng)延伸到其他多種模態(tài)。然而,像 ChatGPT 和 GPT-4 這樣的模型,由于其巨大的模型規(guī)模與計(jì)算復(fù)雜度、復(fù)雜的部署方式以及未開源的訓(xùn)練模型,這些因素都限制了他們?cè)趯W(xué)術(shù)界和工業(yè)界的推廣與應(yīng)用。因此,易于計(jì)算和部署的語言模型成為了人們關(guān)注的焦點(diǎn)。
- 論文地址:http://arxiv.org/abs/2308.14149
- 項(xiàng)目地址:https://github.com/GPT-Alternatives/gpt_alternatives
本文將從以下幾個(gè)方面,對(duì) GPT 的平替模型進(jìn)行研究,從多個(gè)維度出發(fā),進(jìn)行大量實(shí)驗(yàn)驗(yàn)證,只為得到更全面更真實(shí)的模型測(cè)評(píng)結(jié)果,幫助研究者和從業(yè)者更加深入地理解這些模型的基本原理、發(fā)展趨勢(shì)和主要的挑戰(zhàn),并且根據(jù)不同需求選擇合適的模型。
1. 總結(jié)了平替模型的架構(gòu)、設(shè)計(jì)方式以及效率與性能的權(quán)衡;
2. 梳理了現(xiàn)有的公開數(shù)據(jù)集并分析了預(yù)訓(xùn)練數(shù)據(jù)源、數(shù)據(jù)質(zhì)量、數(shù)量、多樣性、微調(diào)數(shù)據(jù)(包括指令數(shù)據(jù)、對(duì)齊數(shù)據(jù)),以及特定領(lǐng)域數(shù)據(jù)的特點(diǎn);
3. 介紹了高效訓(xùn)練與部署大規(guī)模語言模型的方式,并總結(jié)了現(xiàn)有的開源平替模型;
4. 評(píng)測(cè)了不同平替模型在多個(gè)常用基準(zhǔn)數(shù)據(jù)集上的效果;
5. 設(shè)計(jì)了人工評(píng)測(cè)任務(wù),并在不同平替模型上進(jìn)行了人工評(píng)估;
6. 討論和評(píng)測(cè)了大規(guī)模語言模型在圖文多模態(tài)領(lǐng)域的研究現(xiàn)狀及模型表現(xiàn);
7. 評(píng)測(cè)了各個(gè)平替模型在科學(xué)研究領(lǐng)域的基準(zhǔn)數(shù)據(jù)集上的性能。
大規(guī)模語言模型發(fā)展歷程
GPT 的平替模型
持續(xù)更新在 github……
開源工具
近年來,深度學(xué)習(xí)的飛速發(fā)展與開源社區(qū)的繁榮息息相關(guān)。本節(jié)中,我們整理了大規(guī)模語言模型相關(guān)的開源工具庫,這些工具庫包含了訓(xùn)練、部署、加速、模型評(píng)測(cè)等方面。
基準(zhǔn)數(shù)據(jù)集評(píng)測(cè)
為了全面評(píng)估各種語言模型在不同任務(wù)上的性能,我們首先從不同角度在多個(gè)常用的測(cè)試基準(zhǔn)上進(jìn)行了詳盡的評(píng)估。選定的任務(wù)旨在測(cè)試模型的常識(shí)推理、信息抽取、文本理解、數(shù)學(xué)解題以及跨學(xué)科知識(shí)的能力。
評(píng)測(cè)方式
我們采用了兩種評(píng)測(cè)方式:
1.Zero-shot 方式。該方式主要關(guān)注模型在未見過的新任務(wù)上的性能,即 zero-shot 學(xué)習(xí)。在沒有給定與任務(wù)相關(guān)的訓(xùn)練樣本的情況下,模型需要依賴其在大規(guī)模語料庫中學(xué)到的知識(shí)和理解,來給出準(zhǔn)確的答案。這種方式對(duì)模型的歸納、推理以及泛化能力都提出了很高的挑戰(zhàn)。
2.Few-shot 方式。小樣本學(xué)習(xí)方式要求模型在僅給定少數(shù)示例答案的情況下,能夠產(chǎn)生合適的回答。這種評(píng)估方式主要測(cè)試模型的遷移和泛化能力。在實(shí)際應(yīng)用中,這種能力尤為重要,因?yàn)樗试S模型在數(shù)據(jù)稀缺的情境中仍然表現(xiàn)出色。
評(píng)測(cè)數(shù)據(jù)集
在 Zero-Shot 設(shè)定下,我們測(cè)試了 BoolQ, Hellaswag, WinoGrande, PIQA, ARC, OpenbookQA, RACE, DROP 和 GSM8K 數(shù)據(jù)集。在 Few-Shot 設(shè)定下,我們測(cè)試了 MMLU 和 TriviaQA 數(shù)據(jù)集。
實(shí)驗(yàn)結(jié)果
上圖展示了不同語言模型在 zero-shot 設(shè)定下的測(cè)試結(jié)果。值得注意的是,盡管本研究分析的許多模型都基于 LLaMA-7B 架構(gòu),但它們的個(gè)體性能差異顯著。這些模型之間的性能差異主要?dú)w因于它們?cè)陂_發(fā)過程中采用的調(diào)優(yōu)方法,這凸顯了調(diào)優(yōu)策略在決定模型性能上的核心作用。此外,這些結(jié)果也揭示了語言模型在不同任務(wù)中的效能差異。沒有單一模型可以在所有數(shù)據(jù)集和任務(wù)上完全占優(yōu)。另外,這些語言模型在涉及帶有選項(xiàng)的任務(wù)中表現(xiàn)得相對(duì)較好,但在生成任務(wù)中則有所不及。這種差異是可以理解的,因?yàn)樯蛇B貫、與上下文相符的內(nèi)容遠(yuǎn)比簡(jiǎn)單的分類任務(wù)更為挑戰(zhàn),它需要模型具備更深入的語言和上下文理解能力。
該圖為我們呈現(xiàn)了模型在 few-shot 設(shè)置下的表現(xiàn)。從表格中,我們可以觀察到幾個(gè)顯著的特點(diǎn)。首先,這些語言模型的性能并沒有隨著示例數(shù)量的增加而明顯上升。這可以歸因于模型相對(duì)較小的規(guī)模以及其有限地利用樣本學(xué)習(xí)的能力,導(dǎo)致模型難以從所給示例中充分吸取知識(shí)。其次,模型在不同的示例設(shè)置下的性能相對(duì)穩(wěn)定。因此,如果某模型在 zero-shot 設(shè)置下已經(jīng)表現(xiàn)得很好,那么在其他設(shè)置下,它很可能也能保持這種優(yōu)勢(shì)。
不過,需要承認(rèn)的是,部分經(jīng)過測(cè)試的語言模型并未達(dá)到最佳表現(xiàn)。這些模型可能需要更合適的提示或進(jìn)一步的微調(diào)來獲取必要的知識(shí)并提高其整體性能。
人工評(píng)測(cè)
現(xiàn)有的基準(zhǔn)數(shù)據(jù)集通常用于評(píng)估傳統(tǒng)的語言模型,但它們往往只專注于某一特定的任務(wù)或主題。與此同時(shí),大規(guī)模語言模型展現(xiàn)出的多樣化能力,很難僅通過這些基準(zhǔn)數(shù)據(jù)集來進(jìn)行全面的評(píng)價(jià)。為了更深入地了解這些模型的性能,我們繼續(xù)對(duì)現(xiàn)有的平替模型進(jìn)行了人工評(píng)測(cè)。
評(píng)測(cè)方式
人工評(píng)價(jià)模型性能的關(guān)鍵在于評(píng)測(cè)問題的選擇與評(píng)測(cè)人員的客觀性。為此,我們采用常見的兩兩對(duì)比的方式來評(píng)測(cè)模型的表現(xiàn)。與直接打分或排序相比,兩兩對(duì)比的方式降低了參與測(cè)試人員的評(píng)測(cè)難度,從而提高了評(píng)測(cè)結(jié)果的客觀性和準(zhǔn)確性。我們?cè)O(shè)計(jì)了 50 個(gè)問題,涵蓋了 9 個(gè)不同的方面,包括:日常問答、書面能力、推理、編程、數(shù)學(xué)、物理、化學(xué)、生物和有害內(nèi)容檢測(cè)。在 16 個(gè)模型上進(jìn)行了這些問題的評(píng)估,并采用 Elo 評(píng)分系統(tǒng)對(duì)測(cè)試結(jié)果進(jìn)行了最終的模型得分計(jì)算。
評(píng)測(cè)結(jié)果
上圖展示了各個(gè)模型的 Elo 得分,所有模型的初始 Elo 分?jǐn)?shù)均為 1000,且我們采用了 K 因子為 16 來控制評(píng)分的最大波動(dòng)。在這 16 個(gè)模型中,Vicuna-7B 位列榜首,其 Elo 得分高達(dá) 1222。ChatGLM 和 Moss 分別位居第二和第三。值得注意的是,從第 7 名到第 15 名的模型,它們的表現(xiàn)相差無幾,都非常接近。從另一個(gè)角度看,Elo 評(píng)分系統(tǒng)確實(shí)具有顯著的區(qū)分能力,這意味著各模型在性能上存在著明顯的層次差異。
我們還可以利用 Elo 分?jǐn)?shù)來預(yù)測(cè)模型兩兩之間的勝率。在一定的區(qū)間內(nèi),Elo 分?jǐn)?shù)每相差 10 分,勝率就會(huì)有大約 1.5% 的變化。因此,我們基于 Elo 分?jǐn)?shù)繪制了一對(duì)一勝率的熱圖,如圖(b)所示。同時(shí),圖(a)展示了代表各模型間實(shí)際勝率的熱圖。顯然,Elo 分?jǐn)?shù)能夠很好地反映模型之間的性能差異。例如,Vicuna-7B 與 ChatGLM 之間大約有 50 分的 Elo 分?jǐn)?shù)差距,而 Vicuna-7B 對(duì) ChatGLM 的勝率為 57%。這與實(shí)際勝率 55% 非常接近。
我們展示了不同模型在書寫任務(wù)上的例子,排名最高的 Vicuna-7B 無論是在內(nèi)容上還是在格式上都要顯著地優(yōu)于其他的方法。為了確認(rèn)不同評(píng)測(cè)人員之間回答的一致性,我們隨機(jī)選取了 20 個(gè)問題進(jìn)行了人工一致性評(píng)測(cè)(Human Consistency)。評(píng)測(cè)指標(biāo)為 tie-discounted 準(zhǔn)確率:當(dāng)兩名評(píng)測(cè)人員的答案完全相同時(shí),得 1 分;若其中一名評(píng)測(cè)人員給出的答案為 tie,則得 0.5 分;兩者答案完全不同則得 0 分。經(jīng)過評(píng)測(cè),我們獲得了 80.02 的一致性得分,這表明不同的評(píng)測(cè)人員之間的評(píng)估標(biāo)準(zhǔn)是大體一致的。
圖文多模態(tài)模型
隨著大規(guī)模語言模型在自然語言處理領(lǐng)域的大放光彩,越來越多的研究開始探索如何將這些模型與多模態(tài)信息融合。在本節(jié)中,我們將探討并評(píng)估近期一些圖文多模態(tài)大語言模型在常見基準(zhǔn)上的性能。
模型簡(jiǎn)介
常見的多模態(tài)大語言模型一般由三部分組成:視覺編碼器(Vision Encoder)、視覺 - 語言轉(zhuǎn)換器(Vision-to-Language Converter)和大規(guī)模語言模型。視覺編碼器旨在從圖像中提取視覺信息,它通常采用如 CLIP 和 Flamingo 這類視覺 - 語言預(yù)訓(xùn)練模型初始化的 ViT 結(jié)構(gòu)。視覺 - 語言轉(zhuǎn)換器的作用是將視覺嵌入映射到語言嵌入空間,其設(shè)計(jì)目的是最大程度地減少視覺和語言之間的模態(tài)差異。而大規(guī)模語言模型則利用從視覺和語言兩個(gè)模態(tài)中獲得的信息來生成最終的答案。
評(píng)測(cè)方式
本節(jié)中,我們采用 ScienceQA 數(shù)據(jù)集來評(píng)測(cè)多模態(tài)模型在科學(xué)領(lǐng)域的推理能力。ScienceQA 數(shù)據(jù)集包含約 2 萬道選擇題,覆蓋了豐富的學(xué)科領(lǐng)域。同時(shí),大多數(shù)問題提供了相應(yīng)的知識(shí)背景(Context),有助于模型進(jìn)行思維鏈?zhǔn)酵评?。評(píng)測(cè)方式上,我們采用 2-Shot 的實(shí)驗(yàn)設(shè)置,即給定兩個(gè)示例回答,要求模型根據(jù)示例回答給出最終答案。每個(gè)問答中,我們給出了問題文本(Q)、背景知識(shí)(C)和多個(gè)選項(xiàng)內(nèi)容(M),要求模型給出答案(A)。
實(shí)驗(yàn)結(jié)果
首先,我們對(duì)純語言模型和多模態(tài)模型在整個(gè)測(cè)試集上的準(zhǔn)確率進(jìn)行了評(píng)估。結(jié)果顯示,Vicuna 模型及其微調(diào)版本 MiniGPT4 在各自的領(lǐng)域中取得了最好的成果。
針對(duì)測(cè)試集中包含圖片的樣本,我們進(jìn)一步測(cè)試了多模態(tài)模型的表現(xiàn)。在這方面,基于 Vicuna 的 MiniGPT4 和 VPGTrans 模型在各自的評(píng)價(jià)指標(biāo)上分別取得了最好的成績(jī)。
科學(xué)領(lǐng)域模型
如何將 AI 技術(shù)與科學(xué)研究相結(jié)合是研究的熱點(diǎn)之一。近年來,通過對(duì)大規(guī)模自然語言模型在特定科學(xué)數(shù)據(jù)集上進(jìn)行微調(diào),使其更加適應(yīng)科學(xué)研究的需求,已逐漸成為研究的新趨勢(shì),尤其在藥物發(fā)現(xiàn)和材料設(shè)計(jì)等領(lǐng)域。在本節(jié),我們將深入研究 GPT 平替模型在科學(xué)研究中的表現(xiàn),并對(duì)其性能進(jìn)行評(píng)估。
評(píng)測(cè)方式
我們對(duì)大規(guī)模語言模型在 MedQA、MedMCQA、PubMedQA、NLPEC 和 SciQ 等數(shù)據(jù)集上進(jìn)行了評(píng)估。特別地,對(duì)于 MedQA 數(shù)據(jù)集,我們還考慮了不同的 few-shot 設(shè)置以及不同語言的數(shù)據(jù)。評(píng)估結(jié)果主要以準(zhǔn)確率為指標(biāo)進(jìn)行展示。
在這里,為了探究提示指令對(duì)模型性能的影響,我們使用了標(biāo)準(zhǔn)提示指令 “Results with standard prompts” 和模型默認(rèn)系統(tǒng)指令 “Results with specific system meta instructions” 兩種方式對(duì)模型進(jìn)行了評(píng)估。
實(shí)驗(yàn)結(jié)果
上表展示了各模型在 MedQA 數(shù)據(jù)集上的表現(xiàn)。得益于數(shù)據(jù)集的多語言支持,我們對(duì)模型在英文、簡(jiǎn)體中文和繁體中文三種語言上的性能進(jìn)行了評(píng)估。在中文數(shù)據(jù)集評(píng)測(cè)中,ChatGLM-6B 和 BELLE-7B 的表現(xiàn)優(yōu)于其他模型,其中在 “ 簡(jiǎn)體中文(5-Shot)” 和 “ 繁體中文(4-Shot)” 的測(cè)試中,準(zhǔn)確率分別達(dá)到了約 34% 和 30%。這表明,這兩款專為中文語料設(shè)計(jì)的模型在處理中文問題時(shí)具有明顯的優(yōu)勢(shì)。而在英文數(shù)據(jù)集的評(píng)測(cè)中,LLaMA 2-13B 的性能尤為突出,其在 “ 英文(5-Shot)” 和 “ 英文(4-Shot)” 的測(cè)試中,準(zhǔn)確率分別高達(dá)約 33% 和 42%。
如上表所示,我們使用相同的模型在其他科學(xué)領(lǐng)域的數(shù)據(jù)集上也進(jìn)行了評(píng)估。在 MedMCQA 數(shù)據(jù)集中,LLaMA 2-13B 和 Vicuna (FastChat)-13B 的表現(xiàn)超過了其他模型。而在 PubMedQA 數(shù)據(jù)集上,Stanford Alpaca-7B 和 Alpaca-LoRA 的性能尤為突出。在 NLPEC(英語 / 中文)和 SciQ 數(shù)據(jù)集上,LLama 2-13B 和 ChatGLM-6B 均展現(xiàn)了出色的性能。值得注意的是,在不同的 few-shot 設(shè)置中,部分模型的表現(xiàn)有所上升,但也有部分出現(xiàn)了下降,這說明:(1)并非所有模型在與 few-shot 的設(shè)置相結(jié)合時(shí)都一定會(huì)有更好的表現(xiàn);(2) 性能并不一定會(huì)隨著 few-shot 實(shí)例數(shù)量的增加而提高。
此外,對(duì)比兩種提示詞設(shè)置的結(jié)果,我們發(fā)現(xiàn),在使用模型默認(rèn)系統(tǒng)指令時(shí),某些模型如 Stanford Alpaca-7B、Vicuna (FastChat) 13B、StableLM-Tuned-Alpha-7B 和 Databricks Dolly-v2-7B 展現(xiàn)了更佳的性能。這些模型對(duì)指令提示非常敏感,并能有效地利用這些指令優(yōu)化輸出。然而,也有如 BELLE-7B 這樣的模型,在此設(shè)置下并未獲得明顯的性能提升,甚至可能有所下降。
從實(shí)驗(yàn)結(jié)果中,我們可以清晰地看到,盡管規(guī)模較小的模型(如 6B、7B、13B)在某些任務(wù)上表現(xiàn)不錯(cuò),但它們?cè)谡w數(shù)據(jù)集上的表現(xiàn)仍然有限,距離達(dá)到 100% 或 50% 的準(zhǔn)確率還有很長(zhǎng)的路要走。這些模型的一個(gè)主要限制因素是其參數(shù)數(shù)量,這直接影響了它們的處理能力和泛化性能。
主要挑戰(zhàn)與發(fā)展方向
根據(jù)上述的整體調(diào)研,以及我們大量的實(shí)驗(yàn)驗(yàn)證,我們也提出了未來值得注意的發(fā)展方向。
1. 實(shí)現(xiàn)模型規(guī)模與性能之間的平衡,比如探索更高效的模型架構(gòu)以及輕量化方法;
2. 提高數(shù)據(jù)的利用效率以減少數(shù)據(jù)收集和標(biāo)注的成本;
3. 增強(qiáng)模型的可解釋性;
4. 提高模型的安全性與隱私性;
5. 更加詳細(xì)且用戶友好的使用說明。