可復(fù)現(xiàn)、自動(dòng)化、低成本、高評(píng)估水平,首個(gè)自動(dòng)化評(píng)估大模型的大模型PandaLM來了
大模型的發(fā)展可謂一日千里,指令微調(diào)方法猶如雨后春筍般涌現(xiàn),大量所謂的 ChatGPT “平替” 大模型相繼發(fā)布。在大模型的訓(xùn)練與應(yīng)用開發(fā)中,開源、閉源以及自研等各類大模型真實(shí)能力的評(píng)測(cè)已經(jīng)成為提高研發(fā)效率與質(zhì)量的重要環(huán)節(jié)。
具體來說,在大模型的訓(xùn)練和應(yīng)用中,大家可能遇到過以下問題:
1、在大模型微調(diào)或者增強(qiáng)預(yù)訓(xùn)練中使用了不同的基座和參數(shù),根據(jù)觀察到的樣例效果,模型的表現(xiàn)在不同場景下各有優(yōu)劣,如何確定在實(shí)際應(yīng)用中使用哪個(gè)模型?
2、使用 ChatGPT 對(duì)模型輸出進(jìn)行評(píng)估,但是 ChatGPT 對(duì)相同輸入在不同時(shí)間得到的評(píng)估結(jié)果不同,到底采用哪個(gè)評(píng)估結(jié)果?
3、采用人工標(biāo)注對(duì)模型生成結(jié)果進(jìn)行評(píng)測(cè)耗時(shí)費(fèi)力,在經(jīng)費(fèi)預(yù)算有限和時(shí)間緊迫的情況下,如何加速評(píng)估過程并降低成本?
4、在處理機(jī)密數(shù)據(jù)時(shí),不管用 ChatGPT/GPT4 還是標(biāo)注公司進(jìn)行模型評(píng)測(cè)都面臨數(shù)據(jù)泄露問題,如何保證數(shù)據(jù)安全?
基于這些問題,來自北京大學(xué)、西湖大學(xué)等機(jī)構(gòu)的研究者聯(lián)合提出了一種全新的大模型評(píng)估范式——PandaLM。PandaLM 通過訓(xùn)練一個(gè)專門用于評(píng)估的大模型,對(duì)大模型能力進(jìn)行自動(dòng)化且可復(fù)現(xiàn)的測(cè)試驗(yàn)證。PandaLM 于 4 月 30 日在 GitHub 上發(fā)布,是全球首個(gè)評(píng)估大模型的大模型。相關(guān)論文會(huì)在近期公布。
GitHub地址:https://github.com/WeOpenML/PandaLM
PandaLM 旨在通過訓(xùn)練使得大模型學(xué)習(xí)到人類對(duì)不同大模型生成文本的總體偏好,并作出基于偏好的相對(duì)評(píng)價(jià),以替代人工或基于 API 的評(píng)價(jià)方式,降本增效。PandaLM 的權(quán)重完全公開,可以在消費(fèi)級(jí)硬件上運(yùn)行,硬件門檻低。PandaLM 的評(píng)估結(jié)果可靠,完全可復(fù)現(xiàn),并且能夠保護(hù)數(shù)據(jù)安全,評(píng)估過程均可本地完成,非常適合學(xué)術(shù)界和需要保密數(shù)據(jù)的單位使用。使用 PandaLM 非常簡單,只需三行代碼即可調(diào)用。為驗(yàn)證 PandaLM 的評(píng)估能力,PandaLM 團(tuán)隊(duì)邀請(qǐng)了三位專業(yè)標(biāo)注員對(duì)不同大模型的輸出進(jìn)行獨(dú)立的優(yōu)劣判斷,并構(gòu)建了包含 50 個(gè)領(lǐng)域、1000 個(gè)樣本的多樣化測(cè)試集。在此測(cè)試集上,PandaLM 的準(zhǔn)確率達(dá)到了 ChatGPT 94% 的水平,且 PandaLM 產(chǎn)生了和人工標(biāo)注相同的模型優(yōu)劣結(jié)論。
PandaLM介紹
目前,主要有兩種方式來評(píng)估大型模型:
(1)通過調(diào)用第三方公司的 API 接口;
(2)雇用專家進(jìn)行人工標(biāo)注。
然而,將數(shù)據(jù)傳送給第三方公司可能導(dǎo)致類似三星員工泄露代碼的數(shù)據(jù)泄露問題 [1];而雇傭?qū)<覙?biāo)注大量數(shù)據(jù)既耗時(shí)又昂貴。一個(gè)亟待解決的問題是:如何實(shí)現(xiàn)保護(hù)隱私、可靠、可復(fù)現(xiàn)及廉價(jià)的大模型評(píng)估?
為了克服這兩個(gè)評(píng)估方法的局限,該研究開發(fā)了 PandaLM,一個(gè)專門用于評(píng)估大型模型性能的裁判模型,并提供簡便的接口,用戶只需三行代碼便可調(diào)用 PandaLM 實(shí)現(xiàn)隱私保護(hù)、可靠、可重復(fù)且經(jīng)濟(jì)的大型模型評(píng)估。關(guān)于 PandaLM 的訓(xùn)練細(xì)節(jié),請(qǐng)參見開源項(xiàng)目。
為了驗(yàn)證 PandaLM 在評(píng)估大型模型方面的能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含約 1,000 個(gè)樣本的多樣化人工標(biāo)注測(cè)試集,其上下文和標(biāo)簽均由人類生成。在測(cè)試數(shù)據(jù)集上,PandaLM-7B 在準(zhǔn)確度達(dá)到了 ChatGPT(gpt-3.5-turbo)的 94% 的水平。
如何使用 PandaLM?
當(dāng)兩個(gè)不同的大型模型針對(duì)相同的指令和上下文產(chǎn)生不同的回應(yīng)時(shí),PandaLM 的目標(biāo)是比較這兩個(gè)模型回應(yīng)的質(zhì)量,并輸出比較結(jié)果、比較依據(jù)以及可供參考的回應(yīng)。比較結(jié)果有三種:回應(yīng) 1 更優(yōu);回應(yīng) 2 更優(yōu);回應(yīng) 1 和回應(yīng) 2 質(zhì)量相當(dāng)。在比較多個(gè)大型模型的性能時(shí),只需使用 PandaLM 進(jìn)行兩兩比較,然后匯總這些比較結(jié)果來對(duì)模型的性能進(jìn)行排名或繪制模型的偏序關(guān)系圖。這樣可以直觀地分析不同模型之間的性能差異。由于 PandaLM 僅需在本地部署,且不需要人工參與,因此可以以保護(hù)隱私和低成本的方式進(jìn)行評(píng)估。為了提供更好的可解釋性,PandaLM 亦可用自然語言對(duì)其選擇進(jìn)行解釋,并額外生成一組參考回應(yīng)。
PandaLM 不僅支持使用 Web UI 以便于進(jìn)行案例分析,還支持三行代碼調(diào)用 PandaLM 對(duì)任意模型和數(shù)據(jù)生成的文本評(píng)估??紤]到許多現(xiàn)有模型和框架可能不是開源的或難以在本地進(jìn)行推理,PandaLM 允許通過指定模型權(quán)重生成待評(píng)估文本,或直接傳入包含待評(píng)估文本的 .json 文件。用戶只需提供一個(gè)包含模型名稱、HuggingFace 模型 ID 或 .json 文件路徑的列表,即可利用 PandaLM 對(duì)用戶定義的模型和輸入數(shù)據(jù)進(jìn)行評(píng)估。以下是一個(gè)極簡的使用示例:
此外,為了讓大家能夠靈活地運(yùn)用 PandaLM 進(jìn)行自由評(píng)估,研究團(tuán)隊(duì)已在 HuggingFace 網(wǎng)站上公開了 PandaLM 的模型權(quán)重。通過以下命令,您可以輕松地加載 PandaLM-7B 模型:
PandaLM 的特點(diǎn)
PandaLM 的特點(diǎn)包括可復(fù)現(xiàn)性、自動(dòng)化、隱私保護(hù)、低成本及高評(píng)估水平等。
1. 可復(fù)現(xiàn)性:由于 PandaLM 的權(quán)重是公開的,即使語言模型輸出存在隨機(jī)性,但在固定隨機(jī)種子后,PandaLM 的評(píng)估結(jié)果仍會(huì)保持一致。而依賴在線 API 的評(píng)估手段由于更新不透明,其評(píng)估結(jié)果在不同時(shí)間可能不一致,且隨著模型迭代,API 中的舊版模型可能無法再訪問,因此基于在線 API 的評(píng)測(cè)往往不具有可復(fù)現(xiàn)性。
2. 自動(dòng)化、隱私保護(hù)與低成本:用戶只需在本地部署 PandaLM 模型,調(diào)用現(xiàn)成命令即可評(píng)估各類大模型,無需像雇傭?qū)<夷菢有璞3謱?shí)時(shí)溝通且擔(dān)心數(shù)據(jù)泄露問題。同時(shí),PandaLM 整個(gè)評(píng)估過程中不涉及任何 API 費(fèi)用以及勞務(wù)費(fèi)用,非常廉價(jià)。
3. 評(píng)估水平:為驗(yàn)證 PandaLM 的可靠性,該研究雇傭了三名專家獨(dú)立完成重復(fù)標(biāo)注,創(chuàng)建了一個(gè)人工標(biāo)注測(cè)試集。該測(cè)試集包含 50 個(gè)不同場景,每個(gè)場景下還包含多個(gè)任務(wù)。這個(gè)測(cè)試集是多樣化、可靠且與人類對(duì)文本的偏好相一致的。測(cè)試集中的每個(gè)樣本由指令與上下文,以及兩個(gè)由不同大模型生成的回應(yīng)組成,并由人類來比較這兩個(gè)回應(yīng)的質(zhì)量。
該研究剔除了標(biāo)注員間差異較大的樣本,確保每個(gè)標(biāo)注者在最終測(cè)試集上的 IAA(Inter Annotator Agreement)接近 0.85。需要注意的是,PandaLM 訓(xùn)練集與該研究創(chuàng)建的人工標(biāo)注測(cè)試集完全無重疊。
這些被過濾的樣本需要額外的知識(shí)或難以獲取的信息來輔助判斷,這使得人類也難以對(duì)它們進(jìn)行準(zhǔn)確標(biāo)注。經(jīng)過篩選的測(cè)試集包含 1000 個(gè)樣本,而原始未經(jīng)過濾的測(cè)試集包含 2500 個(gè)樣本。測(cè)試集的分布為 {0:105,1:422,2:472},其中,0 表示兩個(gè)回應(yīng)質(zhì)量相似;1 表示回應(yīng) 1 更好;2 表示回應(yīng) 2 更好。
以人類測(cè)試集為基準(zhǔn),PandaLM 與 gpt-3.5-turbo 的性能對(duì)比如下:
可以看到,PandaLM-7B 在準(zhǔn)確度上已經(jīng)達(dá)到了 gpt-3.5-turbo 94% 的水平,而在精確率,召回率,F(xiàn)1 分?jǐn)?shù)上,PandaLM-7B 已于 gpt-3.5-turbo 相差無幾。可以說,PandaLM-7B 已經(jīng)具備了與 gpt-3.5-turbo 相當(dāng)?shù)拇竽P驮u(píng)估能力。
除了在測(cè)試集上的準(zhǔn)確度,精確率,召回率,F(xiàn)1 分?jǐn)?shù)之外,該研究還提供了 5 個(gè)大小相近且開源的大模型之間比較的結(jié)果。該研究首先使用了相同的訓(xùn)練數(shù)據(jù)對(duì)這個(gè) 5 個(gè)模型進(jìn)行指令微調(diào),接著用人類,gpt-3.5-turbo,PandaLM 對(duì)這 5 個(gè)模型分別進(jìn)行兩兩比較。下表中第一行第一個(gè)元組(72,28,11)表示有 72 個(gè) LLaMA-7B 的回應(yīng)比 Bloom-7B 的好,有 28 個(gè) LLaMA-7B 的回應(yīng)比 Bloom-7B 的差,兩個(gè)模型有 11 個(gè)回應(yīng)質(zhì)量相似。因此在這個(gè)例子中,人類認(rèn)為 LLaMA-7B 優(yōu)于 Bloom-7B。下面三張表的結(jié)果說明人類,gpt-3.5-turbo 與 PandaLM-7B 對(duì)于各個(gè)模型之間優(yōu)劣關(guān)系的判斷完全一致。
基于以上三張表,該研究生成了模型優(yōu)劣的偏序圖,這個(gè)偏序圖構(gòu)成了全序關(guān)系,可以表示為:LLaMA-7B > Bloom-7B > Pythia-6.9B > OPT-7B > Cerebras-GPT-6.7B。
總結(jié)
綜上所述,PandaLM 為大模型評(píng)估提供了一種除人類評(píng)估與 第三方 API 之外的第三種選擇。PandaLM 不僅具有高評(píng)估水平,而且結(jié)果具備可復(fù)現(xiàn)性,評(píng)估流程高度自動(dòng)化,同時(shí)保護(hù)隱私且成本較低。研究團(tuán)隊(duì)相信 PandaLM 將推動(dòng)學(xué)術(shù)界和工業(yè)界對(duì)大模型的研究,使更多人從大模型的發(fā)展中受益。歡迎大家關(guān)注 PandaLM 項(xiàng)目,更多的訓(xùn)練、測(cè)試細(xì)節(jié)、相關(guān)文章及后續(xù)工作都會(huì)公布在項(xiàng)目網(wǎng)址:https://github.com/WeOpenML/PandaLM
作者團(tuán)隊(duì)簡介
作者團(tuán)隊(duì)中,王一棟* 來自北京大學(xué)軟件工程國家工程中心(博士)和西湖大學(xué)(科研助理),于倬浩*、曾政然、蔣超亞、謝睿、葉蔚? 和張世琨? 來自北京大學(xué)軟件工程國家工程中心,楊林易、王存翔和張?jiān)? 來自西湖大學(xué),衡強(qiáng)來自北卡萊羅納州立大學(xué),陳皓來自卡耐基梅隆大學(xué),王晉東和謝幸來自微軟亞洲研究院。* 表示共同第一作者,? 表示共同通訊作者。