北大、西湖大學等開源「裁判大模型」PandaLM：三行代碼全自動評估LLM，準確率達ChatGPT的94%

作者：新智元 2023-05-10 09:47:01

人工智能新聞

大模型誰強誰弱，用PandaLM比一比就知道了！

ChatGPT發(fā)布后，自然語言處理領(lǐng)域的生態(tài)徹底發(fā)生了變化，很多之前無法完成的問題都可以利用ChatGPT解決。

不過也帶來了一個問題：大模型的性能都太強了，光靠肉眼很難評估各個模型的差異。

比如用不同的基座模型和超參數(shù)訓練了幾版模型，從樣例來看性能可能都差不多，無法完全量化兩個模型之間的性能差距。

目前評估大語言模型主要有兩個方案：

1、調(diào)用OpenAI的API接口評估。

ChatGPT可以用來評估兩個模型輸出的質(zhì)量，不過ChatGPT一直在迭代升級，不同時間對同一個問題的回復可能會有所不同，評估結(jié)果存在無法復現(xiàn)的問題。

2、人工標注

如果在眾包平臺上請人工標注的話，經(jīng)費不足的團隊可能無力負擔，也存在第三方公司泄露數(shù)據(jù)的情況。

為了解決諸如此類的「大模型評估問題」，來自北京大學、西湖大學、北卡羅來納州立大學、卡內(nèi)基梅隆大學、MSRA的研究人員合作開發(fā)了一個全新的語言模型評估框架PandaLM，致力于實現(xiàn)保護隱私、可靠、可復現(xiàn)及廉價的大模型評估方案。

項目鏈接：https://github.com/WeOpenML/PandaLM

提供相同的上下文，PandaLM可以比較不同LLM的響應輸出，并提供具體的理由。

為了證明該工具的可靠性和一致性，研究人員創(chuàng)建了一個由大約1000個樣本組成的多樣化的人類標注測試數(shù)據(jù)集，其中PandaLM-7B的準確率達到了ChatGPT的94%評估能力。

三行代碼用上PandaLM

當兩個不同的大模型對同一個指令和上下文產(chǎn)生不同響應時，PandaLM旨在比較這兩個大模型的響應質(zhì)量，并輸出比較結(jié)果，比較理由以及可供參考的響應。

比較結(jié)果有三種：響應1更好，響應2更好，響應1與響應2質(zhì)量相似。

比較多個大模型的性能時，只需使用PandaLM對其進行兩兩比較，再匯總兩兩比較的結(jié)果進行多個大模型的性能排名或畫出模型偏序關(guān)系圖，即可清晰直觀地分析不同模型間的性能差異。

PandaLM只需要在「本地部署」，且「不需要人類參與」，因此PandaLM的評估是可以保護隱私且相當廉價的。

為了提供更好的可解釋性，PandaLM亦可用自然語言對其選擇進行解釋，并額外生成一組參考響應。

在項目中，研究人員不僅支持使用Web UI使用PandaLM以便于進行案例分析，為了方便使用，還支持三行代碼調(diào)用PandaLM對任意模型和數(shù)據(jù)生成的文本評估。

考慮到現(xiàn)有的許多模型、框架并不開源或難以在本地完成推理，PandaLM支持利用指定模型權(quán)重生成待評估文本，或直接傳入包含待評估文本的.json文件。

用戶只需傳入一個包含模型名稱/HuggingFace模型ID或.json文件路徑的列表，即可利用PandaLM對用戶定義的模型和輸入數(shù)據(jù)進行評估。下面是一個極簡的使用示例：

為了能讓大家靈活的運用PandaLM進行自由評測，研究人員也將PandaLM的模型權(quán)重公布在了huggingface網(wǎng)站上，可以通過以下命令加載PandaLM-7B模型：

PandaLM的特點

可復現(xiàn)性

因為PandaLM的權(quán)重是公開的，即使語言模型的輸出有隨機性，當固定隨機種子之后，PandaLM的評價結(jié)果仍可始終保持一致。

而基于在線API的模型的更新不透明，其輸出在不同時間有可能很不一致，且舊版模型不再可訪問，因此基于在線API的評測往往不具有可復現(xiàn)性。

自動化、保護隱私性和開銷低

只需本地部署PandaLM模型，調(diào)用現(xiàn)成的命令即可開始評估各種大模型，不需像雇傭?qū)＜覙俗r要時刻與專家保持溝通，也不會存在數(shù)據(jù)泄露的問題，同時也不涉及任何API費用以及勞務費用，非常廉價。

評估水平

為了證明PandaLM的可靠性，研究人員雇傭了三個專家進行獨立重復標注，創(chuàng)建了一個人工標注的測試集。

測試集包含50個不同的場景，每個場景中又包含若干任務。這個測試集是多樣化、可靠且與人類對文本的偏好相一致的。測試集的每個樣本由一個指令和上下文，以及兩個由不同大模型生成的響應共同組成，并由人類來比較這兩個響應的質(zhì)量。

篩除了標注員之間有較大差異的樣本，以確保每個標注者在最終測試集上的IAA（Inter Annotator Agreement）接近0.85。值得注意的是，PandaLM的訓練集與創(chuàng)建的人工標注測試集無任何重疊。

這些被過濾的樣本需要額外的知識或難以獲取的信息來輔助判斷，這使得人類也難以對它們進行準確標注。

經(jīng)過篩選的測試集包含1000個樣本，而原始未經(jīng)過濾的測試集包含2500個樣本。測試集的分布為{0：105，1：422，2：472}，其中0表示兩個響應質(zhì)量相似，1表示響應1更好，2表示響應2更好。以人類測試集為基準，PandaLM與gpt-3.5-turbo的性能對比如下：

可以看到，PandaLM-7B在準確度上已經(jīng)達到了gpt-3.5-turbo 94%的水平，而在精確率，召回率，F(xiàn)1分數(shù)上，PandaLM-7B已于gpt-3.5-turbo相差無幾。

因此，相比于gpt-3.5-turbo而言，可以認為PandaLM-7B已經(jīng)具備了相當?shù)拇竽Ｐ驮u估能力。

除了在測試集上的準確度，精確率，召回率，F(xiàn)1分數(shù)之外，還提供了5個大小相近且開源的大模型之間比較的結(jié)果。

首先使用了相同的訓練數(shù)據(jù)對這個5個模型進行指令微調(diào)，接著用人類，gpt-3.5-turbo，PandaLM對這5個模型分別進行兩兩比較。

下表中第一行第一個元組（72，28，11）表示有72個LLaMA-7B的響應比Bloom-7B的好，有28個LLaMA-7B的響應比Bloom-7B的差，兩個模型有11個響應質(zhì)量相似。

因此在這個例子中，人類認為LLaMA-7B優(yōu)于Bloom-7B。下面三張表的結(jié)果說明人類，gpt-3.5-turbo與PandaLM-7B對于各個模型之間優(yōu)劣關(guān)系的判斷完全一致。

總結(jié)

PandaLM提供了除人類評估與OpenAI API評估之外的第三條評估大模型的方案，PandaLM不僅評估水平高，而且評估結(jié)果可復現(xiàn)，評估流程自動化，保護隱私且開銷低。

未來，PandaLM將推動學術(shù)界和工業(yè)界關(guān)于大模型的研究，使得更多人受益于大模型的發(fā)展。

責任編輯：張燕妮來源：新智元

模型開源

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

北大、西湖大學等開源「裁判大模型」PandaLM：三行代碼全自動評估LLM，準確率達ChatGPT的94%

1、調(diào)用OpenAI的API接口評估。