CoT提出者Jason Wei:大模型評(píng)估基準(zhǔn)的「七宗罪」
在 CV 領(lǐng)域,研究者一直把李飛飛等人創(chuàng)建的 ImageNet 奉為模型在下游視覺(jué)任務(wù)中能力的試金石。
在大模型時(shí)代,我們?cè)撊绾卧u(píng)估 LLM 性能?現(xiàn)階段,研究者已經(jīng)提出了諸如 MMLU、GSM8K 等一些評(píng)估基準(zhǔn),不斷有 LLM 在其上刷新得分。
但這些評(píng)估基準(zhǔn)真的完美嗎?思維鏈提出者 Jason Wei 在一篇博客中進(jìn)行了深入的研究。
Jason Wei 首先列舉了幾種成功的評(píng)估基準(zhǔn),然后總結(jié)了評(píng)估基準(zhǔn)失敗的常見(jiàn)原因,共七條,包括樣本數(shù)量少、評(píng)估基準(zhǔn)太復(fù)雜等等。
進(jìn)一步的,Jason Wei 認(rèn)為有些評(píng)估工具命名方式并不完美,比如 HumanEval 雖然叫做人類評(píng)估,實(shí)際上并沒(méi)有用到人類進(jìn)行評(píng)估,只是因?yàn)閱?wèn)題是由人類創(chuàng)建的。
Jason Wei 表示如果想讓自己創(chuàng)建的評(píng)估工具得到廣泛使用,一定要幫助研究者使用它,從而得到推廣。此外,文中還提到了一些針對(duì)特定領(lǐng)域的小眾評(píng)估工具,Jason Wei 認(rèn)為這些評(píng)估可能不會(huì)引起領(lǐng)域之外的任何關(guān)注。大家關(guān)心的測(cè)試集污染問(wèn)題,Jason Wei 也給出了一些解決方案。
接下來(lái),我們看看 Jason Wei 原博客內(nèi)容:
成功評(píng)估的定義是什么?我想說(shuō),如果一個(gè)評(píng)估基準(zhǔn)被用在突破性論文中,并在社區(qū)中得到信任,那么它顯然就是成功的。
以下是過(guò)去五年中一些成功的評(píng)估基準(zhǔn):
- GLUE/SuperGLUE:LLM 之前基本上所有 NLP 論文(BERT、T5 等)都使用。
- MMLU:幾乎所有 LLM 論文都使用,也是 DeepMind 和 Google 最喜歡的評(píng)估基準(zhǔn)。
- GSM8K:激發(fā)了 LLM 的推理能力,并被用于每一篇關(guān)于思維鏈(chain-of-thought)的論文中。
- MATH:大多數(shù) LLM 論文會(huì)使用。
- HumanEval:是 LLM 編碼的經(jīng)典評(píng)估基準(zhǔn)。
成功的評(píng)估往往會(huì)有一篇大論文聲稱使用該評(píng)估基準(zhǔn)取得了一些突破。例如,GLUE 由 BERT 推廣,MMLU 由 Gopher、Chinchilla 和 Flan-PaLM 推廣。思維鏈提示(chain-of-thought prompting)聲稱在 GSM8K 上取得了突破。Minerva 的超凡能力在 MATH 上得到體現(xiàn)。Codex 等模型使用了 HumanEval。
更深入地說(shuō),在評(píng)估基準(zhǔn)上得到好分?jǐn)?shù)必須意味著一些重要且易于理解的事情,例如實(shí)現(xiàn)超越人類的表現(xiàn)、解決小學(xué)水平的數(shù)學(xué)問(wèn)題。
而大多數(shù)不成功的評(píng)估基準(zhǔn)都至少犯了如下七個(gè)錯(cuò)誤之一:
1、如果評(píng)估沒(méi)有足夠的樣本,那么對(duì)于研究人員來(lái)說(shuō),它會(huì)很嘈雜(noisy),而且 UI 會(huì)很糟糕。例如,有人可能在模型訓(xùn)練過(guò)程中運(yùn)行評(píng)估,并發(fā)現(xiàn)它在各個(gè)檢查點(diǎn)之間波動(dòng)很大。這使得評(píng)估對(duì)于研究人員來(lái)說(shuō)非常痛苦,因此他們不會(huì)喜歡使用該評(píng)估基準(zhǔn)。評(píng)估基準(zhǔn)最好有至少 1000 個(gè)樣本供您評(píng)估;如果是多項(xiàng)選擇評(píng)估,可能需要更多。例如盡管 GPQA 是一個(gè)很好的評(píng)估基準(zhǔn),但它根據(jù) prompt 而波動(dòng)的事實(shí)使其難以使用。
2、評(píng)估基準(zhǔn)應(yīng)該是高質(zhì)量的。如果評(píng)估基準(zhǔn)中有很多錯(cuò)誤,人們就不會(huì)相信它,例如 Natural Questions(NQ)基準(zhǔn)。
3、如果你的評(píng)估基準(zhǔn)太復(fù)雜,人們會(huì)很難理解它,并且會(huì)很少使用它。我認(rèn)為 HELM 的第一個(gè)版本是一項(xiàng)巨大的努力,但它有太多的指標(biāo)和子集。擁有單一數(shù)字指標(biāo)至關(guān)重要 —— 我想不出任何偉大的評(píng)估基準(zhǔn)是沒(méi)有單一數(shù)字指標(biāo)的。
4、如果評(píng)估需要太多工作來(lái)運(yùn)行,即使其他一切都很好,它也不會(huì)有很大的吸引力。BIG-Bench 是我最喜歡的評(píng)估基準(zhǔn)之一,但運(yùn)行起來(lái)非常痛苦。有對(duì)數(shù)概率評(píng)估和生成評(píng)估,這需要不同的基礎(chǔ)設(shè)施。子集太多,而且有些子集的樣本太多,所以評(píng)估花了很長(zhǎng)時(shí)間。我相信這就是為什么 BIG-Bench 沒(méi)有獲得太多關(guān)注,盡管它提供了很多優(yōu)勢(shì)。
5、如果評(píng)估不是針對(duì)一項(xiàng)有意義的任務(wù),人工智能研究人員不會(huì)深度關(guān)注它。例如,在 BIG-Bench Hard 中,有推薦電影等任務(wù)。這些任務(wù)具有挑戰(zhàn)性,并且隨著模型大小的變化性能有所變化,但在這些任務(wù)上做得好并不能對(duì)模型的智能程度做出實(shí)質(zhì)性的結(jié)論。成功的評(píng)估通常會(huì)衡量對(duì)智能至關(guān)重要的事物,例如語(yǔ)言理解、考試問(wèn)題或數(shù)學(xué)。
6、評(píng)估的評(píng)分應(yīng)該非常正確。如果有人認(rèn)為模型評(píng)分不正確或者不認(rèn)同該評(píng)分,那么他們可以立即取消使用該評(píng)估基準(zhǔn)?;〞r(shí)間來(lái)盡量減少解析引起的錯(cuò)誤,或者盡可能獲得最好的自動(dòng)評(píng)分器 prompt 是值得的。
7、為了使評(píng)估經(jīng)得起時(shí)間的考驗(yàn),性能不能太快飽和。例如,GLUE/SuperGLUE 飽和得太快,很難顯示出巨大的增益,人們就不再使用它們。
對(duì)于評(píng)估工具,還有不完善的地方
看起來(lái)很多優(yōu)秀的評(píng)估工具都有些糟糕的名字。比如 GSM8K 其實(shí)并不需要加上 8K,而 HumanEval 雖然叫做人類評(píng)估,實(shí)際上并沒(méi)有用到人類進(jìn)行評(píng)估(之所以叫 HumanEval 是因?yàn)閱?wèn)題是由人類創(chuàng)建的)。MATH 這個(gè)名字太普通了,所以人們開(kāi)始稱之為「Hendrycks-math」,這應(yīng)該算是一個(gè)聰明的命名方式,以創(chuàng)建者的名字來(lái)命名。
如果你想讓你的評(píng)估工具得到廣泛使用,你首先要做的是幫助人們使用它。例如,當(dāng)我制定了一個(gè)評(píng)估工具時(shí),我通常會(huì)幫助他人在模型上運(yùn)行它。如果他們的模型在這個(gè)評(píng)估上表現(xiàn)良好,那么人們通常會(huì)喜歡它并進(jìn)一步的推廣它。HELM 就非常擅長(zhǎng)為其他人評(píng)估模型并公布結(jié)果。
此外,如果你能為人們使用你的評(píng)估工具創(chuàng)造激勵(lì)機(jī)制也很有幫助。對(duì)員工來(lái)說(shuō),最好的激勵(lì)之一就是他們領(lǐng)導(dǎo)所重視的東西。因此,獲得實(shí)驗(yàn)室或公司內(nèi)部領(lǐng)導(dǎo)的支持對(duì)你的評(píng)估工具可能會(huì)有所幫助,他們會(huì)要求底下員工運(yùn)行它。當(dāng)我在谷歌創(chuàng)建 MGSM 時(shí),我選擇與 Dipanjan Das(Google Deepmind 的研究主管)合作完成,盡管我們不在同一個(gè)團(tuán)隊(duì)。我與他合作純粹是因?yàn)樗莻€(gè)有趣的人(并不是為了推廣這個(gè)評(píng)估工具),但我認(rèn)為 Dipanjan 很喜歡這個(gè)工具,并且在他的團(tuán)隊(duì)中獲得了一些人的支持使用。
然而,LLMs 的出現(xiàn),對(duì)評(píng)估工具提出了更高的要求。LLMs 具有大規(guī)模多任務(wù)處理能力并能生成長(zhǎng)回答。目前還沒(méi)有一個(gè)單一的評(píng)估工具能夠充分評(píng)估 LLMs。當(dāng)前流行的評(píng)估工具仍然使用非常簡(jiǎn)單的評(píng)分方式(要么是多項(xiàng)選擇,要么是檢查數(shù)字,或者執(zhí)行單元測(cè)試),即便這些方法也存在問(wèn)題。如果我們能圍繞一個(gè)單一的提示,比如零樣本思維鏈(zero-shot chain-of-thought),那會(huì)很好。我知道由于很多原因這不是一個(gè)完美的解決方案,但我認(rèn)為為了讓大家統(tǒng)一標(biāo)準(zhǔn),這是合理的。
一個(gè)新的推動(dòng)力是人類對(duì)模型進(jìn)行配對(duì)評(píng)估,比如 LMSYS,但這種評(píng)估方式是一把雙刃劍。它們之所以強(qiáng)大, 是因?yàn)槟憧梢酝ㄟ^(guò)一組簡(jiǎn)單的提示得到一個(gè)單一的數(shù)字指標(biāo)來(lái)衡量一個(gè)語(yǔ)言模型的好壞,并且可以通過(guò)大量的樣本來(lái)平均掉樣本級(jí)別的噪聲。不過(guò),成對(duì)評(píng)估的危險(xiǎn)之處在于你并不完全確定你在測(cè)量什么 —— 例如,相對(duì)于正確性,風(fēng)格等這類因素的權(quán)重影響有多大。
對(duì)模型生成內(nèi)容(model-generated)的評(píng)估也變得有些流行。雖然我傾向于對(duì)模型生成的評(píng)估比較挑剔,但如果做得好,它們可以用于快速實(shí)驗(yàn)和觀察性能的大幅提升,這是有可能的。但是創(chuàng)建一個(gè)經(jīng)得起時(shí)間考驗(yàn)的偉大的評(píng)估需要非常小心,我不想在合成評(píng)估中冒任何風(fēng)險(xiǎn)。
一個(gè)顯而易見(jiàn)的觀點(diǎn)是,評(píng)估的主題決定了有多少人會(huì)關(guān)心這個(gè)評(píng)估。你可以創(chuàng)建一個(gè)非常高質(zhì)量的特定領(lǐng)域評(píng)估(例如,法律、醫(yī)療等),在這些情況下,最重要的是根據(jù)該領(lǐng)域?qū)<宜匾暤膬?nèi)容來(lái)定制評(píng)估。
我曾經(jīng)制作過(guò)一個(gè)組織病理學(xué)圖像基準(zhǔn),不出所料,它在醫(yī)學(xué)圖像分析領(lǐng)域之外幾乎沒(méi)有引起任何關(guān)注,只獲得了 40 次引用。話雖如此,一旦更多人意識(shí)到其重要性,你創(chuàng)建的特定領(lǐng)域評(píng)估也有可能獲得更多關(guān)注。
評(píng)估中一個(gè)日益重要的問(wèn)題是測(cè)試集污染。創(chuàng)建了一個(gè)好的評(píng)估之后,評(píng)估的示例往往會(huì)傳播到互聯(lián)網(wǎng)的各個(gè)地方,如 arxiv 論文、ChatGPT 示例或 reddit。解決這個(gè)問(wèn)題的一個(gè)方法是對(duì)測(cè)試集進(jìn)行「隱藏」,但這種方法引起了很多分歧。斯坦福大學(xué)教授 Chris Manning 提出了一個(gè)很好的建議,即對(duì)公開(kāi)測(cè)試集、私有測(cè)試集都進(jìn)行評(píng)估,并監(jiān)控模型在這兩個(gè)測(cè)試集上是否有大的偏差。這種方法平衡了在公開(kāi)測(cè)試集上測(cè)試的低摩擦性和私密測(cè)試集的高可信度。
我注意到的最后一件事是,你關(guān)心的評(píng)估很大程度上表明了你的身份。一個(gè)充滿博士的研究室可能會(huì)對(duì)語(yǔ)言模型在數(shù)學(xué)、編碼和物理上的推理能力感興趣。相反,我看到像 LMSYS 這樣的面向用戶的評(píng)估被來(lái)自軟件或產(chǎn)品背景的工程師視為黃金標(biāo)準(zhǔn)。雖然我兩者都關(guān)心,但我個(gè)人更傾向于智能,因?yàn)槲蚁嘈胖悄苁?AI 與人類交互的根本驅(qū)動(dòng)力。
社區(qū)應(yīng)該更多地投資于評(píng)估,盡管這可能很痛苦,通常不會(huì)像建模工作那樣得到很多回報(bào)。但歸根結(jié)底,好的評(píng)估工具是 AI 研究人員對(duì)模型的客觀評(píng)價(jià)指標(biāo),并且是對(duì)該領(lǐng)域產(chǎn)生重大影響的一種方式。