87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動評估模型FLAMe
大語言模型都卷起來了,模型越做越大,token越來越多,輸出越來越長。
那么問題來了,如何有效地評估大語言模型的長篇大論呢?要是輸出長度長了但胡言亂語輸出質(zhì)量差,又臭又長,豈不是白搭?
首先能想到的方法就是人工評估。人工評估雖然對于評價模型性能至關(guān)重要,但受到主觀性、評估者之間的差異性以及廣泛評估的高成本的限制。
考慮到這些因素,谷歌DeepMind研究團隊提出了自動評估解決方案FLAMe。
圖片
論文地址:https://arxiv.org/abs/2407.10817
模型本身在經(jīng)歷多輪大規(guī)模指令任務(wù)調(diào)整后,可以遵循一套新的指令,使它們適合用作模型輸出的自動評估器。
一方面,為了使LLM自動評分更加合理、準(zhǔn)確并與人類偏好保持一致,對人類判斷的數(shù)據(jù)收集極其重要。
然而,獲得這些判斷數(shù)據(jù)既昂貴又耗時。從以前的研究中收集現(xiàn)有的人類評估貌似可行,但面臨著缺乏標(biāo)準(zhǔn)、文檔數(shù)據(jù)不充分、數(shù)據(jù)隱私和專有權(quán)等問題。
另一方面,直接使用模型輸出進行自動評分器訓(xùn)練可提供一致性,但也存在風(fēng)險,包括強化偏見和幻覺。
此外,它可能違反專有LLM服務(wù)的使用條款,條款禁止使用其模型的輸出來開發(fā)競爭模型。
為了解決這些限制和顯著降低成本,谷歌引入了一個用于自動評分的大型基礎(chǔ)模型系列----FLAMe。
FLAMe模型的主要優(yōu)勢和貢獻是:
- 數(shù)據(jù)收集:僅使用獲得許可的數(shù)據(jù)集,并對人類評估結(jié)果進行標(biāo)準(zhǔn)化。共包含102個評估任務(wù)、530萬條人類評估意見。為了促進未來的研究,論文公開了所有數(shù)據(jù)集來源。
- LLM自動評分器:既包括使用多任務(wù)組合來訓(xùn)練通用 LLM自動評分器 (FLAMe) ,也包括針對下游應(yīng)用程序優(yōu)化過的LLM 自動評分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。
在12個自動評分器評估基準(zhǔn)中的8個基準(zhǔn)上,F(xiàn)LAMe及其變體的自動評分性能優(yōu)于用專有數(shù)據(jù)訓(xùn)練的GPT-4o、Gemini-1.5-Pro等模型。
- 計算高效的多任務(wù)訓(xùn)練:引入了一種計算更為高效的方法,使用創(chuàng)新的微調(diào)策略來優(yōu)化目標(biāo)分布的多個任務(wù),顯著減少計算量來實現(xiàn)更佳的性能。
自動評估方法
為了將人工評估的流程自動化,作者對LLM任務(wù)和評估標(biāo)準(zhǔn)進行了細致的定義。
數(shù)據(jù)收集
和領(lǐng)域內(nèi)很多科技巨頭的做法形成鮮明對比的是,DeepMind這篇論文不僅披露了使用的數(shù)據(jù)集列表,而且從數(shù)據(jù)收集步驟開始,就堅持了幾個公認正確但很難做到的原則。
首先,為了論文的透明度和可復(fù)現(xiàn),作者僅使用HuggingFace、TensorFlow這些平臺上的公共開源數(shù)據(jù)集,以及得到原作者許可的GitHub庫。
為了避免GPT-4等模型生成數(shù)據(jù)帶來的不準(zhǔn)確性和潛在法律問題,作者只使用了帶有人工標(biāo)注的數(shù)據(jù)集,并涵蓋了各種任務(wù)類型(圖3)和LLM能力(圖4)。
最終用于訓(xùn)練的數(shù)據(jù)集含有102項評估任務(wù)、共530萬條經(jīng)過標(biāo)準(zhǔn)化處理的人類評估意見。
圖片
任務(wù)類型主要包含以下四種:
- 成對評估(pairwise evaluation):比較兩個響應(yīng)結(jié)果并確定偏好
- 逐點評估(pointwise evaluation):對單個響應(yīng)結(jié)果的指定屬性進行打分
- 分類:將單個響應(yīng)劃分為某個預(yù)定義類別,例如:模型輸出是否遵循說明?(是/否)
-開放式評估:自由形式、不受限制的評估結(jié)果
圖片
按照評估的LLM能力劃分數(shù)據(jù)集,則大致有6類能力:
- 一般響應(yīng)質(zhì)量:包括有用性、連貫性、流暢性、創(chuàng)造力、復(fù)雜性和冗長性等多個屬性,以及指令跟隨能力
- 事實性/內(nèi)容出處:針對LLM應(yīng)用中日益重要的幻覺問題,幾個數(shù)據(jù)集都用于評估響應(yīng)輸出的事實準(zhǔn)確性及其基礎(chǔ),看模型提出的聲明是否有源文檔作為依據(jù)
- 數(shù)學(xué)推理:區(qū)分LLM生成數(shù)學(xué)解題方案的正確或錯誤
- 編碼:涵蓋Python、JavaScript、Java、C++、Go和Rus等流行編程語言,訓(xùn)練FLAMe從備選答案中選出正確程序或修復(fù)程序
- 安全性:為了使FLAMe能夠識別出更有幫助且無害的模型響應(yīng)
- 指令微調(diào):結(jié)合數(shù)據(jù)集中的指令微調(diào)數(shù)據(jù)和人類編寫的響應(yīng),幫助保留模型的指令微調(diào)能力
統(tǒng)一任務(wù)格式
精心選擇好合適的數(shù)據(jù)集后,作者受到T5統(tǒng)一任務(wù)格式的啟發(fā),將所有數(shù)據(jù)都標(biāo)準(zhǔn)化為統(tǒng)一的「文本到文本」格式。這種靈活的格式可以輕松適應(yīng)上述各種評估任務(wù)。
任務(wù)定義、評估指令和所需的輸出字段被列在輸入的INSTRUCTION部分,具體的輸入內(nèi)容和目標(biāo)輸出分別放在CONTEXT和EVALUATION部分(圖2)。
其中任務(wù)定義和評估指令都經(jīng)過精心設(shè)計,確保一致性和標(biāo)準(zhǔn)化,并忠實于原始數(shù)據(jù)集。
模型訓(xùn)練
為了訓(xùn)練出通用LLM自動評估器,能夠在推理過程中提示它們執(zhí)行各種任務(wù)。實驗訓(xùn)練了三種模型變體:
FLAMe,通用評分器;
FLAMe-RM,用FLAMe初始化,并均勻混合了四個成對評估數(shù)據(jù)集進行微調(diào),性能評估標(biāo)準(zhǔn)包括聊天對話、推理和安全性;
FLAMe-Opt-RM,使用獎勵模型優(yōu)化的混合權(quán)重進行訓(xùn)練,并使用尾部補丁微調(diào)策略(tail-patch fine-tuning)。
FLAMe
從基準(zhǔn)訓(xùn)練方法開始,使用監(jiān)督多任務(wù)訓(xùn)練的方式,對PaLM-2-24B模型進行指令微調(diào),進行固定數(shù)量的30K訓(xùn)練步驟。
采用示例比例混合權(quán)重(examples-proportiaonal mixture weights),每個任務(wù)采樣上限為為2^16,以避免對大型數(shù)據(jù)集進行過采樣。
FLAMe模型顯著提高了對各種held-out任務(wù)的泛化能力,在許多任務(wù)上優(yōu)于GPT-4、Claude-3和Llama-3等模型。
圖片
以上數(shù)據(jù)能夠證明FLAMe具有的的基礎(chǔ)功能,即進行大規(guī)模多任務(wù)指令微調(diào),可以讓模型發(fā)展出通用的質(zhì)量評估能力。
然而,F(xiàn)LAMe對于獎勵模型評估等專門的下游應(yīng)用來說并不是最佳的,因此論文進一步提出針對特定下游分布的模型變體。
FLAMe-RM
受FLAMe研究結(jié)果的啟發(fā),作者更加深入地研究了FLAMe的拓展,將其作為進一步微調(diào)特定下游應(yīng)用的起點。
作者采用了大量獎勵模型評估作為案例研究。通過在四個成對評估數(shù)據(jù)集的混合上微調(diào)FLAMe來創(chuàng)建FLAMe-RM。
數(shù)據(jù)集包括:HelpSteer、PRM800K、CommitPack和HH-RLHF Harmless。
由于FLAMe已經(jīng)在這些數(shù)據(jù)集上進行了訓(xùn)練,因此僅對其進行50個步驟的微調(diào)。
由此產(chǎn)生的FLAMe-RM模型將原始FLAMe的RewardBench總體得分從86.0%準(zhǔn)確率提高到87.8%。
值得注意的是,F(xiàn)LAMe-RM-24B是專門在許可數(shù)據(jù)上訓(xùn)練的性能最佳的生成模型,超過了GPT-4(85.9%) 和GPT-4o (84.7%)。
圖片
FLAMe-Opt-RM
雖然FLAM在許多任務(wù)中表現(xiàn)良好,但它需要大量的訓(xùn)練才能在某些專門的下游應(yīng)用程序(例如RewardBench)上獲得強大的性能。
圖片
為了解決這個問題,研究引入了一種尾部補丁消融策略(tail-patch ablation),該策略分析每個數(shù)據(jù)集對目標(biāo)分布的影響。
這能夠幫助找到多任務(wù)混合中各個數(shù)據(jù)集的最佳比例,從而有效地優(yōu)化混合權(quán)重超參數(shù)。
通過這種優(yōu)化過的混合數(shù)據(jù)微調(diào)PaLM-2-24B僅需要5000步,相比RewardBench上的基線模型(86.0%)實現(xiàn)了有競爭力的性能 (87.0%),而且所用的訓(xùn)練數(shù)據(jù)也減少了約25倍。
研究直接根據(jù)RewardBench性能變化(由于缺乏開發(fā)集)優(yōu)化了多任務(wù)混合。
值得注意的是,研究的目標(biāo)不是實現(xiàn)最佳的RewardBench結(jié)果,而是展示如何針對目標(biāo)分布進行多任務(wù)混合的優(yōu)化方法。
通過測試發(fā)現(xiàn),和FLAMe-RM 一樣,微調(diào)進一步提高了RewardBench性能。
此外,F(xiàn)LAMe-Opt-RM在其他held-out任務(wù)中的優(yōu)秀表現(xiàn)表明,moxing 并沒有過度擬合RewardBench,這證實了FLAMe-Opt-RM在不同任務(wù)中的廣泛適用性。
訓(xùn)練細節(jié)
研究使用了PaLM-2-24B模型對FLAMe和 FLAMe-Opt-RM進行初始化,并在Flan集合上進行指令調(diào)整,分別訓(xùn)練30000步和5000步,然后將FLAMe進一步微調(diào)50步以創(chuàng)建 FLAMe-RM。
模型使用T5X和Adam優(yōu)化器進行訓(xùn)練,學(xué)習(xí)率為 0.0001,dropout為 0.05。
FLAMe在256個PU芯片上進行訓(xùn)練,批大小為32,而FLAMe-RM和FLAMe-Opt-RM使用128個TPU芯片,批大小為8。
評估實驗
討論過FLAMe系列模型的構(gòu)建方法后,作者使用了包含12個自動評分器基準(zhǔn)的評估套件,將FLAMe與幾個流行的LLM-as-a-Judge自動評分器進行對比。
12個基準(zhǔn)中,只有HelpSteer作為held-in驗證,其余的RewardBench、LLM-AggreFact等11個作為held-out測試。
評估數(shù)據(jù)同樣涵蓋了53個任務(wù),但為了降低模型API成本,每個測試集(除RewardBench)僅隨機抽取256個樣本。
對比的基線包括Llama-3-70B-Instruct、Mixtral8×7B、Claude-3-Opus等流行的LLM-as-a-Judge模型,以及RewardBench官方排行榜上列出的Gemini-1.5-Pro、Nemotron-4-340B-Reward等。
FLAMe的3種模型變體都參與了評估,而且還包括了進行指令微調(diào)前的PaLM-2-24B,以更好說明FLAMe訓(xùn)練的效果。
表1列舉了FLAMe系列在12個基準(zhǔn)上與流行基線模型的對比。
其中8個都取得了最優(yōu)性能,尤其是Contr Search和HelpSteer上相比次優(yōu)模型有大幅度提升,讓我們看到了「許可數(shù)據(jù)」超越「專有數(shù)據(jù)」的希望。
圖片
在RewardBench排行榜上,截止7月15日,F(xiàn)LAMe-RM-24B在所有生成模型中排名第2(僅次于Gemini-1.5-Pro),在所有模型中排名第6,在4個類別中都取得了強勁表現(xiàn)。
圖片
圖片
雖然RewardBench是評估獎勵模型時被廣泛使用的基準(zhǔn),但作者也在實驗時發(fā)現(xiàn)了其中的評估偏差問題,比如有對輸出答案的長度偏好,以及偏愛「sorry」、「I'm sorry」等短語。
RewardBench4個類別任務(wù)對響應(yīng)長度的不同偏好
在AggreFact基準(zhǔn)的結(jié)果中(表3),F(xiàn)LAMe-24B獲得了整體最佳性能,比GPT-4o高出將近1分。
在總共4個類別的用例中,F(xiàn)LAMe系列變體在其中3個取得了最優(yōu)性能,僅在Long-formQA上表現(xiàn)不佳,與表1中LFQA Eval的結(jié)果相一致。
圖片
此外,上述3個表格中都能發(fā)現(xiàn),相比原有的PALM-2-24B,經(jīng)過訓(xùn)練后的FLAMe-24B性能有大幅度的提升,證明了FLAMe訓(xùn)練方法的有效性。
分析
模型大小、數(shù)據(jù)集大小和數(shù)據(jù)質(zhì)量等因素在最近的多任務(wù)學(xué)習(xí)和指令調(diào)優(yōu)工作中已經(jīng)得到了廣泛的研究。
論文更加著重探索LLM自動評分器固有的潛在偏見,這也是影響評估準(zhǔn)確性的一個重要方面。
另外,F(xiàn)LAMe對于AI開發(fā)還有許多潛在用途,例如對高質(zhì)量響應(yīng)數(shù)據(jù)進行采樣。
自動評分器偏差分析
對LLM自動評估器(LLM-as-a-Judge autorater)的常見批評主要涉及他們對某些判斷的偏見。
通過在自動評估器偏見基準(zhǔn)CoBBLEr上評估 FLAMe及其變體,論文發(fā)現(xiàn)FLAMe模型比其他流行的LLM自動評估器的偏見要小得多。
CoBBLEr主要測量LLM自動評估器中的6種偏見:
- 順序:自動評估器對回復(fù)順序是否有偏好?
- 同情心:當(dāng)使用生成響應(yīng)的LLM的實際名稱(例如「GPT-4」)而不是「Model A」等別名時,自動評估者的判斷會改變嗎?
- 長度:自動評估器是否會偏好較長或較短的輸出?
- 以自我為中心:自動評估器是否偏愛自己生成的輸出?
- 見風(fēng)使舵:自動評估器是否會被「90% 的人更喜歡回答 A」這樣的句子所左右?
- 注意力:自動評估器是否被不相關(guān)的上下文信息干擾
評估結(jié)果如表4所示,可以看到,相比其他基線模型,F(xiàn)LAMe系列在大部分維度都表現(xiàn)出明顯較低的偏見,而且總體偏見值最低。
圖片
使用FLAMe對解碼輸出重新排序
最后,研究還探索了LLM自動評估器在從多個響應(yīng)中選擇最佳輸出方面的應(yīng)用,這種方法稱為「Best-of-N」采樣。
實驗中使用了OpenAI的3個代碼生成模型,并通過循環(huán)機制(round-robin)讓FLAMe分別對它們生成的10個代碼樣本進行重新排名,然后使用排名靠前的代碼示例,在HumanEval Python基準(zhǔn)中測試其性能。
結(jié)果表明,F(xiàn)LAMe在所有三個模型中都顯著提高了pass@1準(zhǔn)確率。
圖片
值得注意的是,F(xiàn)LAMe將CodeGen16B的pass@1準(zhǔn)確率從21.2提高到31.1,與Oracle排名器 (46.9) 的差距縮小了近40%。
結(jié)論與討論
FLAMe是一系列基礎(chǔ)自動評估器模型,可以執(zhí)行各種質(zhì)量評估任務(wù)。訓(xùn)練所用的數(shù)據(jù)不僅大規(guī)模而且多樣化, 僅來自許可數(shù)據(jù)集,包含標(biāo)準(zhǔn)化的人類評估意見且經(jīng)過精心設(shè)計。
研究展示了FLAMe強大的零樣本泛化能力,在許多懸而未決的任務(wù)中,其性能優(yōu)于使用GPT-4和Claude-3等專有數(shù)據(jù)訓(xùn)練的模型。
FLAMe還可以有效地作為進一步下游微調(diào)的強大起點。FLAMe-RM變體針對獎勵模型評估進行了微調(diào),盡管僅在許可數(shù)據(jù)上進行訓(xùn)練,但仍是RewardBench上表現(xiàn)最好的生成模型之一,其性能優(yōu)于GPT-4-0125和GPT-4o。
此外,論文提出了一種計算效率更高的方法,使用新穎的尾部補丁微調(diào)策略來優(yōu)化目標(biāo)分布的多任務(wù)混合FLAMe模型,以顯著減少的計算量提供有競爭力的性能。
FLAMe變體在12個自動評估基準(zhǔn)中的8個優(yōu)于流行的專有LLM-as-aJudge模型,涵蓋53項質(zhì)量評估任務(wù),包括RewardBench和LLM-AggreFact。
最后,分析表明,與CoBBLEr自動評分器偏差基準(zhǔn)上流行的LLM-as-a-Judge模型相比,F(xiàn)LAMe表現(xiàn)出明顯較低的偏見,同時能夠有效地識別代碼生成的高質(zhì)量響應(yīng)。
局限性和未來工作
由于評估標(biāo)準(zhǔn)不斷變化以及評估新的LLM功能的需要,評估LLM具有挑戰(zhàn)性,通過開源貢獻擴大我們的數(shù)據(jù)收集范圍可以解決這個問題。
此外,模型主要在上下文長度為2048個token的英語數(shù)據(jù)上進行訓(xùn)練,可能在多語言或長上下文上表現(xiàn)不佳。
在未來的版本中,作者計劃包括對更多具有更長上下文的多語言數(shù)據(jù)集的訓(xùn)練。
最后,這項工作一直以有監(jiān)督的多任務(wù)方式訓(xùn)練FLAMe模型。探索RLHF和DPO等其他訓(xùn)練方法是未來工作的一個有希望的方向。
道德考慮和道德風(fēng)險
針對預(yù)訓(xùn)練和指令微調(diào)的LLMs工作概述的所有注意事項和風(fēng)險也都適用于LLM自動評估器,研究也都遵循標(biāo)準(zhǔn)實踐來負責(zé)任地開發(fā)FLAMe模型。
此外,由于評估能力和評估質(zhì)量的增強,LLM自動評估器也帶來了新的風(fēng)險。
首先,模型可能會繼承并放大人類評估的偏見,導(dǎo)致不公平或歧視性的結(jié)果。
例如,該模型可能會復(fù)制訓(xùn)練數(shù)據(jù)中與種族、性別或其他敏感屬性相關(guān)的偏見,這可能會損害某些群體利益。
其次,過度依賴LLM自動評估器可能會導(dǎo)致需要人類理解和同理心的決策不經(jīng)思考而只根據(jù)LLM判定。
為了減輕這些風(fēng)險,模型開發(fā)和使用的透明度,以及偏見處理、數(shù)據(jù)匿名化和納入不同觀點等強有力的措施,對于促進公平、問責(zé)和可信度至關(guān)重要。