自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

關(guān)于LLM-as-a-judge范式,終于有綜述講明白了

人工智能
本文探討了 LLM-as-a-judge 的驚喜微妙之處。我們首先根據(jù)輸入格式(逐點(diǎn)、成對和列表)和輸出格式(包括評分、排名和選擇)對現(xiàn)有的基于 LLM-as-a-judge 進(jìn)行定義。

評估和評價長期以來一直是人工智能 (AI) 和自然語言處理 (NLP) 中的關(guān)鍵挑戰(zhàn)。然而,傳統(tǒng)方法,無論是基于匹配還是基于詞嵌入,往往無法判斷精妙的屬性并提供令人滿意的結(jié)果。大型語言模型 (LLM) 的最新進(jìn)展啟發(fā)了 “LLM-as-a-judge” 范式,其中 LLM 被用于在各種任務(wù)和應(yīng)用程序中執(zhí)行評分、排名或選擇。本文對基于 LLM 的判斷和評估進(jìn)行了全面的調(diào)查,為推動這一新興領(lǐng)域的發(fā)展提供了深入的概述。我們首先從輸入和輸出的角度給出詳細(xì)的定義。然后,我們介紹一個全面的分類法,從三個維度探索 LLM-as-a-judge:評判什么(what to judge)、如何評判(how to judge)以及在哪里評判(where to judge)。最后,我們歸納了評估 LLM 作為評判者的基準(zhǔn)數(shù)據(jù)集,并強(qiáng)調(diào)了關(guān)鍵挑戰(zhàn)和有希望的方向,旨在提供有價值的見解并啟發(fā)這一有希望的研究領(lǐng)域的未來研究。

  • 論文鏈接:https://arxiv.org/abs/2411.16594
  • 網(wǎng)站鏈接:https://llm-as-a-judge.github.io/
  • 論文列表:https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge

文章結(jié)構(gòu)

圖 1:論文結(jié)構(gòu)

LLM-as-a-judge 的定義

圖 2:LLM-as-a-judge 定義

在這篇工作中,我們提出根據(jù)輸入和輸出格式的區(qū)別對 LLM-as-a-judge 進(jìn)行了定義。首先,根據(jù)輸入候選樣本個數(shù)的不同,在輸入的層面 LLM-as-a-judge 可以分為逐點(diǎn)和成對 / 列表輸入;另外,根據(jù)模型輸出格式的不同,在輸出的層面 LLM-as-a-judge 的目的可以分為評分,排序和選擇。

Attribute:評判什么

圖 3:LLM 能夠評判各種屬性。

LLM-as-a-judge 已經(jīng)被證明可以在多種不同類型的屬性上提供可靠的評判,在這個章節(jié)中,我們對他們進(jìn)行了總結(jié),它們包括:回復(fù)的幫助性,無害性,可靠性,生成 / 檢索文檔的相關(guān)性,推理過程中每一步的可行性,以及生成文本的綜合質(zhì)量。

Methodology:如何評判

表 1:LLM-as-a-judge 訓(xùn)練方法

微調(diào):最近許多工作開始探索如何使用微調(diào)技術(shù)來訓(xùn)練一個專門的評判大模型,我們在這一章節(jié)中對這些技術(shù)進(jìn)行了總結(jié)歸納,包括它們的數(shù)據(jù)源,標(biāo)注者,數(shù)據(jù)類型,數(shù)據(jù)規(guī)模,微調(diào)技術(shù)及技巧等(表 1)。其中我們根據(jù)數(shù)據(jù)來源(人工標(biāo)注和模型反饋)和微調(diào)技術(shù)(有監(jiān)督微調(diào)和偏好學(xué)習(xí))對這些工作進(jìn)行了詳細(xì)討論。

圖 4:LLM-as-a-judge prompting 方法

提示:提示(prompting)技術(shù)可以有效提升 LLM-as-a-judge 的性能和效率。在這一章節(jié)中,我們總結(jié)了目前工作中常用到幾類提示策略,分別是:交換操作,規(guī)則增強(qiáng),多智能體合作,演示增強(qiáng),多輪動態(tài)交互和對比加速。

Application:何時評判

圖 5:LLM-as-a-judge 應(yīng)用和場景

評估:傳統(tǒng) NLP 中的評估通常采用靜態(tài)的指標(biāo)作為依據(jù),然而它們常常不能夠很好的捕捉細(xì)粒度的語義信息。因此,LLM-as-a-judge 被廣泛引入到模型評估的場景中,進(jìn)行開放式生成,推理過程以及各種新興 NLP 任務(wù)的評測。

對齊:對齊技術(shù)通常需要大量人工標(biāo)注的成對偏好數(shù)據(jù)來訓(xùn)練獎勵或者策略模型,通過引入 LLM-as-a-judge 技術(shù),采用更大的模型或者策略模型本身作為評估者,這一標(biāo)注過程的時間和人力成本被大大優(yōu)化。

檢索:檢索場景同樣得益于 LLM-as-a-judge 對于文本相關(guān)性和幫助性強(qiáng)大的判別能力。其中對于傳統(tǒng)的檢索應(yīng)用,LLM-as-a-judge 通過判斷文檔和用戶請求的相關(guān)性來選擇最符合用戶喜好的一組文檔。另外,LLM-as-a-judge 還被應(yīng)用于檢索增強(qiáng)生成(RAG)的過程中,通過 LLM 自己來選擇對后續(xù)生成最有幫助的輔助文檔。

推理:在推理過程中,LLM 在很多場景下會被賦予使用工具,API 或者搜索引擎的權(quán)限。在這些任務(wù)中,LLM-as-a-judge 可以依據(jù)當(dāng)前的上下文和狀態(tài)選擇最合理可行的外部工具。另外,LLM-as-a-judge 還被廣泛引用于推理路徑的選擇,通過過程獎勵指導(dǎo)模型進(jìn)行狀態(tài)步驟轉(zhuǎn)移。

基準(zhǔn):評判 LLM-as-a-judge

如表 2 所示,我們總結(jié)了不同針對 LLM-as-a-judge 的基準(zhǔn)測試集,并從數(shù)據(jù) / 任務(wù)類型,數(shù)據(jù)規(guī)模,參考文本來源,指標(biāo)等多個方面對這些數(shù)據(jù)集做了總結(jié)歸納。其中,根據(jù)基準(zhǔn)測試集目的的不同,大致可以分為:偏見量化基準(zhǔn),挑戰(zhàn)性任務(wù)基準(zhǔn),領(lǐng)域特定基準(zhǔn),以及其他多語言,多模態(tài),指令跟隨基準(zhǔn)等等。

表 2:LLM-as-a-judge 數(shù)據(jù)集和基線

展望:挑戰(zhàn)和機(jī)遇

偏見與脆弱性:大模型作為評判者,一直受困擾于各種各樣影響評價公平性的偏見,例如順序偏見,自我偏好偏見,長度偏見等。同時,基于大模型的評價系統(tǒng)在面對外部攻擊時的魯棒性也存在一定不足。因此,LLM-as-a-judge 未來工作的一個方向是研究如何揭露和改善這些偏見,并提升系統(tǒng)面對攻擊的魯棒性。

更動態(tài),復(fù)雜的評判:早期的 LLM-as-a-judge 通常只采用比較簡單的指令來 prompt 大模型。隨著技術(shù)的發(fā)展,越來越多復(fù)雜且動態(tài)的 LLM-as-a-judge 框架被開發(fā)出來,例如多智能體判斷和 LLM-as-a-examiner。在未來,一個有前景的研究方向是開發(fā)具有人類評判思維的大模型智能體;另外,開發(fā)一個基于大模型自適應(yīng)難度的評判系統(tǒng)也很重要。

自我判斷:LLM-as-a-judge 長期以來一直受困擾于 “先有雞還是先有蛋” 的困境:強(qiáng)大的評估者對于訓(xùn)練強(qiáng)大的 LLM 至關(guān)重要,但通過偏好學(xué)習(xí)提升 LLM 則需要公正的評估者。理想狀況下,我們希望最強(qiáng)大的大模型能夠進(jìn)行公正的自我判斷,從而不斷優(yōu)化它自身。然而,大模型具有的各種判斷偏見偏好使得它們往往不能夠客觀的評價自己輸出的內(nèi)容。在未來,開發(fā)能夠進(jìn)行自我評判的(一組)大模型對于模型自我進(jìn)化至關(guān)重要。

人類協(xié)同大模型共同判斷:直覺上,人工的參與和校對可以緩解 LLM-as-a-judge 存在偏見和脆弱性。然而,只有少數(shù)幾篇工作關(guān)注這個方向。未來的工作可以關(guān)注如何用 LLM 來進(jìn)行數(shù)據(jù)選擇,通過選擇一個很小但很具有代表性的測試子集來進(jìn)行人工評測;同時,LLM-as-a-judge 也可以從其他具有成熟的人機(jī)協(xié)同方案的領(lǐng)域受益。

總結(jié)

本文探討了 LLM-as-a-judge 的驚喜微妙之處。我們首先根據(jù)輸入格式(逐點(diǎn)、成對和列表)和輸出格式(包括評分、排名和選擇)對現(xiàn)有的基于 LLM-as-a-judge 進(jìn)行定義。然后,我們提出了一個全面的 LLM-as-a-judge 的分類法,涵蓋了判斷屬性、方法和應(yīng)用。此后,我們介紹了 LLM-as-a-judge 的詳細(xì)基準(zhǔn)集合,并結(jié)合了對當(dāng)前挑戰(zhàn)和未來方向的深思熟慮的分析,旨在為這一新興領(lǐng)域的未來工作提供更多資源和見解。

責(zé)任編輯:姜華 來源: 機(jī)器之心
相關(guān)推薦

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2022-03-27 20:32:28

Knative容器事件模型

2019-03-04 09:38:42

5G 4GVR

2021-03-25 11:24:25

爬蟲技術(shù)開發(fā)

2021-08-31 19:14:38

技術(shù)埋點(diǎn)運(yùn)營

2021-12-03 18:25:56

數(shù)據(jù)指標(biāo)本質(zhì)

2022-04-27 18:25:02

數(shù)據(jù)采集維度

2021-10-17 20:38:30

微服務(wù)內(nèi)存組件

2020-11-03 07:04:39

云計算公有云私有云

2021-10-12 18:31:40

流量運(yùn)營前端

2021-09-03 18:38:13

數(shù)據(jù)湖數(shù)據(jù)倉庫

2021-02-14 00:21:37

區(qū)塊鏈數(shù)字貨幣金融

2021-03-03 21:31:24

量化投資利潤

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡(luò)安全黑客

2022-01-05 18:27:44

數(shù)據(jù)挖掘工具

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2022-04-22 11:26:55

數(shù)據(jù)管理架構(gòu)

2022-07-31 20:29:28

日志系統(tǒng)

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號