自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Evaluation is All You Need!首個(gè)開源多模態(tài)大模型通用評(píng)測器LLaVA-Critic

人工智能 新聞 開源
LLaVA-Critic 是首個(gè)通用的開源多模態(tài)大模型評(píng)測器,能夠在多個(gè)開放式多模態(tài)場景中評(píng)測模型表現(xiàn)。

作者介紹:本文作者來自于字節(jié)跳動(dòng)和馬里蘭大學(xué)。其中第一作者為馬里蘭大學(xué)博士生熊天翼,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺,多模態(tài)基礎(chǔ)大模型;通訊作者為 Chunyuan Li (https://chunyuan.li/)。

本文作者也包括馬里蘭大學(xué)博士生王璽堯,字節(jié)跳動(dòng)研究員 Dong Guo、Qinghao Ye、Haoqi Fan、Quanquan Gu, 馬里蘭大學(xué)教授 Heng Huang。

引言:Evaluation is All You Need

隨著對現(xiàn)有互聯(lián)網(wǎng)數(shù)據(jù)的預(yù)訓(xùn)練逐漸成熟,研究的探索空間正由預(yù)訓(xùn)練轉(zhuǎn)向后期訓(xùn)練(Post-training),OpenAI o1 的發(fā)布正彰顯了這一點(diǎn)。

而 Post-training 的核心在于評(píng)測(Evaluation)??煽康?AI 評(píng)測不僅能在復(fù)雜任務(wù)的評(píng)測中提供可擴(kuò)展的解決方案,減少人工勞動(dòng),還能在強(qiáng)化學(xué)習(xí)中生成有效的獎(jiǎng)勵(lì)信號(hào)并指導(dǎo)推理過程。


例如,一個(gè) AI 評(píng)測器可以遵循用戶設(shè)計(jì)的評(píng)分標(biāo)準(zhǔn),在視覺對話任務(wù)中為不同模型的回復(fù)(model response)提供 1 到 10 的評(píng)分。除了評(píng)分外,它還會(huì)提供相應(yīng)的給分理由,確保模型性能評(píng)測的透明性和一致性。


來自字節(jié)跳動(dòng)和馬里蘭大學(xué)的研究團(tuán)隊(duì)發(fā)布了首個(gè)用于多任務(wù)評(píng)測的開源多模態(tài)大模型 LLaVA-Critic,旨在啟發(fā)社區(qū)開發(fā)通用大模型評(píng)測器(generalist evaluator)。

圖片

  • 論文標(biāo)題:LLaVA-Critic: Learning to Evaluate Multimodal Models
  • 論文鏈接:https://arxiv.org/abs/2410.02712
  • 項(xiàng)目主頁:https://llava-vl.github.io/blog/2024-10-03-llava-critic/
  • 數(shù)據(jù)與模型開源:https://huggingface.co/collections/lmms-lab/llava-critic-66fe3ef8c6e586d8435b4af8

首先,該團(tuán)隊(duì)構(gòu)建了一個(gè)涵蓋了多樣化評(píng)測場景和評(píng)分標(biāo)準(zhǔn)的評(píng)測指令遵循數(shù)據(jù)集(critic instruction-following dataset);之后,在這一數(shù)據(jù)集上訓(xùn)練 LLaVA-Critic,使之學(xué)會(huì)對模型回復(fù)給出合理評(píng)分(judgement)和打分依據(jù)(reason);更進(jìn)一步,在多模態(tài)評(píng)測(LMM-as-a-Judge)偏好學(xué)習(xí)(preference learning)兩個(gè)場景中驗(yàn)證了 LLaVA-Critic 的有效性。

評(píng)測指令遵循數(shù)據(jù)集

該團(tuán)隊(duì)首先構(gòu)建了一個(gè)高質(zhì)量的評(píng)測指令遵循數(shù)據(jù)集,旨在涵蓋多個(gè)復(fù)雜的評(píng)測場景,根據(jù)對應(yīng)的評(píng)測提示給出相應(yīng)的打分和評(píng)分理由。

論文中將使用 AI 模型(如 GPT)作為評(píng)測器的開放式多模態(tài)評(píng)測任務(wù)分為兩類:

1. 單點(diǎn)評(píng)分(pointwise-scoring):根據(jù)評(píng)測提示,對單個(gè)模型回復(fù)進(jìn)行打分。

2. 成對排序(pairwise-ranking):對于兩個(gè)(一對)模型回復(fù),給出二者之間的偏序關(guān)系或宣布平局。

圖片

LLaVA-Critic-113k 主要包含單點(diǎn)評(píng)分和成對排序兩種評(píng)測設(shè)定。在兩種評(píng)測中,LLaVA-Critic 均需要根據(jù)給定的圖片、問題、模型回復(fù)以及評(píng)測提示中給定的評(píng)分要求,對模型回復(fù)打分并給出理由。

針對單點(diǎn)評(píng)分,該團(tuán)隊(duì)從 8 個(gè)多模態(tài)數(shù)據(jù)集中收集了輸入指令(圖片 - 問題),使用 13 個(gè) LMM 生成模型回復(fù),并匯集了 7 個(gè)常用開放式評(píng)測基準(zhǔn)中的評(píng)測提示,由此整理得到評(píng)測樣本。針對于每一條評(píng)測樣本,再詢問 GPT-4o 進(jìn)行評(píng)測,得到判斷得分與理由。

針對成對排序,該團(tuán)隊(duì)收集了三個(gè)偏好數(shù)據(jù)集中的模型回復(fù),這些數(shù)據(jù)中已經(jīng)包含了人類或 GPT-4V 的偏好排序結(jié)果。之后,將每一對模型回復(fù)和已知的偏序關(guān)系輸入給 GPT-4o,獲取其對偏序關(guān)系的解釋。

在此基礎(chǔ)上,他們設(shè)計(jì)了 30 個(gè)包含不同格式與評(píng)分標(biāo)準(zhǔn)的評(píng)測提示模板,將【圖片 - 問題輸入,兩個(gè)模型回復(fù),偏序關(guān)系,解釋】打包成涵蓋多種評(píng)測場景的評(píng)測指令遵循數(shù)據(jù)。

由此,LLaVA-Critic-113k 數(shù)據(jù)集得以構(gòu)建,共計(jì)包含 46k 張圖片和 113k 個(gè)評(píng)測數(shù)據(jù)樣本。下圖展示了具體的數(shù)據(jù)統(tǒng)計(jì):

圖片

LLaVA-Critic-113k 數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)。該團(tuán)隊(duì)收集了廣泛的輸入指令與模型回復(fù),涵蓋了多個(gè)評(píng)測任務(wù)和領(lǐng)域。需要注意的是,以上全部數(shù)據(jù)來源于開源的指令遵循訓(xùn)練數(shù)據(jù),與實(shí)際的評(píng)測基準(zhǔn)(evaluation benchmark)沒有重合。

LLaVA-Critic

首個(gè)具有通用評(píng)測能力的開源多模態(tài)大模型

為了使模型具備通用的評(píng)測能力,該團(tuán)隊(duì)對一個(gè)已經(jīng)具備強(qiáng)大指令遵循能力的預(yù)訓(xùn)練多模態(tài)大模型進(jìn)行指令微調(diào)。這一點(diǎn)非常關(guān)鍵,因?yàn)槟P妥陨砟芨哔|(zhì)量處理復(fù)雜視覺任務(wù)是其具備評(píng)測能力的基礎(chǔ);而評(píng)測能力則在此之上,作為附加的判別能力得到進(jìn)一步開發(fā)。

在訓(xùn)練中,LLaVA-Critic 會(huì)接受一個(gè)評(píng)測提示(evaluation prompt),包含多模態(tài)指令輸入、模型回復(fù)及可選的參考回復(fù)。它會(huì)根據(jù)評(píng)測提示中的評(píng)分標(biāo)準(zhǔn),預(yù)測定量分?jǐn)?shù)或成對排序,并給出詳細(xì)的理由。

該團(tuán)隊(duì)對評(píng)測結(jié)果(分?jǐn)?shù)或偏序關(guān)系)理由同時(shí)應(yīng)用交叉熵?fù)p失進(jìn)行訓(xùn)練。實(shí)驗(yàn)中,他們從 LLaVA-OneVision (OV) 7B/72B 預(yù)訓(xùn)練模型開始,使用 LLaVA-Critic-113k 數(shù)據(jù)集進(jìn)行 1 輪微調(diào),得到 LLaVA-Critic 模型。

場景一:多模態(tài)大模型作為評(píng)測器(LMM-as-a-Judge)

該團(tuán)隊(duì)首先對 LLaVA-Critic 模型在多個(gè)多模態(tài)評(píng)測任務(wù)中與 GPT-4o 以及人類的打分一致性進(jìn)行了驗(yàn)證。

圖片

在評(píng)分的整體分布和對回復(fù)模型 (response model) 的排序?qū)用嫔希琇LaVA-Critic 均展現(xiàn)了與 GPT-4o 的一致性

如上圖所示,在單點(diǎn)評(píng)分的評(píng)估任務(wù)中,LLaVA-Critic 大幅超越其基礎(chǔ)模型 LLaVA-OneVision—— 在多個(gè)開放式問答評(píng)估基準(zhǔn)上,其評(píng)分一致性和模型排序與 GPT-4o 高度吻合。

圖片

上表比較了不同評(píng)測器在成對排序方面與人類偏好的一致性。LLaVA-Critic-72B 在評(píng)測準(zhǔn)確率(不包含平局)方面達(dá)到了 73.6%,已經(jīng)超越了 GPT-4V/4o;在其余兩個(gè)指標(biāo)中也與商用的 GPT 模型差異很小。

盡管 LLaVA-Critic-7B 的模型參數(shù)大幅減少,但其在包含與不包含平局的評(píng)測準(zhǔn)確率上仍分別達(dá)到了 59.6% 和 72.2%。這為在資源受限的環(huán)境中部署 LLaVA-Critic 提供了可行的解決方案。

圖片

上表展示了 LLaVA-Critic 在 MLLM-as-a-Judge 基準(zhǔn)測試中的表現(xiàn),該測試包括了訓(xùn)練數(shù)據(jù)中未見過的更廣泛評(píng)測場景。面對全新的評(píng)測任務(wù),LLaVA-Critic 也顯著縮小了開源模型與 GPT-4o/4V 在評(píng)測準(zhǔn)確性上的差距,充分展現(xiàn)其泛化性與通用性。

在上述實(shí)驗(yàn)結(jié)果中,72B 模型的表現(xiàn)優(yōu)于 7B 模型,Critic-7B 的表現(xiàn)也優(yōu)于使用弱化版本評(píng)測數(shù)據(jù)訓(xùn)練的 Critic-7B(v0.5)—— 這進(jìn)一步強(qiáng)調(diào)了模型擴(kuò)展(model scaling)和數(shù)據(jù)擴(kuò)展(data scaling)在構(gòu)建通用評(píng)測器中的重要性。

圖片

在這個(gè)成對排序示例中,LLaVA-Critic 能夠準(zhǔn)確識(shí)別輸入圖像的內(nèi)容(手寫數(shù)字 「7」),并基于回復(fù)間的差異做出判斷,給出了和人類評(píng)估者一致的排序,并提供了清晰的理由說明。后者(評(píng)分理由)對于構(gòu)建可靠人工智能至關(guān)重要,它使 LLaVA-Critic 的評(píng)測過程更透明,評(píng)測結(jié)果更可信。

場景二:偏好學(xué)習(xí)(Preference Learning)

LLaVA-Critic 的評(píng)測能力也可用于比較成對模型回復(fù)的好壞,從而作為獎(jiǎng)勵(lì)信號(hào)應(yīng)用于 RLHF 和 DPO 等強(qiáng)化學(xué)習(xí)算法。實(shí)驗(yàn)中,該團(tuán)隊(duì)將 LLaVA-Critic 用于迭代直接偏好優(yōu)化( iterative DPO)算法,具體方式如下:

給定一個(gè)預(yù)訓(xùn)練 LMM 和一組圖片 - 問題輸入,首先讓 LMM 對每一個(gè)圖片 - 問題輸入隨機(jī)生成 K=5 個(gè)候選回復(fù),由此構(gòu)建出 Kx (K-1)=20 個(gè)成對回復(fù)。

接著,使用 LLaVA-Critic 對這 20 個(gè)回復(fù)對進(jìn)行成對排序,選出最好和最壞的回復(fù),形成成對的反饋數(shù)據(jù)集。

之后,使用這一數(shù)據(jù)集對于預(yù)訓(xùn)練 LMM 進(jìn)行直接偏好優(yōu)化(DPO)訓(xùn)練。

在此基礎(chǔ)上,漸進(jìn)式迭代這一過程共計(jì) M 輪,每次使用最新訓(xùn)練的模型生成候選回復(fù),最終得到與 LLaVA-Critic 反饋對齊的模型。

該團(tuán)隊(duì)采用 LLaVA-OneVision 作為初始 LMM,進(jìn)行 3 輪 iterative DPO 訓(xùn)練,最終將訓(xùn)練后的模型命名為 LLaVA-OneVision-Chat。隨后,他們在多個(gè)開放式問答評(píng)測基準(zhǔn)上測試了最終模型的表現(xiàn),以比較 LLaVA-Critic 和其他獎(jiǎng)勵(lì)模型的效果。

如上表所示,無論是在 7B 還是 72B 基礎(chǔ)模型上,LLaVA-Critic(AI 反饋)均超越了 LLaVA-RLHF (人類反饋),顯著提升了基礎(chǔ)模型在 6 個(gè)多模態(tài)開放式問答評(píng)測基準(zhǔn)上的表現(xiàn)。

下方的柱狀圖進(jìn)一步直觀展示了 LLaVA-Critic 的反饋對 LLaVA-OneVision 模型在視覺問答性能上的提升效果??梢?,LLaVA-Critic 作為一種提供有效獎(jiǎng)勵(lì)信號(hào)的可擴(kuò)展方案,不僅減少了對昂貴人工反饋的依賴,還通過 AI 生成的反饋進(jìn)一步優(yōu)化了模型的偏好對齊效果。

圖片

結(jié)論

LLaVA-Critic 是首個(gè)通用的開源多模態(tài)大模型評(píng)測器,能夠在多個(gè)開放式多模態(tài)場景中評(píng)測模型表現(xiàn)。為實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)精心構(gòu)建了一個(gè)高質(zhì)量的評(píng)測指令遵循數(shù)據(jù)集,涵蓋多樣化的評(píng)測任務(wù)與標(biāo)準(zhǔn)。

實(shí)驗(yàn)中展示了 LLaVA-Critic 在兩個(gè)關(guān)鍵領(lǐng)域的有效性:

1. 作為通用的評(píng)測器,LLaVA-Critic 能夠?yàn)樾枰u(píng)測的模型回復(fù)提供單點(diǎn)評(píng)分和成對排序,這些評(píng)分和排序與人類和 GPT-4o 的偏好高度一致,為自動(dòng)評(píng)測多模態(tài)大模型的開放式回復(fù)提供了一個(gè)可行的開源替代方案。

2. 在偏好學(xué)習(xí)方面,LLaVA-Critic 提供的偏好信號(hào)能有效提升多模態(tài)大模型的視覺對話能力,甚至超越了基于人類反饋的 LLaVA-RLHF 獎(jiǎng)勵(lì)模型。

這項(xiàng)工作在利用開源多模態(tài)大模型自身的評(píng)價(jià)能力方面,邁出了重要的一步。我們期待更多的研究可以由此出發(fā),通過探究更具可擴(kuò)展性的,超越人類的對齊反饋機(jī)制,進(jìn)一步推動(dòng)多模態(tài)大模型的發(fā)展。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-04-27 09:33:01

EasyNLP開源框架

2024-03-25 12:30:18

AI訓(xùn)練開源

2024-09-10 12:11:18

2025-01-08 08:21:16

2024-03-25 12:40:19

訓(xùn)練模型

2024-01-22 13:59:00

模型訓(xùn)練

2024-06-20 10:52:27

2024-08-19 13:35:09

2025-03-19 09:30:00

2023-04-28 15:27:06

微軟模型

2023-03-13 15:56:00

模型框架

2024-01-24 13:16:00

AI訓(xùn)練

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-12-09 09:30:00

AI模型

2024-07-04 10:13:18

2024-11-13 09:39:13

2024-12-18 18:57:58

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)