豆包大模型團(tuán)隊(duì)發(fā)布全新Detail Image Caption評(píng)估基準(zhǔn),提升VLM Caption評(píng)測(cè)可靠性
當(dāng)前的視覺(jué)語(yǔ)言模型(VLM)主要通過(guò) QA 問(wèn)答形式進(jìn)行性能評(píng)測(cè),而缺乏對(duì)模型基礎(chǔ)理解能力的評(píng)測(cè),例如 detail image caption 性能的可靠評(píng)測(cè)手段。
針對(duì)這一問(wèn)題,中科院、北大和字節(jié)豆包大模型團(tuán)隊(duì)發(fā)布了 DetailCaps-4870 數(shù)據(jù)集,并提出了一種有效的評(píng)估指標(biāo) CAPTURE,取得了開(kāi)源評(píng)估指標(biāo)中最高的專家評(píng)價(jià)一致性,并低成本實(shí)現(xiàn)了與 GPT-Eval 可比的效果。
- 論文:https://arxiv.org/abs/2405.19092
- 數(shù)據(jù)集:https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870
- 代碼:https://github.com/foundation-multimodal-models/CAPTURE
簡(jiǎn)介
當(dāng)前的 LVLM(large vision-language model)評(píng)測(cè)存在以下問(wèn)題:
- 現(xiàn)有的 LVLM 評(píng)測(cè)方案主要采用 VQA 形式,很大程度受到指令遵循(instruction following)能力的影響,且 QA prompt 的設(shè)計(jì)容易引入人類的偏見(jiàn)(bias)。
- Image caption 任務(wù)可以有效評(píng)估模型理解能力,但現(xiàn)有的 caption benchmark 多使用短 caption 作為 ground truth,這在 lvlm 時(shí)代完全過(guò)時(shí)。
- 同時(shí),現(xiàn)有的 image caption 評(píng)測(cè)指標(biāo)與人類、GPT 等專家評(píng)價(jià)結(jié)果的一致性較差,常用的 bleu、rouge 等指標(biāo)抽取 n-gram 進(jìn)行匹配,對(duì)關(guān)鍵信息的準(zhǔn)確性不夠敏感。而 GPT-Eval 雖然和專家評(píng)價(jià)較為一致,但是會(huì)帶來(lái)高昂的評(píng)測(cè)成本。
針對(duì)這些問(wèn)題,該研究提出了新的 Detail image caption benchmark 和 evaluation metric,以在較低的成本下實(shí)現(xiàn)了對(duì) LVLM 圖像理解能力的準(zhǔn)確評(píng)估。
在所提出的評(píng)測(cè)數(shù)據(jù)集 & 指標(biāo)的指導(dǎo)下,該研究還探索了發(fā)掘 LVLM 自身能力進(jìn)行 detail image caption 的數(shù)據(jù)構(gòu)造方法,有效提升了 detail caption 數(shù)據(jù)質(zhì)量。
圖一:左側(cè)為 CAPTURE metric 實(shí)例展示,右側(cè)為 detail caption construction 方法展示
數(shù)據(jù)集
相比類似大小的評(píng)測(cè)數(shù)據(jù)集,該研究提出的 Detail image caption benchmark 文本長(zhǎng)度更長(zhǎng),無(wú)重復(fù)的 2-gram 數(shù)量明顯更多,包含更豐富的視覺(jué)信息:
表一:DetailCaps benchmark 統(tǒng)計(jì)信息
評(píng)估指標(biāo)
該研究所提出的 CAPTURE (CAPtion evaluation by exTracting and coUpling coRE information) 指標(biāo)通過(guò) 4 步進(jìn)行 caption 質(zhì)量評(píng)估。如下圖所示,首先使用 Factual praser [1] 抽取 detail caption 中的 object, attribute, relation 元素,緊接著過(guò)濾掉沒(méi)有實(shí)際意義的 objects。之后,通過(guò)三階段匹配(精確匹配、近義詞匹配、embedding 匹配)分別計(jì)算 obj、attr、rel 元素的匹配得分(F1 分?jǐn)?shù)),加權(quán)作為最終結(jié)果。
圖二:CAPTURE metric 詳細(xì)計(jì)算步驟
Detail caption 數(shù)據(jù)合成
在 DetailCaps benchmark 和 CAPTURE metric 的指導(dǎo)下,該研究提出了一種基于 divide-and-conquer 思想發(fā)掘 LVLM 潛力進(jìn)行數(shù)據(jù)合成的方法,有效提升了 detail caption 數(shù)據(jù)質(zhì)量。該方案首先使用 LVLM 進(jìn)行全圖 caption 生成,之后使用分割模型(SAM [2])和聚類等過(guò)濾方法找到圖中的關(guān)鍵位置并將其裁剪出來(lái)進(jìn)行局部 caption 生成。文章使用一種 word-level 的過(guò)濾方法來(lái)減少 caption 中的幻覺(jué),該方法首先解析(parse)出描述圖中視覺(jué)元素的詞和短語(yǔ),再通過(guò)目標(biāo)檢測(cè)模型(Owlv2 [3])過(guò)濾掉得分低的元素。最后,將過(guò)濾后的全圖 caption、局部 caption 送入 LLM(LLaMA2 [4])融合為最終的圖像描述。
實(shí)驗(yàn)
CAPTURE 指標(biāo)
(1)CAPTURE vs 其他 caption 指標(biāo)
該研究在 DetailCaps-100(人工標(biāo)注 reference caption,人工評(píng)估模型生成 caption 得分)和 DetailCaps-4870(GPT 標(biāo)注 reference caption,GPT-4 評(píng)估模型生成 caption 得分)上,對(duì) LLaVA-1.5 [5]、CogVLM [6] 和 ShareCaptioner [7] 三個(gè)模型生成的 caption 進(jìn)行了專家打分,并計(jì)算各個(gè)評(píng)估指標(biāo)與專家評(píng)價(jià)的一致性:
表二:CAPTURE 與其他 detail image caption 評(píng)估指標(biāo)的專家評(píng)價(jià)一致性對(duì)比
各 caption 評(píng)估指標(biāo)和專家評(píng)價(jià)的一致性通過(guò) pearson correlation(線性相關(guān)性)、 R^2(絕對(duì)值大?。?、 Kendall's tau(排序偏序?qū)σ恢滦裕┖?(Per-) Sample (Kendall's) tau(每個(gè)樣本單獨(dú)計(jì)算取平均)指標(biāo)進(jìn)行衡量。
結(jié)果顯示,CAPTURE 在各種指標(biāo)上都取得了最優(yōu)的專家評(píng)價(jià)一致性。在這些指標(biāo)中,Sample tau 與實(shí)際 detail image caption 評(píng)估的計(jì)算方式最為接近,CAPTURE 也是唯一在這個(gè)指標(biāo)上取得與 GPT4-Eval 接近的方法,在評(píng)估的準(zhǔn)確率、成本上取得了良好的平衡。
(2)消融分析
研究者還對(duì) CAPTURE 中的各個(gè)模塊進(jìn)行了消融分析,并驗(yàn)證其有效性:
表三:CAPTURE 各模塊的消融分析
實(shí)驗(yàn)結(jié)果顯示,Stop words 有效提升了 Sample tau,說(shuō)明了該模塊的有效性。但是 stop words filtering 會(huì)對(duì)不同樣例的 detail caption 造成不同的影響,從而導(dǎo)致 pcc、kendall tau 微降。Soft matching 也提升了 sample tau,同時(shí)在 1-R2 分?jǐn)?shù)上有明顯增益作用,將 CAPTURE 預(yù)測(cè)分?jǐn)?shù)和專家打分的絕對(duì)分值對(duì)齊。在加權(quán)計(jì)算最終得分時(shí),obj:attr:rel 比例取 default 的 5:5:2 最好,提升或降低各元素的比重都會(huì)造成性能下降。
(3)開(kāi)源 LVLM 的 detail caption 性能
表四:開(kāi)源 LVLM 的 detail caption 性能對(duì)比
總體來(lái)看,InternVL-1.5 是當(dāng)前表現(xiàn)最好的開(kāi)源 LVLM。從 LLaVA、MiniGemini 結(jié)果可以看出,LLM 參數(shù)量的提升對(duì)模型 detail caption 能力有一致的提升作用。同時(shí),分辨率較高、使用高質(zhì)量 detail caption 進(jìn)行訓(xùn)練的模型,性能會(huì)更好。
Detail caption 數(shù)據(jù)構(gòu)造
基于 detail caption 評(píng)估數(shù)據(jù)集和評(píng)測(cè)指標(biāo),研究者驗(yàn)證了所提出的 detail caption 數(shù)據(jù)合成方案的有效性。
(1)Detail caption 合成方法在不同 LVLM 上的有效性
如下表所示,該研究提出的 detail caption 合成方法在 LLaVA-1.5-7B、LLaVA-1.5-13B、LLaVA-NEXT-7B 和 Mini-Gemini-7B-HD 上取得了一致的 detail caption 質(zhì)量提升:
表五:不同 LVLM 使用該研究提出的 detail caption 合成方法效果
(2)通過(guò) Self-loop 進(jìn)一步提升 detail caption 性能
研究者還嘗試通過(guò)數(shù)據(jù)打標(biāo) -> 模型訓(xùn)練 -> 重新打標(biāo)的訓(xùn)練流程進(jìn)行 Self-loop 來(lái)進(jìn)一步提升 LVLM detail caption 性能,在四輪 loop 中都取得了正面效果。同時(shí),對(duì)比開(kāi)源方案 [8] 與本文所提出的 word-level 幻覺(jué)過(guò)濾方案,證明了其設(shè)計(jì)的有效性:
表六:Detail caption 合成方案的 self-looping 效果和消融分析
(3)LVLM 自身打標(biāo)的 detail caption 可提升其整體性能
該研究使用 LLaVA-1.5 按照給出的 detail caption 構(gòu)造方案對(duì) sharegpt4v-100k 數(shù)據(jù)進(jìn)行了重新打標(biāo),并將打標(biāo)數(shù)據(jù)用于 LLaVA-1.5 的 SFT 訓(xùn)練,在多個(gè) benchmark 上取得了一致的性能提升:
表七:合成 detail caption 數(shù)據(jù)在 LLaVA-1.5-7B 模型訓(xùn)練中的作用