北大彭宇新教授團(tuán)隊(duì)開源細(xì)粒度多模態(tài)大模型Finedefics
本文是北京大學(xué)彭宇新教授團(tuán)隊(duì)在細(xì)粒度多模態(tài)大模型領(lǐng)域的最新研究成果,相關(guān)論文已被 ICLR 2025 接收,并已開源。
盡管多模態(tài)大模型在通用視覺理解任務(wù)中表現(xiàn)出色,但不具備細(xì)粒度視覺識(shí)別能力,這極大制約了多模態(tài)大模型的應(yīng)用與發(fā)展。
細(xì)粒度視覺識(shí)別旨在區(qū)分同一粗粒度大類下的不同細(xì)粒度子類別,如將鳥類(粗粒度大類)圖像區(qū)分為西美鷗、灰背鷗、銀鷗等(細(xì)粒度子類別);將車區(qū)分為寶馬、奔馳、奧迪等,奧迪區(qū)分為 A4、A6、A8 等;將飛機(jī)區(qū)分為波音 737、波音 747、波音 777、空客 320、空客 380 等。實(shí)現(xiàn)對(duì)視覺對(duì)象的細(xì)粒度識(shí)別,在現(xiàn)實(shí)生產(chǎn)和生活中具有重要的研究和應(yīng)用價(jià)值。
針對(duì)這一問題,北京大學(xué)彭宇新教授團(tuán)隊(duì)系統(tǒng)地分析了多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力:對(duì)象信息提取能力、類別知識(shí)儲(chǔ)備能力、對(duì)象 - 類別對(duì)齊能力,發(fā)現(xiàn)了「視覺對(duì)象與細(xì)粒度子類別未對(duì)齊」是限制多模態(tài)大模型的細(xì)粒度視覺識(shí)別能力的關(guān)鍵問題,并提出了細(xì)粒度多模態(tài)大模型 Finedefics。
首先,F(xiàn)inedefics 通過(guò)提示大語(yǔ)言模型構(gòu)建視覺對(duì)象的細(xì)粒度屬性知識(shí);然后,通過(guò)對(duì)比學(xué)習(xí)將細(xì)粒度屬性知識(shí)分別與視覺對(duì)象的圖像與文本對(duì)齊,實(shí)現(xiàn)數(shù)據(jù) - 知識(shí)協(xié)同訓(xùn)練。
Finedefics 在 6 個(gè)權(quán)威細(xì)粒度圖像分類數(shù)據(jù)集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均準(zhǔn)確率達(dá)到了 76.84%,相比 Hugging Face 2024 年 4 月發(fā)布的 Idefics2 大模型提高了 10.89%。
- 論文標(biāo)題:Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
- 論文鏈接:https://openreview.net/forum?id=p3NKpom1VL
- 開源代碼:https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
- 模型地址:https://huggingface.co/StevenHH2000/Finedefics
- 實(shí)驗(yàn)室網(wǎng)址:https://www.wict.pku.edu.cn/mipl
背景與動(dòng)機(jī)
多模態(tài)大模型是指提取并融合文本、圖像、視頻等多模態(tài)數(shù)據(jù)表征,通過(guò)大語(yǔ)言模型進(jìn)行推理,經(jīng)過(guò)微調(diào)后適配到多種下游任務(wù)的基礎(chǔ)模型。
盡管現(xiàn)有多模態(tài)大模型在視覺問答、推理等多種任務(wù)上表現(xiàn)出色,但存在識(shí)別粒度粗的局限性:因?yàn)槎嗄B(tài)大模型的視覺識(shí)別能力依賴大量訓(xùn)練數(shù)據(jù),由于訓(xùn)練數(shù)據(jù)的細(xì)粒度子類別的標(biāo)注成本巨大,實(shí)際也是無(wú)法細(xì)粒度標(biāo)注的,導(dǎo)致現(xiàn)有多模態(tài)大模型缺乏細(xì)粒度視覺識(shí)別能力。
圖 1. 多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力
本文系統(tǒng)地分析了多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力,如圖 1 所示,包括:
1. 對(duì)象信息提取能力:視覺編碼器能夠從圖像中準(zhǔn)確并全面地提取區(qū)分不同細(xì)粒度子類別的辨識(shí)性信息;
2. 類別知識(shí)儲(chǔ)備能力:大語(yǔ)言模型能夠儲(chǔ)備充分的細(xì)粒度子類別知識(shí);
3. 對(duì)象 - 類別對(duì)齊能力:基于提取的辨識(shí)性視覺信息與儲(chǔ)備的細(xì)粒度子類別知識(shí),在大語(yǔ)言模型的表征空間中對(duì)齊視覺對(duì)象與細(xì)粒度子類別,以建立輸入圖像到子類別名稱的細(xì)粒度映射關(guān)系。
實(shí)驗(yàn)結(jié)果表明,「視覺對(duì)象與細(xì)粒度子類別未對(duì)齊」是限制多模態(tài)大模型具備細(xì)粒度視覺識(shí)別能力的關(guān)鍵問題。
技術(shù)方案
為解決視覺對(duì)象與細(xì)粒度子類別未對(duì)齊的問題,本文提出了細(xì)粒度多模態(tài)大模型 Finedefics。
如圖 2 所示,F(xiàn)inedefics 構(gòu)建過(guò)程包含 2 個(gè)主要步驟:
1. 首先通過(guò)屬性描述構(gòu)建,利用辨識(shí)屬性挖掘獲得區(qū)分細(xì)粒度子類別的關(guān)鍵特征,例如區(qū)分貓的品種的辨識(shí)性屬性「毛色」、「毛型」、「毛皮質(zhì)地」等,并利用視覺屬性提取獲得圖像對(duì)象的辨識(shí)性屬性對(duì),例如「毛色:棕褐色」、「毛型:帶有斑紋」、「毛皮質(zhì)地:質(zhì)地柔軟」等,再利用屬性描述總結(jié)將屬性對(duì)轉(zhuǎn)化為自然語(yǔ)言形式的對(duì)象屬性描述,例如「圖中小貓的毛為棕褐色,帶有斑紋,質(zhì)地柔軟」;
2. 然后通過(guò)屬性增強(qiáng)對(duì)齊,將構(gòu)建的對(duì)象屬性描述作為視覺對(duì)象與細(xì)粒度子類別的共同對(duì)齊目標(biāo),通過(guò)對(duì)象 - 屬性、屬性 - 類別、類別 - 類別對(duì)比學(xué)習(xí)充分建立視覺對(duì)象與細(xì)粒度子類別的細(xì)粒度對(duì)應(yīng)關(guān)系,再利用以識(shí)別為中心的指令微調(diào)促進(jìn)模型遵循細(xì)粒度視覺識(shí)別的任務(wù)指令。具體地,包含如下兩個(gè)訓(xùn)練階段:
圖 2. 細(xì)粒度多模態(tài)大模型(Finedefics)框架圖
階段 I:屬性增強(qiáng)的對(duì)比學(xué)習(xí)
首先,針對(duì)每個(gè)「對(duì)象 - 屬性 - 類別」三元組,利用視覺編碼器
與可學(xué)習(xí)的模態(tài)連接層
將
轉(zhuǎn)化為對(duì)象表征序列
。
為更好捕捉全局表示,將標(biāo)識(shí)符 [EOS] 輸入大語(yǔ)言模型的嵌入層得到向量表示,并將其與對(duì)象特征序列拼接,得到新構(gòu)建的對(duì)象表征序列
。相似地,得到屬性表征序列
與類別表征序列
。
然后,分別將 輸入到大語(yǔ)言模型中,將序列末尾的預(yù)測(cè)標(biāo)志(token)
分別作為
的全局表示。
為簡(jiǎn)化表示,定義訓(xùn)練采用的對(duì)比學(xué)習(xí)損失包含以下 3 種:
對(duì)象 - 屬性對(duì)比:為細(xì)粒度視覺識(shí)別數(shù)據(jù)集中的每個(gè)視覺對(duì)象 挖掘困難負(fù)樣本。具體地,針對(duì)每張樣本圖像,從三個(gè)最相似但錯(cuò)誤的細(xì)粒度子類別數(shù)據(jù)中選擇負(fù)樣本,并將其屬性描述與細(xì)粒度子類別名稱作為困難負(fù)樣本加入對(duì)比學(xué)習(xí)。
因此,引入困難負(fù)樣本后的對(duì)象 - 屬性對(duì)比(Object-Attribute Contrastive, OAC)損失表示如下:
其中, 表示對(duì)象
困難負(fù)樣本的屬性表征集合,Sim (?,?) 測(cè)量特征空間的余弦相似度。
屬性 - 類別對(duì)比:相似地,引入困難負(fù)樣本后的屬性 - 類別對(duì)比(Attribute-Category Contrastive, ACC)損失表示如下:
其中, 表示對(duì)象
困難負(fù)樣本的細(xì)粒度子類別表征集合。
類別 - 類別對(duì)比:由于難以在大語(yǔ)言模型的表征空間中區(qū)分不同細(xì)粒度子類別,提出了類別 - 類別對(duì)比(Category-Category Contrastive, CCC)損失如下:
此外,為保持模型的生成能力,將屬性描述作為生成目標(biāo),采用下一個(gè)標(biāo)記預(yù)測(cè)(Next Token Prediction)任務(wù)進(jìn)行模型訓(xùn)練。因此,階段 I 的優(yōu)化目標(biāo)定義如下:
其中, 表示屬性描述生成損失。
階段 II:以識(shí)別為中心的指令微調(diào)
將細(xì)粒度視覺識(shí)別數(shù)據(jù)集構(gòu)建為兩種形式的指令微調(diào)數(shù)據(jù):開集問答數(shù)據(jù)與閉集多選題數(shù)據(jù),利用上述指令微調(diào)數(shù)據(jù)更新模型參數(shù)。因此,階段 II 模型的優(yōu)化目標(biāo)定義如下:
其中, 表示以識(shí)別為中心的指令微調(diào)損失。
實(shí)驗(yàn)結(jié)果
表 1. 細(xì)粒度多模態(tài)大模型(Finedefics)實(shí)驗(yàn)結(jié)果
表 1 的實(shí)驗(yàn)結(jié)果表明,F(xiàn)inedefics 在 6 個(gè)權(quán)威細(xì)粒度圖像分類數(shù)據(jù)集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均準(zhǔn)確率達(dá)到了 76.84%,相比阿里 2024 年 1 月發(fā)布的通義千問大模型(Qwen-VL-Chat)提高了 9.43%,相比 Hugging Face 2024 年 4 月發(fā)布的 Idefics2 大模型提高了 10.89%。
圖 3. 視覺對(duì)象 - 細(xì)粒度子類別對(duì)齊效果可視化
圖 4. 細(xì)粒度多模態(tài)大模型(Finedefics)案例展示
圖 3 的可視化結(jié)果表明,(a)僅微調(diào)大模型,視覺對(duì)象與細(xì)粒度子類別表征的分布差異大;(b)僅引入對(duì)象 - 類別對(duì)比學(xué)習(xí)時(shí),上述分布差異仍然難以降低;(c)同時(shí)引入對(duì)象 - 屬性、屬性 - 類別、類別 - 類別對(duì)比學(xué)習(xí)時(shí),分布差異顯著降低,優(yōu)化了視覺對(duì)象與細(xì)粒度子類別的對(duì)齊效果,提升了多模態(tài)大模型的細(xì)粒度視覺識(shí)別能力。
圖 4 的案例展示表明,相較于 Idefics2,本方法 Finedefics 能成功捕捉視覺對(duì)象特征的細(xì)微區(qū)別,并將其與相似的細(xì)粒度子類別對(duì)象顯著區(qū)分。
更多詳情,請(qǐng)參見原論文。