自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

北大彭宇新教授團(tuán)隊(duì)開源細(xì)粒度多模態(tài)大模型Finedefics

人工智能 新聞
北京大學(xué)彭宇新教授團(tuán)隊(duì)系統(tǒng)地分析了多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力。

本文是北京大學(xué)彭宇新教授團(tuán)隊(duì)在細(xì)粒度多模態(tài)大模型領(lǐng)域的最新研究成果,相關(guān)論文已被 ICLR 2025 接收,并已開源。

盡管多模態(tài)大模型在通用視覺理解任務(wù)中表現(xiàn)出色,但不具備細(xì)粒度視覺識(shí)別能力,這極大制約了多模態(tài)大模型的應(yīng)用與發(fā)展。

細(xì)粒度視覺識(shí)別旨在區(qū)分同一粗粒度大類下的不同細(xì)粒度子類別,如將鳥類(粗粒度大類)圖像區(qū)分為西美鷗、灰背鷗、銀鷗等(細(xì)粒度子類別);將車區(qū)分為寶馬、奔馳、奧迪等,奧迪區(qū)分為 A4、A6、A8 等;將飛機(jī)區(qū)分為波音 737、波音 747、波音 777、空客 320、空客 380 等。實(shí)現(xiàn)對(duì)視覺對(duì)象的細(xì)粒度識(shí)別,在現(xiàn)實(shí)生產(chǎn)和生活中具有重要的研究和應(yīng)用價(jià)值。

針對(duì)這一問題,北京大學(xué)彭宇新教授團(tuán)隊(duì)系統(tǒng)地分析了多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力:對(duì)象信息提取能力、類別知識(shí)儲(chǔ)備能力、對(duì)象 - 類別對(duì)齊能力,發(fā)現(xiàn)了「視覺對(duì)象與細(xì)粒度子類別未對(duì)齊」是限制多模態(tài)大模型的細(xì)粒度視覺識(shí)別能力的關(guān)鍵問題,并提出了細(xì)粒度多模態(tài)大模型 Finedefics。

首先,F(xiàn)inedefics 通過(guò)提示大語(yǔ)言模型構(gòu)建視覺對(duì)象的細(xì)粒度屬性知識(shí);然后,通過(guò)對(duì)比學(xué)習(xí)將細(xì)粒度屬性知識(shí)分別與視覺對(duì)象的圖像與文本對(duì)齊,實(shí)現(xiàn)數(shù)據(jù) - 知識(shí)協(xié)同訓(xùn)練。

Finedefics 在 6 個(gè)權(quán)威細(xì)粒度圖像分類數(shù)據(jù)集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均準(zhǔn)確率達(dá)到了 76.84%,相比 Hugging Face 2024 年 4 月發(fā)布的 Idefics2 大模型提高了 10.89%。

  • 論文標(biāo)題:Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
  • 論文鏈接:https://openreview.net/forum?id=p3NKpom1VL
  • 開源代碼:https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
  • 模型地址:https://huggingface.co/StevenHH2000/Finedefics
  • 實(shí)驗(yàn)室網(wǎng)址:https://www.wict.pku.edu.cn/mipl

背景與動(dòng)機(jī)

多模態(tài)大模型是指提取并融合文本、圖像、視頻等多模態(tài)數(shù)據(jù)表征,通過(guò)大語(yǔ)言模型進(jìn)行推理,經(jīng)過(guò)微調(diào)后適配到多種下游任務(wù)的基礎(chǔ)模型。

盡管現(xiàn)有多模態(tài)大模型在視覺問答、推理等多種任務(wù)上表現(xiàn)出色,但存在識(shí)別粒度粗的局限性:因?yàn)槎嗄B(tài)大模型的視覺識(shí)別能力依賴大量訓(xùn)練數(shù)據(jù),由于訓(xùn)練數(shù)據(jù)的細(xì)粒度子類別的標(biāo)注成本巨大,實(shí)際也是無(wú)法細(xì)粒度標(biāo)注的,導(dǎo)致現(xiàn)有多模態(tài)大模型缺乏細(xì)粒度視覺識(shí)別能力。

圖 1. 多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力

本文系統(tǒng)地分析了多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力,如圖 1 所示,包括:

1. 對(duì)象信息提取能力:視覺編碼器能夠從圖像中準(zhǔn)確并全面地提取區(qū)分不同細(xì)粒度子類別的辨識(shí)性信息;

2. 類別知識(shí)儲(chǔ)備能力:大語(yǔ)言模型能夠儲(chǔ)備充分的細(xì)粒度子類別知識(shí);

3. 對(duì)象 - 類別對(duì)齊能力:基于提取的辨識(shí)性視覺信息與儲(chǔ)備的細(xì)粒度子類別知識(shí),在大語(yǔ)言模型的表征空間中對(duì)齊視覺對(duì)象與細(xì)粒度子類別,以建立輸入圖像到子類別名稱的細(xì)粒度映射關(guān)系。

實(shí)驗(yàn)結(jié)果表明,「視覺對(duì)象與細(xì)粒度子類別未對(duì)齊」是限制多模態(tài)大模型具備細(xì)粒度視覺識(shí)別能力的關(guān)鍵問題。

技術(shù)方案

為解決視覺對(duì)象與細(xì)粒度子類別未對(duì)齊的問題,本文提出了細(xì)粒度多模態(tài)大模型 Finedefics。

如圖 2 所示,F(xiàn)inedefics 構(gòu)建過(guò)程包含 2 個(gè)主要步驟:

1. 首先通過(guò)屬性描述構(gòu)建,利用辨識(shí)屬性挖掘獲得區(qū)分細(xì)粒度子類別的關(guān)鍵特征,例如區(qū)分貓的品種的辨識(shí)性屬性「毛色」、「毛型」、「毛皮質(zhì)地」等,并利用視覺屬性提取獲得圖像對(duì)象的辨識(shí)性屬性對(duì),例如「毛色:棕褐色」、「毛型:帶有斑紋」、「毛皮質(zhì)地:質(zhì)地柔軟」等,再利用屬性描述總結(jié)將屬性對(duì)轉(zhuǎn)化為自然語(yǔ)言形式的對(duì)象屬性描述,例如「圖中小貓的毛為棕褐色,帶有斑紋,質(zhì)地柔軟」;

2. 然后通過(guò)屬性增強(qiáng)對(duì)齊,將構(gòu)建的對(duì)象屬性描述作為視覺對(duì)象與細(xì)粒度子類別的共同對(duì)齊目標(biāo),通過(guò)對(duì)象 - 屬性、屬性 - 類別、類別 - 類別對(duì)比學(xué)習(xí)充分建立視覺對(duì)象與細(xì)粒度子類別的細(xì)粒度對(duì)應(yīng)關(guān)系,再利用以識(shí)別為中心的指令微調(diào)促進(jìn)模型遵循細(xì)粒度視覺識(shí)別的任務(wù)指令。具體地,包含如下兩個(gè)訓(xùn)練階段:

 圖 2. 細(xì)粒度多模態(tài)大模型(Finedefics)框架圖

階段 I:屬性增強(qiáng)的對(duì)比學(xué)習(xí)

首先,針對(duì)每個(gè)「對(duì)象 - 屬性 - 類別」三元組,利用視覺編碼器與可學(xué)習(xí)的模態(tài)連接層  轉(zhuǎn)化為對(duì)象表征序列。

為更好捕捉全局表示,將標(biāo)識(shí)符 [EOS] 輸入大語(yǔ)言模型的嵌入層得到向量表示,并將其與對(duì)象特征序列拼接,得到新構(gòu)建的對(duì)象表征序列 。相似地,得到屬性表征序列 與類別表征序列。

然后,分別將  輸入到大語(yǔ)言模型中,將序列末尾的預(yù)測(cè)標(biāo)志(token) 分別作為  的全局表示。


為簡(jiǎn)化表示,定義訓(xùn)練采用的對(duì)比學(xué)習(xí)損失包含以下 3 種:

對(duì)象 - 屬性對(duì)比:為細(xì)粒度視覺識(shí)別數(shù)據(jù)集中的每個(gè)視覺對(duì)象 挖掘困難負(fù)樣本。具體地,針對(duì)每張樣本圖像,從三個(gè)最相似但錯(cuò)誤的細(xì)粒度子類別數(shù)據(jù)中選擇負(fù)樣本,并將其屬性描述與細(xì)粒度子類別名稱作為困難負(fù)樣本加入對(duì)比學(xué)習(xí)。

因此,引入困難負(fù)樣本后的對(duì)象 - 屬性對(duì)比(Object-Attribute Contrastive, OAC)損失表示如下:

其中, 表示對(duì)象困難負(fù)樣本的屬性表征集合,Sim (?,?) 測(cè)量特征空間的余弦相似度。

屬性 - 類別對(duì)比:相似地,引入困難負(fù)樣本后的屬性 - 類別對(duì)比(Attribute-Category Contrastive, ACC)損失表示如下:

其中, 表示對(duì)象  困難負(fù)樣本的細(xì)粒度子類別表征集合。

類別 - 類別對(duì)比:由于難以在大語(yǔ)言模型的表征空間中區(qū)分不同細(xì)粒度子類別,提出了類別 - 類別對(duì)比(Category-Category Contrastive, CCC)損失如下:

此外,為保持模型的生成能力,將屬性描述作為生成目標(biāo),采用下一個(gè)標(biāo)記預(yù)測(cè)(Next Token Prediction)任務(wù)進(jìn)行模型訓(xùn)練。因此,階段 I 的優(yōu)化目標(biāo)定義如下:

其中, 表示屬性描述生成損失。

階段 II:以識(shí)別為中心的指令微調(diào)

將細(xì)粒度視覺識(shí)別數(shù)據(jù)集構(gòu)建為兩種形式的指令微調(diào)數(shù)據(jù):開集問答數(shù)據(jù)與閉集多選題數(shù)據(jù),利用上述指令微調(diào)數(shù)據(jù)更新模型參數(shù)。因此,階段 II 模型的優(yōu)化目標(biāo)定義如下:

其中, 表示以識(shí)別為中心的指令微調(diào)損失。

實(shí)驗(yàn)結(jié)果

表 1. 細(xì)粒度多模態(tài)大模型(Finedefics)實(shí)驗(yàn)結(jié)果

表 1 的實(shí)驗(yàn)結(jié)果表明,F(xiàn)inedefics 在 6 個(gè)權(quán)威細(xì)粒度圖像分類數(shù)據(jù)集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均準(zhǔn)確率達(dá)到了 76.84%,相比阿里 2024 年 1 月發(fā)布的通義千問大模型(Qwen-VL-Chat)提高了 9.43%,相比 Hugging Face 2024 年 4 月發(fā)布的 Idefics2 大模型提高了 10.89%。

圖 3. 視覺對(duì)象 - 細(xì)粒度子類別對(duì)齊效果可視化

圖 4. 細(xì)粒度多模態(tài)大模型(Finedefics)案例展示

圖 3 的可視化結(jié)果表明,(a)僅微調(diào)大模型,視覺對(duì)象與細(xì)粒度子類別表征的分布差異大;(b)僅引入對(duì)象 - 類別對(duì)比學(xué)習(xí)時(shí),上述分布差異仍然難以降低;(c)同時(shí)引入對(duì)象 - 屬性、屬性 - 類別、類別 - 類別對(duì)比學(xué)習(xí)時(shí),分布差異顯著降低,優(yōu)化了視覺對(duì)象與細(xì)粒度子類別的對(duì)齊效果,提升了多模態(tài)大模型的細(xì)粒度視覺識(shí)別能力。

圖 4 的案例展示表明,相較于 Idefics2,本方法 Finedefics 能成功捕捉視覺對(duì)象特征的細(xì)微區(qū)別,并將其與相似的細(xì)粒度子類別對(duì)象顯著區(qū)分。

更多詳情,請(qǐng)參見原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-05 09:20:00

2023-08-15 14:35:48

2024-06-27 08:00:00

存儲(chǔ)數(shù)據(jù)庫(kù)細(xì)粒度

2010-04-14 11:04:53

Oracle細(xì)粒度

2009-04-16 17:59:25

細(xì)粒度權(quán)限

2010-04-19 09:35:58

Oracle細(xì)粒度

2025-02-26 13:00:00

2023-12-04 13:40:09

AI訓(xùn)練

2025-01-20 09:43:00

AI算法

2024-01-15 06:15:00

模型數(shù)據(jù)

2009-10-27 09:31:24

Windows Ser口令策略

2024-04-26 12:13:45

NameNodeHDFS核心

2018-02-25 04:05:16

2023-10-18 13:27:00

數(shù)據(jù)訓(xùn)練

2025-01-08 08:21:16

2022-11-07 12:15:13

開源深度學(xué)習(xí)

2024-11-04 12:48:12

2025-03-04 04:00:00

擴(kuò)散模型DDPM

2010-04-16 16:39:25

Oracle細(xì)粒度

2010-04-22 13:39:31

Oracle細(xì)粒度訪問
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)