自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="6b6f1"></sub>

<legend id="6b6f1"><track id="6b6f1"></track></legend><sub id="6b6f1"></sub>

<sub id="6b6f1"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

北大彭宇新教授團(tuán)隊(duì)開源細(xì)粒度多模態(tài)大模型Finedefics

作者：機(jī)器之心 2025-02-18 09:10:00

人工智能新聞

北京大學(xué)彭宇新教授團(tuán)隊(duì)系統(tǒng)地分析了多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力。

本文是北京大學(xué)彭宇新教授團(tuán)隊(duì)在細(xì)粒度多模態(tài)大模型領(lǐng)域的最新研究成果，相關(guān)論文已被 ICLR 2025 接收，并已開源。

盡管多模態(tài)大模型在通用視覺理解任務(wù)中表現(xiàn)出色，但不具備細(xì)粒度視覺識(shí)別能力，這極大制約了多模態(tài)大模型的應(yīng)用與發(fā)展。

細(xì)粒度視覺識(shí)別旨在區(qū)分同一粗粒度大類下的不同細(xì)粒度子類別，如將鳥類（粗粒度大類）圖像區(qū)分為西美鷗、灰背鷗、銀鷗等（細(xì)粒度子類別）；將車區(qū)分為寶馬、奔馳、奧迪等，奧迪區(qū)分為 A4、A6、A8 等；將飛機(jī)區(qū)分為波音 737、波音 747、波音 777、空客 320、空客 380 等。實(shí)現(xiàn)對(duì)視覺對(duì)象的細(xì)粒度識(shí)別，在現(xiàn)實(shí)生產(chǎn)和生活中具有重要的研究和應(yīng)用價(jià)值。

針對(duì)這一問題，北京大學(xué)彭宇新教授團(tuán)隊(duì)系統(tǒng)地分析了多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力：對(duì)象信息提取能力、類別知識(shí)儲(chǔ)備能力、對(duì)象 - 類別對(duì)齊能力，發(fā)現(xiàn)了「視覺對(duì)象與細(xì)粒度子類別未對(duì)齊」是限制多模態(tài)大模型的細(xì)粒度視覺識(shí)別能力的關(guān)鍵問題，并提出了細(xì)粒度多模態(tài)大模型 Finedefics。

首先，F(xiàn)inedefics 通過(guò)提示大語(yǔ)言模型構(gòu)建視覺對(duì)象的細(xì)粒度屬性知識(shí)；然后，通過(guò)對(duì)比學(xué)習(xí)將細(xì)粒度屬性知識(shí)分別與視覺對(duì)象的圖像與文本對(duì)齊，實(shí)現(xiàn)數(shù)據(jù) - 知識(shí)協(xié)同訓(xùn)練。

Finedefics 在 6 個(gè)權(quán)威細(xì)粒度圖像分類數(shù)據(jù)集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均準(zhǔn)確率達(dá)到了 76.84%，相比 Hugging Face 2024 年 4 月發(fā)布的 Idefics2 大模型提高了 10.89%。

論文標(biāo)題：Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
論文鏈接：https://openreview.net/forum?id=p3NKpom1VL
開源代碼：https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
模型地址：https://huggingface.co/StevenHH2000/Finedefics
實(shí)驗(yàn)室網(wǎng)址：https://www.wict.pku.edu.cn/mipl

背景與動(dòng)機(jī)

多模態(tài)大模型是指提取并融合文本、圖像、視頻等多模態(tài)數(shù)據(jù)表征，通過(guò)大語(yǔ)言模型進(jìn)行推理，經(jīng)過(guò)微調(diào)后適配到多種下游任務(wù)的基礎(chǔ)模型。

盡管現(xiàn)有多模態(tài)大模型在視覺問答、推理等多種任務(wù)上表現(xiàn)出色，但存在識(shí)別粒度粗的局限性：因?yàn)槎嗄B(tài)大模型的視覺識(shí)別能力依賴大量訓(xùn)練數(shù)據(jù)，由于訓(xùn)練數(shù)據(jù)的細(xì)粒度子類別的標(biāo)注成本巨大，實(shí)際也是無(wú)法細(xì)粒度標(biāo)注的，導(dǎo)致現(xiàn)有多模態(tài)大模型缺乏細(xì)粒度視覺識(shí)別能力。

圖 1. 多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力

本文系統(tǒng)地分析了多模態(tài)大模型在細(xì)粒度視覺識(shí)別上所需的 3 項(xiàng)能力，如圖 1 所示，包括：

1. 對(duì)象信息提取能力：視覺編碼器能夠從圖像中準(zhǔn)確并全面地提取區(qū)分不同細(xì)粒度子類別的辨識(shí)性信息；

2. 類別知識(shí)儲(chǔ)備能力：大語(yǔ)言模型能夠儲(chǔ)備充分的細(xì)粒度子類別知識(shí)；

3. 對(duì)象 - 類別對(duì)齊能力：基于提取的辨識(shí)性視覺信息與儲(chǔ)備的細(xì)粒度子類別知識(shí)，在大語(yǔ)言模型的表征空間中對(duì)齊視覺對(duì)象與細(xì)粒度子類別，以建立輸入圖像到子類別名稱的細(xì)粒度映射關(guān)系。

實(shí)驗(yàn)結(jié)果表明，「視覺對(duì)象與細(xì)粒度子類別未對(duì)齊」是限制多模態(tài)大模型具備細(xì)粒度視覺識(shí)別能力的關(guān)鍵問題。

技術(shù)方案

為解決視覺對(duì)象與細(xì)粒度子類別未對(duì)齊的問題，本文提出了細(xì)粒度多模態(tài)大模型 Finedefics。

如圖 2 所示，F(xiàn)inedefics 構(gòu)建過(guò)程包含 2 個(gè)主要步驟：

1. 首先通過(guò)屬性描述構(gòu)建，利用辨識(shí)屬性挖掘獲得區(qū)分細(xì)粒度子類別的關(guān)鍵特征，例如區(qū)分貓的品種的辨識(shí)性屬性「毛色」、「毛型」、「毛皮質(zhì)地」等，并利用視覺屬性提取獲得圖像對(duì)象的辨識(shí)性屬性對(duì)，例如「毛色：棕褐色」、「毛型：帶有斑紋」、「毛皮質(zhì)地：質(zhì)地柔軟」等，再利用屬性描述總結(jié)將屬性對(duì)轉(zhuǎn)化為自然語(yǔ)言形式的對(duì)象屬性描述，例如「圖中小貓的毛為棕褐色，帶有斑紋，質(zhì)地柔軟」；

2. 然后通過(guò)屬性增強(qiáng)對(duì)齊，將構(gòu)建的對(duì)象屬性描述作為視覺對(duì)象與細(xì)粒度子類別的共同對(duì)齊目標(biāo)，通過(guò)對(duì)象 - 屬性、屬性 - 類別、類別 - 類別對(duì)比學(xué)習(xí)充分建立視覺對(duì)象與細(xì)粒度子類別的細(xì)粒度對(duì)應(yīng)關(guān)系，再利用以識(shí)別為中心的指令微調(diào)促進(jìn)模型遵循細(xì)粒度視覺識(shí)別的任務(wù)指令。具體地，包含如下兩個(gè)訓(xùn)練階段：

圖 2. 細(xì)粒度多模態(tài)大模型（Finedefics）框架圖

階段 I：屬性增強(qiáng)的對(duì)比學(xué)習(xí)

首先，針對(duì)每個(gè)「對(duì)象 - 屬性 - 類別」三元組，利用視覺編碼器與可學(xué)習(xí)的模態(tài)連接層將轉(zhuǎn)化為對(duì)象表征序列。

為更好捕捉全局表示，將標(biāo)識(shí)符 [EOS] 輸入大語(yǔ)言模型的嵌入層得到向量表示，并將其與對(duì)象特征序列拼接，得到新構(gòu)建的對(duì)象表征序列。相似地，得到屬性表征序列與類別表征序列。

然后，分別將輸入到大語(yǔ)言模型中，將序列末尾的預(yù)測(cè)標(biāo)志（token）分別作為的全局表示。

為簡(jiǎn)化表示，定義訓(xùn)練采用的對(duì)比學(xué)習(xí)損失包含以下 3 種：

對(duì)象 - 屬性對(duì)比：為細(xì)粒度視覺識(shí)別數(shù)據(jù)集中的每個(gè)視覺對(duì)象挖掘困難負(fù)樣本。具體地，針對(duì)每張樣本圖像，從三個(gè)最相似但錯(cuò)誤的細(xì)粒度子類別數(shù)據(jù)中選擇負(fù)樣本，并將其屬性描述與細(xì)粒度子類別名稱作為困難負(fù)樣本加入對(duì)比學(xué)習(xí)。

因此，引入困難負(fù)樣本后的對(duì)象 - 屬性對(duì)比（Object-Attribute Contrastive, OAC）損失表示如下：

其中，表示對(duì)象困難負(fù)樣本的屬性表征集合，Sim (?,?) 測(cè)量特征空間的余弦相似度。

屬性 - 類別對(duì)比：相似地，引入困難負(fù)樣本后的屬性 - 類別對(duì)比（Attribute-Category Contrastive, ACC）損失表示如下：

其中，表示對(duì)象困難負(fù)樣本的細(xì)粒度子類別表征集合。

類別 - 類別對(duì)比：由于難以在大語(yǔ)言模型的表征空間中區(qū)分不同細(xì)粒度子類別，提出了類別 - 類別對(duì)比（Category-Category Contrastive, CCC）損失如下：

此外，為保持模型的生成能力，將屬性描述作為生成目標(biāo)，采用下一個(gè)標(biāo)記預(yù)測(cè)（Next Token Prediction）任務(wù)進(jìn)行模型訓(xùn)練。因此，階段 I 的優(yōu)化目標(biāo)定義如下：

其中，表示屬性描述生成損失。

階段 II：以識(shí)別為中心的指令微調(diào)

將細(xì)粒度視覺識(shí)別數(shù)據(jù)集構(gòu)建為兩種形式的指令微調(diào)數(shù)據(jù)：開集問答數(shù)據(jù)與閉集多選題數(shù)據(jù)，利用上述指令微調(diào)數(shù)據(jù)更新模型參數(shù)。因此，階段 II 模型的優(yōu)化目標(biāo)定義如下：

其中，表示以識(shí)別為中心的指令微調(diào)損失。

實(shí)驗(yàn)結(jié)果

表 1. 細(xì)粒度多模態(tài)大模型（Finedefics）實(shí)驗(yàn)結(jié)果

表 1 的實(shí)驗(yàn)結(jié)果表明，F(xiàn)inedefics 在 6 個(gè)權(quán)威細(xì)粒度圖像分類數(shù)據(jù)集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均準(zhǔn)確率達(dá)到了 76.84%，相比阿里 2024 年 1 月發(fā)布的通義千問大模型（Qwen-VL-Chat）提高了 9.43%，相比 Hugging Face 2024 年 4 月發(fā)布的 Idefics2 大模型提高了 10.89%。

圖 3. 視覺對(duì)象 - 細(xì)粒度子類別對(duì)齊效果可視化

圖 4. 細(xì)粒度多模態(tài)大模型（Finedefics）案例展示

圖 3 的可視化結(jié)果表明，（a）僅微調(diào)大模型，視覺對(duì)象與細(xì)粒度子類別表征的分布差異大；（b）僅引入對(duì)象 - 類別對(duì)比學(xué)習(xí)時(shí)，上述分布差異仍然難以降低；（c）同時(shí)引入對(duì)象 - 屬性、屬性 - 類別、類別 - 類別對(duì)比學(xué)習(xí)時(shí)，分布差異顯著降低，優(yōu)化了視覺對(duì)象與細(xì)粒度子類別的對(duì)齊效果，提升了多模態(tài)大模型的細(xì)粒度視覺識(shí)別能力。

圖 4 的案例展示表明，相較于 Idefics2，本方法 Finedefics 能成功捕捉視覺對(duì)象特征的細(xì)微區(qū)別，并將其與相似的細(xì)粒度子類別對(duì)象顯著區(qū)分。

更多詳情，請(qǐng)參見原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型數(shù)據(jù)視覺

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="whhge"><track id="whhge"></track></legend>