自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="oblx1"></sub>

<s id="oblx1"><li id="oblx1"></li></s>

<sub id="oblx1"><tfoot id="oblx1"></tfoot></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

如何高效橋接視覺(jué)和語(yǔ)言，字節(jié)&中大提出全新多模態(tài)大模型連接器ParGo

作者：機(jī)器之心 2025-01-13 03:00:00

人工智能新聞

字節(jié)團(tuán)隊(duì)與中大合作提出的 ParGo 模型，通過(guò)巧妙地融合全局視野和局部細(xì)節(jié)，在多項(xiàng)權(quán)威基準(zhǔn)測(cè)試（Benchmark）中表現(xiàn)出色，成功入選了 AAAI 2025。

在多模態(tài)大語(yǔ)言模型（MLLMs）的發(fā)展中，視覺(jué) - 語(yǔ)言連接器作為將視覺(jué)特征映射到 LLM 語(yǔ)言空間的關(guān)鍵組件，起到了橋梁作用。因此，它幾乎成為了所有多模態(tài)大語(yǔ)言模型中不可或缺的結(jié)構(gòu)之一。然而，如何高效地將視覺(jué)特征映射到 LLM 的探索還有很大提升空間。

字節(jié)團(tuán)隊(duì)與中大合作提出的 ParGo 模型，通過(guò)巧妙地融合全局視野和局部細(xì)節(jié)，在多項(xiàng)權(quán)威基準(zhǔn)測(cè)試（Benchmark）中表現(xiàn)出色，成功入選了 AAAI 2025。

論文地址：https://arxiv.org/abs/2408.12928
代碼地址: https://github.com/bytedance/ParGo

過(guò)去，大多數(shù)研究主要依賴線性投影或多層感知機(jī)（MLP）將視覺(jué)特征直接映射，這種方法難以有效控制輸入 LLMs 的視覺(jué) token 數(shù)量，特別是在處理細(xì)粒度特征時(shí)，導(dǎo)致計(jì)算成本極高。另一類基于注意力機(jī)制的方法（如 Q-former）通過(guò)注意力操作將圖像特征投射為固定數(shù)量的視覺(jué) token，雖然大幅減少了計(jì)算成本，但往往使得生成的 token 集中在圖像的顯著區(qū)域，忽略了細(xì)節(jié)部分。

為了解決這一問(wèn)題，ParGo 提出了一種創(chuàng)新的全局 - 局部投影器來(lái)連接視覺(jué)與文本，通過(guò)結(jié)合全局視野和局部細(xì)節(jié)的雙重視角，克服了傳統(tǒng)方法對(duì)顯著區(qū)域的過(guò)度聚焦，使得視覺(jué)特征能夠在更細(xì)膩的層面上得到全面展現(xiàn)，同時(shí)有能有效控制過(guò)長(zhǎng)的 token 帶來(lái)的計(jì)算成本的升高，進(jìn)而實(shí)現(xiàn)了視覺(jué)特征和 LLM 的高效連接。

全局 + 局部視角聯(lián)合

方法

ParGo (Partial-Global) 采用兩種類型的可學(xué)習(xí) token，利用 attention 機(jī)制，同時(shí)從局部和全局視角將視覺(jué)特征映射到大語(yǔ)言模型（LLM）中。該框架包含兩個(gè)關(guān)鍵模塊：Partial-Global Perception Block (PGP) 和 Cascaded Partial Perception Block (CPP)。這兩個(gè)模塊共同作用，實(shí)現(xiàn)了高效的視覺(jué) - 語(yǔ)言連接，既捕捉了圖像的全局信息，又能精細(xì)地提取局部特征，從而提升了多模態(tài)大語(yǔ)言模型的效果。

圖 1: ParGo 模型框架圖

核心模塊

Partial-Global Perception Block （PGP）

在 ParGo 中，視覺(jué)編碼器的特征被映射為兩種不同類型的 token：Partial token 和 Global token，從而能夠分別提取圖像的局部和全局信息。具體來(lái)說(shuō)：

Partial tokens：每個(gè) token 僅與部分視覺(jué)特征進(jìn)行交互，專注于圖像的局部信息
Global tokens：全局 token 則與所有視覺(jué)特征進(jìn)行交互，捕捉圖像的全局信息

ParGo 采用了一種新的交叉注意力掩碼設(shè)計(jì)（Partial-Global Attention Mask），如圖 1 (b) 所示，來(lái)處理輸入的視覺(jué)特征。該設(shè)計(jì)能夠同時(shí)輸出包含圖像局部和全局信息的特征，即 Partial tokens 和 Global tokens。具體的公式如下：

Cascaded Partial Perception Block (CPP)

此外，考慮到不同局部物體在圖像中的占比不同，為了進(jìn)一步增強(qiáng)對(duì)多種局部信息的完整捕獲能力，ParGo 在 Partial-Global Perception 模塊之前引入了 Cascaded Partial Perception (CPP) 模塊。

CPP 模塊的核心是一個(gè)帶有特殊設(shè)計(jì)掩碼的自注意力機(jī)制，如圖 1 (b) 中的 Cascaded Partial Attention Mask。隨著層數(shù)的增加，每個(gè) Partial token 能夠訪問(wèn)到更多的相鄰 token，從而逐步擴(kuò)展其感知范圍。該過(guò)程可以通過(guò)以下公式表示：

實(shí)驗(yàn)效果

論文重點(diǎn)對(duì)比了當(dāng)前不同類型的 Projector（投射器），在一些通用的 MLLM 的 benchmark 的效果，均取得了優(yōu)異的效果。

為了進(jìn)一步進(jìn)行公平對(duì)比，論文在相同數(shù)據(jù)集和實(shí)驗(yàn)參數(shù)下，比較了三種主流的投影器（Projector）。結(jié)果顯示，ParGo 依然取得了最佳的性能表現(xiàn)。另外，在不同基座 LLM 下，ParGo 均表現(xiàn)良好，體現(xiàn)出了更好的泛化性能。

不同 Projector 之間的比較

換用不同的基座 LLM 的比較

案例分析

為了能進(jìn)一步展現(xiàn) ParGo 在控制 token 數(shù)量的情況下，依然能做到細(xì)粒度和空間關(guān)系的準(zhǔn)確捕獲，作者對(duì)比了 ParGo 和 Q-former 這兩種均是基于注意力機(jī)制的 Projector（投射器）在相同 tokens 下的效果：

文字識(shí)別更加準(zhǔn)確

圖像的細(xì)節(jié)描述程度更好

局部元素識(shí)別效果更好

結(jié)論

本研究提出了 ParGo（局部 - 全局投影器），一種創(chuàng)新的視覺(jué) - 語(yǔ)言投影方案，旨在提升多模態(tài)大語(yǔ)言模型（MLLMs）中視覺(jué)和語(yǔ)言模態(tài)的對(duì)齊效果。ParGo 通過(guò)結(jié)合局部 token 和全局 token，并使用精心設(shè)計(jì)的注意力掩碼分別提取局部和全局信息，在控制 token 數(shù)量的同時(shí)增強(qiáng)了局部區(qū)域之間的關(guān)系建模，充分考慮了圖像的細(xì)節(jié)與全局視角，從而克服了傳統(tǒng)方法中忽視細(xì)節(jié)的問(wèn)題。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)