自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

橫掃13個(gè)視覺(jué)語(yǔ)言任務(wù)！哈工深發(fā)布多模態(tài)大模型「九天」，性能直升5%

作者：新智元 2023-12-04 13:40:09

人工智能新聞

哈工深發(fā)布全新多模態(tài)大語(yǔ)言模型九天（JiuTian-LION），融合細(xì)粒度空間感知和高層語(yǔ)義視覺(jué)知識(shí)，在13個(gè)評(píng)測(cè)任務(wù)上實(shí)現(xiàn)了sota性能。

為了應(yīng)對(duì)多模態(tài)大語(yǔ)言模型中視覺(jué)信息提取不充分的問(wèn)題，哈爾濱工業(yè)大學(xué)（深圳）的研究人員提出了雙層知識(shí)增強(qiáng)的多模態(tài)大語(yǔ)言模型-九天（JiuTian-LION）。

論文鏈接: https://arxiv.org/abs/2311.11860

GitHub: https://github.com/rshaojimmy/JiuTian

項(xiàng)目主頁(yè): https://rshaojimmy.github.io/Projects/JiuTian-LION

與現(xiàn)有的工作相比，九天首次分析了圖像級(jí)理解任務(wù)和區(qū)域級(jí)定位任務(wù)之間的內(nèi)部沖突，提出了分段指令微調(diào)策略和混合適配器來(lái)實(shí)現(xiàn)兩種任務(wù)的互相提升。

通過(guò)注入細(xì)粒度空間感知和高層語(yǔ)義視覺(jué)知識(shí)，九天實(shí)現(xiàn)了在包括圖像描述、視覺(jué)問(wèn)題、和視覺(jué)定位等17個(gè)視覺(jué)語(yǔ)言任務(wù)上顯著的性能提升（比如Visual Spatial Reasoning 上高達(dá)5% 的性能提升），在其中13個(gè)評(píng)測(cè)任務(wù)上達(dá)到了國(guó)際領(lǐng)先水平，性能對(duì)比如圖1所示。

圖1：對(duì)比其他MLLMs，九天在大部分任務(wù)上都取得了最優(yōu)的性能。

九天JiuTian-LION

借助大型語(yǔ)言模型（LLMs）驚人的語(yǔ)言理解能力，一些工作開(kāi)始通過(guò)賦予 LLM 多模態(tài)感知能力，來(lái)生成多模態(tài)大語(yǔ)言模型（MLLMs），并在很多視覺(jué)語(yǔ)言任務(wù)上取得突破性進(jìn)展。但是現(xiàn)有的MLLMs大多采用圖文對(duì)預(yù)訓(xùn)練得到的視覺(jué)編碼器，比如 CLIP-ViT。

這些視覺(jué)編碼器主要學(xué)習(xí)圖像層面的粗粒度圖像文本模態(tài)對(duì)齊，而缺乏全面的視覺(jué)感知和信息抽取能力，包括細(xì)粒度視覺(jué)理解。

這種視覺(jué)信息抽取不足，理解程度不夠的問(wèn)題，在很大程度上會(huì)導(dǎo)致MLLMs存在視覺(jué)定位偏差，空間推理不足，物體幻覺(jué)等諸多缺陷，如圖2所示。

圖2：雙層視覺(jué)知識(shí)增強(qiáng)的多模態(tài)大語(yǔ)言模型-九天（JiuTian-LION）。

與現(xiàn)有的多模態(tài)大語(yǔ)言模型（MLLMs）相比，九天通過(guò)注入細(xì)粒度空間感知視覺(jué)知識(shí)和高層語(yǔ)義視覺(jué)證據(jù)，有效地提升了MLLMs的視覺(jué)理解能力，生成更準(zhǔn)確的文本回應(yīng)，減少了MLLMs的幻覺(jué)現(xiàn)象。

雙層視覺(jué)知識(shí)增強(qiáng)的多模態(tài)大語(yǔ)言模型-九天（JiuTian-LION）

為了彌補(bǔ)MLLMs中視覺(jué)信息提取不足，理解程度不夠的問(wèn)題，研究人員提出了雙層視覺(jué)知識(shí)增強(qiáng)的MLLMs，簡(jiǎn)稱九天（JiuTian-LION），方法框架如圖3所示。

該方法主要從兩方面增強(qiáng)MLLMs，漸進(jìn)式融合細(xì)粒度空間感知視覺(jué)知識(shí)（Progressive Incorporation of Fine-grained Spatial-aware Visual knowledge）和軟提示下的高層語(yǔ)義視覺(jué)證據(jù)（Soft Prompting of High-level Semantic Visual Evidence）。

具體來(lái)說(shuō)，研究人員提出了分段指令微調(diào)策略來(lái)解決圖像級(jí)理解任務(wù)和區(qū)域級(jí)定位任務(wù)之間存在的內(nèi)部沖突，漸進(jìn)式地將細(xì)粒度空間感知知識(shí)注入到 MLLMs 中。同時(shí)將圖像標(biāo)簽作為高層語(yǔ)義視覺(jué)證據(jù)加入到 MLLMs，并利用軟提示方法來(lái)減輕不正確標(biāo)簽帶來(lái)的潛在負(fù)面影響。

圖3：九天（ JiuTian-LION）模型框架圖。

該工作通過(guò)分段式訓(xùn)練策略先分別基于Q-Former 和 Vision Aggregator – MLP 兩個(gè)分支學(xué)習(xí)圖像級(jí)理解和區(qū)域級(jí)定位任務(wù)，然后在最后訓(xùn)練階段利用具有路由機(jī)制的混合適配器來(lái)動(dòng)態(tài)融合不同分支的知識(shí)提升模型在兩種任務(wù)的表現(xiàn)。

該工作還通過(guò) RAM 提取圖像標(biāo)簽作為高層語(yǔ)義視覺(jué)證據(jù)，然后提出軟提示方法提升高層語(yǔ)義注入的效果。

漸進(jìn)式融合細(xì)粒度空間感知視覺(jué)知識(shí)

當(dāng)直接將圖像級(jí)理解任務(wù)（包括圖像描述和視覺(jué)問(wèn)答）與區(qū)域級(jí)定位任務(wù)（包括指示表達(dá)理解，指示表達(dá)生成等）進(jìn)行單階段混合訓(xùn)練時(shí)，MLLMs 會(huì)遭遇兩種任務(wù)之間存在的內(nèi)部沖突，從而不能在所有任務(wù)上取得較好的綜合性能。

研究人員認(rèn)為這種內(nèi)部沖突主要由兩個(gè)問(wèn)題引起。第一個(gè)問(wèn)題是缺少區(qū)域級(jí)的模態(tài)對(duì)齊預(yù)訓(xùn)練，當(dāng)前具有區(qū)域級(jí)定位能力的 MLLMs 大多先使用大量相關(guān)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，不然很難在有限地訓(xùn)練資源下讓基于圖像級(jí)模態(tài)對(duì)齊的視覺(jué)特征適應(yīng)區(qū)域級(jí)任務(wù)。

另一個(gè)問(wèn)題是圖像級(jí)理解任務(wù)和區(qū)域級(jí)定位任務(wù)之間的輸入輸出模式差異，后者需要模型額外理解關(guān)于物體坐標(biāo)的特定短句（以的形式）。為了解決以上問(wèn)題，研究人員提出了分段式指令微調(diào)策略，以及具有路由機(jī)制的混合適配器。

如圖4所示，研究人員將單階段指令微調(diào)過(guò)程拆分為三階段：

階段1，利用 ViT，Q-Former，和image-level adapter 來(lái)學(xué)習(xí)圖像級(jí)理解任務(wù)中包含的全局視覺(jué)知識(shí)；階段2，利用Vision Aggregator， MLP，和 region-level adapter 去學(xué)習(xí)區(qū)域級(jí)定位任務(wù)中包含的細(xì)粒度空間感知視覺(jué)知識(shí)；階段3，提出了具有路由機(jī)制的混合適配器來(lái)動(dòng)態(tài)融合不同分支中學(xué)習(xí)到的不同粒度的視覺(jué)知識(shí)。表3展示了分段式指令微調(diào)策略相比較單階段訓(xùn)練的性能優(yōu)勢(shì)。

圖4：分段式指令微調(diào)策略

軟提示下的高層語(yǔ)義視覺(jué)證據(jù)注入

作為一個(gè)有力的補(bǔ)充，研究人員提出利用圖像標(biāo)簽作為高層語(yǔ)義視覺(jué)證據(jù)來(lái)進(jìn)一步增強(qiáng) MLLMs 的全局視覺(jué)感知理解能力。

具體來(lái)說(shuō)，首先通過(guò) RAM 提取圖像的標(biāo)簽，然后利用特定的指令模版“According to <hint>, you are allowed to use or partially use the following tags:”包裝圖像標(biāo)簽。該指令模版中的“<hint>”會(huì)被替換為一個(gè)可學(xué)習(xí)的軟提示向量。

配合模版中特定短語(yǔ)“use or partially use”，軟提示向量可以指導(dǎo)模型減輕不正確標(biāo)簽帶來(lái)的潛在負(fù)面影響。

實(shí)驗(yàn)結(jié)果

研究人員在包括圖像描述（image captioning）、視覺(jué)問(wèn)答（VQA）、和指示表達(dá)理解（REC）等17個(gè)任務(wù)基準(zhǔn)集上進(jìn)行了評(píng)測(cè)。

實(shí)驗(yàn)結(jié)果表明，九天在13個(gè)評(píng)測(cè)集上達(dá)到了國(guó)際領(lǐng)先水平。特別的，相比較 InstructBLIP 和 Shikra，九天分別在圖像級(jí)理解任務(wù)和區(qū)域級(jí)定位任務(wù)上取得了全面且一致的性能提升，在 Visual Spatial Reasoning (VSR) 任務(wù)上可達(dá)到最高5%的提升幅度。

圖5提供了在不同視覺(jué)語(yǔ)言多模態(tài)任務(wù)上，九天和其他 MLLMs 的能力差異，說(shuō)明了九天可以取得更優(yōu)的細(xì)粒度視覺(jué)理解和視覺(jué)空間推理能力，并且輸出具有更少幻覺(jué)的文本回應(yīng)。

圖5：定性分析九天大模型和 InstructBLIP、Shikra 的能力差異

圖6通過(guò)樣本分析，表明了九天模型在圖像級(jí)和區(qū)域級(jí)視覺(jué)語(yǔ)言任務(wù)上都具有優(yōu)秀的理解和識(shí)別能力。

圖6：更多例子分析，從圖像和區(qū)域級(jí)視覺(jué)理解層面展現(xiàn)九天大模型的能力

總結(jié)

（1）該工作提出了一個(gè)新的多模態(tài)大語(yǔ)言模型-九天：通過(guò)雙層視覺(jué)知識(shí)增強(qiáng)的多模態(tài)大語(yǔ)言模型。

（2）該工作在包括圖像描述、視覺(jué)問(wèn)答和指示表達(dá)理解等17個(gè)視覺(jué)語(yǔ)言任務(wù)基準(zhǔn)集上進(jìn)行評(píng)測(cè)，其中13個(gè)評(píng)測(cè)集達(dá)到了當(dāng)前最好的性能。

（3）該工作提出了一個(gè)分段式指令微調(diào)策略來(lái)解決圖像級(jí)理解和區(qū)域級(jí)定位任務(wù)之間的內(nèi)部沖突，實(shí)現(xiàn)了兩種任務(wù)的互相提升。

（4）該工作成功將圖像級(jí)理解和區(qū)域級(jí)定位任務(wù)進(jìn)行整合，多層次全面理解視覺(jué)場(chǎng)景，未來(lái)可以將這種全面的視覺(jué)理解能力應(yīng)用到具身智能場(chǎng)景，幫助機(jī)器人更好、更全面地識(shí)別和理解當(dāng)前環(huán)境，做出有效決策。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="qipq6"></cite>