自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一 精華

發(fā)布于 2025-1-2 13:45
瀏覽
0收藏

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.19806
項(xiàng)目鏈接:https://vitron-llm.github.io/
Github鏈接:https://github.com/SkyworkAI/Vitron

亮點(diǎn)直擊

  • 首次提出了一種通用的視覺多模態(tài)大語言模型(MLLM)——VITRON,能夠在像素級對圖像和視頻進(jìn)行理解、生成、分割和編輯。
  • 引入了一種更高效的LLM到解碼器的指令傳遞機(jī)制,結(jié)合了離散文本和連續(xù)信號嵌入。
  • 提出了針對多模態(tài)大語言模型的像素級視覺語言時(shí)空對齊學(xué)習(xí),使其能夠達(dá)到最優(yōu)的細(xì)粒度視覺能力。
    設(shè)計(jì)了一種協(xié)同模塊,最大化任務(wù)持久的細(xì)粒度視覺特征在所有不同視覺任務(wù)之間的共享能力,通過此機(jī)制,VITRON的性能超越了現(xiàn)有的最先進(jìn)(SoTA)專業(yè)模型。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 多模態(tài)大語言模型(MLLMs)在支持多任務(wù)方面缺乏統(tǒng)一性,特別是圖像和視頻的聯(lián)合處理能力不足。
  • 模型在細(xì)粒度像素級理解上存在局限,無法實(shí)現(xiàn)高精度的視覺區(qū)域定位與編輯。
  • 視覺功能單一,難以支持從視覺理解到生成、分割、編輯等全方位任務(wù)。
  • 多任務(wù)間存在協(xié)作性不足,任務(wù)間可能互相影響,難以實(shí)現(xiàn)統(tǒng)一優(yōu)化。

**提出的方案 **

  • 統(tǒng)一架構(gòu)設(shè)計(jì):VITRON 采用基于 LLM 的框架,前端集成圖像、視頻和像素級區(qū)域視覺編碼器,后端結(jié)合最先進(jìn)的圖像與視頻模塊,支持視覺理解、生成、分割和編輯等多任務(wù)。
  • 混合指令傳遞方法:結(jié)合離散文本指令與連續(xù)信號嵌入,確保 LLM 決策能夠精確傳遞到后端模塊。
  • 跨任務(wù)協(xié)作模塊:通過增強(qiáng)任務(wù)不變的細(xì)粒度視覺特征共享,提升不同視覺任務(wù)間的協(xié)同能力。
  • 精細(xì)化像素級時(shí)空對齊學(xué)習(xí):設(shè)計(jì)基于像素的視覺語言對齊與時(shí)空預(yù)測調(diào)優(yōu),增強(qiáng)模型的細(xì)粒度視覺感知能力。
  • 對抗訓(xùn)練:將任務(wù)特定特征與任務(wù)不變特征解耦,提升跨任務(wù)間的表現(xiàn)穩(wěn)定性。

應(yīng)用的技術(shù)

  • 視覺-語言對齊學(xué)習(xí):通過前端編碼器與 LLM 的對齊優(yōu)化,實(shí)現(xiàn)視覺與語言模態(tài)的深度協(xié)同。
  • 任務(wù)調(diào)用定向調(diào)優(yōu):訓(xùn)練 LLM 以更好地生成適合后端模塊的調(diào)用指令。
  • 嵌入對齊調(diào)優(yōu):優(yōu)化 LLM 與后端模塊間的信號嵌入對齊,提高信息傳遞精度。
  • 多模態(tài)協(xié)作訓(xùn)練:融合像素級感知與時(shí)空預(yù)測,通過細(xì)粒度感知與對抗學(xué)習(xí)實(shí)現(xiàn)任務(wù)間協(xié)同優(yōu)化。

達(dá)到的效果

  • 在圖像和視頻任務(wù)上實(shí)現(xiàn)了真正的統(tǒng)一支持,從靜態(tài)圖像到動(dòng)態(tài)視頻均表現(xiàn)出色。
  • 覆蓋 12 項(xiàng)視覺任務(wù),基于 22 個(gè)數(shù)據(jù)集的實(shí)驗(yàn)表明,VITRON 在多任務(wù)性能上與專用的單任務(wù)模型相媲美,甚至超越了某些任務(wù)的最優(yōu)模型。
  • 實(shí)現(xiàn)了從視覺理解到生成、分割、編輯等全流程的高效支持,展現(xiàn)了卓越的多模態(tài)通用能力。
  • 模型設(shè)計(jì)的各項(xiàng)組件通過分析驗(yàn)證了其有效性,為未來多模態(tài)模型的進(jìn)一步發(fā)展提供了參考。

VITRON架構(gòu)

VITRON采用了現(xiàn)有流行多模態(tài)大語言模型(MLLMs)中最常見的“編碼器-LLM-解碼器”架構(gòu)范式。整體框架如下圖2所示,包含三個(gè)關(guān)鍵模塊:

  1. 前端視覺和語言編碼器;
  2. 用于語義理解和文本生成的中心LLM;
  3. 后端解碼器模塊,用于用戶響應(yīng)和視覺操作。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

前端視覺-語言編碼

對于圖像和視頻,分別使用CLIP ViT-L/14@336px作為編碼器。視頻編碼器獨(dú)立處理每一幀,并通過在時(shí)間維度上進(jìn)行平均池化來生成整體的時(shí)間表示特征。隨后,采用區(qū)域像素感知視覺提取器作為草圖編碼器,用于用戶交互(如點(diǎn)擊、繪制框或多邊形、涂鴉)。主要參考[125],使用來自用戶輸入的mask區(qū)域的基于對象的表示,這不僅編碼了像素級視覺特征,還收集了每個(gè)區(qū)域的空間位置信息。這些區(qū)域特征與對象區(qū)域的二進(jìn)制空間幾何掩膜一起進(jìn)行池化,生成的嵌入特征被使用。隨后,這些多模態(tài)特征表示通過線性投影傳遞給LLM。

核心LLM

在VITRON中,LLM作為核心代理。遵循最常見的實(shí)踐 [15, 94, 128],使用Vicuna(7B,版本1.5)。LLM處理來自語言和視覺模態(tài)的輸入,以執(zhí)行語義理解和推理,然后做出決策。對于視覺理解任務(wù),LLM直接為用戶輸出文本響應(yīng)。同時(shí),LLM還需向后端模塊傳遞信號和指令,引導(dǎo)其執(zhí)行超越文本生成的更復(fù)雜任務(wù),例如視覺分割、生成和編輯。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

正如前文所強(qiáng)調(diào)的,LLM有效、精確傳遞信息的能力對復(fù)雜多模態(tài)任務(wù)的性能至關(guān)重要。本文提出了充分結(jié)合兩種常見信息傳遞方法的優(yōu)點(diǎn):離散文本指令和連續(xù)信號嵌入。前者有助于準(zhǔn)確調(diào)用不同的后端模塊(得益于LLM在任務(wù)調(diào)度中的能力),而后者補(bǔ)充了無法通過離散文本直接描述的豐富模態(tài)保留視覺特征。如前面圖2所示,LLM輸出以下內(nèi)容:

  • 用戶的文本響應(yīng);
  • 模塊調(diào)用的文本指令;
  • 特殊token的特征嵌入。

特征嵌入分為任務(wù)特定特征和任務(wù)不變的細(xì)粒度視覺-語言特征。這些文本指令和特征嵌入被傳遞給后端模塊。

后端視覺專家

為了使MLLM具備多種視覺任務(wù)能力,將一系列獨(dú)立的視覺專家集成到LLM中。

  • 對于圖像生成和編輯,集成了基于擴(kuò)散模型的GLIGEN。
  • 對于圖像和視頻分割,選擇了SEEM。
  • 對于視頻生成,分別使用ZeroScope和I2VGen-XL處理文本到視頻和圖像到視頻任務(wù)。
  • 最后,對于視頻編輯功能,集成了StableVideo。

LLM的文本指令首先確定調(diào)用哪個(gè)任務(wù)模塊;同時(shí),特征嵌入被傳遞給對應(yīng)模塊的特征編碼器,以協(xié)助任務(wù)執(zhí)行。特別設(shè)計(jì)了一種結(jié)構(gòu)化調(diào)用模板,包括:

  • 模塊名稱;
  • 調(diào)用命令;
  • 區(qū)域(可選),用于特定任務(wù)需要的細(xì)粒度視覺特征。

特征嵌入包括任務(wù)特定特征和任務(wù)不變的細(xì)粒度特征。這一設(shè)計(jì)旨在實(shí)現(xiàn)特征解耦,并盡可能廣泛地在所有任務(wù)中共享任務(wù)不變的細(xì)粒度特征,以促進(jìn)不同任務(wù)之間的協(xié)同作用。

像素感知的協(xié)同視覺-語言理解調(diào)優(yōu)

通過VITRON框架,在訓(xùn)練中設(shè)置了三個(gè)階段的目標(biāo):首先賦予模型基本的多模態(tài)能力(理解和生成);接著進(jìn)行精細(xì)化的視覺定位指令調(diào)優(yōu),增強(qiáng)模型的像素級感知能力;最后執(zhí)行跨任務(wù)協(xié)同學(xué)習(xí),最大化所有任務(wù)之間共享的細(xì)粒度特征。

基本多模態(tài)理解與生成技能訓(xùn)練

在訓(xùn)練的第一階段,主要目標(biāo)是為MLLM賦予基本的多模態(tài)理解和生成能力,包括前端的編碼器與LLM對齊以及后端的LLM與解碼器對齊。使用了以下三種訓(xùn)練方法:

  • 總體視覺-語言對齊學(xué)習(xí)
    這一過程旨在確保輸入的視覺和語言特征被映射到統(tǒng)一的特征空間中。遵循先前的通用實(shí)踐,利用包含“圖像-描述”對(如CC3M)、“視頻-描述”對(如Webvid)、以及“區(qū)域-描述”對(如RefCOCO)的數(shù)據(jù)集。在輸入圖像、視頻或特定視覺區(qū)域時(shí),調(diào)用凍結(jié)的LLM生成與參考描述一致的文本描述或標(biāo)題。
  • 文本調(diào)用指令調(diào)優(yōu)
    此訓(xùn)練步驟的目的是讓系統(tǒng)具備精準(zhǔn)執(zhí)行指令的能力,使LLM能夠生成適當(dāng)且正確的調(diào)用文本指令。為此,收集了總計(jì)55,000+的指令調(diào)優(yōu)樣本。
  • 面向嵌入的解碼器對齊調(diào)優(yōu)
    除了使用顯式的文本指令調(diào)用下游模塊外,還需要將信號特征嵌入(來自LLM)輸入到模塊中。參考[114],通過解碼側(cè)投影層對齊特征嵌入與所有視覺模塊輸入編碼器,即通過最小化特征距離來實(shí)現(xiàn)對齊。

精細(xì)化時(shí)空視覺定位指令調(diào)優(yōu)

一個(gè)通用的視覺模型需要具備像素感知的視覺理解能力,適用于圖像和視頻。因此,為VITRON提出了精細(xì)化的時(shí)空視覺定位指令調(diào)優(yōu)。核心思想是使LLM能夠定位圖像的精細(xì)空間性以及視頻的詳細(xì)時(shí)間性。提供了以下三個(gè)學(xué)習(xí)方面:

  • 圖像空間定位
    考慮到LLM本身只能輸出文本,設(shè)計(jì)了響應(yīng)機(jī)制,使其生成相應(yīng)的邊界框區(qū)域。關(guān)注兩類任務(wù):定位圖像描述和參照圖像分割。
  • 視頻時(shí)空定位
    對于視頻,LLM需要識別空間區(qū)域并在視頻的時(shí)間上下文中對其進(jìn)行定位,本質(zhì)上是實(shí)現(xiàn)視頻追蹤。類似地,探索了定位視頻描述和參照視頻追蹤等任務(wù)。
  • 基于定位的視覺問答 (Grounding-aware Vision QA)上述定位任務(wù)僅觸及視覺感知的低層次方面。然而,在許多場景下,要求LLM具備更高階、深入的視覺推理能力,這需要建立在基礎(chǔ)的像素級定位能力之上。因此,我們進(jìn)一步引入了基于定位的視覺問答(Grounding-aware Vision QA),包括圖像問答(Image-QA)和視頻問答(Video-QA)。通過這些任務(wù),LLM能夠在已定位的結(jié)果基礎(chǔ)上進(jìn)行語義層次的問答。

跨任務(wù)協(xié)同學(xué)習(xí)

作為通用模型,直接調(diào)用不同的專家模塊會(huì)引發(fā)一個(gè)關(guān)鍵問題:如何確保不同模塊(任務(wù))之間協(xié)同工作?如果沒有這種協(xié)作,將它們整合到一個(gè)復(fù)合系統(tǒng)中將毫無意義。為了解決這個(gè)問題,提出將信號特征嵌入分解為任務(wù)特定特征任務(wù)無關(guān)的細(xì)粒度特征。

直觀上,由于所有視覺任務(wù)都是細(xì)粒度的,任務(wù)無關(guān)的細(xì)粒度特征在不同任務(wù)之間共享得越廣泛,各任務(wù)之間的互惠性就越強(qiáng),從而獲得更大的協(xié)同效應(yīng)。因此,引入了一個(gè)跨任務(wù)協(xié)同學(xué)習(xí)模塊,如下圖3所示。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

對抗訓(xùn)練用于特征解耦
采用對抗訓(xùn)練來解耦任務(wù)特定特征和任務(wù)無關(guān)特征。具體而言,首先讓不同的視覺專家骨干網(wǎng)絡(luò)根據(jù)這兩類特征(通過拼接)進(jìn)行任務(wù)預(yù)測。同時(shí),引入一個(gè)第三方判別器(充當(dāng)分類器),僅基于共享特征表征來判斷當(dāng)前任務(wù)是哪一類。

理想情況下,一旦判別器無法準(zhǔn)確識別任務(wù)類型,說明共享特征已經(jīng)被最大程度純化,并且可以廣泛應(yīng)用于各個(gè)任務(wù)之間,從而實(shí)現(xiàn)真正的跨任務(wù)協(xié)同效應(yīng)。

實(shí)驗(yàn)

現(xiàn)在嘗試量化 VITRON 在四個(gè)視覺任務(wù)組上的性能,這些任務(wù)覆蓋了 12 個(gè)任務(wù)和 22 個(gè)數(shù)據(jù)集。所有 VITRON 的訓(xùn)練均在 10×A100 (80G) GPU 上進(jìn)行。為了確保公平比較,所有后續(xù)實(shí)驗(yàn)均采用與基線系統(tǒng)相同或相似的設(shè)置,并按照既定實(shí)踐進(jìn)行評估。

視覺分割結(jié)果

圖像分割
下表 2 顯示了在三個(gè)數(shù)據(jù)集 RefCOCO、RefCOCO+ 和 RefCOCOg 上的圖像分割結(jié)果。與多個(gè)重要模型進(jìn)行了比較,包括最新的非 MLLM 方法以及 MLLM 基線模型 NExT-Chat。顯然,盡管 VITRON 在 RefCOCO Val 和 TestA 數(shù)據(jù)集上略遜于 NExT-Chat,但在其余數(shù)據(jù)集上表現(xiàn)優(yōu)越。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

視頻分割
對于視頻分割,我們研究了兩個(gè)任務(wù):視頻空間定位(帶邊界框)和視頻目標(biāo)分割(又稱視頻跟蹤,帶掩碼)。下表 3 展示了 VITRON 與當(dāng)前最先進(jìn)(SoTA)視頻 MLLM 在視頻空間定位任務(wù)上的比較。可以看出,VITRON 顯著優(yōu)于 PG-Video-LLaVA。下表 4 顯示了 VITRON 與一些 SoTA 系統(tǒng)在視頻跟蹤任務(wù)上的比較,其中我們的系統(tǒng)繼續(xù)表現(xiàn)出卓越的性能。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

細(xì)粒度視覺理解結(jié)果

接下來,我們評估 VITRON 在細(xì)粒度視覺理解任務(wù)中的能力,主要關(guān)注圖像和視頻的區(qū)域級任務(wù)。

區(qū)域級圖像理解我們在圖像指代表達(dá)理解和圖像區(qū)域描述等任務(wù)上測試了 VITRON。表 5 中的比較和結(jié)果表明,VITRON 在多個(gè)數(shù)據(jù)集和指標(biāo)上超越了最佳基線模型,證明其在圖像細(xì)粒度語義理解上的強(qiáng)大和準(zhǔn)確性。

上述兩個(gè)任務(wù)僅關(guān)注模型在區(qū)域級別上的識別能力。進(jìn)一步地,我們深入評估了模型對圖像語義理解的能力,特別是通過基于圖像的視覺問答(VQA)任務(wù)。這些任務(wù)能夠有效反映模型對圖像深層語義內(nèi)容的理解能力。下表 6 顯示了基于圖像的 VQA 在六個(gè)數(shù)據(jù)集上的結(jié)果。主要比較了兩組模型:一組具有像素級視覺對齊能力,另一組沒有。結(jié)果表明,具備細(xì)粒度對齊能力的模型在任務(wù)性能上表現(xiàn)更強(qiáng),這表明細(xì)粒度對齊有助于更深入的語義理解。值得注意的是,VITRON 在評估的模型中表現(xiàn)出最高的性能。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

區(qū)域級視頻理解同樣地,對于視頻,我們評估了區(qū)域級視頻理解能力。在圖像觀察的基礎(chǔ)上,我們直接進(jìn)行了視頻問答(QA)任務(wù)。下表 7 展示了在四個(gè)代表性數(shù)據(jù)集上的視頻 QA 結(jié)果。有趣的是,雖然 PG-Video-LLaVA 具有視頻對齊能力,但其表現(xiàn)并未優(yōu)于缺乏對齊能力的 Video-LLaVA。然而,VITRON 實(shí)現(xiàn)了更優(yōu)異的性能。這間接證明了我們的系統(tǒng)具備更準(zhǔn)確的視頻對齊能力(如下表 8 所示),從而促進(jìn)了更好的視頻語義理解。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

視覺生成結(jié)果

本文評估了系統(tǒng)在視覺生成任務(wù)中的能力,重點(diǎn)關(guān)注三種最具代表性的生成任務(wù)類型:文本生成圖像(text-to-image generation)、文本生成視頻(text-to-video generation)和圖像生成視頻(image-to-video generation)。這些任務(wù)廣泛覆蓋了圖像生成的需求。下表 8、表 9 和表 10 展示了 VITRON 與其他最新技術(shù)(SoTA)系統(tǒng)的比較結(jié)果,包括 MLLM 和非 MLLM 的生成器。結(jié)果清楚地表明,VITRON 在所有三種任務(wù)中均表現(xiàn)優(yōu)異。例如,在文本生成圖像和文本生成視頻任務(wù)中,VITRON 的性能優(yōu)于 NExT-GPT。同樣,在圖像生成視頻任務(wù)中,VITRON 超越了 SoTA 基線 VideoCrafter1,展現(xiàn)了更出色的結(jié)果。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

視覺編輯結(jié)果

圖像編輯
使用了 MagicBrush 數(shù)據(jù)集,該數(shù)據(jù)集通過需要一系列復(fù)雜編輯操作的查詢挑戰(zhàn)模型。這些編輯操作包括移除、更改、修復(fù)和添加元素。目前尚無支持圖像編輯的 MLLM 系統(tǒng),因此我們的比較僅限于非 LLM 的專業(yè)系統(tǒng)。下表 11 展示了不同模型在各種指標(biāo)上的表現(xiàn)。VITRON 在所有指標(biāo)上均表現(xiàn)更強(qiáng),表明其在圖像編輯任務(wù)中的穩(wěn)定能力。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

視頻編輯
對于視頻編輯,當(dāng)前社區(qū)缺乏像圖像編輯那樣的標(biāo)準(zhǔn)化基準(zhǔn)和評估方法。因此,選擇了手動(dòng)評估方法。要求不同的視頻編輯系統(tǒng)基于相同的查詢編輯相同的視頻,之后五位評審員對編輯過的視頻進(jìn)行評分。評估主要關(guān)注 1) 目標(biāo)內(nèi)容修改的成功與否,2) 非目標(biāo)內(nèi)容的忠實(shí)度/保真度。下表 12 展示了視頻編輯的手動(dòng)評估結(jié)果。顯然,VITRON 在這兩個(gè)方面均優(yōu)于兩個(gè)基線系統(tǒng),展示了卓越的視頻編輯能力。隨后,可視化了 VITRON 視頻編輯的過程。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

討論

本文通過廣泛的定量比較展示了 VITRON 的整體效能?,F(xiàn)在進(jìn)一步探討系統(tǒng)如何以及為何能夠進(jìn)步,通過深入分析進(jìn)行探索。

離散文本指令還是連續(xù)信號嵌入,哪種更優(yōu)?
首先,我們探索了不同的消息傳遞機(jī)制,以確定離散文本指令是否更有利,或者連續(xù)信號嵌入是否更適合構(gòu)建多模態(tài)通用模型。同時(shí),我們驗(yàn)證了所提出的混合消息傳遞方法的優(yōu)缺點(diǎn)。在 6 個(gè)任務(wù)上進(jìn)行測試,比較了使用混合方法(默認(rèn)設(shè)置)、沒有信號嵌入和沒有文本指令的 VITRON 任務(wù)表現(xiàn),以及后端任務(wù)模塊的成功執(zhí)行率。下圖 4 展示了結(jié)果。如圖所示,整體上,使用這兩種方法的場景性能始終更好,這證實(shí)了我們的混合模式的有效性。同時(shí),我們發(fā)現(xiàn)文本指令的方法更有利于后端模塊的成功執(zhí)行,但軟特征嵌入似乎在特定任務(wù)表現(xiàn)方面更有用。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

每種精細(xì)視覺對齊學(xué)習(xí)的貢獻(xiàn)有多大?
接下來,驗(yàn)證了在中提出的不同精細(xì)視覺對齊學(xué)習(xí)策略的具體貢獻(xiàn)。圖 5(頂部的 4 個(gè)與圖像任務(wù)相關(guān),底部的 4 個(gè)與視頻任務(wù)相關(guān))展示了當(dāng)移除某個(gè)學(xué)習(xí)策略時(shí)對性能的影響??傮w而言,這 3 種精細(xì)視覺對齊學(xué)習(xí)策略對不同的下游任務(wù)至關(guān)重要。例如,對齊和引用分割任務(wù)直接影響精細(xì)視覺識別任務(wù),而針對對齊的視覺問答調(diào)優(yōu)則顯著提升認(rèn)知層次的問答任務(wù)。這驗(yàn)證了我們提出的精細(xì)視覺對齊調(diào)優(yōu)策略的有效性。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

VITRON 是否真的實(shí)現(xiàn)了跨任務(wù)協(xié)同?
最后,探討了本文的系統(tǒng)是否能夠充分支持跨任務(wù)協(xié)同。根據(jù)表 2 至表 12 中關(guān)于“協(xié)同模塊”消融實(shí)驗(yàn)的結(jié)果,我們可以觀察到協(xié)同學(xué)習(xí)機(jī)制確實(shí)對整體性能產(chǎn)生了積極影響。在下圖 6 中,進(jìn)一步研究了不同任務(wù)之間是否存在協(xié)同作用及其合作關(guān)系。為了便于研究,考慮了任務(wù)之間的一對一映射關(guān)系,逐一研究任務(wù)對之間的合作。顯然,不同任務(wù)之間的合作效應(yīng)有所不同。那些更加依賴精細(xì)視覺特征的任務(wù)或骨干模塊獲得了更顯著的改進(jìn)。這也證明了協(xié)同學(xué)習(xí)模塊可以成功促進(jìn)跨任務(wù)協(xié)同。

NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一-AI.x社區(qū)

結(jié)論

VITRON,一種統(tǒng)一的像素級視覺大語言模型,能夠無縫理解(感知和推理)、生成、分割(對齊和追蹤)以及編輯(修補(bǔ))圖像和視頻。進(jìn)一步介紹了一種新的混合消息傳遞方法,結(jié)合了離散文本指令和連續(xù)信號嵌入,以確保精確的功能調(diào)用。此外,VITRON 采用像素級時(shí)空視覺-語言對齊來增強(qiáng)其精細(xì)視覺能力。同時(shí),開發(fā)了跨任務(wù)協(xié)同模塊,以優(yōu)化任務(wù)無關(guān)的精細(xì)視覺特征的使用,提升各類視覺任務(wù)之間的協(xié)同作用。在 22 個(gè)數(shù)據(jù)集上的 12 個(gè)視覺任務(wù)中,VITRON 展現(xiàn)了在視覺分割、精細(xì)視覺理解、生成和編輯等方面的廣泛能力。總體而言,本研究展示了構(gòu)建一個(gè)視覺-語言通用系統(tǒng)的巨大潛力,推動(dòng)向更統(tǒng)一的人工智能邁進(jìn)。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/6nlSB-hPlXG0__BlZtzYlw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦