自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

提前對(duì)齊,視頻問答新SOTA!北大全新Video-LLaVA視覺語言大模型,秒懂視頻笑點(diǎn)

人工智能 新聞
最近,來自北京大學(xué)等機(jī)構(gòu)研究者提出了一種全新視覺語言大模型——Video-LLaVA,使得LLM能夠同時(shí)接收?qǐng)D片和視頻為輸入。Video-LlaVA在下游任務(wù)中取得了卓越的性能,并在圖片、視頻的13個(gè)基準(zhǔn)上達(dá)到先進(jìn)的性能。這個(gè)結(jié)果表明,統(tǒng)一LLM的輸入能讓LLM的視覺理解能力提升。

最近,來自北大的研究人員提出了一種全新的視覺語言大模型——Video-LLaVA,為alignment before projection提供了新穎的解決方案。

與以往的視覺語言大模型不同,Video-LLaVA關(guān)注的是提前將圖片和視頻特征綁定到統(tǒng)一個(gè)特征空間,使LLM能夠從統(tǒng)一的視覺表示從學(xué)習(xí)模態(tài)的交互。

此外,為了提高計(jì)算效率,Video-LLaVA還聯(lián)合了圖片和視頻進(jìn)行訓(xùn)練和指令微調(diào)。

論文地址:https://arxiv.org/pdf/2310.01852.pdf

GitHub地址:https://github.com/PKU-YuanGroup/Video-LLaVA

Huggingface地址:https://huggingface.co/spaces/LanguageBind/Video-LLaVA

憑借強(qiáng)大的語言理解能力,諸如ChatGPT這類的大語言模型迅速在AI社區(qū)風(fēng)靡。而如何讓大語言模型同時(shí)理解圖片和視頻,也成為了大模型背景下的研究多模態(tài)融合的熱點(diǎn)問題。

最近的工作將圖片或視頻通過幾個(gè)全連接層映射成類似文本的token,讓LLM涌現(xiàn)理解視覺信號(hào)的能力。

然而,圖片和視頻是分開用各自的編碼器,這對(duì)LLM學(xué)習(xí)統(tǒng)一的視覺表征帶來了挑戰(zhàn)。并且通過幾個(gè)映射層教會(huì)LLM同時(shí)處理圖片和視頻的性能往往不如視頻專家模型如Video-ChatGPT。

對(duì)此,來自北大團(tuán)隊(duì)認(rèn)為這種現(xiàn)象源于misalignment before projection。因?yàn)閳D片特征和視頻特征在送入LLM之前就已經(jīng)收斂到各自的特征域空間,這就給LLM學(xué)習(xí)它們之間的交互帶來了挑戰(zhàn)。

類似的現(xiàn)象如misalignment before fusion,也可以在早期的多模態(tài)融合工作被觀察到,如ALBEF。

不同視覺語言大模型范式的比較

方法介紹

Video-LLaVA的方法簡(jiǎn)單有效,不需要額外自己預(yù)先訓(xùn)練圖片和視頻模態(tài)的編碼器,而是巧妙地通過LanguageBind編碼器來預(yù)先對(duì)齊圖片和視頻特征,形成統(tǒng)一的視覺表征。

具體來說,Video-LLaVA采用的圖片和視頻編碼器通過共享一個(gè)語言特征空間,圖像和視頻表示最終融合成一個(gè)統(tǒng)一的視覺特征空間,稱之為圖像和視頻的emergent alignment。

因此,Video-LlaVA通過LanguageBind預(yù)先對(duì)視覺輸入進(jìn)行對(duì)齊,以減小不同視覺信號(hào)表示之間的差距。統(tǒng)一的視覺表征經(jīng)過共享的投影層后,輸入到大語言模型中。

并且Video-LlaVA在訓(xùn)練過程中始終沒有用到視頻圖片成對(duì)的數(shù)據(jù),而是在訓(xùn)練后發(fā)現(xiàn)的LLM會(huì)驚人的涌現(xiàn)出同時(shí)理解圖片和視頻。

如下圖所示,Video-LlaVA成功的識(shí)別出圖片的自由女神像是近景且細(xì)膩的,而視頻描述的是多角度的自由女神像,他們是來源于同一個(gè)地方。

Video-LLaVA采取兩階段的訓(xùn)練策略:

在視覺理解階段,使用了一個(gè)558K個(gè)LAION-CC-SBU圖像-文本對(duì)。視頻-文本對(duì)是從Valley 提供的子集中獲得的,總共有703k對(duì),這些視頻源自WebVid。

在指導(dǎo)微調(diào)階段,團(tuán)隊(duì)從兩個(gè)來源收集了指導(dǎo)性數(shù)據(jù)集,包括來自LLaVA的665k個(gè)圖像-文本數(shù)據(jù)集,以及從Video-ChatGPT獲得的包含100k個(gè)視頻-文本數(shù)據(jù)集。

- 視覺理解階段

在這個(gè)階段,模型需要通過一個(gè)廣泛的視覺-文本對(duì)數(shù)據(jù)集來獲取解讀視覺信號(hào)的能力。每個(gè)視覺信號(hào)對(duì)應(yīng)一個(gè)回合的對(duì)話數(shù)據(jù)。

這個(gè)階段的訓(xùn)練目標(biāo)是原始的自回歸損失,模型通過學(xué)習(xí)基本的視覺理解能力。在此過程中,凍結(jié)模型的其他參數(shù)。

- 指令微調(diào)階段

在這個(gè)階段,模型需要根據(jù)不同的指令提供相應(yīng)的回復(fù)。這些指令通常涉及更復(fù)雜的視覺理解任務(wù),而不僅僅是描述視覺信號(hào)。需要注意的是,對(duì)話數(shù)據(jù)包含多個(gè)回合。

如果涉及多輪對(duì)話,輸入數(shù)據(jù)會(huì)將所有之前回合的對(duì)話與當(dāng)前指令連接起來,作為本回合的輸入。訓(xùn)練目標(biāo)與前一階段相同。

經(jīng)過這個(gè)階段,模型學(xué)會(huì)了根據(jù)不同的指令和請(qǐng)求生成相應(yīng)的回復(fù)。在這個(gè)階段,大語言模型也參與訓(xùn)練。

實(shí)驗(yàn)

- 視頻理解能力

如表3所示,Video-LLaVA在4個(gè)視頻問答數(shù)據(jù)集上全面超過了Video-ChatGPT,并且漲幅相當(dāng)可觀。

- 圖片理解能力

該研究還與InstructBLIP,Otter,mPLUG-owl 等圖片語言大模型在圖片語言理解任務(wù)上進(jìn)行了比較,結(jié)果如表2所示:

- 預(yù)先對(duì)齊視覺輸入

將圖片編碼器替換相同規(guī)模的MAE encoder。定義用MAE encoder是分隔的視覺表示,Languagebind是統(tǒng)一視覺表示(因?yàn)轭A(yù)先對(duì)齊了視覺表征),并且將MAE encoder和LanguageBind encoder在13個(gè)基準(zhǔn)上進(jìn)行對(duì)比,這其中包含9個(gè)圖片理解基準(zhǔn)和4個(gè)視頻理解基準(zhǔn)。

對(duì)于圖片理解,統(tǒng)一視覺表示展現(xiàn)了強(qiáng)大的性能,它在5個(gè)圖片問答數(shù)據(jù)集和4個(gè)基準(zhǔn)工具箱上全面超過了分隔的視覺表示。

另外,我們注意到統(tǒng)一視覺表示在POPE,MMBench,LLaVA-Bench,MM-Vet這四個(gè)基準(zhǔn)工具箱上的性能以巨大的優(yōu)勢(shì)超過。

這突出了預(yù)先對(duì)齊了視覺表征不僅在圖片問答上提升了性能,還在圖片理解的其他方面收益,如減小幻覺,提升OCR能力等。

由于替換圖片編碼器為MAE encoder,視頻特征和圖片特征在LLM初始學(xué)習(xí)視覺表示時(shí)不再統(tǒng)一。

在圖6,相比于分隔視覺表示,聯(lián)合視覺表示在4個(gè)視頻問答數(shù)據(jù)集上全面提高了性能。

這些結(jié)果展現(xiàn)了預(yù)先對(duì)齊視覺表征表示能夠幫助LLM進(jìn)一步學(xué)習(xí)理解視頻。

同時(shí)論文還驗(yàn)證了無論是對(duì)于圖片還是視頻,在聯(lián)合訓(xùn)練中他們能相互受益。

對(duì)于圖片理解,Video-LLaVA在無法回答的和數(shù)字上的表現(xiàn)超過了LLaVA-1.5,這意味著聯(lián)合訓(xùn)練視頻使得在圖片上的幻覺問題有所緩解,和對(duì)圖片數(shù)字信號(hào)的理解能力增強(qiáng)。

相同的趨勢(shì)在LLaVA-Bench上被觀察到,Video數(shù)據(jù)顯著提升了LLM在圖片Complex reasoning,Conversation上的表現(xiàn)。

對(duì)于視頻理解,團(tuán)隊(duì)在4個(gè)Video問答數(shù)據(jù)集上評(píng)估。

與沒有圖片參與訓(xùn)練的Video-LLaVA相比,有圖片聯(lián)合訓(xùn)練的模型在4個(gè)數(shù)據(jù)集上全面超過。

這些結(jié)果證明了聯(lián)合圖片和視頻一起訓(xùn)練能夠促進(jìn)LLM理解視覺表示。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-11-20 22:02:54

開源模型

2023-10-16 12:31:17

人工智能數(shù)據(jù)

2024-11-25 07:10:00

NumPro視頻大模型AI

2022-08-16 14:49:18

模型研究

2024-02-15 09:00:00

LLaVA模型開源視頻聊天助手

2025-04-16 09:20:00

虛擬模型數(shù)字

2011-05-17 14:17:16

2024-05-17 17:16:50

SOTA視覺模型

2013-09-10 15:43:25

DSP視頻廣告

2024-01-15 16:41:00

模型數(shù)據(jù)

2025-03-31 15:22:01

2025-01-27 12:12:25

2024-12-12 10:20:00

自動(dòng)駕駛生成

2024-12-27 12:36:27

2024-10-30 15:00:00

AI視頻模型

2024-03-25 12:40:19

訓(xùn)練模型

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2024-08-19 08:45:00

開源模型

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2024-06-11 09:11:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)