自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

北大視頻大模型新SOTA，搞笑抖音視頻AI秒懂笑點(diǎn)

作者：夢(mèng)晨 2023-11-20 22:02:54

人工智能新聞

北大等團(tuán)隊(duì)開源視覺語言大模型Video-LLaVA，將圖像和視頻表示對(duì)齊到統(tǒng)一的視覺特征空間，在13個(gè)圖片和視頻基準(zhǔn)上達(dá)到先進(jìn)的性能。

AI能理解搞笑視頻笑點(diǎn)在哪里了。

AI回答：這個(gè)視頻之所以搞笑，在于一個(gè)小寶寶正坐在床上努力讀書，但他顯然還不會(huì)真正讀書。他只是不停地指著書頁上的各處，而攝影者則在背后笑他。小寶寶的這種嘗試很有趣，因?yàn)樗趪L試閱讀一本對(duì)他而言過大的書，也看不懂里面的文字。

北大等團(tuán)隊(duì)開源視覺語言大模型Video-LLaVA，將圖像和視頻表示對(duì)齊到統(tǒng)一的視覺特征空間，在13個(gè)圖片和視頻基準(zhǔn)上達(dá)到先進(jìn)的性能。

值得注意的是，Video-LLaVA在訓(xùn)練過程中沒有使用成對(duì)的視頻和圖片數(shù)據(jù)，但在訓(xùn)練后，LLM令人驚訝地展現(xiàn)出同時(shí)理解圖片和視頻的能力。

如下圖所示，Video-LLaVA成功地識(shí)別出自由女神像的圖片是近景且細(xì)膩的，而視頻描述了自由女神像的多個(gè)角度，表明它們來自同一個(gè)地方。

在投影之前對(duì)齊圖像和視頻表示

這項(xiàng)工作具體貢獻(xiàn)如下：

Video-LLaVA解決了在視覺-語言理解中同時(shí)處理圖像和視頻的挑戰(zhàn)。它將視覺表示統(tǒng)一到語言特征空間中，使得大型語言模型能夠同時(shí)對(duì)圖像和視頻進(jìn)行視覺推理能力。
Video-LLaVA通過最初將圖像和視頻的表示對(duì)齊到一個(gè)統(tǒng)一的視覺特征空間中，將視覺表示統(tǒng)一到語言特征空間中。這是通過使用LanguageBind編碼器來實(shí)現(xiàn)的，該編碼器將不同的模態(tài)映射到文本特征空間中，提供了一個(gè)統(tǒng)一的視覺表示。然后，統(tǒng)一的視覺表示經(jīng)過共享的投影層和詞嵌入層進(jìn)行編碼，以將統(tǒng)一的視覺表示映射給大型語言模型使用。
Video-LLaVA在視頻上表現(xiàn)出色，在MSVD、MSRVTT、TGIF和ActivityNet視頻問答數(shù)據(jù)集上分別超過了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。

對(duì)于模型能力，研究團(tuán)隊(duì)做了充分實(shí)驗(yàn)。

視頻理解能力實(shí)驗(yàn)。

如表3所示，Video-LLaVA在4個(gè)視頻問答數(shù)據(jù)集上全面超過了Video-ChatGPT，并且漲幅相當(dāng)可觀。

圖片理解能力實(shí)驗(yàn)。

該研究還與InstructBLIP，Otter，mPLUG-owl 等圖片語言大模型在圖片語言理解任務(wù)上進(jìn)行了比較，結(jié)果如表2所示：

為了評(píng)估預(yù)先對(duì)齊視覺輸入的效果，研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。

他們使用了相同規(guī)模的MAE編碼器替換了圖片編碼器，其中MAE編碼器生成分離的視覺表示，而LanguageBind編碼器生成統(tǒng)一的視覺表示（因?yàn)轭A(yù)先對(duì)齊了視覺表征）。

然后，他們?cè)?3個(gè)基準(zhǔn)測(cè)試中比較了MAE編碼器和LanguageBind編碼器的性能，包括9個(gè)圖片理解基準(zhǔn)和4個(gè)視頻理解基準(zhǔn)。

通過替換圖片編碼器為MAE編碼器，LLM在初始學(xué)習(xí)視覺表示時(shí)將視頻特征和圖片特征分開處理，不再將它們統(tǒng)一起來。

有關(guān)圖6的實(shí)驗(yàn)結(jié)果顯示，與分離的視覺表示相比，聯(lián)合的視覺表示在4個(gè)視頻問答數(shù)據(jù)集上顯著提升了性能。

這一發(fā)現(xiàn)表明，預(yù)先對(duì)齊的視覺表征有助于LLM進(jìn)一步學(xué)習(xí)和理解視頻內(nèi)容。它提供了更好的能力，使得模型能夠更有效地處理視頻問答任務(wù)并展現(xiàn)出更好的性能表現(xiàn)。

同時(shí)論文還驗(yàn)證了無論是對(duì)于圖片還是視頻，在聯(lián)合訓(xùn)練中他們能相互受益。

通過聯(lián)合訓(xùn)練視頻數(shù)據(jù)，對(duì)于圖片理解任務(wù)，可以緩解幻覺問題。類似的趨勢(shì)也在LLaVA-Bench基準(zhǔn)測(cè)試上觀察到。

在視頻理解方面，聯(lián)合訓(xùn)練的也得到了明顯的提升。

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="vi4sj"></style>