自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

給語(yǔ)言大模型加上綜合視聽(tīng)能力,達(dá)摩院開(kāi)源Video-LLaMA

人工智能 新聞
Video-LLaMA 作為一個(gè)具有綜合視聽(tīng)能力的大模型,在音頻視頻理解領(lǐng)域取得了令人印象深刻的效果。隨著研究者的不斷攻堅(jiān),以上挑戰(zhàn)也將逐個(gè)被克服,使得音視頻理解模型具有廣泛的實(shí)用價(jià)值。

視頻在當(dāng)今社交媒體和互聯(lián)網(wǎng)文化中扮演著愈發(fā)重要的角色,抖音,快手,B 站等已經(jīng)成為數(shù)以?xún)|計(jì)用戶(hù)的熱門(mén)平臺(tái)。用戶(hù)圍繞視頻分享自己的生活點(diǎn)滴、創(chuàng)意作品、有趣瞬間等內(nèi)容,與他人互動(dòng)和交流。

近期,大語(yǔ)言模型展現(xiàn)出了令人矚目的能力。我們能否給大模型裝上 “眼睛” 和 “耳朵”,讓它能夠理解視頻,陪著用戶(hù)互動(dòng)呢?

從這個(gè)問(wèn)題出發(fā),達(dá)摩院的研究人員提出了 Video-LLaMA,一個(gè)具有綜合視聽(tīng)能力大模型。Video-LLaMA 能夠感知和理解視頻中的視頻和音頻信號(hào), 并能理解用戶(hù)輸入的指令,完成一系列基于音視頻的復(fù)雜任務(wù),例如音 / 視頻描述,寫(xiě)作,問(wèn)答等。目前論文,代碼,交互 demo 都已開(kāi)放。另外,在 Video-LLaMA 的項(xiàng)目主頁(yè)中,該研究團(tuán)隊(duì)還提供了中文版本的模型,讓中文用戶(hù)的體驗(yàn)更絲滑。

圖片

  • 論文鏈接:https://arxiv.org/abs/2306.02858
  • 代碼地址:https://github.com/DAMO-NLP-SG/Video-LLaMA


模型設(shè)計(jì)

Video-LLaMA 采用了模塊化設(shè)計(jì)原則,把視頻中的視覺(jué)和音頻模態(tài)信息映射到到大語(yǔ)言模型的輸入空間中,以實(shí)現(xiàn)跨模態(tài)指令跟隨的能力。與之前側(cè)重于靜態(tài)圖像理解的大模型研究(MiNIGPT4,LLaVA)不同,Video-LLaMA 面臨著視頻理解中的兩個(gè)挑戰(zhàn):捕捉視覺(jué)中的動(dòng)態(tài)場(chǎng)景變化和整合視聽(tīng)信號(hào)。

為了捕捉視頻中的動(dòng)態(tài)場(chǎng)景變化,Video-LLaMA 引入了一個(gè)可插拔的視覺(jué)語(yǔ)言分支。該分支首先使用 BLIP-2 中預(yù)訓(xùn)練好的圖片編碼器得到每一幀圖像的單獨(dú)特征,再與對(duì)應(yīng)的幀位置嵌入結(jié)合后,所有圖像特征被送入 Video Q-Former,Video Q-Former 將聚合幀級(jí)別的圖像表示并且生成定長(zhǎng)的綜合視頻表征。最后采用一個(gè)線(xiàn)性層將視頻表征對(duì)齊到大語(yǔ)言模型的 embedding 空間。

圖片

至于視頻中的聲音信號(hào),Video-LLaMA 使用音頻 - 語(yǔ)言分支進(jìn)行處理。首先從原始視頻中均勻采樣多個(gè)時(shí)長(zhǎng)兩秒的音頻片段,并將每個(gè)片段轉(zhuǎn)換為 128 維的梅爾頻譜圖。然后,采用強(qiáng)大的 ImageBind 作為音頻編碼器,單獨(dú)提取每個(gè)聲音片段的特征。在添加可學(xué)習(xí)的位置嵌入后,Audio Q-Former 將片段特征進(jìn)行整體聚合,并生成固定長(zhǎng)度的音頻特征。與視覺(jué)語(yǔ)言分支類(lèi)似,最后采用線(xiàn)性層將音頻表征對(duì)齊到大語(yǔ)言模型的 embedding 空間。

為了減少訓(xùn)練成本,Video-LLaMA 凍結(jié)了預(yù)訓(xùn)練好的圖片 / 音頻編碼器,只更新了視覺(jué)和音頻分支中的以下參數(shù):Video/Audio Q-Former,位置編碼層以及線(xiàn)性層(如圖 1 所示)。

為了學(xué)習(xí)視覺(jué)和文本的對(duì)齊關(guān)系,作者們首先利用大規(guī)模的視頻 - 文本數(shù)據(jù)集 (WebVid-2M) 和圖像 - 文本數(shù)據(jù)集(CC-595K)對(duì)視覺(jué)分支進(jìn)行預(yù)訓(xùn)練。之后,作者們利用來(lái)自 MiniGPT-4,LLaVA 的圖像指令數(shù)據(jù)集和來(lái)自 Video-Chat 的視頻指令數(shù)據(jù)集來(lái)微調(diào),從而達(dá)到更好的跨模態(tài)指令跟隨能力。

至于音頻 - 文本對(duì)齊關(guān)系的學(xué)習(xí),由于缺乏大規(guī)模高質(zhì)量的音頻 - 文本數(shù)據(jù),作者們采用了一種變通策略來(lái)達(dá)到這一目標(biāo)。首先,音頻 - 語(yǔ)言分支中可學(xué)習(xí)參數(shù)的目標(biāo)可以理解為將音頻編碼器的輸出與 LLM 的嵌入空間對(duì)齊。而音頻編碼器 ImageBind 具有非常強(qiáng)的多模態(tài)對(duì)齊能力,它能將不同模態(tài)的嵌入對(duì)齊到一個(gè)共同的空間中。因此,作者們使用視覺(jué) - 文本數(shù)據(jù)來(lái)訓(xùn)練音頻 - 語(yǔ)言分支,將 ImageBind 的公共嵌入空間對(duì)齊到 LLM 的文本嵌入空間,從而實(shí)現(xiàn)音頻模態(tài)到 LLM 文本嵌入空間對(duì)齊。通過(guò)這種巧妙的方式,Video-LLaMA 能在推理過(guò)程中展現(xiàn)出理解音頻的能力,即使從未接受過(guò)音頻數(shù)據(jù)的訓(xùn)練。

實(shí)例展示

作者展示了 Video-LLaMA 基于視頻 / 音頻 / 圖像的對(duì)話(huà)的一些例子。 

(1)下面兩個(gè)例子展示了 Video-LLaMA 的視聽(tīng)綜合感知能力,例子中的會(huì)話(huà)圍繞有聲視頻展開(kāi)。在例子二中,畫(huà)面上僅僅顯示了這個(gè)演奏家,但是聲音中是觀眾的歡呼聲和掌聲,如果模型只能接受視覺(jué)信號(hào),將無(wú)法推測(cè)到觀眾的積極響應(yīng),音頻中并沒(méi)有樂(lè)器的聲音,但畫(huà)面中出現(xiàn)了薩克斯,如果模型僅能接受聽(tīng)覺(jué)信號(hào),也將無(wú)法得知演奏家演奏了薩克斯。

圖片

(2)Video-LLaMA 對(duì)于靜態(tài)圖像也有較強(qiáng)的感知理解能力,可以完成圖片描述,問(wèn)答等任務(wù)。

圖片

(3)令人驚奇的是,Video-LLaMA 能成功識(shí)別著名的地標(biāo)和人物,并能進(jìn)行常識(shí)性問(wèn)答。比如下面 VIdeo-LLaMA 就成功識(shí)別出了白宮,并介紹了白宮的情況。又比如輸入一張龍媽和囧雪的劇照(經(jīng)典影視劇《權(quán)利的游戲》中角色),VIdeo-LLaMA 不僅能夠成功識(shí)別,而且能說(shuō)出他們剪不斷理還亂的關(guān)系。

圖片

圖片

(4)針對(duì)于視頻的動(dòng)態(tài)事件,Video-llama 也能很好捕捉,例如噓聲的動(dòng)作,小船行駛的方向。

圖片

總結(jié)

目前,音頻視頻理解依舊是一個(gè)非常復(fù)雜,尚未有成熟解決方案的研究問(wèn)題,Video-LLaMA 雖然表現(xiàn)出了令人印象深刻的能力,作者也提到了其存在一些局限性。

(1)有限的感知能力:Video-LLaMA 的視覺(jué)聽(tīng)覺(jué)能力仍然較為初級(jí),對(duì)復(fù)雜的視覺(jué)聲音信息依然難以辨認(rèn)。其中一部分原因是數(shù)據(jù)集的質(zhì)量和規(guī)模還不夠好。該研究團(tuán)隊(duì)正在積極構(gòu)建高質(zhì)量的音頻 - 視頻 - 文本對(duì)齊數(shù)據(jù)集,以增強(qiáng)模型的感知能力。

(2)難以處理長(zhǎng)視頻的:長(zhǎng)視頻 (如電影和電視節(jié)目) 包含大量的信息,對(duì)模型的推理能力和計(jì)算資源都較高。

(3)語(yǔ)言模型固有的幻覺(jué)問(wèn)題,在 Video-LLaMA 中依然存在。

總的來(lái)說(shuō),Video-LLaMA 作為一個(gè)具有綜合視聽(tīng)能力的大模型,在音頻視頻理解領(lǐng)域取得了令人印象深刻的效果。隨著研究者的不斷攻堅(jiān),以上挑戰(zhàn)也將逐個(gè)被克服,使得音視頻理解模型具有廣泛的實(shí)用價(jià)值。


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2021-06-22 15:56:24

人工智能深度語(yǔ)言開(kāi)源

2023-08-14 07:20:10

2018-06-07 16:00:28

阿里巴巴語(yǔ)音識(shí)別開(kāi)源

2021-01-13 12:39:46

科技趨勢(shì)電子器件量子霸權(quán)

2024-07-19 13:31:41

2024-02-23 11:27:00

數(shù)據(jù)技術(shù)

2023-01-11 12:48:48

AI研究

2020-12-29 09:36:57

科技趨勢(shì)阿里

2020-01-02 11:19:55

阿里巴巴2020科技趨勢(shì)5G

2022-12-09 14:07:11

框架開(kāi)源

2018-06-07 10:34:22

開(kāi)源DFSMN語(yǔ)音識(shí)別

2023-07-05 09:57:11

2021-12-02 13:43:42

達(dá)摩院AliceMind人工智能

2025-01-20 07:58:51

2023-05-08 10:14:07

模型AI

2023-08-21 10:36:23

2024-04-19 14:52:13

MetaGPT-4模型

2022-07-12 14:45:54

達(dá)摩院模型

2024-03-04 00:00:00

GemmaAI模型

2023-08-04 13:22:46

AI開(kāi)源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)