自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕

發(fā)布于 2024-4-7 11:54
瀏覽
0收藏

幾天前,OpenAI官方賬號(hào)發(fā)布了第一支由Sora制作的MV——Worldweight,引全網(wǎng)圍觀。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

AI視頻,已然成為多模態(tài)LLM發(fā)展的大趨勢(shì)。


然而,除了視頻生成,讓LLM對(duì)復(fù)雜視頻進(jìn)行理解,也至關(guān)重要。


最近,來(lái)自KAUST和哈佛大學(xué)的研究人員提出了MiniGPT4-Video——專(zhuān)為視頻理解而設(shè)計(jì)的多模態(tài)大模型。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

論文地址:??https://arxiv.org/pdf/2404.03413.pdf??


值得一提的是,MiniGPT4-Video能夠同時(shí)處理時(shí)態(tài)視覺(jué)數(shù)據(jù)和文本數(shù)據(jù),因此善于理解視頻的復(fù)雜性。


比如,上傳一個(gè)寶格麗的首飾宣傳視頻。


MiniGPT4-Video能夠?yàn)槠渑涑鰳?biāo)題,宣傳語(yǔ)。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

再比如,使用虛幻引擎制作的視頻,新模型可以對(duì)其進(jìn)行理解。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

能看出這個(gè)視頻使用了后期處理和特效,而不是實(shí)際拍攝出來(lái)的。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

甚至,看過(guò)一簇簇花盛開(kāi)的視頻,MiniGPT4-video即興作出了超美的抒情詩(shī)。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

基于MiniGPT-v2,MiniGPT4-video將其能力擴(kuò)展到處理幀序列,以便理解視頻。


MiniGPT4-video不僅考慮了視覺(jué)內(nèi)容,還納入了文本對(duì)話(huà),使該模型能夠有效地回答涉及視覺(jué)和文本內(nèi)容的查詢(xún)。


實(shí)驗(yàn)結(jié)果顯示,新方法在MSVD、MSRVTT、TGIF和TVQA基準(zhǔn)上分別提高了4.22%、1.13%、20.82%和13.1%。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

接下來(lái),一起看看MiniGPT4-video還能做什么?

更多演示

上傳一個(gè)寶寶戴眼鏡看書(shū)的視頻后,MiniGPT4-video可以理解搞笑點(diǎn)在哪里。


提取視頻中核心要義,也不在話(huà)下。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

你還可以讓MiniGPT4-Video生成一個(gè)創(chuàng)意性的廣告。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

解說(shuō)視頻也是超級(jí)厲害。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

MiniGPT4-Video能能夠擁有如此強(qiáng)大視頻解讀能力,究竟是怎么做到的?

技術(shù)介紹

MiniGPT-v2通過(guò)將視覺(jué)特征轉(zhuǎn)化為L(zhǎng)LM空間,從而實(shí)現(xiàn)了對(duì)單幅圖像的理解。


他的結(jié)構(gòu)如下圖2所示,由于LLM上下文窗口的限制,每段視頻都要進(jìn)行幀子采樣,幀數(shù)(N)由LLM的上下文窗口決定。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

隨后,使用預(yù)先訓(xùn)練好的模型EVA-CLIP,將視覺(jué)幀與文本描述對(duì)齊,然后使用線(xiàn)性層將其映射到大型語(yǔ)言模型空間。


與MiniGPT-v2類(lèi)似,研究人員將每幅圖像中每四個(gè)相鄰的視覺(jué)token濃縮為一個(gè)token,從而將每幅圖像的token數(shù)減少了 75%,從256個(gè)減少到64個(gè)。


在訓(xùn)練過(guò)程中,研究人員會(huì)隨數(shù)據(jù)集提供字幕,但在推理過(guò)程中或視頻沒(méi)有字幕時(shí),研究人員會(huì)利用語(yǔ)音到文本模型(如 whisper)生成視頻字幕。


幀字幕使用LLM tokenizer進(jìn)行token化,將每個(gè)采樣幀的視覺(jué)token和文本token進(jìn)行連接。指令token被附加到輸入序列的末尾,然后模型輸出問(wèn)題的答案。

訓(xùn)練流程

大規(guī)模圖像-文本對(duì)預(yù)訓(xùn)練

?

在第一階段,研究人員訓(xùn)練了一個(gè)線(xiàn)性層。


它將由視覺(jué)編碼器編碼的視覺(jué)特征(例如 EVACLIP )投影到LLM的文本空間中,并采用captioning loss。


研究人員利用了一個(gè)結(jié)合的圖像描述數(shù)據(jù)集,包括來(lái)自L(fǎng)AION、概念性標(biāo)題(Conceptual Captions)和SBU的圖像,以將視覺(jué)特征與LLM的輸入空間對(duì)齊。


大規(guī)模視頻-文本對(duì)預(yù)訓(xùn)練

?

在第二階段,研究人員使模型通過(guò)輸入多幀來(lái)理解視頻。


具體來(lái)說(shuō),研究人員從每個(gè)視頻中抽取最多N幀。在此階段,研究人員使用以下模板中的預(yù)定義提示:

<s>[INST]<Img><FrameFeature_1><Sub><Subtitle text_1>... <Img> <FrameFeature_N><Sub><Subtitle text_N><Instruction></INST>

抽取的幀數(shù)取決于每個(gè)語(yǔ)言模型的上下文窗口,特別是對(duì)于Llama 2,上下文窗口是4096個(gè)tokens,而Mistral的上下文窗口是8192個(gè)tokens。


在研究人員的方法中,他們用了64個(gè)tokens表示每個(gè)圖像。


因此,對(duì)于Llama 2,研究人員指定N=45幀,相當(dāng)于2880個(gè)tokens用于視覺(jué)內(nèi)容表示。

此外,研究人員為字幕分配1000個(gè)tokens,而剩余的tokens用于模型輸出。


類(lèi)似地,在Mistral的情況下,上下文窗口加倍,N相應(yīng)地加倍到N=90幀,以確保與擴(kuò)展的上下文窗口兼容。


在此提示中,每個(gè)<FrameFeature>都由視覺(jué)主干編碼的采樣視頻幀替換。


<Subtitle text>代表相應(yīng)幀的字幕,<Instruction>代表研究人員預(yù)定義的指令集中隨機(jī)采樣的指令,包含多種形式的指令,如「簡(jiǎn)要描述這些視頻」。


研究人員使用結(jié)合了CMD和WebVid的視頻描述數(shù)據(jù)進(jìn)行大規(guī)模視頻描述訓(xùn)練。


視頻問(wèn)題解答指令微調(diào)

?

在這一階段,研究人員采用與第二階段相同的訓(xùn)練策略,但重點(diǎn)是利用高質(zhì)量的視頻答題數(shù)據(jù)集進(jìn)行教學(xué)微調(diào)。


這一微調(diào)階段有助于提高模型解釋輸入視頻和生成精確回復(fù)的能力。


解釋輸入視頻并生成相應(yīng)的問(wèn)題。模板與第二階段模板與第二階段的模板相同,但將 <Instruction> 替換為Video-ChatGPT數(shù)據(jù)集中提到的一般問(wèn)題。

實(shí)現(xiàn)細(xì)節(jié)

在三個(gè)訓(xùn)練階段中,研究人員保持批大小為4,并使用AdamW優(yōu)化器結(jié)合余弦學(xué)習(xí)率調(diào)度器,將學(xué)習(xí)率設(shè)置為1e4。


研究人員的視覺(jué)主干是EVA-CLIP,進(jìn)行了權(quán)重凍結(jié)。


值得注意的是,研究人員訓(xùn)練了線(xiàn)性投影層,并使用LoRA對(duì)語(yǔ)言模型進(jìn)行了高效微調(diào)。


具體來(lái)說(shuō),研究人員微調(diào)了Wq和Wv組件,排名(r)為64,LoRA-alpha值為16。整個(gè)模型以一致的224×224像素的圖像分辨率進(jìn)行訓(xùn)練,確保了所有階段的統(tǒng)一性。

多項(xiàng)基準(zhǔn),刷新SOTA

為了對(duì)最新提出的架構(gòu)進(jìn)行全面評(píng)估,研究人員評(píng)估了三種基準(zhǔn)類(lèi)型的性能:Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。


表1所示的VideoChatGPT基準(zhǔn)測(cè)試中,最新模型在沒(méi)有字幕的情況下與之前的方法不相上下。


當(dāng)研究人員將字幕作為輸入時(shí),模型在所有五個(gè)維度上都取得了SOTA。


這驗(yàn)證了研究人員的模型可以利用字幕信息,來(lái)提高視頻的理解。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

在另外兩個(gè)基準(zhǔn)測(cè)試評(píng)估中,MiniGPT4-Video明顯優(yōu)于最新的SOTA方法。


它在MSVD、MSRVTT、TGIF和TVQA基準(zhǔn)上分別實(shí)現(xiàn)了4.22%、1.13%、20.82%和13.1%的顯著改進(jìn)。


帶字幕和不帶字幕的結(jié)果進(jìn)一步表明,將字幕信息與視覺(jué)提示集成可顯著提高性能,TVQA的準(zhǔn)確率從33.9%提高到54.21%。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

定性結(jié)果

更多的定性結(jié)果,如下圖所示。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

最后,研究人員還將MiniGPT4-video與VideoChatGPT相比較。


可以看出,針對(duì)一個(gè)問(wèn)題,最新方法的回復(fù)更加全面。

AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕-AI.x社區(qū)

總之,MiniGPT4-video有效地融合了視頻領(lǐng)域內(nèi)的視覺(jué)和對(duì)話(huà)理解,為視頻問(wèn)答提供了一個(gè) 引人注目的解決方案。


不過(guò),缺陷在于上下文窗口限制。


具體來(lái)說(shuō),當(dāng)前版本要求Llama 2視頻長(zhǎng)度為45幀(不到一分半),Mistral版本的視頻長(zhǎng)度為90幀(不到三分鐘)。


因此,下一步研究將模型能力擴(kuò)展到處理更長(zhǎng)視頻的能力。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/Y8w6CqTvm7zVQMOmTuxePA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦