AI變鑒片大師,星際穿越都能看懂!賈佳亞團(tuán)隊(duì)新作,多模態(tài)大模型挑戰(zhàn)超長(zhǎng)3小時(shí)視頻
啥?AI都能自己看電影大片了?
賈佳亞團(tuán)隊(duì)最新研究成果,讓大模型直接學(xué)會(huì)了處理超長(zhǎng)視頻。
丟給它一部科幻大片《星際穿越》(片長(zhǎng)2小時(shí)49分鐘):
它“看”完之后,不僅能結(jié)合電影情節(jié)和人物輕松對(duì)電影進(jìn)行點(diǎn)評(píng):
還能很精準(zhǔn)地回答出劇中所涉的細(xì)節(jié):
例如:蟲(chóng)洞的作用和創(chuàng)造者是誰(shuí)?
答:未來(lái)的智慧生物放置在土星附近,用于幫助人類(lèi)進(jìn)行遠(yuǎn)距離星際穿越。
男主庫(kù)珀是如何將黑洞中的信息傳遞給女兒墨菲?
答:通過(guò)手表以摩斯號(hào)碼的方式傳遞數(shù)據(jù)。
啊這,感覺(jué)電影博主的飯碗也要被AI搶走了。
這就是最新多模態(tài)大模型LLaMA-VID,它支持單圖、短視頻和長(zhǎng)視頻三種輸入。
對(duì)比來(lái)看,包括GPT-4V等在內(nèi)的同類(lèi)模型基本只能處理圖像。
而背后原理更有看頭。
據(jù)介紹,LLaMA-VID只通過(guò)一個(gè)非常簡(jiǎn)單的辦法就達(dá)成了如上能力,那就是:
把表示每一幀圖像的token數(shù)量,壓縮到僅有2個(gè)。
具體效果如何以及如何實(shí)現(xiàn)?一起來(lái)看。
人物理解分析、電影細(xì)節(jié)都OK
對(duì)于電影來(lái)說(shuō),除了精準(zhǔn)回答所涉細(xì)節(jié),LLaMA-VID也能對(duì)角色進(jìn)行十分準(zhǔn)確的理解和分析。
還是《星際穿越》,我們讓它看完后分析米勒星球上相對(duì)地球時(shí)間的快慢及原因。
結(jié)果完全正確:
LLaMA-VID表示是因?yàn)槊桌招乔蛟诤诙锤浇?,?dǎo)致1小時(shí)相當(dāng)于地球7年。
再丟給它時(shí)長(zhǎng)近倆小時(shí)的《阿甘正傳》。
對(duì)于“珍妮對(duì)于阿甘有何意義?”這一問(wèn)題,LLaMA-VID的回答是:
孩童時(shí)期的朋友,后來(lái)成為阿甘的妻子,是阿甘生活和心靈的慰藉。
對(duì)于阿甘在戰(zhàn)爭(zhēng)及退伍后的事件也能進(jìn)行分析,且回答也很到位:
丹中尉責(zé)怪阿甘救了自己,因?yàn)檫@讓他無(wú)法戰(zhàn)死沙場(chǎng)。
除了看電影,成為一個(gè)無(wú)所不知的的“電影搭子”,它也能很好地理解宣傳片的意圖,回答一些開(kāi)放問(wèn)題。
比如給它一段最近很火的GTA6預(yù)告片。
問(wèn)它“這個(gè)游戲哪里最吸引你?”,它“看”完后給出的想法是:
一是游戲場(chǎng)景和設(shè)置非常多(從賽車(chē)、特技駕駛到射擊等),二是視覺(jué)效果比較驚艷。
哦對(duì)了,LLaMA-VID還能根據(jù)游戲中的場(chǎng)景和特征,推測(cè)出預(yù)告片是Rockstar游戲公司的推廣:
以及認(rèn)出游戲的背景城市為邁阿密(根據(jù)夜生活、海灘等信息,以及在作者提示游戲設(shè)置在佛羅里達(dá)之后)。
最后,在宣傳片、時(shí)長(zhǎng)高達(dá)2-3小時(shí)的電影這些視頻材料之外,我們也來(lái)看看LLaMA-VID對(duì)最基礎(chǔ)的圖片信息的理解能力。
吶,準(zhǔn)確識(shí)別出這是一塊布料,上面有個(gè)洞:
讓它扮演“福爾摩斯”也不在話(huà)下。面對(duì)這樣一張房間內(nèi)景照片:
它可以從門(mén)上掛了很多外套分析出房間主人可能生活繁忙/經(jīng)常外出。
看得出來(lái),LLaMA-VID對(duì)視頻的準(zhǔn)確解讀正是建立在這樣的圖片水準(zhǔn)之上的,但最關(guān)鍵的點(diǎn)還是它如何完成如此長(zhǎng)時(shí)間的視頻處理。
幾行代碼實(shí)現(xiàn)單幀2 token表示
LLaMA-VID的關(guān)鍵創(chuàng)新是將每幀畫(huà)面的token數(shù)量壓縮到很低,從而實(shí)現(xiàn)可處理超長(zhǎng)視頻。
很多傳統(tǒng)多模態(tài)大模型對(duì)于單張圖片編碼的token數(shù)量過(guò)多,導(dǎo)致了視頻時(shí)間加長(zhǎng)后,所需token數(shù)量暴增,模型難以承受。
為此研究團(tuán)隊(duì)重新設(shè)計(jì)了圖像的編碼方式,采用上下文編碼(Context Token)和圖像內(nèi)容編碼(Content Token)來(lái)對(duì)視頻中的單幀進(jìn)行編碼。
從而實(shí)現(xiàn)了將每一幀用2個(gè)token表示。
具體來(lái)看LLaMA-VID的框架。
只包含3個(gè)部分:
- 采用編解碼器產(chǎn)生視覺(jué)嵌入和文本引導(dǎo)特征。
- 根據(jù)特定token生成策略轉(zhuǎn)換上下文token和圖像內(nèi)容token。
- 指令調(diào)優(yōu)進(jìn)一步優(yōu)化。
根據(jù)指令,LLaMA-VID選取單個(gè)圖像或視頻幀作為輸入,然后從大語(yǔ)言模型上生成回答。
這個(gè)過(guò)程從一個(gè)可視編碼器開(kāi)始,該編碼器將輸入幀轉(zhuǎn)換為可視幀嵌入。
然后文本解碼器根據(jù)用戶(hù)輸入和圖像編碼器提取的特征,來(lái)生成與輸入指令相關(guān)的跨模態(tài)索引(Text Query)。
然后利用注意力機(jī)制(Context Attention),將視覺(jué)嵌入中和文本相關(guān)的視覺(jué)線(xiàn)索聚合起來(lái),也就是特征采樣和組合,從而生成高質(zhì)量的指令相關(guān)特征。
為了提高效率,模型將可視化嵌入樣本壓縮到不同token大小,甚至是一個(gè)token。
其中,上下文token根據(jù)用戶(hù)輸入的問(wèn)題生成,盡可能保留和用戶(hù)問(wèn)題相關(guān)的視覺(jué)特征。
圖像內(nèi)容token則直接根據(jù)用戶(hù)指令對(duì)圖像特征進(jìn)行池化采樣,更關(guān)注圖像本身的內(nèi)容信息,對(duì)上下文token未關(guān)注到的部分進(jìn)行補(bǔ)充。
文本引導(dǎo)上下文token和圖像token來(lái)一起表示每一幀。
最后,大語(yǔ)言模型將用戶(hù)指令和所有視覺(jué)token作為輸入,生成回答。
而且這種token的生成方法很簡(jiǎn)單,僅需幾行代碼。
實(shí)驗(yàn)結(jié)果方面,LLaMA-VID在多個(gè)視頻問(wèn)答和推理榜單上實(shí)現(xiàn)SOTA。
僅需加入1個(gè)上下文token拓展,LLaMA-VID在多個(gè)圖片問(wèn)答指標(biāo)上也能獲得顯著提升。
在16個(gè)視頻、圖片理解及推理數(shù)據(jù)集上,LLaMA-VID實(shí)現(xiàn)了很好效果。
在GitHub上,團(tuán)隊(duì)提供了不同階段的所有微調(diào)模型,以及第一階段的預(yù)訓(xùn)練權(quán)重。
具體訓(xùn)練包括3個(gè)過(guò)程:特征對(duì)齊、指令微調(diào)、長(zhǎng)視頻微調(diào)(相應(yīng)步驟可參考GitHub)。
此外,LLaMA-VID還收集了400部電影并生成9K條長(zhǎng)視頻問(wèn)答語(yǔ)料,包含電影影評(píng)、人物成長(zhǎng)及情節(jié)推理等。
結(jié)合之前賈佳亞團(tuán)隊(duì)所發(fā)布的長(zhǎng)文本數(shù)據(jù)集LongAlpaca-12k(9k條長(zhǎng)文本問(wèn)答語(yǔ)料對(duì)、3k短文本問(wèn)答語(yǔ)料對(duì)), 可輕松將現(xiàn)有多模態(tài)模型拓展來(lái)支持長(zhǎng)視頻輸入。
值得一提的是,今年8月開(kāi)始賈佳亞團(tuán)隊(duì)就發(fā)布了主攻推理分割的LISA多模態(tài)大模型。
10月還發(fā)布了長(zhǎng)文本開(kāi)源大語(yǔ)言模型LongAlpaca(70億參數(shù))和超長(zhǎng)文本擴(kuò)展方法LongLoRA。
LongLoRA只需兩行代碼便可將7B模型的文本長(zhǎng)度拓展到100k tokens,70B模型的文本長(zhǎng)度拓展到32k tokens。
最后,團(tuán)隊(duì)也提供了demo地址,可自己上傳視頻和LLaMA-VID對(duì)話(huà)(部署在單塊3090,需要的小伙伴可以參考code用更大的顯存部署,直接和整個(gè)電影對(duì)話(huà))。
看來(lái),以后看不懂諾蘭電影,可以請(qǐng)教AI試
論文地址:https://arxiv.org/abs/2311.17043
GitHub地址:https://github.com/dvlab-research/LLaMA-VID
demo地址:http://103.170.5.190:7864/