微軟用GPT-4V解讀視頻,看懂電影還能講給盲人聽,1小時(shí)不是問題
世界各地的人們每天都會(huì)創(chuàng)造大量視頻,包括用戶直播的內(nèi)容、短視頻、電影、體育比賽、廣告等等。
視頻是一種多功能媒介,可以通過文本、視覺和音頻等多種模態(tài)傳遞信息和內(nèi)容。如果可以開發(fā)出能學(xué)習(xí)多模態(tài)數(shù)據(jù)的方法,就能幫助人們?cè)O(shè)計(jì)出具備強(qiáng)大能力的認(rèn)知機(jī)器 —— 它不會(huì)受限于經(jīng)過人工調(diào)整的數(shù)據(jù)集,而是可以分析原生態(tài)的真實(shí)世界視頻。但是,在研究視頻理解時(shí),多模態(tài)這種豐富的表征會(huì)帶來諸多挑戰(zhàn),尤其是當(dāng)視頻較長(zhǎng)時(shí)。
理解長(zhǎng)視頻是很復(fù)雜的任務(wù),需要能分析多個(gè)片段的圖像和音頻序列的先進(jìn)方法。不僅如此,另一大挑戰(zhàn)是提取不同來源的信息,比如分辨不同的說話人、識(shí)別人物以及保持?jǐn)⑹鲞B貫性。此外,基于視頻中的證據(jù)回答問題也需要深入理解視頻的內(nèi)容、語(yǔ)境和字幕。當(dāng)分析的是直播或游戲視頻時(shí),還存在實(shí)時(shí)處理動(dòng)態(tài)環(huán)境的難題,這需要語(yǔ)義理解和長(zhǎng)期策略規(guī)劃能力。
近段時(shí)間,大型預(yù)訓(xùn)練視頻模型和視頻 - 語(yǔ)言模型帶來了巨大進(jìn)步,它們?cè)谝曨l內(nèi)容上的推理能力已經(jīng)顯現(xiàn)。但是,這些模型通常是用短視頻片段訓(xùn)練的(比如 Kinetics 和 VATEX 中的 10 秒視頻)或預(yù)定義了動(dòng)作類別(Something-Something v1 有 174 類)。由此造成的后果是,這些模型可能難以詳細(xì)理解真實(shí)世界視頻的復(fù)雜微妙。
為了讓模型能更全面地理解我們?nèi)粘I钪杏龅降囊曨l,我們需要能解決這些復(fù)雜挑戰(zhàn)的方法。
近日,微軟 Azure AI 為這些問題給出了自己的解答:MM-Vid。該團(tuán)隊(duì)表示這種技術(shù)可以直接用于理解真實(shí)世界視頻。簡(jiǎn)單來說,他們的方法涉及將長(zhǎng)視頻分解成連貫敘述,然后再利用這些生成的故事來分析視頻。
- 論文地址:https://arxiv.org/pdf/2310.19773.pdf
- 項(xiàng)目地址:https://multimodal-vid.github.io/
MM-Vid 是近來處于 AI 社區(qū)關(guān)注中心的大型多模態(tài)模型(LMM)的新成員;而 LMM 中最具代表性的 GPT-4V 已經(jīng)展現(xiàn)出了突破性的能力 —— 可以同時(shí)處理輸入的圖像和文本,執(zhí)行多模態(tài)理解。為了實(shí)現(xiàn)視頻理解,MM-Vid 將 GPT-4V 與一些專用工具集成到了一起,實(shí)驗(yàn)結(jié)果也證明了這種方法的有效性。圖 1 展示了 MM-Vid 能夠?qū)崿F(xiàn)的多種能力。
MM-Vid 方法介紹
圖 2 展示了 MM-Vid 系統(tǒng)的工作流程。MM-Vid 以視頻文件為輸入,輸出一個(gè)描述該視頻內(nèi)容的腳本。這種生成的腳本讓 LLM 可以實(shí)現(xiàn)多種視頻理解能力。
MM-Vid 包含四個(gè)模塊:多模態(tài)預(yù)處理、外部知識(shí)收集、視頻片段層面的視頻描述生成、腳本生成。
多模態(tài)預(yù)處理。對(duì)于輸入的視頻文件,預(yù)處理模塊首先使用已有的 ASR 工具從視頻中提取出轉(zhuǎn)錄文本。之后,將視頻切分成多個(gè)短視頻片段。此過程需要對(duì)視頻幀進(jìn)行均勻采樣,使得每個(gè)片段由 10 幀組成。為了提升幀采樣的整體質(zhì)量,研究者使用了 PySceneDetect 等成熟的場(chǎng)景檢測(cè)工具來幫助識(shí)別關(guān)鍵的場(chǎng)景邊界。
外部知識(shí)收集。在 GPT-4V 的輸入 prompt 中,研究者采用了集成外部知識(shí)的方法。該方法涉及收集可用的信息,比如視頻的元數(shù)據(jù)、標(biāo)題、摘要和人物面部照片。在實(shí)驗(yàn)中,研究者收集的元數(shù)據(jù)、標(biāo)題和摘要來自 YouTube。
片段層面的視頻描述生成。在多模態(tài)預(yù)處理階段,輸入視頻會(huì)被切分為多個(gè)視頻片段。每個(gè)片段通常包含 10 幀,研究者的做法是使用 GPT-4V 來為每個(gè)片段生成視頻描述。通過將視頻幀與相關(guān)的文本 prompt 一起輸入到 GPT-4V 模型,便能得到捕獲了這些幀中描繪的視覺元素、動(dòng)作和事件的詳細(xì)描述。
此外,研究者還探索了視覺 prompt 設(shè)計(jì),即在 GPT-4V 的輸入中不僅提供人物的名字,還提供人物的面部照片。實(shí)驗(yàn)結(jié)果表明這種視覺 prompt 設(shè)計(jì)有助于提升視頻描述的質(zhì)量,尤其有助于更準(zhǔn)確地識(shí)別人物。
使用 LLM 生成腳本。在為每個(gè)視頻片段生成描述之后,再使用 GPT-4 將這些片段層面的描述整合成一個(gè)連貫的腳本。該腳本是對(duì)整個(gè)視頻的全面描述,可被 GPT-4 用于解決各種視頻理解任務(wù)。
用于流輸入的 MM-Vid
圖 3 展示了用于流輸入的 MM-Vid。
在這種情況下,MM-Vid 的運(yùn)作模式是作為動(dòng)態(tài)環(huán)境中的一個(gè)智能體(agent),其主要輸入為流視頻幀。該智能體會(huì)將持續(xù)輸入的流視頻幀視為狀態(tài),其代表了在該環(huán)境中不斷揭示的持續(xù)性視覺信息。然后再由 GPT-4V 處理這些狀態(tài),從而得到有信息依據(jù)的決策并生成響應(yīng)。
通過持續(xù)分析流視頻幀,MM-Vid 可將原始視覺數(shù)據(jù)轉(zhuǎn)換成有意義的見解,進(jìn)而為視頻游戲、具身智能體和 GUI 引導(dǎo)等應(yīng)用提供有價(jià)值的幫助。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
該團(tuán)隊(duì)實(shí)現(xiàn)的 MM-Vid 基于 MM-React 代碼庫(kù)。他們使用的自動(dòng)語(yǔ)音識(shí)別(ASR)工具是通過 Azure Cognitive Services API 使用的公開可用工具,場(chǎng)景檢測(cè)則是使用了 PySceneDetect。
MM-Vid 的功能
研究者在論文中展示了多個(gè) MM-Vid 完整執(zhí)行流程的示例。
下面是一個(gè) MM-Vid 執(zhí)行流程示例。
經(jīng)過這些流程后,MM-Vid 生成的腳本總結(jié)了對(duì)視頻內(nèi)容的理解。從而讓后續(xù) LLM 可以基于此處理具體的任務(wù)。研究者討論過的具體任務(wù)包括:有根據(jù)的問答、多模態(tài)推理、理解長(zhǎng)達(dá)一小時(shí)的視頻、多視頻情景分析、人物識(shí)別、說話人識(shí)別、音頻描述生成、自我調(diào)優(yōu)、快速變化的短視頻。具體詳情請(qǐng)參閱原論文,但總體而言,MM-Vid 都展現(xiàn)出了很不錯(cuò)的效果。
下面是一個(gè)說話人識(shí)別的示例。
應(yīng)用于交互式環(huán)境
研究者也評(píng)估了 MM-Vid 應(yīng)用于流輸入時(shí)的情況。MM-Vid 可作為交互式環(huán)境中的智能體,持續(xù)接收流視頻幀輸入。
具身智能體。下圖展示了將 MM-Vid 應(yīng)用于一段頭戴式相機(jī)拍攝的第一人稱視頻的情況。這段視頻來自 Ego4D 數(shù)據(jù)集,簡(jiǎn)單展示了拍攝者在家居環(huán)境中的日常生活。值得注意的是,MM-Vid 理解這種視頻內(nèi)容的能力得到了體現(xiàn),并且還能輔助用戶完成一些實(shí)際任務(wù)。
玩視頻游戲。下面的視頻示例是將 MM-Vid 用于視頻游戲《超級(jí)瑪麗》。實(shí)驗(yàn)中,智能體會(huì)持續(xù)地以三幀視頻作為輸入的狀態(tài),然后計(jì)算下一個(gè)可能的控制動(dòng)作。結(jié)果表明,這個(gè)智能體能夠理解這種特定的視頻游戲動(dòng)態(tài),并能生成可以有效玩游戲的合理動(dòng)作控制。
GUI 導(dǎo)引。下圖給出了一個(gè)示例。這里,智能體持續(xù)接收的輸入是 iPhone 屏幕截圖和之前的用戶動(dòng)作。結(jié)果發(fā)現(xiàn),該智能體可以有效預(yù)測(cè)用戶使用手機(jī)時(shí)的下一步可能動(dòng)作,比如點(diǎn)擊正確的購(gòu)物應(yīng)用,然后搜索感興趣的商品,最后下單購(gòu)買。這些結(jié)果表明 MM-Vid 能與圖形用戶界面進(jìn)行有效的交互,能通過數(shù)字接口實(shí)現(xiàn)無縫且智能化的用戶導(dǎo)引。
用戶研究
研究者探索 MM-Vid 幫助盲人或弱視者的潛力。音頻描述(AD)能在視頻的音軌中增加音頻敘述,這能提供主視頻音軌中沒有提供的重要視覺詳情。這樣的描述能為視覺障礙人士傳達(dá)關(guān)鍵的視覺內(nèi)容。
為了評(píng)估 MM-Vid 在生成音頻描述方面的有效性,研究者進(jìn)行了一場(chǎng)用戶研究。他們邀請(qǐng)了 9 位參與者參與評(píng)估。其中 4 位參與者失明或視力低下,其余 5 名視力正常。所有參與者聽力都正常。
下面的視頻是 MM-Vid 的音頻描述應(yīng)用示例:
結(jié)果如圖 5 所示,對(duì)于以李克特量表計(jì)量的參與者總體滿意度(0 = 不滿意到 10 = 非常滿意),MM-Vid 生成的音頻描述平均比人工給出的音頻描述低 2 分。
在聽 MM-Vid 生成的音頻描述時(shí),參與者提出的困難包括:1)音頻描述與原始視頻中的對(duì)話偶爾重疊,2)由于 GPT-4V 的幻覺問題而出現(xiàn)錯(cuò)誤描述。盡管總體滿意度有差異,但所有參與者都認(rèn)同這一點(diǎn):MM-Vid 生成的音頻描述是一種成本高效且可擴(kuò)展的解決方案。因此,對(duì)于無法被專業(yè)人士描述成音頻的大量視頻來說,就可以使用 MM-Vid 這樣的工具來處理它們,從而造福視覺障礙社區(qū)。