自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌AI視頻再出王炸!全能通用視覺(jué)編碼器VideoPrism,性能刷新30項(xiàng)SOTA

人工智能
谷歌團(tuán)隊(duì)推出「通用視覺(jué)編碼器」VideoPrism,在3600萬(wàn)高質(zhì)量視頻字幕對(duì)和5.82億個(gè)視頻剪輯的數(shù)據(jù)集上完成了訓(xùn)練,性能刷新30項(xiàng)SOTA。

AI視頻模型Sora爆火之后,Meta、谷歌等大廠紛紛下場(chǎng)做研究,追趕OpenAI的步伐。

最近,來(lái)自谷歌團(tuán)隊(duì)的研究人員提出了一種通用視頻編碼器——VideoPrism。

它能夠通過(guò)單一凍結(jié)模型,處理各種視頻理解任務(wù)。

圖片圖片

論文地址:https://arxiv.org/pdf/2402.13217.pdf

比如,VideoPrism能夠?qū)⑾旅嬉曨l中吹蠟燭的人分類(lèi)、定位出來(lái)。

圖片圖片

視頻-文本檢索,根據(jù)文本內(nèi)容,可以檢索出視頻中相應(yīng)的內(nèi)容。

圖片圖片

再比如,描述下面視頻——一個(gè)小女孩正在玩積木。

還可以進(jìn)行QA問(wèn)答。

- 她放在綠色積木塊上方積木的是什么顏色?

- 紫色。

圖片圖片

研究人員在一個(gè)異構(gòu)語(yǔ)料庫(kù)對(duì)VideoPrism進(jìn)行了預(yù)訓(xùn)練,包含3600萬(wàn)高質(zhì)量視頻字幕對(duì)和5.82億個(gè)視頻剪輯,并帶有噪聲并行文本(如ASR轉(zhuǎn)錄文本)。

值得一提的是,VideoPrism在33項(xiàng)視頻理解基準(zhǔn)測(cè)試中,刷新了30項(xiàng)SOTA。

圖片圖片

通用視覺(jué)編碼器VideoPrism

當(dāng)前,視頻基礎(chǔ)模型(ViFM)有巨大的潛力,可以在龐大的語(yǔ)料庫(kù)中解鎖新的能力。

雖然之前的研究在一般視頻理解方面取得了很大進(jìn)展,但構(gòu)建真正的「基礎(chǔ)視頻模型」仍然是一個(gè)難以實(shí)現(xiàn)的目標(biāo)。

對(duì)此,谷歌推出了一種通用視覺(jué)編碼器——VideoPrism,旨在解決廣泛的視頻理解任務(wù),包括分類(lèi)、本地化、檢索、字幕和問(wèn)答(QA)。

VideoPrism對(duì)CV數(shù)據(jù)集,以及神經(jīng)科學(xué)和生態(tài)學(xué)等科學(xué)領(lǐng)域的CV任務(wù)進(jìn)行了廣泛評(píng)估。

通過(guò)使用單一凍結(jié)模型,以最小的適應(yīng)度實(shí)現(xiàn)了最先進(jìn)的性能。

另外,谷歌研究人員稱(chēng),這種凍結(jié)編碼器設(shè)置同時(shí)遵循先前研究,并考慮了其實(shí)際實(shí)用性,以及高計(jì)算和微調(diào)視頻模型的成本。

圖片圖片

設(shè)計(jì)架構(gòu),兩階段訓(xùn)練法

VideoPrism背后的設(shè)計(jì)理念如下。

預(yù)訓(xùn)練數(shù)據(jù)是基礎(chǔ)模型(FM)的基礎(chǔ),ViFM的理想預(yù)訓(xùn)練數(shù)據(jù),是世界上所有視頻的代表性樣本。

這個(gè)樣本中,大多數(shù)視頻都沒(méi)有描述內(nèi)容的并行文本。

然而,如果訓(xùn)在這樣的文本,它就能提供有關(guān)視頻空間的無(wú)價(jià)語(yǔ)義線索。

因此,谷歌的預(yù)訓(xùn)練策略應(yīng)主要關(guān)注視頻模式,同時(shí)充分利用任何可用的視頻文本對(duì)。

在數(shù)據(jù)方面,谷歌研究人員通過(guò)匯集3600萬(wàn)高質(zhì)量視頻字幕對(duì),以及5.82億視頻剪輯與噪聲并行文本(如ASR轉(zhuǎn)錄、生成的字幕和檢索到的文本)來(lái)近似建立所需的預(yù)訓(xùn)練語(yǔ)料庫(kù)。

圖片圖片

圖片圖片

在建模方面,作者首先從所有不同質(zhì)量的視頻-文本對(duì)中對(duì)比學(xué)習(xí)語(yǔ)義視頻嵌入。

隨后,利用廣泛的純視頻數(shù)據(jù),對(duì)語(yǔ)義嵌入進(jìn)行全局和標(biāo)記提煉,改進(jìn)了下文所述的掩碼視頻建模。

盡管在自然語(yǔ)言方面取得了成功,但由于原始視覺(jué)信號(hào)缺乏語(yǔ)義,掩碼數(shù)據(jù)建模對(duì)于CV來(lái)說(shuō)仍然具有挑戰(zhàn)性。

現(xiàn)有研究通過(guò)借用間接語(yǔ)義(如使用CLIP引導(dǎo)模型或分詞器,或隱含語(yǔ)義來(lái)應(yīng)對(duì)這一挑戰(zhàn))或隱性推廣它們(比如標(biāo)記視覺(jué)patches),將高掩碼率和輕量級(jí)解碼器結(jié)合。

在上述想法的基礎(chǔ)上,谷歌團(tuán)隊(duì)根據(jù)預(yù)訓(xùn)練數(shù)據(jù)采用了兩階段方法。

圖片圖片

在第一階段,進(jìn)行對(duì)比學(xué)習(xí),使用所有視頻文本對(duì),將視頻編碼器與文本編碼器對(duì)齊。

根據(jù)先前的研究,谷歌團(tuán)隊(duì)最小化批中所有視頻文本對(duì)的相似性得分,進(jìn)行對(duì)稱(chēng)交叉熵?fù)p失最小化。

并使用 CoCa 的圖像模型初始化空間編碼模塊,并將WebLI納入到預(yù)訓(xùn)練中。

在計(jì)算損失之前,視頻編碼器的特征會(huì)通過(guò)多頭注意力匯集池(MAP)進(jìn)行聚合。

這一階段允許視頻編碼器從語(yǔ)言監(jiān)督中學(xué)習(xí)豐富的視覺(jué)語(yǔ)義,由此產(chǎn)生的模型為第二階段訓(xùn)練提供語(yǔ)義視頻嵌入。

圖片圖片

第二階段,繼續(xù)訓(xùn)練編碼器,并進(jìn)行了兩項(xiàng)改進(jìn):

- 模型需要根據(jù)未掩碼的輸入視頻patches,來(lái)預(yù)測(cè)第一階段的視頻級(jí)全局嵌入和token式嵌入

- 編碼器的輸出token在傳給解碼器之前,要進(jìn)行隨機(jī)洗牌,以避免學(xué)習(xí)捷徑。

值得注意的是,研究人員的預(yù)訓(xùn)練利用了兩個(gè)監(jiān)督信號(hào):視頻的文本描述,以及上下文自監(jiān)督,使VideoPrism能夠在以外觀和動(dòng)作為中心的任務(wù)上表現(xiàn)出色。

事實(shí)上,之前的研究表明,視頻字幕主要揭示外觀線索,而上下文我監(jiān)督有助于學(xué)習(xí)動(dòng)作。

圖片圖片

實(shí)驗(yàn)結(jié)果

接下來(lái),研究人員在廣泛的以視頻為中心的理解任務(wù)上評(píng)估VideoPrism,展現(xiàn)其能力和通用性。

主要分為以下四類(lèi):

(1) 一般僅視頻理解,包括分類(lèi)和時(shí)空定位

(2) 零樣本視頻文本檢索

(3) 零樣本視頻字幕和質(zhì)量檢查

(4) 科學(xué)領(lǐng)域的CV任務(wù)

分類(lèi)和時(shí)空定位

表2顯示了VideoGLUE上的凍結(jié)骨干的結(jié)果。

在所有數(shù)據(jù)集上,VideoPrism都大幅優(yōu)于基線。此外,將VideoPrism的底層模型大小從ViT-B增加到ViT-g可以顯著提高性能。

值得注意的是,沒(méi)有基線方法能在所有基準(zhǔn)測(cè)試中取得第二好的成績(jī),這表明以前的方法可能是針對(duì)視頻理解的某些方面而開(kāi)發(fā)的。

而VideoPrism在這一廣泛的任務(wù)上持續(xù)改進(jìn)。

這一結(jié)果表明,VideoPrism將各種視頻信號(hào)整合到了一個(gè)編碼器中:多種粒度的語(yǔ)義、外觀與運(yùn)動(dòng)線索、時(shí)空信息以及對(duì)不同視頻源(如網(wǎng)絡(luò)視頻與腳本表演)的魯棒性。

圖片圖片

零樣本視頻文本檢索和分類(lèi)

表3和表4分別總結(jié)了視頻文本檢索和視頻分類(lèi)的結(jié)果。

VideoPrism的性能刷新多項(xiàng)基準(zhǔn),而且在具有挑戰(zhàn)性的數(shù)據(jù)集上,VideoPrism 與之前的技術(shù)相比取得了非常顯著的進(jìn)步。

圖片圖片

基礎(chǔ)模型VideoPrism-B 的大多數(shù)結(jié)果,實(shí)際上優(yōu)于現(xiàn)有的更大規(guī)模模型。

此外,VideoPrism與表4中使用域內(nèi)數(shù)據(jù)和額外模態(tài)(例如音頻)預(yù)訓(xùn)練的模型相當(dāng),甚至更好。這些在零樣本檢索和分類(lèi)任務(wù)中的改進(jìn)體現(xiàn)了VideoPrism強(qiáng)大的泛化能力。

圖片圖片

零樣本視頻字幕和質(zhì)量檢查

表5和表6分別顯示了,零樣本視頻字幕和QA的結(jié)果。

盡管模型架構(gòu)簡(jiǎn)單且適配器參數(shù)數(shù)量較少,但最新模型仍具有競(jìng)爭(zhēng)力,除VATEX外,在凍結(jié)視覺(jué)和語(yǔ)言模型的方法中名列前茅。

結(jié)果表明,VideoPrism編碼器能夠很好地推廣到視頻到語(yǔ)言的生成任務(wù)。

圖片圖片

科學(xué)領(lǐng)域的CV任務(wù)

通用ViFM在所有評(píng)估中使用共享的凍結(jié)編碼器,其性能與專(zhuān)門(mén)用于單個(gè)任務(wù)的特定領(lǐng)域模型相媲美。

尤其是,VideoPrism通常表現(xiàn)最好,并超越了具有基本規(guī)模模型的領(lǐng)域?qū)<夷P汀?/p>

擴(kuò)展到大規(guī)模模型可以進(jìn)一步提高所有數(shù)據(jù)集的性能。這些結(jié)果表明ViFM有潛力顯著加速不同領(lǐng)域的視頻分析。

圖片

消融研究

圖4顯示了消融結(jié)果。值得注意的是,VideoPrism在SSv2上的持續(xù)改進(jìn)表明,數(shù)據(jù)管理和模型設(shè)計(jì)工作在促進(jìn)視頻中的運(yùn)動(dòng)理解方面的有效性。

盡管對(duì)比基線已經(jīng)在K400上取得了有競(jìng)爭(zhēng)力的結(jié)果,但所提出的全局蒸餾和token洗牌進(jìn)一步提高了準(zhǔn)確性。

圖片圖片

參考資料:

https://arxiv.org/pdf/2402.13217.pdf

https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-07-16 13:18:36

2024-12-18 14:50:00

AI訓(xùn)練數(shù)據(jù)

2025-04-28 02:03:00

多模態(tài)大模型EVEv2

2023-05-06 08:23:36

ChatGPT自然語(yǔ)言技術(shù)

2021-11-02 20:44:47

數(shù)字化

2024-12-18 18:57:58

2023-06-25 10:01:29

2023-03-03 15:40:43

抖音視頻編碼器

2024-11-27 14:00:00

模型訓(xùn)練

2023-10-07 09:29:09

2013-06-13 10:43:30

安訊士視頻會(huì)議

2025-04-07 04:30:00

2021-03-29 11:37:50

人工智能深度學(xué)習(xí)

2021-03-22 10:52:13

人工智能深度學(xué)習(xí)自編碼器

2020-10-23 14:05:39

AI 服務(wù)器測(cè)試

2024-12-11 13:50:00

AI圖像生成

2025-04-17 14:11:10

視覺(jué)AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)