自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="i0ul9"></sub>

<blockquote id="i0ul9"><p id="i0ul9"></p></blockquote>

<blockquote id="i0ul9"><i id="i0ul9"><video id="i0ul9"></video></i></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

開源視頻版GPT-4o？快速記憶，實時問答，拿下CVPR'24長視頻問答競賽冠軍

作者：機器之心 2024-07-08 08:25:00

人工智能新聞開源

大模型產(chǎn)業(yè)發(fā)展，需要可信中立的數(shù)據(jù)深加工平臺，如何填補空白？

張顥繼：清華大學(xué)本科生，師從唐彥嵩老師，主要研究方向為視頻理解。
王逸欽：清華大學(xué)深圳國際研究生院碩士生，師從唐彥嵩老師，主要研究方向為多模態(tài)學(xué)習(xí)。
唐彥嵩博士：清華大學(xué)深圳國際研究生院助理教授，主要研究方向為計算機視覺與模式識別。
劉鏞：清華大學(xué)深圳國際研究生院博士生，師從唐彥嵩老師，主要研究方向為視覺分割、視頻理解。
馮佳時博士：字節(jié)跳動視覺研究的負責(zé)人，他的研究領(lǐng)域包括深度學(xué)習(xí)及其在計算機視覺中的應(yīng)用。
代季峰博士：清華大學(xué)電子工程系副教授，主要研究方向為視覺基礎(chǔ)模型與自動駕駛。
項目 Leader，靳瀟杰博士：現(xiàn)就職于字節(jié)跳動美國研究院，研究方向包括多模態(tài)基礎(chǔ)模型、生成式學(xué)習(xí)、視頻編輯等。

基于 ChatGPT、LLAMA、Vicuna [1, 2, 3] 等大語言模型（Large Language Models，LLMs）的強大理解、生成和推理能力，多模態(tài)大模型（Large Multimodal Models，LMMs）在圖片視覺理解任務(wù)上取得了成功，如 MiniGPT-4、LLAVA [4, 5, 6] 等等。更進一步地，一些工作將 LMM 強大的圖片理解能力遷移到視頻領(lǐng)域，使得視頻內(nèi)容理解和推理成為可能，例如 Video-ChatGPT、Vista-LLaMA [7, 8] 等。

然而，大多數(shù)多模態(tài)模型僅能對較短的離線視頻數(shù)據(jù)進行文本描述或問答，對于長視頻和在線視頻流的理解能力比較有限。讓模型具有理解長視頻的能力是通往更智能的模型甚至達到 AGI 的路徑。這一研究空白限制了多模態(tài)大模型在許多在線場景中的實際應(yīng)用，如具身人工智能、智能監(jiān)控系統(tǒng)等。

針對這點，一些工作 [9, 10] 開始研究如何增強對長視頻的理解能力，大多基于幀采樣和特征融合的方法。然而，現(xiàn)有的方法存在以下缺點：1) 顯存開銷和回答延遲隨輸入幀數(shù)量增長，這為長視頻理解帶來困難，只能使用稀疏采樣等方式，而這會顯著影響模型性能。2) 無法處理在線視頻流，只能將在線視頻流進行分段處理，難以處理新輸入的視頻片段與舊視頻片段之間的信息交互，阻礙了 LMM 對長視頻流整體的理解能力。

為了解決此問題，字節(jié)跳動聯(lián)合清華大學(xué)的研究人員仿照人類的感知和記憶機制，提出了首個針對長視頻流的在線理解多模態(tài)大模型 Flash-VStream。

在具體介紹它之前，先來體驗一下 Flash-VStream 的實時問答能力：

我們可以看到模型對長視頻上下文有比較好的記憶能力，能夠給出符合視頻情景的回復(fù)。例如在 56:00 時刻提問抓取面粉（發(fā)生在十幾分鐘之前）之后主人公做了什么動作，模型能夠迅速給出正確而詳細的回答。Flash-VStream 模型能夠處理針對大時間跨度的視頻問題，反映了模型具有高效記憶長視頻視覺信息的能力。

相比之前的工作，F(xiàn)lash-VStream 的優(yōu)勢在于：

能夠在線處理極長的視頻流數(shù)據(jù)，快速記憶重要信息，實時回答用戶提問。
隨著輸入幀數(shù)量的增加，顯存開銷和回答延遲幾乎沒有變化，實現(xiàn)了高效的長視頻理解。
利用 STAR 記憶機制對不同粒度語義信息進行高效融合，在多個長視頻問答 benchmark 上達到 SOTA。

Flash-VStream 不僅在多個長視頻理解 benchmark 上表現(xiàn)優(yōu)秀，還獲得了 CVPR'24 長視頻問答競賽 Long-Term Video Question Answering Challenge @ CVPR 2024 Workshop 的冠軍。

地址：https://sites.google.com/view/loveucvpr24/track1

更進一步，為了支持這一研究領(lǐng)域的模型評價和改進，研究團隊在 Ego4D [11] 和 Movienet [12] 的基礎(chǔ)上，借助 GPT-4V 構(gòu)建了一個面向在線視頻流問答場景的數(shù)據(jù)集 VStream-QA，它包含總計 21h 的視頻，平均長度為 40min，每個問答對都基于特定的已標(biāo)注的時間區(qū)間。在評價時，要求模型在多個時間點，基于到當(dāng)時刻為止的視頻片段回答問題。

項目主頁：https://invinciblewyq.github.io/vstream-page
論文鏈接：https://arxiv.org/abs/2406.08085
代碼倉庫：https://github.com/IVGSZ/Flash-VStream
在線體驗：https://huggingface.co/spaces/IVGSZ/Flash-VStream-demo

不同于傳統(tǒng)視頻理解 LMM，F(xiàn)lash-VStream 將視覺信息感知記憶和問答交互解耦，使用多進程系統(tǒng)實現(xiàn)了對長視頻流的實時處理。那么這項研究具體是如何做的呢？

模型核心：STAR 記憶機制

如論文中的框架圖所示，F(xiàn)lash-VStream 架構(gòu)十分簡潔，由幀處理進程和問題處理進程組成，其模型包括四個主要部分：1) 預(yù)訓(xùn)練的 CLIP-ViT 視覺編碼器；2) 大語言模型；3）STAR 記憶機制；4）特征緩沖區(qū)。其中，后兩者是 Flash-VStream 的核心。STAR 記憶包括 “空間”、“時間”、“抽象”、“檢索” 四種記憶模塊，用于高效融合不同粒度的語義信息，實現(xiàn)了幀級別的信息聚合。特征緩沖區(qū)輔助檢索記憶，類似于人類回憶起印象深刻的事件一樣，從歷史視頻中檢索出關(guān)鍵信息，以提高模型對長視頻中重要事件細節(jié)的理解能力。

其中，空間記憶和檢索記憶每幀具有最多的 token 數(shù)量，時間記憶次之，抽象記憶每幀僅用 1 個 token 表示。這種設(shè)計高效表示了從最具體到最抽象的視覺特征。為了得到更小的特征圖，F(xiàn)lash-VStream 在空間維度使用平均池化操作。

根據(jù)研究人員的描述，STAR 記憶采用了四種簡潔高效的記憶更新機制：

對于空間記憶和特征緩沖區(qū)，通過 FIFO（First-In-First-Out）隊列更新。隊列維護了最新的若干幀，確保模型對最新的細粒度空間信息有較強的感知能力。
對于時間記憶，當(dāng)輸入 token 數(shù)量超過記憶容量時，采用加權(quán) K-means 聚類算法進行幀級別的特征聚合。該算法將時間記憶的 token 和新輸入的 token 一起聚類為一些簇（簇的數(shù)量就是記憶容量，簇的大小是其所包含幀的數(shù)量），并用這些簇的質(zhì)心作為新記憶，代表相應(yīng)的關(guān)鍵事件信息。這種方法可以簡潔高效地存儲時序相關(guān)的上下文信息。
對于抽象記憶，引入了語義注意力模型（Semantic Attention），將空間與時間特征抽象成最高層次的語義特征。該模型用基于注意力和動量的方式更新抽象記憶，使其始終表示視頻級別的高層次語義信息。
對于檢索記憶，通過識別關(guān)鍵幀特征進行更新。首先從時間記憶中選擇出最大的若干簇，然后從特征緩沖區(qū)中檢索出與這些簇的質(zhì)心 L2 距離最近的幀的特征，以此作為關(guān)鍵事件的回憶，為時間記憶補充相應(yīng)的細粒度信息。

Flash-VStream 憑借其創(chuàng)新性的 STAR 記憶機制，不僅能夠高效融合不同粒度的語義信息，還能通過特征緩沖區(qū)的輔助，精確地回憶和檢索長視頻中重要事件的細節(jié)信息，從而顯著提升模型的理解能力與性能。

VStream-QA 數(shù)據(jù)集

有了上述實現(xiàn)方案，還需要有合適的測試數(shù)據(jù)來評價模型對在線視頻流的理解能力?；仡櫖F(xiàn)有的長視頻問答數(shù)據(jù)集，它們的主要目的大多是評價模型的描述性問答能力、時序理解能力、電影理解能力等，均屬于離線理解能力。并且它們的視頻平均長度局限在 4 分鐘以內(nèi)。

為了解決這些問題，研究團隊篩選了 Ego4d 和 Movienet 中的一部分視頻片段，為每個視頻片段標(biāo)注了多個問答對，并標(biāo)記了答案所在的視頻區(qū)間。在測試時，要求模型在多個時間點，基于到當(dāng)時刻為止的視頻片段回答問題，以此測試模型的在線視頻流理解能力。這就是 VStream-QA 數(shù)據(jù)集，其樣例如下圖所示：

和主流的開放詞典離線視頻問答數(shù)據(jù)集相同，VStream-QA 數(shù)據(jù)集也采用基于 GPT-3.5 的評價指標(biāo)。具體來說，向 GPT-3.5 輸入問題、標(biāo)準(zhǔn)答案、模型的預(yù)測三元組，由 GPT 模型來判斷該答案是否準(zhǔn)確回答，以及可信度分數(shù)是多少。統(tǒng)計所有問題的指標(biāo)即為準(zhǔn)確率（Acc.）和可信度分數(shù)（Sco.）。

算法測評

研究團隊在新提出的在線視頻流問答 Real-time VStream-QA Benchmark 上評測了 Flash-VStream 的實時視頻理解性能，包括 RVS-Ego 和 RVS-Movie 兩個子集。得益于 STAR 記憶機制的高效設(shè)計，F(xiàn)lash-VStream 具有極低的回答延遲和顯存占用，并且?guī)缀醪浑S輸入幀的數(shù)量變化，為實時問答的性能提供保障。

同時，為了評價 Flash-VStream 模型對于離線視頻的理解能力，研究團隊在四個離線視頻問答 Benchmark 上評測了 Flash-VStream 的視頻理解性能。此外，還在離線版 VStream-QA 數(shù)據(jù)集進行了測試，分為 VS-Ego 和 VS-Movie 兩個子集。離線版 VStream-QA 數(shù)據(jù)集針對每個問題，只輸入該問題答案所在的視頻片段并進行提問，相比于在線版 Real-time VStream-QA 難度較低。

在六個 benchmark 的準(zhǔn)確率和可信度分數(shù)上，F(xiàn)lash-VStream 的性能均優(yōu)于其他方法，證明其強大的離線視頻理解能力。

感興趣的小伙伴可以關(guān)注一波，代碼已經(jīng)開源啦～

責(zé)任編輯：張燕妮來源：機器之心

模型數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="vstey"><rt id="vstey"></rt></thead>