突破不可解釋性!視頻異常新檢測框架精度90.67%拿下SOTA|華科&百度&密歇根大學
大模型當上福爾摩斯,學會對視頻異常進行檢測了。
來自華中科技大學、百度、密歇根大學的研究團隊,提出了一種可解釋性的視頻異常檢測框架,名為Holmes-VAD。
Holmes-VAD不僅能給出精確的視頻異常定位,還能夠對檢測到的異常提供解釋和分析。
比如,給它看一段監(jiān)控視頻,詢問它視頻中是否有任何異常跡象,它立馬就能識別出:
有異常,一輛白色面包車正在路上行駛,突然一輛摩托車出現并撞上了面包車,造成了一起嚴重的事故。
爆炸場景也不在話下:
視頻顯示在沙漠地區(qū)發(fā)生了一次大規(guī)模爆炸,導致大量煙塵飄到空中。這是異常的,因為在自然環(huán)境中,如此突然和強烈的能量釋放是一種意料之外且不尋常的事件。
像是打籃球互相追逐競爭這樣嬸兒的具有迷惑性的視頻,它也能正確識別并作出解釋:
視頻中展示的是一場典型的籃球比賽,球員們在一個維護良好的球場上比賽。這是一個常見且熟悉的體育賽事場景,沒有任何不尋?;蚩梢傻幕顒印?/p>
Holmes-VAD基于視頻多模態(tài)大模型微調,并利用精確的時序監(jiān)督和豐富的多模態(tài)指令來實現準確的異常定位和全面的解釋,在監(jiān)控視頻安全分析、視頻生成內容檢驗等領域具有廣泛應用前景。
在定量和定性實驗中,Holmes-VAD在多方面的表現優(yōu)于此前SOTA方法。
除此外,研究團隊還首次引入了視頻異常檢測領域的大規(guī)模多模態(tài)指令數據集——VAD-Instruct50k。
那么,Holmes-VAD、VAD-Instruct50k長啥樣?
用數據引擎構建大規(guī)模數據集
首先,研究團隊構建了首個大規(guī)模多模態(tài)VAD指令微調數據集,VAD-Instruct50k。
該數據集使用半自動數據引擎創(chuàng)建。
△數據引擎流程圖
主要包括下列步驟:
時序單幀標注
研究團隊采用了一種高效的時間注釋方法,即標注涉異常事件中的隨機單幀,用該方法來減小注釋成本,利于擴大標注視頻的數量。
事件片段生成
基于單幀注釋,團隊設計了一種可靠的偽幀級標簽生成方法,對于每個具有單幀注釋G = {gi}的異常視頻及其由訓練好的VAD網絡估算的異常評分,在注釋幀周圍生成多個異常事件提議,對于正常視頻,也隨機提取若干正常事件提議。
完成此過程后,收集所有帶有異常標簽的剪輯事件片段:E={si, ei, yi},其中如果事件片段來自異常視頻,則yi設置為視頻的異常類別(例如,爆炸),否則設置為正常。
事件片段描述
為了充分提取事件片段中的語義信息,研究人員利用基于視頻的多模態(tài)大型語言模型(MLLM)為每個事件片段生成詳細的描述。
還包括Surveillance Vision數據集,該數據集為UCF-Crime視頻片段提供了手動注釋的詳細細粒度事件描述。結合這些資源后,獲得了所有帶有相應描述和異常標簽的事件片段:E={si, ei, yi, ci}。
異常對話生成
研究人員將異常標簽和事件片段描述作為視頻的文本信息,并設計豐富的異常內容提問,如:“Are there any unexpected or unusual events in the video clip?”。
將它們輸入到大語言模型中進行分析回答,得到“視頻-提問-回答”的指令對,最后對質量低下的指令對進行篩查過濾。
提出可解釋視頻異常檢測框架
為實現開放世界的視頻異常檢測(VAD),現有的方法在面對具有挑戰(zhàn)性或未見過的事件時往往表現出偏見,并且不能對異常內容作出解釋。
基于VAD-Instruct50k,研究團隊設計了一種可解釋視頻異常檢測框架Holmes-VAD。
△HolmesVAD網絡框架
其由下列部分組成:
視覺編碼器
研究團隊利用LanguageBind中凍結的視頻編碼器,該編碼器繼承了CLIP的ViT-L/14結構,稱之為?v。
與原始的ViT不同,它通過在時間維度上添加自注意力層來建模幀之間的時間關系。
時序采樣器
由于視頻中大量視覺tokens導致的過度計算負擔,過去基于視頻的MLLM方法采用了視頻的均勻時間幀采樣,例如8幀。
研究團隊認為這種方法顯然不適用于視頻異常檢測任務中的長視頻,因為它增加了忽略關鍵信息的概率。
為了解決這個問題,團隊首先利用VAD網絡評估每幀的異常分數,該網絡接收視頻幀的cls token并輸出異常分數:
然后,根據異常分數對視頻標記進行采樣。
具體來說,只有對應異常分數高于設定閾值的幀對應的tokens會被輸入到LLM中,通過這種方式,模型可以對長視頻做出高效響應。
LLM
為了使LLM理解視覺編碼器輸出的特征,在它們之間設計了一個由兩層MLP組成的projector,與LLM的輸入維度對齊,團隊使用Vicuna作為LLM。
效果如何?
在訓練過程中,時序上的單幀異常標注被用于訓練時間采樣器來選擇具有高異常響應的幀,數據集中的異常相關對話內容被用于微調多模態(tài)大語言模型(MLLM)來生成解釋性內容。
研究人員進行了大量定量和定性實驗分析,結果驗證了所提出的Holmes-VAD的通用性和可解釋性。
定量評估方面,研究人員將本文方法與最先進的方法進行了比較,包括半監(jiān)督方法、無監(jiān)督方法、弱監(jiān)督方法和最近的Training-Free方法。
下表1中列出了它們的骨干網絡、監(jiān)督方法以及在UCF-Crime和XD-Violence數據集上的表現。
Holmes-VAD方法在XD-Violence上的AP為90.67%,在UCF-Crime上的AUC為89.51%,顯著超越了之前的最先進方法,證明了該方法可以生成更少偏見的異常評分。
△表1.視頻異常檢測性能比較
值得一提的是,Holmes-VAD實現了精確的異常定位的同時,還能夠對模型檢測到的異常提供解釋和分析,這是現有不可解釋的VAD方法所不具備的功能。
雖然LAVAD具有可解釋性,但由于缺乏足夠的監(jiān)督數據,這種無訓練的大型語言模型對異常知識的理解有限。
此外,研究人員還進行了用戶研究,通過86個測試樣本和10名志愿者評估了三種不同的訓練策略:
- 無訓練:不進行微調;
- Projector:在VAD-Instruct50k上進行微調,僅訓練投影器,而保持多模態(tài)LLM固定;
- Projector+LoRA:在VAD-Instruct50k上進行微調,訓練投影器并使用LoRA 微調多模態(tài)LLM。
如表2所示,投影器+LoRA提供了最詳細的響應(平均46.13個詞)并達到了最高的判斷準確率(86.0%)。
此外,它在內容感知和異常解釋方面也達到了最高的投票率,分別為61.2%和51.9%。
△表2.不同微調策略的影響
定性結果方面,研究人員將Holmes-VAD的可解釋性結果與Video-LLaVA(未經過微調)進行比較。正確和錯誤的解釋分別用綠色和紅色表示。
結果表明,Holmes-VAD能夠準確識別視頻中的異常,并為體育比賽中的沖突、爆炸和車載攝像頭捕捉到的事故(異常案例)提供具體解釋。
即使是對于正常視頻,Holmes-VAD也展現出強大的分析能力,糾正了時間采樣器的錯誤響應(正常案例)。這些發(fā)現突顯了Holmes-VAD在感知視頻事件和分析異常方面的有效性和優(yōu)勢。
項目主頁:https://holmesvad.github.io/
論文地址:https://arxiv.org/abs/2406.12235