螞蟻多模態(tài)團隊在視頻多模態(tài)方向的技術探索

作者：郭清沛 2024-05-21 07:54:30

本文將分享螞蟻多模態(tài)認知團隊過去一年在視頻多模態(tài)檢索領域的研究成果。文章主要圍繞如何提升視頻文本語義檢索效果，及如何高效地進行視頻同源檢索這兩項研究工作展開。

一、概述

視頻多模態(tài)檢索在螞蟻內(nèi)部有著廣泛的應用。視頻多模態(tài)檢索具體包括兩個方向，一個是視頻-文本的語義檢索，另外一個是視頻-視頻的同源檢索。

視頻-文本的語義檢索方向旨在通過文本檢索與其語義相近的視頻，其檢索文本未必在檢索到的視頻描述中直接出現(xiàn)，但檢索視頻的內(nèi)容與檢索文本需要保證語義相關。例如，在支付寶的搜索欄中，用戶期望通過文本檢索出與之相關的視頻內(nèi)容；在安全防控場景中，可通過文本檢索來查找安全防控場景中的敏感視頻。檢索文本通常是短文本。

另一方向是視頻-視頻的同源檢索。同源檢索可以實現(xiàn)在視頻底庫查找與查詢視頻相關的片段，在實際場景中有著廣泛應用。例如在進行視頻采購時，可以避免采購到已有視頻，從而降低采購成本；在視頻版權保護中，當用戶提供一段短視頻時，需要通過對海量視頻底庫檢索來判斷該視頻是否存在侵權。

快速提升視頻-文本語義檢索的方法包括：視頻-文本預訓練、關注難樣本和引入細粒度。關于視頻-文本預訓練方面，我們在 MSRVTT 文本視頻檢索數(shù)據(jù)集上使用 r@sum 指標來衡量語義檢索算法效果，其中 r@sum 指標將 top1-recall（r@1），top-5 recall （r@5）和 top-10 recall（r@10）的指標相加得到。通過采用視頻-文本預訓練的手段，我們在 r@sum 指標上實現(xiàn)了 24.5% 的提升；隨后引入關注難樣本，成功提高了 r@sum 8.1%；引入細粒度識別技術，可以提升 r@sum 2.8%。除此之外，在視頻的同源檢索領域，我們自主研發(fā)了視頻侵權檢測方法?；诖朔椒ǎ晒?jié)省了 85% 的存儲量，并且在侵權檢索中能夠實現(xiàn) 18 倍的速度提升，同時，檢索效果相較于傳統(tǒng)的視頻檢索方法，在 top1 F1-score 上有 2.78% 的提升。接下來，將圍繞著視頻-文本語義檢索和視頻-視頻同源檢索兩大方向，詳細闡述我們的提升方法。

二、視頻-文本語義檢索

在過去的一年里，我們在視頻文本語義檢索方向進行了三個方面的研究，以提高視頻-文本的語義檢索效果，分別為：視頻-文本預訓練、關注難樣本以及引入細粒度。

1. 視頻-文本預訓練

第一個關鍵性進展是視頻-文本預訓練技術。在展開相關介紹前，先介紹下“視頻-文本預訓練”的含義。

預訓練是正式 finetune 前的階段，它主要是利用大規(guī)模且無監(jiān)督的視頻-文本對數(shù)據(jù)進行語義對齊訓練，以提升下游任務的表征能力。通過預訓練，我們期望模型能在各類下游任務上取得良好的表現(xiàn)。在具體的應用中，常見的下游任務包括視頻-文本檢索(video-text retrieval)、VQA（video question answering）、視頻描述生成(video captioning)等。

在理解預訓練任務之前，需要了解兩個概念，一個是視頻-文本 pair 數(shù)據(jù)從何而來，另一個則是如何理解視頻所對應的文本。通常一個視頻會對應兩個文本來源，其一是視頻所對應的標題描述，這個描述通常是對整個視頻內(nèi)容的概述，比如短視頻 app 中每個視頻對應的標題文本；另外一個來源是每段視頻配備的音頻，并通過語音識別（ASR）技術，將音頻所對應的文本識別出來。根據(jù) ASR 的起止時間區(qū)間，可將其對應的視頻片段視為當前時間片段的 ASR 文本，進而建立起視頻和文本的關聯(lián)關系。我們基于以上兩種關聯(lián)數(shù)據(jù)構建大規(guī)模無監(jiān)督的視頻-文本對，并在此數(shù)據(jù)集上進行預訓練。然后將預訓練后的模型作為各項下游任務的初始化模型，可以顯著提高下游任務的效果。

國內(nèi)大多數(shù)短視頻場景主要面向中文用戶，當前在中文視頻-文本預訓練方面，我們主要面臨兩大挑戰(zhàn)。首先，缺少公開可用的中文視頻-文本預訓練數(shù)據(jù)集，學術界通常使用的數(shù)據(jù)集大多為英文文本，例如 HowTo100M 和 WebVid 等，難以獲取公開的中文視頻-文本預訓練數(shù)據(jù)集，鑒于此，我們構建出了業(yè)界首個開放訪問的中文視頻-文本預訓練數(shù)據(jù)集，該項成果已于 2023 年的 CVPR 上發(fā)表。其次模型設計時需關注跨模態(tài)交互，以實現(xiàn)視頻和文本之間更深度的交互與融合，從而提升視頻-文本檢索的效果。我們提出了一種加強視頻-文本跨模態(tài)交互的新型模型，即 SNP-S3，該工作已發(fā)表于 2023 年的 IEEE T-CSVT 期刊上。

首先來介紹第一部分的主要研究成果。我們提出了業(yè)界首個公開發(fā)布的中文視頻-文本預訓練數(shù)據(jù)集，通過在該數(shù)據(jù)集上進行預訓練，能夠顯著提升中文視頻文本檢索模型的效果。

主要工作包括三部分：首先構建了大規(guī)模的公開中文視頻-文本數(shù)據(jù)集 CNVid-3.5M；其次采用有效的數(shù)據(jù)處理方法，過濾掉那些匹配度不高的視頻和文本對數(shù)據(jù)，顯著提高了數(shù)據(jù)質(zhì)量；最后我們在 CNVid-3.5M 上進行中文預訓練，驗證了我們提出的 CNVid-3.5M 可以顯著提升中文視頻-文本預訓練的效果，并建立了該數(shù)據(jù)集上的 benchmark。整個過程如上圖所示。

接下來介紹數(shù)據(jù)集的構造過程。我們從多個中文視頻網(wǎng)站上收集原始視頻。在收集視頻時，我們會特別關注當前視頻的類別、主題，并盡力保持各個類別與主題間的均衡性。我們成功構建了 450 萬個原始的中文視頻-文本對。上圖展示了視頻對應的文本關鍵詞所生成的詞云。

在收集完數(shù)據(jù)后，緊接著是數(shù)據(jù)清洗的工作，將數(shù)據(jù)集中相對低質(zhì)量的視頻-文本對進行過濾。原始的視頻-文本對并不是嚴格在語義上對齊的。例如，存在于當前視頻中的視覺信號與該視頻背景音樂音頻轉換而來的文本，可能并無明確的語義關聯(lián)性，而且引入背景音樂音頻的文本可能會作為污染訓練數(shù)據(jù)。因此，我們盡可能地把不相關的這些視頻-文本對過濾掉。為了實現(xiàn)這一目標，我們提出了使用圖文預訓練模型進行視頻數(shù)據(jù)清洗的方法。具體實施步驟如下：首先我們利用訓練好的圖文相關性模型 CLIP，評估當前文本與視頻中每一幀關鍵幀之間的相關性，并將關鍵幀之間的相關性進行聚合得到整體相關性，通過對整體相關性設定閾值，來濾除相關性較低的視頻。至此，我們過濾掉接近 100w 低質(zhì)的視頻-文本對，保留了約 350 萬條中文視頻-文本對。

上圖中展示了我們構建的 CNVid-3.5M 數(shù)據(jù)集的基本指標統(tǒng)計。截至當前分享時間，我們所構建的中文 350 萬的 CNVid-3.5M 是當前業(yè)界最大的公開的中文視頻-文本預訓練數(shù)據(jù)集。

接下來我們基于 CNVid-3.5M 數(shù)據(jù)集構建了 Benchmark，以觀察各種不同架構的模型在我們構建的數(shù)據(jù)集上進行預訓練的效果是否有提升。

上圖展示了三個階段的詳細實驗結果。在構建數(shù)據(jù)集的過程中，使用我們搜集構建的原始數(shù)據(jù)集進行視頻-文本預訓練，結果顯示在翻譯后的中文 MSRVT 數(shù)據(jù)集的表現(xiàn)上，經(jīng)過預訓練后與預訓練前相比，總的 R@SUM 指標有了 17.7% 的顯著提升。同時，表格中也揭示了在我們的過濾階段，將 450 萬數(shù)據(jù)過濾為 350 萬時，雖然預訓練數(shù)據(jù)量有所減少，但整體上模型的效果反而有所增強。

中文視頻-文本預訓練的第二個難點是在模型設計上，需要關注跨模態(tài)的交互，針對這個問題我們提出了增強視頻-文本跨模態(tài)交互的模型 SNP-S3。S3 指的是重要的語義信息的增強，其針對傳統(tǒng)預訓練的以下兩個缺點設計。

傳統(tǒng)預訓練任務，一般是在跨模態(tài) encoder 上面，直接去用 mask language modeling 任務做預訓練，另外一個常見的預訓練任務是做全局的 Vision-Text Matching 的任務。如上圖所示，傳統(tǒng)的 Mask Language Model （MLM）任務存在的一個問題是，當 mask 的 token 是文本當中不太重要的詞時，比如量詞 a，模型甚至可以不去看視頻相關的內(nèi)容，通過語法的知識就能夠把當前 mask 的詞直接復原出來。但是當 mask 的詞是關鍵詞時，模型就必須看到當前視頻，才能夠知道 mask 的詞是什么。比如男孩穿著一件紅色的衣服，如果把紅色 mask 掉，模型沒有看到視覺輸入的話是沒有辦法去重建的。通過強迫模型必須要基于給定的視覺輸入去推理 mask 的文本內(nèi)容這種方式，增強了各個不同模態(tài)之間的交互。

傳統(tǒng)的 Vision-Text Matching 的任務存在的問題是，它更多的是做全局的對齊，視覺跟文本更多是在整個句子層面的語義去做對齊。句子層面的對齊是全局的粒度，缺乏局部信息。比如在句子中，把關鍵的詞如red 直接去掉，去跟視頻 matching 它仍然是可以做得非常好的。這也就意味著檢索模型其實并沒有細粒度的區(qū)分能力。像red 這種屬性詞，還有一些動詞，都需要更細粒度的能力。我們希望能夠在傳統(tǒng)的基于全局的匹配基礎上，讓模型能夠對這些細粒度的信息更加敏感。由此引入了關鍵詞匹配的方式，把句子中更重要的詞匯，比如名詞、動詞、形容詞與視頻來做屬性的匹配，以此來增強模型在細粒度上的識別能力。

這兩點改進，即針對 Mask Language Modeling 重要詞來做 mask（Mask Significant Semantic Model，MSSM)，和在全局信息上面加入細粒度的改進（LVWM），都是為 S3 顯著性語義增強的目標來服務。

這里介紹 S3 具體的實現(xiàn)。MSSM 任務，重點在于將關鍵詞語直接 mask 掉，強依賴于給定的視覺輸入來重建被 mask 掉的詞語。LVWM 任務則是增加了視覺輸入與單詞匹配的任務。具體而言，之前的 Mask Language Modeling 是按照一定的概率從文本中隨機挑詞，需要挑出重要的詞。重要詞有兩種定義，一種是用詞性打標工具去定義，另外一種是通過在整個大的數(shù)據(jù)集上去統(tǒng)計一個詞出現(xiàn)的頻次，用類似于TF-IDF 的方式衡量當前詞的重要性。在這里我們結合了這兩種方式，要成為重要詞首先必須是名詞、動詞和形容詞；此外，詞頻不能特別高，詞頻越低其 IDF 就會越大，詞頻低就意味著其信息量較高，通過這種方式挑選出重要的詞進行 mask。另外一個改進是視覺和單詞的匹配。將第一步挑選出的關鍵詞，與視覺信號分別來做匹配，每個詞都會有一個與視覺輸入的相似度，最終把相似度聚合，得到當前句子從單詞的維度跟視覺的匹配程度，進而構建相似矩陣。構建的矩陣會跟之前全局視覺文本的匹配的相似度矩陣一起加到 loss 里面去做優(yōu)化。

這里對 S3 方法進行了定量分析，可以得到以下結論：

MSM 在各個不同的模型結構上都有著比傳統(tǒng) MLM 更好的效果。所以可以直接去替代之前傳統(tǒng)的 MLM 任務。
另外，LVWM 任務只能作為傳統(tǒng)的全局的視頻-文本匹配任務的補充，并不能替代全局的視覺-文本匹配任務。如果把 LVWM 任務加到傳統(tǒng)的 GVTM 任務上，可以看到 B3 相比于 B1、B7 相比于 B5 都有著更好的效果，證明它是非常好的局部信息的補充。
另外提出的 S3 里面兩個核心的組件都是模型無關的，可以看到 B1 v.s. B4，B5 v.s. B8，分別是在 ResNet50、PVT 不同的模型結構上面；所以這兩個策略可以用在任何模型結構上面，我們通過 S3 策略可以使 r@sum 指標提升 6.8%。

我們也對 S3 方法進行了定性分析。加上 S3 之后，給定輸入文本，模型會關注到視覺上跟文本更相關的區(qū)域。上圖展示了一些具體的例子，比如人在海上沖浪的圖片，可以看到 baseline 關注區(qū)域是分散的，并沒有太多的語義，但是加上了 S3 方法之后，它會關注人，還會關注后面海浪的背景。

以上就是對視頻-文本預訓練的介紹，主要包括兩方面的內(nèi)容，首先是如何構建中文視頻-文本預訓練數(shù)據(jù)集；第二是在模型設計環(huán)節(jié)，如何強化視頻文本的交互水平。通過這兩項優(yōu)化可以顯著提高視頻-文本語義檢索的效果。

2. 關注難樣本

接下來繼續(xù)分享如何通過關注難題樣本進一步提升視頻-文本語義檢索效果。關注難樣本可使視頻-文本語義檢索提升 R@Sum 近 8.1%。

關注難樣本的要點是模型在學習的過程中能夠逐漸去關注難樣本，這主要的原因是難樣本并不是一開始對模型的訓練就有幫助的。在訓練剛開始的時候，難樣本可能會讓模型難以收斂，但是當模型收斂得比較好的時候去關注難樣本，可以對模型的性能有更進一步地提升。

關注難樣本主要有兩個思路，一個是人工指定對難樣本的關注度，比如根據(jù)模型訓練的不同階段設定對難樣本不同的關注度；另一個是讓模型自適應地去學習對難樣本的關注度，我們團隊在這兩個方面都進行了探索。

首先介紹下人工指定對難樣本的關注度這一策略，主要使用的方法是基于課程學習的難樣本挖掘工作，該工作發(fā)表在 CVPR2023 上。

訓練過程中的樣本大致可以分為好的樣本、難樣本，還有噪聲樣本。所謂好的樣本，是指視頻-文本 pair 語義對齊的質(zhì)量相對較高，文本能夠在語義上描述清楚當前視頻片段所對應的內(nèi)容。難樣本指的是，視頻跟文本也是語義對齊關系，但是文本所體現(xiàn)的語義，跟視頻是弱相關的，但是也有相關性。而噪聲樣本則是指視頻和對應文本語義上幾乎沒有相關性，比如視頻所對應的音頻中歌詞與視頻的語義關聯(lián)并不大，歌詞并不能夠描述當前視頻的語義，這種文本跟視頻相關性比較低的視頻-文本 pair 我們定義為噪聲樣本。

這三種樣本在訓練過程中起到的作用也是不一樣的。首先噪聲樣本，不管是在訓練剛開始，還是在訓練最后都對訓練有負面影響，所以噪聲樣本是需要直接丟棄的；對于高質(zhì)量的樣本，在訓練開始的階段模型會更多去關注，可以加速模型的收斂；對于難樣本，則是在模型已經(jīng)收斂到一定程度，已經(jīng)有比較好的表現(xiàn)時要更多關注難樣本，可以讓模型更好地學習難例，進一步提升模型性能。但如果在一開始就關注難樣本，可能會使模型學偏導致無法很好地收斂。

基于這個觀察，我們設計了難例課程學習的算法，算法的核心思路是通過課程學習的方式，剛開始的時候讓模型更多去關注好的樣本，在模型有一定相關性判別能力之后嘗試做難例挖掘，讓模型能夠在訓練的后期更多地關注比較困難的樣本。

具體的做法如上圖所示，首先第一步是采用 contrast learning 的方式構建了視頻和文本的相似度矩陣，相似度矩陣的對角線均為正樣本，對角線以外都是負樣本，接下來根據(jù)對角線上面的相似度的值來判斷當前的正樣本是難樣本還是簡單樣本。一般來說如果對正樣本的相似度比較高，可能就是簡單樣本。通過這種方式在列維度對難樣本做度量。同時，也在行層面對難樣本進行度量，每一行都代表當前文本跟當前batch 內(nèi)所有視頻的相似度，我們?nèi)〕鏊胸摌颖?，如果當前文本跟負樣本的相似度比較高，那么就認為當前視頻-文本樣本是難例。接下來，我們把基于行還有基于列的度量結合在一起，構建 VTM(video-text matching) loss 的權重。這一權重由行加權和列加權共同作用得出，權重系數(shù)的大小是通過課程學習的方式來調(diào)整的，剛開始的時候權重為 0，就相當于沒有加難例挖掘的 loss；隨著訓練的進行，會讓權重 loss 的部分越來越大，這樣讓模型逐漸關注到難樣本上。

我們通過實驗分析了當前模型加入 HSCL 難樣本課程學習的 loss 之后的效果表現(xiàn)。采用了兩個數(shù)據(jù)集，一個是中文的預訓練和 fine tuning 的數(shù)據(jù)集 CNVid-3.5M，另外一個是在英文上面來做個預訓練和 fine tuning 的數(shù)據(jù)集 COCO+VG+CC。實驗發(fā)現(xiàn)，在引入難樣本課程學習方法之后，可以為文本視頻檢索的 r@sum 指標帶來 5% 左右的提升。

以上介紹的是人工方式來指定對難樣本的關注度，這一方式不夠自動化，需要做超參數(shù)的調(diào)整。我們希望讓模型能夠自適應地學習對難樣本的關注度，因此設計了一種自適應方法，接下來介紹的 DMAE 和 NegNCE 的方法發(fā)表在 2023 年的 ACM Multi Media 上。通過這種方法，可以帶來 R@SUM 3.1% 的提升。

接下來介紹一下 DMAE 和 NegNCE 的 motivation。

DMAE 是雙模態(tài)的 attention 增強的模塊，它的核心是希望能夠找到盡可能多的難例，主要是采用兩個思路，第一個是擴大簡單樣本和難樣本之間的邊界。如上圖右側，從 b 到 c 是在 NegNCE 的基礎上增加 DMAE，可以看到通過 DMAE 的難例挖掘，可以引入更多的難負例擴大決策邊界，進而提升模型對樣本的區(qū)分度。NegNCE 的核心思想是把這些難樣本全部都找出來后，看哪些難樣本是真正需要去關注的，因為這些難樣本，有可能之前的 infoNCE 的 contrastive loss 都已經(jīng)解決了，但是還有那些解決不了的希望能夠通過加一個輔助的 NegNCE loss 到訓練目標里面，讓模型動態(tài)地關注這些難樣本。

傳統(tǒng)的 infoNCE 更多的是關注正樣本，把正樣本拉近，把負樣本推遠，并沒有關注難的負樣本，引入 NegNCE 可以讓模型顯式地去關注難樣本，在上圖的 case 中難的負樣本，在決策邊界上是很近的，它雖然是負樣本，但是它跟當前 Anchor 的相似度可能會比正樣本更近。NegNCE 能夠把這樣的負樣本逐漸推遠。DMAE 會挖掘出更多的這種負樣本，把更多的負樣本囊括在當前模型 loss 所考慮的范圍之內(nèi)，即DMAE 挖掘更多負樣本，NegNCE 去努力區(qū)分負樣本，通過這兩個 loss 的配合，讓模型能夠在訓練過程中自適應地去關注難樣本。

DMAE 主要有兩方面的工作，一個是在文本側，因為文本句子表達包含很多冗余性，所以希望能夠讓模型更多地關注到句子中關鍵的詞。這些關鍵詞首先得是名詞、動詞和形容詞這些比較重要的詞，其次是出現(xiàn)的詞頻，即相對于詞頻更低，這樣的代表詞有更多的信息量。把這兩個結合在一起，來挑選出文本的關鍵詞，對這些關鍵詞，會在做文本 attention 的時候給予更高的權重。

另一方面的工作在視覺側，視頻和圖片最大的區(qū)別在于視頻中會包含很多關鍵幀，關鍵幀之間是包含一定冗余性的，也就意味著在時序上鄰近的這些幀可能在語義上甚至視覺上都是非常類似的。這意味著如果當前幀存在難樣本，那么跟它比較相似的另外一幀也存在很多難樣本。我們把這兩類難樣本求并集，合并之后的難樣本集合就是當前幀和另外一幀跟它比較相似的幀構成的難樣本集合。

具體的實現(xiàn)方式為，在計算視頻跟文本相似度矩陣之后，會做文本側的加權，文本側的權重主要是依據(jù)單詞的詞性、詞頻來確定。另外，視頻側的權重主要是把當前視頻關鍵幀跟它自身來做相似度矩陣。接下來保留 top 的 score，比如對于每一幀找跟它最相近的幀的難樣本，也作為當前幀的難樣本，通過這種方式構建相似度矩陣，在相似度矩陣上面可以挖掘出更多的難例。越難的樣本在相似度矩陣上最終得到的score 就會越高。

當挖掘更多的難例之后，我們希望模型在訓練過程中能夠去動態(tài)區(qū)分這些難例，由此顯式地引入了 NegNCE loss。傳統(tǒng)的計算視頻跟文本的相似度采用 InfoNCE loss。InfoNCE 的分子是正樣本，分母是所有的負樣本，InfoNCE 在拉近正樣本和推遠負樣本過程中把正樣本和負樣本等同看待。

在訓練過程中，NegNCE 首先會判斷哪些是負樣本。對于相同的文本而言，如果負樣本的視頻跟文本的相似度比正樣本視頻更大則認為是難例。通過這種方式，在訓練過程中，我們可以把所有負樣本比正樣本相似度更高的視頻-文本 pair 全部挖掘出來，并加上輔助 loss(如上圖公式(6))，專門來做難的負樣本的挖掘。輔助 loss 和之前的 InfoNCE loss 通過加權相加。我們可以通過調(diào)整r2 的權重來調(diào)整模型在訓練過程中對難樣本的關注度。

我們通過實驗驗證了上面提到的難樣本策略。DMAE 主要是用來擴大難樣本的范圍，NegNCE 讓模型在擴大難樣本范圍之后更多的去關注對模型而言比較難區(qū)分的負樣本，可以看到用 DMAE 加入 NegNCE 之后，整體的效果是有提升的。把這兩個組件合在一起，整體對 r@sum 指標有 3% 的提升。

3. 引入細粒度

接下來介紹第三方面，引入細粒度，也可以快速提升視頻文本語義檢索的效果。在實驗中，引入細粒度可以對 R@Sum 指標提升 2.8%。

視頻-文本語義檢索的已有工作缺乏對較細語義粒度的區(qū)分。比如現(xiàn)在常用的 Pairwise loss 更多是通過做二值量化來判斷視頻和文本之間是否相似，屬于粗粒度的識別，本質(zhì)上是一個二分類。另外一類基于 Triplet loss 這種方法，并不做相關或不相關二分類，而是建模偏序關系，可以讓模型在更細粒度上建模語義相關性。但是怎么去構建不同語義粒度的視頻-文本 pair 呢？這個是我們的核心挑戰(zhàn)。

為了構建不同語義粒度的視頻-文本 pair，我們采用生成的方法生成這樣偏序 pair。具體的思路是借鑒在單模態(tài)文本上的 CSE 工作。擴展到多模態(tài)上時，如果當前完整的文本和完整的視頻是完全相關的，那么在視頻上面如果要去掉一些關鍵幀，那么視頻的相關性會逐漸變?nèi)?。所以構建的偏序關系是：文本跟完整的視頻之間的相關性> 文本跟去掉關鍵幀之后的視頻的相關性。同樣，對于文本側而言也是一樣的：當前視頻跟文本之間的相關性 > 當前視頻跟文本去掉關鍵詞之后的相關性?；谶@個思路，我們生成不同語義粒度的這種相關性的 pair。在生成偏序 pair 上另一個和單模態(tài)的不同點是，對于單模態(tài)，可能更多的只考慮文本或者圖片本身的語義。而對于多模態(tài)，在構建偏序對時，實際上是要看到文本才能夠確定當前視頻中的哪些幀重要，哪些幀不重要；對于文本側也是一樣，看到視頻之后才能確定這些文本描述中哪些詞是重要的，哪些詞是不重要的。

基于這樣的觀察我們提出了兩個模塊，第一個是跨模態(tài)的 token 重要性的預測，算法核心是通過給定一個模態(tài)輸入，預測另一個模態(tài)的 token 重要性。比如給定視覺側全局信息輸入，讓模型預測當前文本 token 的重要性，即文本中的哪些詞是重要的；對于視覺側也是一樣，給定當前文本的總體的表征來預測當前視覺的哪些 token 是重要的。通過這種方式，來選出重要的文本 token 和視覺的 token，并進一步把這些重要的 token 做 mask，通過 mask 生成的樣本就比 mask 之前的完整文本或視頻跟另一個模態(tài)的相關性更弱。通過這種方式，我們就可以生成有偏序關系的 triplet 三元組。

具體的實現(xiàn)分為兩個階段，第一個是生成偏序的樣本，首先要預測對另外一個模態(tài)而言，哪些 token 是更關鍵的；預測到更關鍵的這些 token 的權重之后要確定 mask 掉哪些 token 對當前文本的 token 語義影響是最大的。第二步把語義影響最大的這些 token 直接 mask 掉就生成了偏序的 pair。類似于 Triplet loss 的思想，mask 之后的樣本與另外一個模態(tài)之間的相關性會變?nèi)?。Triple data 三元組里面兩兩建立相關性，也就是三個 loss 來做約束。如上圖公式(17)所示，帶 p 的都是已經(jīng)做過mask 的。所表達的含義就是，沒有做過 mask 的跟文本的相關性要高于做過 mask 的相關性，沒有做過 mask 的文本跟視頻的相關性要比做過 mask 的文本跟視頻的相關性更高。

我們通過實驗驗證了引入細粒度的具體效果。引入了細粒度 TPM-CL 的方法后，相比之前，在 MSRVTT R@sum 指標有約 2.8% 的提升。也可以跟 DMAE 合用，通過 DMAE 擴大引入更多的負樣本，TPM-CL 是讓模型在訓練過程中更多地關注難以區(qū)分的負樣本，這兩個方法結合帶來了 4.4% 的提升。

小結一下，快速提升視頻-文本語義檢索的第三個方法是引入細粒度，具體在這方面做的工作是偏序樣本生成，以及引入偏序損失。

以上就是對視頻-文本語義檢索三個主要優(yōu)化方法的介紹。接下來將介紹視頻多模態(tài)在視頻-視頻同源檢索方面的應用。

三、視頻-視頻同源搜索

視頻-視頻同源檢索的核心是如何高效低成本地實現(xiàn)視頻侵權檢測。我們在該領域提出了一種自研的端到端的片段匹配定位技術，能夠迅速實現(xiàn)視頻到視頻的版權檢索，相較于傳統(tǒng)方法，可節(jié)省 85% 的存儲空間，并在視頻侵權檢索場景中加速 18 倍。在檢索效果方面，F(xiàn)1 相比已有的方法，可提高 2.78%。

1. 視頻到視頻同源檢索的挑戰(zhàn)

視頻到視頻同源檢索所面臨的挑戰(zhàn)主要包括：

首先，視頻侵權類型復雜，內(nèi)容變化多樣且劇烈。這會對版權檢索的準確性造成影響。涉及的復雜的侵權類型包括：幾何變換（如剪切、縮放、旋轉等）、光學變換（如色調(diào)、噪聲、對比度、亮度等）、時域變換（如丟幀、快放、剪輯、幀率變化、加減速等），以及將以上各類變換綜合運用產(chǎn)生的復合變換。這些特殊的變換使得對視頻做同源檢測工作變得困難重重。例如在視頻的空域上增加多種濾鏡，并對原始視頻進行裁剪和模糊處理，得到的所有視頻都是對原始視頻的侵權。又如，對原始視頻進行加減速，或拼接，這種視頻也屬于侵權。
另一方面，數(shù)據(jù)量龐大，視頻的每一幀都需進行計算處理，因此計算量也較大，存儲量大和計算量大帶來了成本高的難題。

因此，要實現(xiàn)視頻到視頻的同源檢索，核心在于：如何提升檢索的準確度，以及如何降低成本。

傳統(tǒng)的視頻對視頻同源檢索方法無法滿足需求。以 MultiMedia09 的研究為例，他們采用時序網(wǎng)絡，基于動態(tài)規(guī)劃的方法尋找侵權片段的最長路徑。其優(yōu)點在于無需監(jiān)督且定位較為精確，但其缺點是魯棒性較差，尤其是面對加速或減速，或者時域和空域復合變換的情況，其效果難以達到預期。還有一些工作是基于深度學習模型，通過基于特征相似度矩陣的方式處理，這種方法將視頻是否侵權的問題轉化為待檢測視頻與侵犯版權視頻的二分類，即將視頻特征整合后，若侵權則標記為標簽"1"，反之則標記為標簽"0"。這種方法無法實現(xiàn)視頻的侵權檢測的片段定位。

2. 框架及核心技術

基于現(xiàn)有算法無法滿足需求，而視頻侵權檢測對于業(yè)務意義重大，我們自主研發(fā)一套侵權檢測框架，以解決上述效果和成本問題。

框架的整體設計如上圖所示。

首先，對視頻底庫進行處理，對視頻抽取關鍵幀，然后對關鍵幀進行幀級特征提取，并存儲在特征庫中。在處理查詢視頻時，同樣會對查詢視頻進行關鍵幀抽取和特征提取，然后，使用查詢視頻與底庫進行特征匹配，完成匹配后，進行精細排序，最終判斷當前的查詢視頻是否存在侵權。

核心技術包括以下兩個層面：首先是如何準確抽取視頻的關鍵幀，這實際上是降低成本要求。如果我們將視頻中的每一幀全部保存下來，存儲成本會相對較高。因此期待能通過關鍵幀來替代整段視頻，從而降低視頻在版權檢索過程中的成本。其次是如何迅速定位視頻侵權部分的問題，此環(huán)節(jié)涉及到準確率與成本的平衡。例如，剛剛所提到的 ICCV 的研究，主要涉及的 Pairwise 式的視頻侵權檢測，雖然理論上可行，但在實際業(yè)務中無法實現(xiàn)，因為其侵權比對成本過高。

我們提出的自研解決方案分別是自監(jiān)督的 SKE 方法和檢測定位的 SPD 模塊。接下來將詳細闡述這兩種方法。

首先來介紹 SPD 模塊。該模塊的核心理念是，在提供候選視頻以及查詢視頻后，將候選視頻和查詢視頻的關鍵幀的特征進行兩兩對比，構建出相似性矩陣。在特征相似性圖上可以看到部分相似度值會更高，且具有一定的連續(xù)性?；谶@一觀察，我們將視頻之間可能存在片段匹配的問題轉化為在特征相似圖上進行侵權模式 Pattern 目標檢測的操作。這也就意味著我們可以構建侵權相似度圖訓練集，同時在特征相似度圖上標注出侵權的起止時間，便可在特征相似度圖上直接訓練 YOLO 的目標檢測模型，從而實現(xiàn)快速識別。判斷候選視頻是否與底庫中的任何一個視頻，以及視頻的某個片段存在雷同之處，進而判定該視頻是否存在侵權行為。

SPD 核心模塊與業(yè)界主流的動態(tài)規(guī)劃相比，具有更出色的性能表現(xiàn)，能夠提速 18 倍。這主要得益于 YOLO 的快速目標檢測。此外，針對較為復雜的場景，例如那些經(jīng)過加減速處理的侵權，以及使用濾鏡處理的侵權，相比于業(yè)界主流方案均有顯著的提升。

侵權檢測的第二個核心任務就是降低成本。其核心思想是用關鍵幀取代傳統(tǒng)的均勻幀。相較于均勻幀，關鍵幀的數(shù)量通常會壓縮約 70% 至 80%，因此，相應的存儲空間也會大幅度地減少。關鍵幀檢測作為關鍵幀抽取模塊的核心內(nèi)容，首先需要對視頻進行預處理，將其所有幀在同一時間內(nèi)鋪平，拼接成一張大的圖像。接下來是對大圖做類似于圖像分割的任務，目標是輸出每一像素對應的確切類別。在我們的場景中，每一像素實際上代表著一個關鍵幀，所以目標是輸出每一幀成為關鍵幀的可能性。這樣就可以挑選出當前視頻中最能彰顯視頻特征的那部分幀。

如果要將上述關鍵幀抽取模塊與侵權定位模塊結合使用，那么核心就在于挑選出關鍵幀，然而，直接利用關鍵幀抽取模塊并不是可導的，因此我們先輸出關鍵幀的概率 mask，同時構建一個均勻幀的 mask，然后將這兩個 mask 進行加法運算。最后，使用 mask 對密集采樣的均勻幀的特征相似圖進行點乘，點乘后得到的特征相似圖就可以與 SPD 模塊聯(lián)合在一起訓練。通過這種方式，我們可以確保 SPD 模塊的梯度能動態(tài)回傳給關鍵幀抽取模塊，同時關鍵幀抽取與 SPD 模塊可以共同進行端到端的聯(lián)合訓練，構成一個完整的端到端的模型，而不必像傳統(tǒng)的方法那樣先訓練關鍵幀再訓練其它模塊。

將關鍵幀抽取和 SPD 進行聯(lián)合訓練比單獨使用 SPD 有著明顯的提升。此外，在大規(guī)模的數(shù)據(jù)集上測試后發(fā)現(xiàn)，無論在成本上還是存儲需求上，都有明顯的減少?？梢钥吹剑c單獨使用 SPD 相比，存儲關鍵幀能夠節(jié)省 85% 的存儲量。同時，在侵權檢測效果方面，可以使用更少的關鍵幀達到更好的效果，整體性能提升 2.78%。

四、總結

總體來回顧一下本次分享的內(nèi)容。主要介紹了視頻多模態(tài)檢索的兩個方向，一個是視頻-文本語義檢索，另外一個是視頻-視頻同源檢索。

針對視頻-文本語義檢索提出了三個可以快速提升視頻-文本檢索效果的方法：首先是通過視頻預訓練，可以帶來 24.5% 的提升；第二是通過關注難樣本，帶來了 8.1% 的提升，其中難樣本分為兩種，一種是基于人工指定模型在不同訓練階段，關注不同的難樣本，另外一種是讓模型在訓練過程中自適應地去學習對難樣本的關注度；第三是引入細粒度，可以帶來 2.8% 的提升，主要涉及如何生成偏序樣本，以及引入三元組偏序損失，對細粒度語義進行建模。

視頻-視頻同源檢索部分介紹了自研的端到端的片段匹配定位方法，可以節(jié)省 85% 的存儲，侵權檢索加速 18 倍，檢索 F1 相比于使用均勻幀的效果有大幅提升。

上述所提到的工作是螞蟻智能引擎多模態(tài)認知團隊在過去一年公開的研究成果，主要涉及到視頻語義檢索以及視頻到視頻的版權檢索方面的研究進展。若對此感興趣，歡迎進一步了解我們的工作。同時，我們也熱忱邀請更多的同學加入我們，共同攜手推動相關工作的開展。

五、Q&A

Q1：關鍵幀需要先標注數(shù)據(jù)，再訓練分割模型嗎？

A1：關鍵幀模塊有兩種使用方式，如果把模塊單獨抽取出來的話，它實際上類似于分割模型，這是需要去標注的。比如可以人工標注哪些幀是關鍵幀，然后單獨訓練模型，用模型從視頻中抽取關鍵幀。

但如果要采用這里所用的端到端的方式的話，把關鍵幀的模塊跟下游任務相似幀比對，這里的下游任務，更多的是侵權定位模塊，比如兩個相似視頻比對下任務是兩個相似幀比對，用這種方式實現(xiàn)自適應端到端的方式，根據(jù)任務的特性去篩選關鍵幀，這時候就不需要去標注了。

Q2：現(xiàn)在有沒有 hugging face 上面現(xiàn)成的關鍵幀提取的模型？

A2：目前模型還沒有開源，但是有開源計劃，目前在走內(nèi)部的開源流程。

Q3：多模態(tài)的 embedding，到下游推薦場景的時候往往沒有效果，有什么好的解決辦法嗎？

A3：或許我們更加傾向于參考前面視頻文本語義檢索部分的內(nèi)容。在語義檢索層面，將文本語義檢索具體用在搜索或者是推薦場景中，會有幾個協(xié)作緊密的環(huán)節(jié)。首先在搜推的召回階段，可以用增加視頻文本鏈路，去增加召回階段的召回。其次，在排序階段，可以引入經(jīng)過視頻-文本預訓練之后的視頻和文本的特征，加入到排序的特征里面。第三，在精排階段，更多的是需要做視頻的打散。這時候，可以用訓練的embedding 來做打散，如果效果不太好，可能與具體的業(yè)務場景有關系，或者與怎么用這種多模態(tài)預訓練表征有關系，可能要明確具體的場景、具體的問題才能做出解答。

Q4：剛才演講的過程中提到節(jié)省了存儲，主要數(shù)據(jù)都存在什么樣的存儲介質(zhì)里？

A4：如果是小規(guī)模的視頻版權檢索的話，可以直接存儲在比如 NAS 盤，就是普通的硬盤上面。如果是大規(guī)模的存儲，會把這些特征直接存儲在向量檢索的數(shù)據(jù)庫。通過數(shù)據(jù)庫來存儲，存儲量會相比 NAS 更節(jié)省，但是用關鍵幀的話，會帶來非常大的存儲空間的節(jié)省。

Q5：關鍵幀的解決方案是不是也可以用在視頻到視頻的翻譯里面？不同語種的翻譯。

A5：視頻至視頻的翻譯具體是指將英文視頻轉換為相應的 ASR 語音譯文。

視頻中語音內(nèi)容的翻譯，其關鍵之處在于不僅音軌能夠匹配，而且音軌與口型也能夠一致對應。由于不同語言之間的語速實際上存在差異，若采用傳統(tǒng)翻譯方法，譬如中文轉為英文，或者英文轉回中文，其所需時間也會因此有所不同，這就需要進行一定程度的剪輯工作。換一下角度來看，我認為這項技術實則是解決了兩個視頻間的對齊問題。對于我所述的翻譯場景，我雖了解并不深入，但假設確實存在視頻片段間的對齊問題，那么我認為這種方法應可廣泛適用。

Q6：關于團隊招聘情況可否詳細介紹？

A6：衷心感謝您對我們團隊的密切關注。我們是螞蟻智能引擎多模態(tài)認知團隊，我們始終致力于招聘人才，目前正在進行中的招聘涵蓋了多個領域，不僅限于今天詳細介紹過的發(fā)展方向。我們主要的研究方向包括多模態(tài)大模型、視頻大模型以及版權檢索等。總的來說，我們的工作主要可以分為兩大板塊：視頻處理和圖文處理。在圖文處理方面，我們重點關注多模態(tài)和大模型；而在視頻處理方面，我們專注于實時性和視頻文本的語義檢索以及視頻到視頻的版型檢索等。對于這些領域有濃厚興趣或者相關經(jīng)驗的同學們，歡迎隨時向我們發(fā)送您的簡歷，我們的 recruitment base 位于杭州和北京，我們在這兩地的團隊都在熱烈歡迎您的加入！

Q7：提取視頻特征指用視覺輸入嗎？

A7：在此論述的視頻特性的提取，若指的是例如同源檢索內(nèi)的視頻特征，其實際操作流程是：首先，我們會在視頻中抽取出幀級別的關鍵幀，并對這些關鍵幀進行特征抽取。對于此前提及的視頻-文本預訓練視頻的特征抽取，其過程可能是直接針對視頻級別進行的，類似于 video swing 模型，直接產(chǎn)出整個視頻的表征。因此，這兩項工作所采用的視頻特性抽取可能存在差異，一個更關注于幀級別的特征抽取，另一個則側重于整個視頻級別的抽取。然而，無論哪種方式，都需要借助視覺輸入。

Q8：視頻特征是如何通過融合關鍵幀的特征提取到的？

A8：這是因為在今天的分享里實際上都是視頻幀級別信息，視頻片段作為其中重要組成部分，與其底層庫及視頻關鍵幀之間的匹配，共同構建了類似于相似度的矩陣特征向量矩陣。然而，此種方式實際上并未實現(xiàn)對整體視頻及其關鍵幀特征至整個視頻特征的聚合過程。

實際上常用的聚合方法中，既包括無參數(shù)方法，如基于關鍵幀特征進行 LV 級 pooling 操作，亦有參數(shù)化方法，如在上層加入臨時編碼器，把視頻幀的特征作為類似于Transformer 的標記作為輸入，利用 Transformer 進行連續(xù)建模，可能涉及的參數(shù)化方法。此外，亦可能包括類似于時序視頻建模方法的策略，例如 Token Shift 方法，這些方式都可將幀級別特征轉化為視頻級別特征。這些方法均已得到實踐與嘗試，且產(chǎn)生了一定的成效。

Q9：應該理解為視頻的特征，是整個視頻的特征，可能是人為賦予的，但是真的特征，即實質(zhì)上的特征仍然得以體現(xiàn)。是這樣理解嗎？

A9：是的。實際操作則更多地受問題處理粒度的影響，如何設計視頻特征呢？例如在視頻文本語義檢索領域，其所關注的核心問題便是如何從文本角度進行視頻檢索？由于將整段視頻視為一個整體，因此該領域的研究會更傾向于視頻總體呈現(xiàn)的表達方式，即如何展現(xiàn)視頻內(nèi)容？再以視頻到圖像檢索為例，由于該方式更注重圖源檢索，例如在版權檢索等場景中，檢索結果可能包含了 query 的視頻片段，而這些片段與底庫中的某一片段可能存在侵權風險。因此，該領域的研究更側重于視頻片段或更微觀的視頻幀的表達。因此，在這種情況下，視頻特征的關注點并不在于整個視頻的embedding 表達，而是視頻幀的表達。我們還是應根據(jù)具體問題進行詳細的分析。

Q10：視頻的 ASR 和關鍵幀的 OCR 信息有使用嗎？

A10：有使用的。例如，在同源檢索領域內(nèi)，實際上并不涉及到大量的文本信息；而在語義檢索方面，比如說處理視頻數(shù)據(jù)時，首先我們需要介紹 OCR（光學字符識別）技術。一般情況下，我們在進行語義檢索操作時，會構建視頻與文本的配對關系。當視頻缺乏整體性的視頻描述時，視頻與文本的配對通常是從 ASR 中獲取的。將 ASR 的起始時間和結構時間與其對應的視頻片段作為 ASR 文本所對應的視覺輸入。同時，我們還會利用當前 ASR 所對應的視覺片段中的關鍵幀進行 OCR，提取出 OCR 的文本，并加入到 ASR 當中。因此，可以說，ASR 和 OCR 共同構成了文本的內(nèi)容。然而，值得注意的是，如果將 OCR 文本添加到這部分文本中，可能會出現(xiàn)一些問題。因為關鍵幀中的 OCR 文本往往相似度較高，可能需要采取類似于視頻級別的 OCR 方法，進行 OCR 文本的去重。

Q11：剛才回答的這一部分問題，都是在視頻-文本預訓練這一部分做的嗎？

A11：是的。實際上，這方面的研究不只是局限于視頻-文本預訓練，還涉及到視頻文本語義檢索。使用何種文本，我們剛才探討的，都是如何在模型或者數(shù)據(jù)的層面，去提高視頻文本與檢索效果。實際上，還有一個重要的角度是如何構建文本，以便文本更能與視頻相關聯(lián)，例如，文本可以來源于視頻的標題，比如整個視頻的標題，也有可能是視頻的封面描述，還有可能是視頻中對應的片段所對應的自動語音識別（ASR），或者是視頻中關鍵幀的光學字符識別（OCR），這些都有可能與視頻密切相關。具體實現(xiàn)還需要考慮具體的業(yè)務場景，例如，如果您打算嘗試利用視頻中的文本進行視頻檢索，那么 OCR 無疑是必須包含在文本內(nèi)的。

Q12：問 ASR 一般會包含 BGM 一類的噪音是怎么過濾的？是用 Facebook 的庫嗎？

A12：我們所設計的噪聲過濾模型，一方面，具備 BGM 識別的強大功能，這部分功能已經(jīng)有成熟的開源模型可以使用。另一方面，即使模型未成功過濾掉噪音，其實也是無妨的，因為該模型的 BGM 一般為歌詞。對于純音樂類型的 BGM，其實它的 ASR 并不會輸出任何文本。能夠輸出文本的背景音一般都是歌詞，然而歌詞與視頻內(nèi)容的關聯(lián)性，通?？梢酝ㄟ^訓練圖文關聯(lián)性的模型進行調(diào)整，例如類似于中文 clip 這樣的模型就可以將其有效地過濾掉。

Q13：視頻檢索涉及到線上實時 Infer 嗎？是離線做 T+1 的，還是實時流的？如果線上實時 infer 的話，這么大的模型是怎么扛住的？

A13：可以實時 Infer，以視頻文本語義檢索為例，經(jīng)過有效的訓練后，我們可以利用視頻在入庫時，通過訓練過的模型，來獲取視頻的整體 embedding。然后，我們便可以將這個 embedding 存儲在向量檢索的數(shù)據(jù)庫中。對于文本檢索來說，通常的方式就是在線查詢文本。我們可以去部署一些較為輕量化的方案，例如，我們將文本方面的模型進行輕量化處理，采用量化解釋和增強流等方法，以生產(chǎn)出與視頻部分相匹配的輕量級模型。在實際檢索中，我們只需要運行這個輕量級的模型，實時提取出文本的表征，接著習慣于之前已經(jīng)存儲了視頻向量的檢索底層庫，進行量化檢索即可。對于檢索來說，有很多可以提升速度的手段，例如基于 faiss 等向量庫實現(xiàn)實時的檢索。

Q14：請問你們平常用到的向量數(shù)據(jù)庫是哪個？

A14：我們內(nèi)部使用了一款名為千尋的檢索平臺，這并非開源產(chǎn)品。然而，其實現(xiàn)原理與我之前所提及的 Facebook 開源的向量檢索數(shù)據(jù)庫 faiss 原理基本相同。

責任編輯：姜華來源： DataFunTalk

視頻多模態(tài)語義檢索算法

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

螞蟻多模態(tài)團隊在視頻多模態(tài)方向的技術探索

一、概述

二、視頻-文本語義檢索

1. 視頻-文本預訓練

2. 關注難樣本

3. 引入細粒度

三、視頻-視頻同源搜索

1. 視頻到視頻同源檢索的挑戰(zhàn)

2. 框架及核心技術

四、總結

五、Q&A

Q1：關鍵幀需要先標注數(shù)據(jù)，再訓練分割模型嗎？

Q2：現(xiàn)在有沒有 hugging face 上面現(xiàn)成的關鍵幀提取的模型？

Q3：多模態(tài)的 embedding，到下游推薦場景的時候往往沒有效果，有什么好的解決辦法嗎？

Q4：剛才演講的過程中提到節(jié)省了存儲，主要數(shù)據(jù)都存在什么樣的存儲介質(zhì)里？

Q5：關鍵幀的解決方案是不是也可以用在視頻到視頻的翻譯里面？不同語種的翻譯。

Q6：關于團隊招聘情況可否詳細介紹？

Q7：提取視頻特征指用視覺輸入嗎？

Q8：視頻特征是如何通過融合關鍵幀的特征提取到的？

Q9：應該理解為視頻的特征，是整個視頻的特征，可能是人為賦予的，但是真的特征，即實質(zhì)上的特征仍然得以體現(xiàn)。是這樣理解嗎？

Q10：視頻的 ASR 和關鍵幀的 OCR 信息有使用嗎？

Q11：剛才回答的這一部分問題，都是在視頻-文本預訓練這一部分做的嗎？

Q12：問 ASR 一般會包含 BGM 一類的噪音是怎么過濾的？是用 Facebook 的庫嗎？

Q13：視頻檢索涉及到線上實時 Infer 嗎？是離線做 T+1 的，還是實時流的？如果線上實時 infer 的話，這么大的模型是怎么扛住的？

Q14：請問你們平常用到的向量數(shù)據(jù)庫是哪個？