Llama都在用的RoPE有了視頻版,復(fù)旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔
Llama都在用的RoPE(旋轉(zhuǎn)位置嵌入)被擴(kuò)展到視頻領(lǐng)域,長視頻理解和檢索更強(qiáng)了。
復(fù)旦大學(xué)、上海AI實(shí)驗(yàn)室等提出VideoRoPE,并確定了將RoPE有效應(yīng)用于視頻所需的四個(gè)關(guān)鍵特性。
在長視頻檢索、視頻理解和視頻幻覺等各種下游任務(wù)中,VideoRoPE始終優(yōu)于先前的RoPE變體。
圖片
用三維結(jié)構(gòu)保留時(shí)空關(guān)系
RoPE是一種能夠?qū)⑾鄬?duì)位置信息依賴集成到self-attention中并提升transformer架構(gòu)性能的位置編碼方式。
RoPE及其變體因其長上下文處理能力而被廣泛采用,但將一維RoPE擴(kuò)展到具有復(fù)雜時(shí)空結(jié)構(gòu)的視頻領(lǐng)域仍然是一個(gè)懸而未決的挑戰(zhàn)。
作為分析的一部分,這項(xiàng)工作引入了一個(gè)具有挑戰(zhàn)性的V-NIAH-D(帶干擾項(xiàng)的視覺大海撈針)任務(wù),該任務(wù)在V-NIAH任務(wù)的基礎(chǔ)上增加了周期性干擾項(xiàng)。
V-NIAH-D任務(wù)表明,先前缺乏適當(dāng)時(shí)間維度分配的RoPE變體很容易被干擾項(xiàng)誤導(dǎo)?;诜治觯髡咛岢隽薞ideoRoPE,它具有三維結(jié)構(gòu),旨在保留時(shí)空關(guān)系。
VideoRoPE的特點(diǎn)包括低頻時(shí)間分配以減輕周期性碰撞、對(duì)角布局以保持空間對(duì)稱性,以及可調(diào)整的時(shí)間間隔以解耦時(shí)間和空間索引。
圖片
左圖:為了展示頻率分配的重要性,基于VIAH(a),作者提出了一個(gè)更具挑戰(zhàn)性的V-NIAH-D任務(wù)(b),其中插入了相似圖像作為干擾項(xiàng)。
右圖:與M-RoPE相比,VideoRoPE在檢索中更具魯棒性,并且不容易受到干擾項(xiàng)的影響。
圖片
上圖:M-RoPE的時(shí)間維度局限于局部信息,導(dǎo)致對(duì)角線布局。
下圖:VideoRoPE有效利用時(shí)間維度進(jìn)行檢索。
M-RoPE在定位目標(biāo)圖像上有效,但在多選問題中表現(xiàn)不佳,因?yàn)樗饕ㄟ^垂直位置編碼來定位圖像,而非時(shí)間特征,導(dǎo)致時(shí)間維度未能捕捉長距離依賴關(guān)系,關(guān)注局部信息。相比之下,空間維度則捕捉長距離語義信息,導(dǎo)致M-RoPE在頻率分配設(shè)計(jì)上表現(xiàn)較差。
VideoRoPE設(shè)計(jì)
作者團(tuán)隊(duì)提出了VideoRoPE,一種視頻位置嵌入策略,優(yōu)先考慮時(shí)間建模,通過低頻時(shí)間分配(LTA)減少振蕩并確保魯棒性。它采用對(duì)角線布局(DL)以保持空間對(duì)稱性,并引入可調(diào)時(shí)間間隔(ATS)來控制時(shí)間間隔。VideoRoPE有效地建模了時(shí)空信息,從而實(shí)現(xiàn)了魯棒的視頻位置表示。
1、低頻時(shí)間分配(LTA):
考慮一個(gè)基于RoPE的LLM,頭部維度為128,對(duì)應(yīng)64個(gè)旋轉(zhuǎn)角度θn,分布在不同維度上。每個(gè)圖示中,用平行的藍(lán)色平面表示cos(θnt)在3維上的表現(xiàn)。
(a)對(duì)于M-RoPE,時(shí)間依賴性由前16個(gè)高頻旋轉(zhuǎn)角度建模,導(dǎo)致振蕩和位置信息失真。低維度間隔較短,振蕩周期性使得遠(yuǎn)距離位置可能具有相似信息,類似哈希碰撞(如紅色平面所示),容易引發(fā)干擾,誤導(dǎo)模型。
(b)相比之下,VideoRoPE通過最后16個(gè)旋轉(zhuǎn)角度建模時(shí)間依賴性,具有更寬的單調(diào)間隔。時(shí)間建模不再受振蕩影響,顯著抑制了干擾項(xiàng)的誤導(dǎo)效應(yīng)。
2、對(duì)角線布局(DL):
圖片
原始1D RoPE(Su et al., 2024)未包含空間建模。M-RoPE(Wang et al., 2024b)雖然采用3D結(jié)構(gòu),但引入了不同幀間視覺標(biāo)記索引的差異。
相比之下,VideoRoPE實(shí)現(xiàn)了平衡,保留了原始RoPE一致的索引增長模式,并引入了空間建模。優(yōu)點(diǎn)包括:1)保留視覺標(biāo)記的相對(duì)位置,避免文本標(biāo)記過于接近角落;2)保持原始RoPE編碼形式,相鄰幀的空間位置信息增量與文本標(biāo)記增量一致。
3、可調(diào)時(shí)間間隔(ATS):
為了縮放時(shí)間索引,作者團(tuán)隊(duì)引入縮放因子δ來對(duì)齊視覺和文本標(biāo)記之間的時(shí)間信息。假設(shè)τ為標(biāo)記索引,起始文本(0≤τ<Ts)的時(shí)間、水平和垂直索引為原始標(biāo)記索引τ。對(duì)于視頻輸入(Ts≤τ<Ts+Tv),τ?Ts表示當(dāng)前幀相對(duì)于視頻開始的索引,通過δ縮放控制時(shí)間間距。
對(duì)于結(jié)束文本(Ts+Tv≤τ<Ts+Tv+Te),時(shí)間、水平和垂直索引保持不變,形成線性進(jìn)展。根據(jù)可調(diào)節(jié)的時(shí)間間距設(shè)計(jì),視頻位置編碼(VideoRoPE)中τ-th文本標(biāo)記或(τ,w,h)-th視覺標(biāo)記的位置信息(t,x,y)如式(7)所示。
其中,w和h分別表示視覺塊在幀中的水平和垂直索引。
相鄰文本標(biāo)記的位置信息嵌入對(duì)于Vanilla RoPE(頂部行)、相鄰幀中對(duì)應(yīng)的視覺標(biāo)記對(duì)于M-RoPE(中間行)以及我們?cè)O(shè)計(jì)的帶有交錯(cuò)水平垂直排布和時(shí)間維度放后面設(shè)計(jì)的VideoRoPE(底部行)。
優(yōu)于其他RoPE變體
長視頻檢索任務(wù):
作者團(tuán)隊(duì)展示了VideoRoPE與其他RoPE變體在V-NIAH和V-NIAH-D上的性能。V-NIAH-D比V-NIAH更具挑戰(zhàn)性。Vanilla RoPE和TAD-RoPE在視覺訓(xùn)練上下文外具備一定外推能力,但超出極限后失效。相比之下,VideoRoPE和M-RoPE在測試上下文內(nèi)表現(xiàn)優(yōu)越,且VideoRoPE始終優(yōu)于M-RoPE,展現(xiàn)出更強(qiáng)魯棒性。
長視頻理解任務(wù):
如表所示,作者團(tuán)隊(duì)在三個(gè)長視頻理解基準(zhǔn)上比較了VideoRoPE與現(xiàn)有RoPE變體(Vanilla RoPE、TAD-RoPE和M-RoPE)。VideoRoPE在這些基準(zhǔn)上優(yōu)于所有基線方法,展示了其魯棒性和適應(yīng)性。在LongVideoBench、MLVU和Video-MME上,VideoRoPE在64k上下文長度下分別比M-RoPE提高了2.91、4.46和1.66分,突顯了其在捕捉長距離依賴關(guān)系和處理具有挑戰(zhàn)性的視頻任務(wù)中的卓越能力。
視頻幻覺任務(wù):
在VideoHallucer基準(zhǔn)測試中,作者團(tuán)隊(duì)的VideoRoPE顯著優(yōu)于現(xiàn)有RoPE方法。特別是在時(shí)間幻覺任務(wù)中,VideoRoPE提升了29.5%,展示了更強(qiáng)的時(shí)間依賴關(guān)系捕捉能力,適合處理動(dòng)態(tài)視頻序列。在空間方面,VideoRoPE在對(duì)象-關(guān)系幻覺任務(wù)中提升了18.0%,突顯了其辨識(shí)復(fù)雜空間交互的能力。這些結(jié)果強(qiáng)調(diào)了VideoRoPE在視頻幻覺問題上的魯棒性和實(shí)際應(yīng)用潛力。
總結(jié)
本文確定了有效位置編碼的四個(gè)關(guān)鍵標(biāo)準(zhǔn):2D/3D結(jié)構(gòu)、頻率分配、空間對(duì)稱性和時(shí)間索引縮放。通過V-NIAH-D任務(wù),作者展示了先前RoPE變體因缺乏適當(dāng)?shù)臅r(shí)間分配而易受干擾。
因此,提出了VideoRoPE,采用3D結(jié)構(gòu)保持時(shí)空一致性,低頻時(shí)間分配減少振蕩,對(duì)角布局實(shí)現(xiàn)空間對(duì)稱性,并引入可調(diào)節(jié)時(shí)間間距。VideoRoPE在長視頻檢索、視頻理解和視頻幻覺任務(wù)中優(yōu)于其他RoPE變體。
Paper:https://arxiv.org/pdf/2502.05173
Project Page:https://wiselnn570.github.io/VideoRoPE/
Code:https://github.com/Wiselnn570/VideoRoPE/