自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Llama都在用的RoPE有了視頻版,復(fù)旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔

人工智能
本文確定了有效位置編碼的四個(gè)關(guān)鍵標(biāo)準(zhǔn):2D/3D結(jié)構(gòu)、頻率分配、空間對(duì)稱性和時(shí)間索引縮放。通過V-NIAH-D任務(wù),作者展示了先前RoPE變體因缺乏適當(dāng)?shù)臅r(shí)間分配而易受干擾。

Llama都在用的RoPE(旋轉(zhuǎn)位置嵌入)被擴(kuò)展到視頻領(lǐng)域,長視頻理解和檢索更強(qiáng)了。

復(fù)旦大學(xué)、上海AI實(shí)驗(yàn)室等提出VideoRoPE,并確定了將RoPE有效應(yīng)用于視頻所需的四個(gè)關(guān)鍵特性。

在長視頻檢索、視頻理解和視頻幻覺等各種下游任務(wù)中,VideoRoPE始終優(yōu)于先前的RoPE變體。

圖片圖片

用三維結(jié)構(gòu)保留時(shí)空關(guān)系

RoPE是一種能夠?qū)⑾鄬?duì)位置信息依賴集成到self-attention中并提升transformer架構(gòu)性能的位置編碼方式。

RoPE及其變體因其長上下文處理能力而被廣泛采用,但將一維RoPE擴(kuò)展到具有復(fù)雜時(shí)空結(jié)構(gòu)的視頻領(lǐng)域仍然是一個(gè)懸而未決的挑戰(zhàn)。

作為分析的一部分,這項(xiàng)工作引入了一個(gè)具有挑戰(zhàn)性的V-NIAH-D(帶干擾項(xiàng)的視覺大海撈針)任務(wù),該任務(wù)在V-NIAH任務(wù)的基礎(chǔ)上增加了周期性干擾項(xiàng)。

V-NIAH-D任務(wù)表明,先前缺乏適當(dāng)時(shí)間維度分配的RoPE變體很容易被干擾項(xiàng)誤導(dǎo)?;诜治觯髡咛岢隽薞ideoRoPE,它具有三維結(jié)構(gòu),旨在保留時(shí)空關(guān)系。

VideoRoPE的特點(diǎn)包括低頻時(shí)間分配以減輕周期性碰撞、對(duì)角布局以保持空間對(duì)稱性,以及可調(diào)整的時(shí)間間隔以解耦時(shí)間和空間索引。

圖片圖片

左圖:為了展示頻率分配的重要性,基于VIAH(a),作者提出了一個(gè)更具挑戰(zhàn)性的V-NIAH-D任務(wù)(b),其中插入了相似圖像作為干擾項(xiàng)。

右圖:與M-RoPE相比,VideoRoPE在檢索中更具魯棒性,并且不容易受到干擾項(xiàng)的影響。

圖片圖片

上圖:M-RoPE的時(shí)間維度局限于局部信息,導(dǎo)致對(duì)角線布局。

下圖:VideoRoPE有效利用時(shí)間維度進(jìn)行檢索。

M-RoPE在定位目標(biāo)圖像上有效,但在多選問題中表現(xiàn)不佳,因?yàn)樗饕ㄟ^垂直位置編碼來定位圖像,而非時(shí)間特征,導(dǎo)致時(shí)間維度未能捕捉長距離依賴關(guān)系,關(guān)注局部信息。相比之下,空間維度則捕捉長距離語義信息,導(dǎo)致M-RoPE在頻率分配設(shè)計(jì)上表現(xiàn)較差。

VideoRoPE設(shè)計(jì)

作者團(tuán)隊(duì)提出了VideoRoPE,一種視頻位置嵌入策略,優(yōu)先考慮時(shí)間建模,通過低頻時(shí)間分配(LTA)減少振蕩并確保魯棒性。它采用對(duì)角線布局(DL)以保持空間對(duì)稱性,并引入可調(diào)時(shí)間間隔(ATS)來控制時(shí)間間隔。VideoRoPE有效地建模了時(shí)空信息,從而實(shí)現(xiàn)了魯棒的視頻位置表示。

1、低頻時(shí)間分配(LTA):

考慮一個(gè)基于RoPE的LLM,頭部維度為128,對(duì)應(yīng)64個(gè)旋轉(zhuǎn)角度θn,分布在不同維度上。每個(gè)圖示中,用平行的藍(lán)色平面表示cos(θnt)在3維上的表現(xiàn)。

(a)對(duì)于M-RoPE,時(shí)間依賴性由前16個(gè)高頻旋轉(zhuǎn)角度建模,導(dǎo)致振蕩和位置信息失真。低維度間隔較短,振蕩周期性使得遠(yuǎn)距離位置可能具有相似信息,類似哈希碰撞(如紅色平面所示),容易引發(fā)干擾,誤導(dǎo)模型。

(b)相比之下,VideoRoPE通過最后16個(gè)旋轉(zhuǎn)角度建模時(shí)間依賴性,具有更寬的單調(diào)間隔。時(shí)間建模不再受振蕩影響,顯著抑制了干擾項(xiàng)的誤導(dǎo)效應(yīng)。
2、對(duì)角線布局(DL):

圖片圖片

原始1D RoPE(Su et al., 2024)未包含空間建模。M-RoPE(Wang et al., 2024b)雖然采用3D結(jié)構(gòu),但引入了不同幀間視覺標(biāo)記索引的差異。

相比之下,VideoRoPE實(shí)現(xiàn)了平衡,保留了原始RoPE一致的索引增長模式,并引入了空間建模。優(yōu)點(diǎn)包括:1)保留視覺標(biāo)記的相對(duì)位置,避免文本標(biāo)記過于接近角落;2)保持原始RoPE編碼形式,相鄰幀的空間位置信息增量與文本標(biāo)記增量一致。

3、可調(diào)時(shí)間間隔(ATS):

為了縮放時(shí)間索引,作者團(tuán)隊(duì)引入縮放因子δ來對(duì)齊視覺和文本標(biāo)記之間的時(shí)間信息。假設(shè)τ為標(biāo)記索引,起始文本(0≤τ<Ts)的時(shí)間、水平和垂直索引為原始標(biāo)記索引τ。對(duì)于視頻輸入(Ts≤τ<Ts+Tv),τ?Ts表示當(dāng)前幀相對(duì)于視頻開始的索引,通過δ縮放控制時(shí)間間距。

對(duì)于結(jié)束文本(Ts+Tv≤τ<Ts+Tv+Te),時(shí)間、水平和垂直索引保持不變,形成線性進(jìn)展。根據(jù)可調(diào)節(jié)的時(shí)間間距設(shè)計(jì),視頻位置編碼(VideoRoPE)中τ-th文本標(biāo)記或(τ,w,h)-th視覺標(biāo)記的位置信息(t,x,y)如式(7)所示。

其中,w和h分別表示視覺塊在幀中的水平和垂直索引。

相鄰文本標(biāo)記的位置信息嵌入對(duì)于Vanilla RoPE(頂部行)、相鄰幀中對(duì)應(yīng)的視覺標(biāo)記對(duì)于M-RoPE(中間行)以及我們?cè)O(shè)計(jì)的帶有交錯(cuò)水平垂直排布和時(shí)間維度放后面設(shè)計(jì)的VideoRoPE(底部行)。

優(yōu)于其他RoPE變體

長視頻檢索任務(wù):

作者團(tuán)隊(duì)展示了VideoRoPE與其他RoPE變體在V-NIAH和V-NIAH-D上的性能。V-NIAH-D比V-NIAH更具挑戰(zhàn)性。Vanilla RoPE和TAD-RoPE在視覺訓(xùn)練上下文外具備一定外推能力,但超出極限后失效。相比之下,VideoRoPE和M-RoPE在測試上下文內(nèi)表現(xiàn)優(yōu)越,且VideoRoPE始終優(yōu)于M-RoPE,展現(xiàn)出更強(qiáng)魯棒性。

長視頻理解任務(wù):

如表所示,作者團(tuán)隊(duì)在三個(gè)長視頻理解基準(zhǔn)上比較了VideoRoPE與現(xiàn)有RoPE變體(Vanilla RoPE、TAD-RoPE和M-RoPE)。VideoRoPE在這些基準(zhǔn)上優(yōu)于所有基線方法,展示了其魯棒性和適應(yīng)性。在LongVideoBench、MLVU和Video-MME上,VideoRoPE在64k上下文長度下分別比M-RoPE提高了2.91、4.46和1.66分,突顯了其在捕捉長距離依賴關(guān)系和處理具有挑戰(zhàn)性的視頻任務(wù)中的卓越能力。

視頻幻覺任務(wù):

在VideoHallucer基準(zhǔn)測試中,作者團(tuán)隊(duì)的VideoRoPE顯著優(yōu)于現(xiàn)有RoPE方法。特別是在時(shí)間幻覺任務(wù)中,VideoRoPE提升了29.5%,展示了更強(qiáng)的時(shí)間依賴關(guān)系捕捉能力,適合處理動(dòng)態(tài)視頻序列。在空間方面,VideoRoPE在對(duì)象-關(guān)系幻覺任務(wù)中提升了18.0%,突顯了其辨識(shí)復(fù)雜空間交互的能力。這些結(jié)果強(qiáng)調(diào)了VideoRoPE在視頻幻覺問題上的魯棒性和實(shí)際應(yīng)用潛力。

總結(jié)

本文確定了有效位置編碼的四個(gè)關(guān)鍵標(biāo)準(zhǔn):2D/3D結(jié)構(gòu)、頻率分配、空間對(duì)稱性和時(shí)間索引縮放。通過V-NIAH-D任務(wù),作者展示了先前RoPE變體因缺乏適當(dāng)?shù)臅r(shí)間分配而易受干擾。

因此,提出了VideoRoPE,采用3D結(jié)構(gòu)保持時(shí)空一致性,低頻時(shí)間分配減少振蕩,對(duì)角布局實(shí)現(xiàn)空間對(duì)稱性,并引入可調(diào)節(jié)時(shí)間間距。VideoRoPE在長視頻檢索、視頻理解和視頻幻覺任務(wù)中優(yōu)于其他RoPE變體。

Paper:https://arxiv.org/pdf/2502.05173
Project Page:https://wiselnn570.github.io/VideoRoPE/
Code:https://github.com/Wiselnn570/VideoRoPE/

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2022-09-30 15:15:41

模型框架

2024-09-23 15:40:00

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2024-11-05 14:20:00

AI模型

2025-01-03 12:00:00

AI檢測模型

2025-04-07 07:55:00

視頻訓(xùn)練生成

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2024-03-11 00:50:00

AI框架數(shù)據(jù)

2024-01-08 13:42:00

模型訓(xùn)練

2024-06-04 09:48:14

自動(dòng)駕駛模型

2023-10-23 12:43:05

模型訓(xùn)練

2024-03-25 07:45:00

AI視頻

2021-09-07 16:15:07

微信視頻號(hào)移動(dòng)應(yīng)用

2025-04-10 09:38:37

2023-12-09 09:44:07

MetaFacebook開源

2024-12-26 07:20:00

2024-07-15 08:58:00

2025-02-10 14:05:00

訓(xùn)練模型AI

2025-03-06 09:25:00

DeepSeek模型訓(xùn)練

2023-10-20 12:54:00

數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)