自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<nobr id="znc18"><optgroup id="znc18"></optgroup></nobr>

<em id="znc18"></em>

<big id="znc18"><tbody id="znc18"></tbody></big>

<abbr id="znc18"><form id="znc18"><nav id="znc18"></nav></form></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Llama都在用的RoPE有了視頻版，復(fù)旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔

2025-02-19 11:28:00

本文確定了有效位置編碼的四個(gè)關(guān)鍵標(biāo)準(zhǔn)：2D/3D結(jié)構(gòu)、頻率分配、空間對(duì)稱性和時(shí)間索引縮放。通過V-NIAH-D任務(wù)，作者展示了先前RoPE變體因缺乏適當(dāng)?shù)臅r(shí)間分配而易受干擾。

Llama都在用的RoPE（旋轉(zhuǎn)位置嵌入）被擴(kuò)展到視頻領(lǐng)域，長視頻理解和檢索更強(qiáng)了。

復(fù)旦大學(xué)、上海AI實(shí)驗(yàn)室等提出VideoRoPE，并確定了將RoPE有效應(yīng)用于視頻所需的四個(gè)關(guān)鍵特性。

在長視頻檢索、視頻理解和視頻幻覺等各種下游任務(wù)中，VideoRoPE始終優(yōu)于先前的RoPE變體。

圖片

用三維結(jié)構(gòu)保留時(shí)空關(guān)系

RoPE是一種能夠?qū)⑾鄬?duì)位置信息依賴集成到self-attention中并提升transformer架構(gòu)性能的位置編碼方式。

RoPE及其變體因其長上下文處理能力而被廣泛采用，但將一維RoPE擴(kuò)展到具有復(fù)雜時(shí)空結(jié)構(gòu)的視頻領(lǐng)域仍然是一個(gè)懸而未決的挑戰(zhàn)。

作為分析的一部分，這項(xiàng)工作引入了一個(gè)具有挑戰(zhàn)性的V-NIAH-D（帶干擾項(xiàng)的視覺大海撈針）任務(wù)，該任務(wù)在V-NIAH任務(wù)的基礎(chǔ)上增加了周期性干擾項(xiàng)。

V-NIAH-D任務(wù)表明，先前缺乏適當(dāng)時(shí)間維度分配的RoPE變體很容易被干擾項(xiàng)誤導(dǎo)?；诜治觯髡咛岢隽薞ideoRoPE，它具有三維結(jié)構(gòu)，旨在保留時(shí)空關(guān)系。

VideoRoPE的特點(diǎn)包括低頻時(shí)間分配以減輕周期性碰撞、對(duì)角布局以保持空間對(duì)稱性，以及可調(diào)整的時(shí)間間隔以解耦時(shí)間和空間索引。

圖片

左圖：為了展示頻率分配的重要性，基于VIAH（a），作者提出了一個(gè)更具挑戰(zhàn)性的V-NIAH-D任務(wù)（b），其中插入了相似圖像作為干擾項(xiàng)。

右圖：與M-RoPE相比，VideoRoPE在檢索中更具魯棒性，并且不容易受到干擾項(xiàng)的影響。

圖片

上圖：M-RoPE的時(shí)間維度局限于局部信息，導(dǎo)致對(duì)角線布局。

下圖：VideoRoPE有效利用時(shí)間維度進(jìn)行檢索。

M-RoPE在定位目標(biāo)圖像上有效，但在多選問題中表現(xiàn)不佳，因?yàn)樗饕ㄟ^垂直位置編碼來定位圖像，而非時(shí)間特征，導(dǎo)致時(shí)間維度未能捕捉長距離依賴關(guān)系，關(guān)注局部信息。相比之下，空間維度則捕捉長距離語義信息，導(dǎo)致M-RoPE在頻率分配設(shè)計(jì)上表現(xiàn)較差。

VideoRoPE設(shè)計(jì)

作者團(tuán)隊(duì)提出了VideoRoPE，一種視頻位置嵌入策略，優(yōu)先考慮時(shí)間建模，通過低頻時(shí)間分配（LTA）減少振蕩并確保魯棒性。它采用對(duì)角線布局（DL）以保持空間對(duì)稱性，并引入可調(diào)時(shí)間間隔（ATS）來控制時(shí)間間隔。VideoRoPE有效地建模了時(shí)空信息，從而實(shí)現(xiàn)了魯棒的視頻位置表示。

1、低頻時(shí)間分配（LTA）：

考慮一個(gè)基于RoPE的LLM，頭部維度為128，對(duì)應(yīng)64個(gè)旋轉(zhuǎn)角度θn，分布在不同維度上。每個(gè)圖示中，用平行的藍(lán)色平面表示cos(θnt)在3維上的表現(xiàn)。

（a）對(duì)于M-RoPE，時(shí)間依賴性由前16個(gè)高頻旋轉(zhuǎn)角度建模，導(dǎo)致振蕩和位置信息失真。低維度間隔較短，振蕩周期性使得遠(yuǎn)距離位置可能具有相似信息，類似哈希碰撞（如紅色平面所示），容易引發(fā)干擾，誤導(dǎo)模型。

（b）相比之下，VideoRoPE通過最后16個(gè)旋轉(zhuǎn)角度建模時(shí)間依賴性，具有更寬的單調(diào)間隔。時(shí)間建模不再受振蕩影響，顯著抑制了干擾項(xiàng)的誤導(dǎo)效應(yīng)。
2、對(duì)角線布局（DL）：

圖片

原始1D RoPE（Su et al., 2024）未包含空間建模。M-RoPE（Wang et al., 2024b）雖然采用3D結(jié)構(gòu)，但引入了不同幀間視覺標(biāo)記索引的差異。

相比之下，VideoRoPE實(shí)現(xiàn)了平衡，保留了原始RoPE一致的索引增長模式，并引入了空間建模。優(yōu)點(diǎn)包括：1）保留視覺標(biāo)記的相對(duì)位置，避免文本標(biāo)記過于接近角落；2）保持原始RoPE編碼形式，相鄰幀的空間位置信息增量與文本標(biāo)記增量一致。

3、可調(diào)時(shí)間間隔（ATS）：

為了縮放時(shí)間索引，作者團(tuán)隊(duì)引入縮放因子δ來對(duì)齊視覺和文本標(biāo)記之間的時(shí)間信息。假設(shè)τ為標(biāo)記索引，起始文本（0≤τ<Ts）的時(shí)間、水平和垂直索引為原始標(biāo)記索引τ。對(duì)于視頻輸入（Ts≤τ<Ts+Tv），τ?Ts表示當(dāng)前幀相對(duì)于視頻開始的索引，通過δ縮放控制時(shí)間間距。

對(duì)于結(jié)束文本（Ts+Tv≤τ<Ts+Tv+Te），時(shí)間、水平和垂直索引保持不變，形成線性進(jìn)展。根據(jù)可調(diào)節(jié)的時(shí)間間距設(shè)計(jì)，視頻位置編碼（VideoRoPE）中τ-th文本標(biāo)記或（τ,w,h）-th視覺標(biāo)記的位置信息（t,x,y）如式（7）所示。

其中，w和h分別表示視覺塊在幀中的水平和垂直索引。

相鄰文本標(biāo)記的位置信息嵌入對(duì)于Vanilla RoPE（頂部行）、相鄰幀中對(duì)應(yīng)的視覺標(biāo)記對(duì)于M-RoPE（中間行）以及我們?cè)O(shè)計(jì)的帶有交錯(cuò)水平垂直排布和時(shí)間維度放后面設(shè)計(jì)的VideoRoPE（底部行）。

優(yōu)于其他RoPE變體

長視頻檢索任務(wù)：

作者團(tuán)隊(duì)展示了VideoRoPE與其他RoPE變體在V-NIAH和V-NIAH-D上的性能。V-NIAH-D比V-NIAH更具挑戰(zhàn)性。Vanilla RoPE和TAD-RoPE在視覺訓(xùn)練上下文外具備一定外推能力，但超出極限后失效。相比之下，VideoRoPE和M-RoPE在測試上下文內(nèi)表現(xiàn)優(yōu)越，且VideoRoPE始終優(yōu)于M-RoPE，展現(xiàn)出更強(qiáng)魯棒性。

長視頻理解任務(wù)：

如表所示，作者團(tuán)隊(duì)在三個(gè)長視頻理解基準(zhǔn)上比較了VideoRoPE與現(xiàn)有RoPE變體（Vanilla RoPE、TAD-RoPE和M-RoPE）。VideoRoPE在這些基準(zhǔn)上優(yōu)于所有基線方法，展示了其魯棒性和適應(yīng)性。在LongVideoBench、MLVU和Video-MME上，VideoRoPE在64k上下文長度下分別比M-RoPE提高了2.91、4.46和1.66分，突顯了其在捕捉長距離依賴關(guān)系和處理具有挑戰(zhàn)性的視頻任務(wù)中的卓越能力。

視頻幻覺任務(wù)：

在VideoHallucer基準(zhǔn)測試中，作者團(tuán)隊(duì)的VideoRoPE顯著優(yōu)于現(xiàn)有RoPE方法。特別是在時(shí)間幻覺任務(wù)中，VideoRoPE提升了29.5%，展示了更強(qiáng)的時(shí)間依賴關(guān)系捕捉能力，適合處理動(dòng)態(tài)視頻序列。在空間方面，VideoRoPE在對(duì)象-關(guān)系幻覺任務(wù)中提升了18.0%，突顯了其辨識(shí)復(fù)雜空間交互的能力。這些結(jié)果強(qiáng)調(diào)了VideoRoPE在視頻幻覺問題上的魯棒性和實(shí)際應(yīng)用潛力。

總結(jié)

本文確定了有效位置編碼的四個(gè)關(guān)鍵標(biāo)準(zhǔn)：2D/3D結(jié)構(gòu)、頻率分配、空間對(duì)稱性和時(shí)間索引縮放。通過V-NIAH-D任務(wù)，作者展示了先前RoPE變體因缺乏適當(dāng)?shù)臅r(shí)間分配而易受干擾。

因此，提出了VideoRoPE，采用3D結(jié)構(gòu)保持時(shí)空一致性，低頻時(shí)間分配減少振蕩，對(duì)角布局實(shí)現(xiàn)空間對(duì)稱性，并引入可調(diào)節(jié)時(shí)間間距。VideoRoPE在長視頻檢索、視頻理解和視頻幻覺任務(wù)中優(yōu)于其他RoPE變體。

Paper：https://arxiv.org/pdf/2502.05173
Project Page：https://wiselnn570.github.io/VideoRoPE/
Code：https://github.com/Wiselnn570/VideoRoPE/

責(zé)任編輯：武曉燕來源：量子位

Llama 結(jié)構(gòu)V-NIAH-D

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="qi5eh"></abbr>