長短大小樣樣精通!原始分辨率、超長視頻輸入:更靈活的全開源多模態(tài)架構(gòu)Oryx
本文的主要作者來自清華大學(xué)智能視覺實(shí)驗(yàn)室(i-Vision Group)、騰訊公司和南洋理工大學(xué) S-Lab。本文的共同第一作者為清華大學(xué)自動化系博士生劉祖炎和南洋理工大學(xué)博士生董宇昊,主要研究方向?yàn)槎嗄B(tài)模型。本文的通訊作者為騰訊高級研究員饒永銘和清華大學(xué)自動化系魯繼文教授。
視覺數(shù)據(jù)的種類極其多樣,囊括像素級別的圖標(biāo)到數(shù)小時的視頻?,F(xiàn)有的多模態(tài)大語言模型(MLLM)通常將視覺輸入進(jìn)行分辨率的標(biāo)準(zhǔn)化或進(jìn)行動態(tài)切分等操作,以便視覺編碼器處理。然而,這些方法對多模態(tài)理解并不理想,在處理不同長度的視覺輸入時效率較低。
為了解決上述問題,來自清華大學(xué)、騰訊、南洋理工大學(xué)的研究者們提出一種更靈活的多模態(tài)模型 Oryx。Oryx 是一種統(tǒng)一的多模態(tài)架構(gòu),能夠處理圖像、視頻和多視角 3D 場景,提供了一種能夠按照需求處理任意空間大小和時間長度視覺輸入的解決方案。
Oryx 的核心創(chuàng)新點(diǎn)包括:一個預(yù)訓(xùn)練的 OryxViT 模型,能夠?qū)?strong>任意原始分辨率的圖像編碼為視覺 token;一個動態(tài)壓縮模塊,支持按需對視覺 token 進(jìn)行 1 倍到 16 倍的壓縮。上述設(shè)計使 Oryx 能夠在處理不同需求下的任務(wù)時保持更高的效率和精度。此外,Oryx 通過增強(qiáng)的混合數(shù)據(jù)和針對上下文檢索、空間感知數(shù)據(jù)的訓(xùn)練,在多模態(tài)融合上取得了更強(qiáng)的能力。
- 項(xiàng)目地址:https://oryx-mllm.github.io/
- 論文:https://arxiv.org/abs/2409.12961
- 代碼:https://github.com/Oryx-mllm/Oryx
- Demo:https://huggingface.co/spaces/THUdyh/Oryx
1. 介紹
現(xiàn)有方法簡單地將各種視覺輸入統(tǒng)一處理,忽略了視覺內(nèi)容的差異和不同應(yīng)用的具體需求。例如,早期的 MLLM 將視覺輸入轉(zhuǎn)化為固定分辨率;近期的 MLLM 通過動態(tài)切分方式生成高分辨率的視覺表示。然而,由于缺乏支持原始分辨率輸入的高質(zhì)量視覺編碼器,這些解決方案仍然是一種妥協(xié)。我們認(rèn)為,提供原始分辨率的視覺輸入具有以下優(yōu)勢:利用整個圖像輸入以防止信息丟失;解決邊緣情況;提高效率和自然性;具有更高的性能等。
圖 1:按需求理解的概念。
如圖 1 所示,在分辨率和壓縮比上的優(yōu)化可以提高效率,滿足實(shí)際需求。例如,高分辨率對于與文本相關(guān)的任務(wù)更重要,而對象層次的任務(wù)只需要簡單的圖像,部分應(yīng)用場景需要總結(jié)極長的視頻,其他應(yīng)用場景需要對每一幀保持高精度。因此,支持時空上的任意分辨率是一種更通用和高效的方案。
為了解決以上挑戰(zhàn),本文提出了一個統(tǒng)一的時空理解 MLLM 框架 Oryx,能夠在按需方式下處理任意視覺分辨率、不同時間長度和多樣化的任務(wù)。Oryx 的主要貢獻(xiàn)包括:
- 預(yù)訓(xùn)練視覺編碼器 OryxViT。通過自適應(yīng)位置嵌入層和變長自注意力機(jī)制,能夠并行處理原始分辨率的視覺表示,更加適合語言模型。
- 動態(tài)壓縮模塊。能夠任意調(diào)整下采樣比例,支持 1 倍到 16 倍壓縮的無縫切換,保持精度和長度上的取舍。
- 更好的數(shù)據(jù)和訓(xùn)練策略,能夠在圖像、視頻和 3D 數(shù)據(jù)理解上取得優(yōu)異的性能。
我們提供了 7B/34B 兩種尺度的 Oryx 模型,在視頻、圖像和 3D 理解任務(wù)上表現(xiàn)出色,在 7B 規(guī)模下取得了綜合最好的結(jié)果,34B 模型超越了部分 72B 模型的性能,在部分?jǐn)?shù)據(jù)集超過 GPT-4o、GPT-4V 等模型,成為開源模型的新標(biāo)桿。
2. 方法概覽
圖 2:Oryx 方法總覽圖。
原始分辨率表示
此前在圖像理解上的工作證明,保持視覺內(nèi)容的原始形式具有更高的有效性。然而,原始分辨率在 MLLM 上的應(yīng)用還未得到探索。我們認(rèn)為,MLLM 實(shí)際上是一個應(yīng)用原始分辨率的最好環(huán)境:視覺輸入的來源更加多樣,具有不同的需求和格式;語言 token 長度本質(zhì)是動態(tài)的,因此視覺的動態(tài)表示可以無縫與后續(xù)階段對接。
現(xiàn)有的解決方案證明,傳統(tǒng)的視覺編碼器無法處理原始分辨率輸入。因此,我們基于 SigLIP 模型提出 OryxViT 視覺編碼器。OryxViT 通過將位置嵌入矩陣進(jìn)行縮放插值適應(yīng)輸入內(nèi)容。我們通過輕量級的語言模型作為接口,訓(xùn)練視覺編碼器的參數(shù),從多個多模態(tài)任務(wù)下獲取數(shù)據(jù)進(jìn)行訓(xùn)練,得到 OryxViT 模型。
為了解決批處理過程中動態(tài)的序列長度問題,我們在通道維度上對不同長度的序列進(jìn)行拼接,通過可變長自注意力操作,獨(dú)立計算每個視覺輸入的注意力矩陣,因此 OryxViT 可以高效處理不同縱橫比的視覺信號,并保持與固定分辨率編碼器相同的推理速度。
動態(tài)壓縮模塊
在處理不同長度的視覺輸入時,對所有輸入一視同仁會降低總體計算效率。我們通過動態(tài)壓縮模塊實(shí)現(xiàn)更高比例的壓縮,并將不同壓縮比的視覺內(nèi)容統(tǒng)一成一致的模式,從而能夠按需控制視覺序列的長度。我們對圖像、視頻和長視頻應(yīng)用不同壓縮比的下采樣層,并設(shè)置下采樣倍率為 1 倍、4 倍、16 倍,從而實(shí)現(xiàn)可變和極高的壓縮比。
為了減輕下采樣的影響,我們采用區(qū)域注意力操作對高分辨率、低分辨率特征圖進(jìn)行交互。低分辨率的圖像塊作為查詢向量,通過交叉注意力操作與高分辨率鄰近小塊進(jìn)行交互
其中,我們通過投影層將 Q、K 向量投影到更低的維度,并省略了 V 向量和輸出層的投影以保持原始視覺特征。我們通過共享的 MLP 處理不同壓縮比的視覺輸入,以保持不同視覺輸入的一致性。最終的視覺表示被展平后輸入到語言模型進(jìn)行上下文預(yù)測。
全能模型:圖像、視頻、三維理解
我們進(jìn)一步擴(kuò)展了此前多任務(wù) MLLM 的能力,處理更多樣化的情境、不同長度的內(nèi)容和更廣泛的任務(wù)。
視頻大海撈針訓(xùn)練。我們認(rèn)為,處理長視頻的關(guān)鍵在于從廣泛的上下文中找到特定信息。因此,我們從 MovieNet 數(shù)據(jù)集中獲取視頻樣本,并通過單幀標(biāo)題生成和兩幀差異識別兩個任務(wù)對模型進(jìn)行強(qiáng)化訓(xùn)練。
通過粗略空間關(guān)系學(xué)習(xí) 3D 知識。3D 環(huán)境相關(guān)的多視圖圖像缺乏時間或軌跡線索,因此以往的方法在 3D 任務(wù)中難以實(shí)現(xiàn)正確的空間理解。我們通過粗略空間關(guān)系對應(yīng)的方法,使得模型在多視角中能夠跟隨和捕捉空間關(guān)聯(lián)。
訓(xùn)練策略、數(shù)據(jù)組成
Oryx 的訓(xùn)練策略輕量且直接。模型初始化包括視覺編碼器 OryxViT 和大語言模型。第一階段訓(xùn)練僅涉及圖像數(shù)據(jù),首先在 LLaVA-1.5-558k 圖文對中進(jìn)行簡單的對齊預(yù)訓(xùn)練,訓(xùn)練動態(tài)壓縮模塊。此后在 4M 高質(zhì)量圖文對中進(jìn)行有監(jiān)督微調(diào),這些數(shù)據(jù)從各種開源學(xué)術(shù)數(shù)據(jù)集中獲取。需要注意的是,我們沒有進(jìn)行大規(guī)模的預(yù)訓(xùn)練,也沒有使用私有的有監(jiān)督微調(diào)數(shù)據(jù)以獲取更好的性能,我們的主要目標(biāo)是驗(yàn)證架構(gòu)的有效性。
在第二階段,我們通過圖像、視頻和 3D 理解的多種視覺輸入聯(lián)合訓(xùn)練 Oryx 模型,微調(diào)策略與第一階段類似。我們從第一階段中抽樣 600k 圖像數(shù)據(jù),并從開源視頻數(shù)據(jù)集中選取多個視頻數(shù)據(jù)集進(jìn)行混合。此外,我們包含了所提出的視頻大海撈針樣本、具有粗略空間關(guān)系的 3D 樣本。這部分引入的視頻和多視角數(shù)據(jù)共 650k。
我們的訓(xùn)練數(shù)據(jù)均來源于開源數(shù)據(jù)集,因此確保了 Oryx 的可復(fù)現(xiàn)性,并提供了較大的進(jìn)一步改進(jìn)空間。
3. 實(shí)驗(yàn)結(jié)果
通用視頻理解
我們選取 4 個選擇題評測標(biāo)準(zhǔn)和 3 個回答生成評測標(biāo)準(zhǔn)進(jìn)行通用視頻理解能力的測試。Oryx 在不同尺度的模型下均取得了有競爭力的表現(xiàn)。在帶字幕的 VideoMME 數(shù)據(jù)集中,Oryx 取得 62.6% 和 67.4% 的平均準(zhǔn)確率。在 NextQA 和 Perception Test 數(shù)據(jù)集分別超越此前的 SOTA 結(jié)果 3.3% 和 5.4%。在 GPT 評測的標(biāo)準(zhǔn)下,Oryx 表現(xiàn)出色,取得了 1.49、3.53 和 3.76 的平均得分。
長視頻理解
為了專門測試在長視頻輸入下的能力,我們選取了 3 個主流且具代表性的長視頻理解基準(zhǔn),包括 MLVU、LongVideoBench 和 VideoMME 長視頻子集。Oryx 在理解長視頻內(nèi)容表現(xiàn)出顯著的能力,超越了所有現(xiàn)有的 7B 模型系列,34B 模型在 MLVU 和 LongVideoBench 上相比之前最先進(jìn)的 72B 模型提升了 4.4% 和 0.9% 平均準(zhǔn)確率。在 MLVU 測試集下,Oryx-34B 相比 GPT-4o 高出 6.2%。
視頻大海撈針
為了測試模型的長視頻檢索能力,我們進(jìn)行了視頻大海撈針實(shí)驗(yàn)。基線模型顯示出嚴(yán)重的信息丟失,相比之下,我們的方法在 1.6k 幀輸入的情況下仍然能夠準(zhǔn)確回答問題。
圖像理解
Oryx 模型在多種有代表性的圖像評測基準(zhǔn)下保持了開源模型中第一梯隊(duì)的水平。
三維空間理解
Oryx 在性能上超越此前為 3D 理解設(shè)計的專有模型,也超過最近更新的基于大語言模型的 3D 模型。
分析實(shí)驗(yàn)
分辨率和縮放策略的影響。原始分辨率輸入明顯好于固定尺寸(保持長寬比不變)圖像輸入,尤其在特定任務(wù)下的數(shù)據(jù)集。在不同視覺輸入分辨率下,MMBench 和 OCRBench 性能均有提升,但原始分辨率是相較而言更簡單且有效的策略。
Oryx 結(jié)構(gòu)的消融實(shí)驗(yàn)。在視覺編碼器維度,OryxViT 相比 SigLIP 具有更優(yōu)異的圖像 - 語言對齊性能。通過對原始分辨率和動態(tài)切分方法的公平比較,此前的視覺編碼器無法處理原始分辨率輸入,而基于 OryxViT,原始分辨率方法明顯優(yōu)于動態(tài)切分方法。在我們的訓(xùn)練和測試過程中,我們始終保持原始分辨率輸入。
對于連接模塊,動態(tài)壓縮模塊在視頻測試集中表現(xiàn)出更優(yōu)越的性能,且平均池化具有更好的結(jié)果,這可能是由于無參數(shù)降采樣能夠更好地保留視覺特征分布,并減輕訓(xùn)練的優(yōu)化壓力。
4. 案例分析
視頻描述和總結(jié)任務(wù)
基于視頻內(nèi)容的推理和學(xué)習(xí)
5. 總結(jié)
我們提出了 Oryx 系列,一種能夠按需處理不同任務(wù)、時間長度、視覺分辨率輸入的新架構(gòu)。Oryx 在時空理解上有突出表現(xiàn),利用 OryxViT 創(chuàng)新地處理原始分辨率,采用動態(tài)壓縮模塊進(jìn)行高效的數(shù)據(jù)壓縮,并應(yīng)用了更好的訓(xùn)練策略。Oryx 在各種主流圖像、視頻和 3D 測試基準(zhǔn)中均表現(xiàn)出色。我們希望本工作能夠?yàn)槎嗄B(tài)學(xué)習(xí)提供一個新視角。