自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最強全模態(tài)模型Ola-7B橫掃圖像、視頻、音頻主流榜單,騰訊混元Research&清華&NTU聯(lián)手打造

人工智能 新聞
我們提出了 Ola,這是一款功能全面且強大的全模態(tài)語言模型,在圖像、視頻和音頻理解任務(wù)中展現(xiàn)出頗具競爭力的性能。

Ola 是騰訊混元 Research、清華大學(xué)智能視覺實驗室(i-Vision Group)和南洋理工大學(xué) S-Lab 的合作項目。本文的共同第一作者為清華大學(xué)自動化系博士生劉祖炎和南洋理工大學(xué)博士生董宇昊,本文的通訊作者為騰訊高級研究員饒永銘和清華大學(xué)自動化系魯繼文教授。

GPT-4o 的問世引發(fā)了研究者們對實現(xiàn)全模態(tài)模型的濃厚興趣。盡管目前已經(jīng)出現(xiàn)了一些開源替代方案,但在性能方面,它們與專門的單模態(tài)模型相比仍存在明顯差距。在本文中,我們提出了 Ola 模型,這是一款全模態(tài)語言模型,與同類的專門模型相比,它在圖像、視頻和音頻理解等多個方面都展現(xiàn)出了頗具競爭力的性能。

Ola 的核心設(shè)計在于其漸進式模態(tài)對齊策略,該策略逐步擴展語言模型所支持的模態(tài)。我們的訓(xùn)練流程從差異最為顯著的模態(tài)開始:圖像和文本,隨后借助連接語言與音頻知識的語音數(shù)據(jù),以及連接所有模態(tài)的視頻數(shù)據(jù),逐步拓展模型的技能集。這種漸進式學(xué)習(xí)流程還使我們能夠?qū)⒖缒B(tài)對齊數(shù)據(jù)維持在相對較小的規(guī)模,從而讓基于現(xiàn)有視覺 - 語言模型開發(fā)全模態(tài)模型變得更為輕松且成本更低。

  • 項目地址:https://ola-omni.github.io/
  • 論文:https://arxiv.org/abs/2502.04328
  • 代碼:https://github.com/Ola-Omni/Ola
  • 模型:https://huggingface.co/THUdyh/Ola-7b

Ola 模型大幅度推動了全模態(tài)模型在圖像、視頻和音頻理解評測基準中的能力上限。我們在涵蓋圖像、視頻和音頻等方面的完整全模態(tài)基準測試下,Ola 作為一個僅含有 7B 參數(shù)的全模態(tài)模型,實現(xiàn)了對主流專有模型的超越。

圖 1:Ola 全模態(tài)模型超越 Qwen2.5-VL、InternVL2.5 等主流多模態(tài)模型。

在圖像基準測試方面,在極具挑戰(zhàn)性的 OpenCompass 基準測試中,其在 MMBench-1.1、MMMU 等 8 個數(shù)據(jù)集上的總體平均準確率達到 72.6%,在市面上所有 30B 參數(shù)以內(nèi)的模型中排名第 1,超越了 GPT-4o、InternVL2.5、Qwen2.5-VL 等主流模型。在綜合視頻理解測試 VideoMME 中,Ola 在輸入視頻和音頻的情況下,取得了 68.4% 的準確率,超越了 LLaVA-Video、VideoLLaMA3 等知名的視頻多模態(tài)模型。另一方面,Ola 在諸如語音識別和聊天評估等音頻理解任務(wù)方面也表現(xiàn)卓越,達到了接近最好音頻理解模型的水平。

完整的測試結(jié)果表明,與現(xiàn)有的全模態(tài)大語言模型(如 VITA-1.5、IXC2.5-OmniLive 等)相比,Ola 有巨大的性能提升,甚至超越了最先進的專有多模態(tài)模型的性能,包括最新發(fā)布的 Qwen2.5-VL、InternVL2.5 等。目前,模型、代碼、訓(xùn)練數(shù)據(jù)已經(jīng)開源,我們旨在將 Ola 打造成為一個完全開源的全模態(tài)理解解決方案,以推動這一新興領(lǐng)域的未來研究。

1. 介紹

訓(xùn)練全模態(tài)大模型的核心挑戰(zhàn)在于對于多種分布的模態(tài)進行建模,并設(shè)計有效的訓(xùn)練流程,從而在所有支持的任務(wù)上實現(xiàn)有競爭力且均衡的性能。然而,在以往的研究中,高性能與廣泛的模態(tài)覆蓋往往難以兼顧,現(xiàn)有的開源全模態(tài)解決方案與最先進的專用大語言模型之間仍存在較大的性能差距,這給全模態(tài)概念在現(xiàn)實世界的應(yīng)用帶來了嚴重障礙。

在本文中,我們提出了 Ola 模型,探索如何訓(xùn)練出性能可與最先進的專用多模態(tài)模型相媲美、具備實時交互能力且在對齊數(shù)據(jù)上高效的全模態(tài)大語言模型。Ola 模型的核心設(shè)計是漸進式模態(tài)對齊策略。為在語言與視覺之間建立聯(lián)系,我們從圖像和文本這兩種基礎(chǔ)且相互獨立的模態(tài)入手,為全模態(tài)模型構(gòu)建基礎(chǔ)知識。隨后,我們逐步擴充訓(xùn)練集,賦予模型更廣泛的能力,包括通過視頻幀強化視覺理解能力,借助語音數(shù)據(jù)連通語言與音頻知識,以及利用包含音頻的視頻全面融合來自語言、視頻和音頻的信息。這種漸進式學(xué)習(xí)策略將復(fù)雜的訓(xùn)練過程分解為小步驟,使全模態(tài)學(xué)習(xí)變得更容易,從而保持較小規(guī)模的跨模態(tài)對齊數(shù)據(jù),也更容易基于視覺 - 語言模型的現(xiàn)有成果展開研究。

圖 2:漸進式模態(tài)學(xué)習(xí)能夠訓(xùn)練更好的全模態(tài)模型

為配合訓(xùn)練策略,我們在架構(gòu)和數(shù)據(jù)領(lǐng)域也進行了重要改進。

  • Ola 架構(gòu)支持全模態(tài)輸入以及流式文本和語音生成,其架構(gòu)設(shè)計可擴展且簡潔。我們?yōu)橐曈X和音頻設(shè)計了聯(lián)合對齊模塊,通過局部 - 全局注意力池化層融合視覺輸入,并實現(xiàn)視覺、音頻和文本標記的自由組合。此外,我們集成了逐句流式解碼模塊以實現(xiàn)高質(zhì)量語音合成。
  • 除了在視覺和音頻方面收集的微調(diào)數(shù)據(jù)外,我們深入挖掘視頻與其對應(yīng)音頻之間的關(guān)系,以構(gòu)建視覺與音頻模態(tài)之間的橋梁。具體而言,我們從學(xué)術(shù)及開放式網(wǎng)絡(luò)資源收集原始視頻,設(shè)計獨立的清理流程,然后利用視覺 - 語言模型根據(jù)字幕和視頻內(nèi)容生成問答對。

2. 方法概覽

圖 3:Ola 模型結(jié)構(gòu)圖

全模態(tài)結(jié)構(gòu)設(shè)計

全模態(tài)輸入編碼:基于先前文本到單模態(tài)大語言模型的成功實踐,我們分別對視覺、音頻和文本輸入進行編碼。對于視覺輸入,我們使用任意分辨率視覺編碼器 OryxViT 進行編碼,保留每個圖像或幀的原始寬高比;對于音頻輸入,我們提出雙編碼器方法,使用 Whisper-v3 作為語音編碼器,BEATs 作為音樂編碼器;對于文本輸入,我們直接使用預(yù)訓(xùn)練大語言模型中的嵌入層來處理文本標記。

視覺與音頻聯(lián)合對齊:對齊模塊充當從特定模態(tài)空間到文本嵌入空間的轉(zhuǎn)換器,這是全模態(tài)大語言模型的關(guān)鍵部分。為了提高效率并減少視覺特征的標記長度,我們進一步提出了 “局部 - 全局注意力池化” 層,以在減少信息損失的情況下獲得更好的下采樣特征。具體而言,我們采用雙線性插值進行 2 倍下采樣以獲得全局特征,將原始特征和全局特征結(jié)合用于局部 - 全局嵌入,并使用 Softmax 預(yù)測每個下采樣空間區(qū)域的重要性,此后通過哈達瑪積確定每個先前區(qū)域的權(quán)重。

我們參照先前的工作,應(yīng)用兩層非線性 MLP 將特定模態(tài)特征投影到語言空間中。

流式語音生成:我們采用 CosyVoice 作為高質(zhì)量的語音解碼器進行語音生成。為支持用戶友好的流式解碼,我們實時檢測生成的文本標記,一旦遇到標點符號就截斷句子。隨后,將前一個句子輸入語音解碼器進行音頻合成。因此,Ola 無需等待整個句子完成即可支持流式解碼。

漸進式模態(tài)對齊策略

語言、視覺與音頻之間的模態(tài)差距:通過探索,我們認識到全模態(tài)訓(xùn)練中的兩個關(guān)鍵問題。

  • 模態(tài)平衡:直接合并來自所有模態(tài)的數(shù)據(jù)會對基準性能產(chǎn)生負面影響。我們認為,文本和圖像是全模態(tài)學(xué)習(xí)中的核心模態(tài),而語音和視頻分別是文本和圖像的變體。學(xué)會識別文本和圖像可確保模型具備基本的跨模態(tài)能力,所以我們優(yōu)先處理這些較難的情況。隨后,我們逐步將視頻、音頻和語音納入全模態(tài)大語言模型的訓(xùn)練中。
  • 音頻與視覺之間的聯(lián)系:在全模態(tài)學(xué)習(xí)中,聯(lián)合學(xué)習(xí)音頻和視覺數(shù)據(jù)能夠通過提供跨不同模態(tài)的更全面視角,產(chǎn)生令人驚喜的結(jié)果。對于 Ola 模型,我們將視頻視為音頻與視覺之間的橋梁,因為視頻在幀與伴隨音頻之間包含自然、豐富且高度相關(guān)的信息。我們通過優(yōu)化訓(xùn)練流程和準備有針對性的訓(xùn)練數(shù)據(jù)來驗證這一假設(shè)。

在訓(xùn)練流程中,訓(xùn)練階段 1 為文本 - 圖像訓(xùn)練,包括 MLP 對齊、大規(guī)模預(yù)訓(xùn)練以及監(jiān)督微調(diào);階段 2 為圖像與視頻的持續(xù)訓(xùn)練,利用視頻數(shù)據(jù)持續(xù)擴展 Ola 的能力;階段 3 為通過視頻連接視覺與音頻,我們遵循視覺 MLP 適配器的訓(xùn)練策略,同時通過基本的 ASR 任務(wù)初始化音頻 MLP。然后,我們將文本與語音理解、文本與音樂理解、音頻與視頻聯(lián)合理解以及最重要的文本 - 圖像多模態(tài)任務(wù)混合在一起進行正式訓(xùn)練。在這個階段,Ola 專注于學(xué)習(xí)音頻識別以及識別視覺與音頻之間的關(guān)系,訓(xùn)練完成后,便得到一個能夠綜合理解圖像、視頻和音頻的模型。

全模態(tài)訓(xùn)練數(shù)據(jù)

圖像數(shù)據(jù)中,在大規(guī)模預(yù)訓(xùn)練階段,我們從開源數(shù)據(jù)和內(nèi)部數(shù)據(jù)中收集了約 20M 個文本 - 圖像數(shù)據(jù)對;對于 SFT 數(shù)據(jù),我們從 LLaVA-Onevision、Cauldron、Cambrian-1、Mammoth-VL、PixMo 等數(shù)據(jù)集中混合了約 7.3M 圖像訓(xùn)練數(shù)據(jù)。視頻數(shù)據(jù)中,我們從 LLaVA-Video-178k、VideoChatGPT-Plus、LLaVA-Hound、Cinepile 中收集了 1.9M 個視頻對話數(shù)據(jù)。音頻數(shù)據(jù)中,我們設(shè)計了 ASR、音頻字幕、音頻問答、音樂字幕、音樂問答等文本 - 語音理解任務(wù),總體音頻訓(xùn)練數(shù)據(jù)包含 1.1M 個樣本,相關(guān)的文本問答表示則從 SALMONN 數(shù)據(jù)集中收集。

進一步地,我們構(gòu)造了一種跨模態(tài)視頻數(shù)據(jù)的生成方法,旨在揭示視頻與音頻之間的內(nèi)在關(guān)系,引導(dǎo)全模態(tài)大語言模型學(xué)習(xí)跨模態(tài)信息。現(xiàn)有的大多數(shù)視頻訓(xùn)練數(shù)據(jù)僅從幀輸入進行注釋或合成,常常忽略了伴隨音頻中的寶貴信息。具體而言,我們?yōu)榭缒B(tài)學(xué)習(xí)開發(fā)了兩個任務(wù):視頻 - 音頻問答和視頻語音識別。我們使用視覺 - 語言模型基于視頻和相應(yīng)字幕生成問題和答案,并要求模型以字幕輸入為重點,同時將視頻作為補充信息生成問答。我們?yōu)槊總€視頻創(chuàng)建了 3 個問答對,獲取了 243k 個跨模態(tài)視頻 - 音頻數(shù)據(jù)。此外,我們還納入了包含 83k 個訓(xùn)練數(shù)據(jù)的原始視頻字幕任務(wù),以幫助模型在嘈雜環(huán)境中保持其語音識別能力。

3. 實驗結(jié)果

全模態(tài)理解

與當前最先進的多模態(tài)大語言模型和全模態(tài)模型相比,Ola 在主要多模態(tài)基準測試中表現(xiàn)出極強的競爭力。具體而言,在圖像基準測試中,Ola 在 MMBench-1.1 中達到 84.3%,在 MMStar 上達到 70.8%,在 MMMU 上達到 57.0%,超越了所有參數(shù)數(shù)量相近的相關(guān)多模態(tài)大語言模型。在視頻基準測試中,Ola 在 VideoMME 上取得了 68.4% 的準確率。在音頻基準測試中,Ola 在 LibriSpeech 上的 WER 為 3.1%,在 AIR-Bench 上的平均得分為 6.41,超過了現(xiàn)有的全模態(tài)模型。

音頻評測集上的分析

在音頻評測集上的細節(jié)結(jié)果表明,Ola 相較于現(xiàn)有的全模態(tài)模型展現(xiàn)出顯著優(yōu)勢,甚至接近專門的音頻模型,突顯了其強大的通用性。此外,我們可以觀察到通過跨模態(tài)聯(lián)合學(xué)習(xí),性能仍有穩(wěn)定提升。盡管視頻音頻與語音相關(guān)數(shù)據(jù)集之間存在顯著的分布差異,但這種提升表明了視頻與語音模態(tài)之間存在穩(wěn)固的聯(lián)系。

全模態(tài)訓(xùn)練的影響

通過比較全模態(tài)訓(xùn)練前后的結(jié)果,我們發(fā)現(xiàn)在 VideoMME 上的性能從 63.8% 提升到了 64.4%。此外,在原始視頻中加入音頻模態(tài)后,性能顯著提升,在 VideoMME 上的分數(shù)從 64.4% 提高到了 68.4%。這些發(fā)現(xiàn)表明音頻包含有助于提升整體識別性能的有價值信息。

值得注意的是,經(jīng)過全模態(tài)訓(xùn)練并輸入音頻的 Ola 準確率甚至超過了使用原始文本字幕的結(jié)果,總體性能達到 68.4%,而使用原始文本字幕的總體性能為 67.1%。結(jié)果表明,在某些基準測試中,音頻數(shù)據(jù)可能包含超出原始文本信息的更多內(nèi)容。

漸進式模態(tài)對齊的影響

我們評估了每個階段中間模型的基本性能,我們可以觀察到,從圖像、視頻到音頻的漸進式模態(tài)訓(xùn)練能夠最大程度地保留先前學(xué)到的能力。

4. 總結(jié)

我們提出了 Ola,這是一款功能全面且強大的全模態(tài)語言模型,在圖像、視頻和音頻理解任務(wù)中展現(xiàn)出頗具競爭力的性能。我們基于漸進式模態(tài)對齊策略給出的解決方案,為訓(xùn)練全模態(tài)模型提供了一種自然、高效且具競爭力的訓(xùn)練策略。通過支持全模態(tài)輸入和流式解碼的架構(gòu)設(shè)計改進,以及高質(zhì)量跨模態(tài)視頻數(shù)據(jù)的準備,進一步拓展了 Ola 的能力。我們期望這項工作能夠啟發(fā)未來對更通用人工智能模型的研究。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-07-15 08:58:00

2024-05-22 18:10:38

2024-03-18 09:38:42

騰訊清華模型

2024-05-17 14:06:09

2024-11-06 09:47:00

2025-04-08 03:00:00

2023-09-07 11:48:36

騰訊混元大模型

2024-12-12 10:00:00

2024-05-30 16:28:38

2023-10-26 15:38:03

混元大模型騰訊

2025-03-11 09:42:00

2025-03-27 12:30:36

2025-03-27 13:23:39

2022-04-29 16:47:57

AI騰訊

2024-12-11 08:28:15

2024-07-30 13:42:57

點贊
收藏

51CTO技術(shù)棧公眾號