自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

沒(méi)有等來(lái)OpenAI開源GPT-4o,等來(lái)了開源版VITA

人工智能 新聞
本文 ,來(lái)自騰訊優(yōu)圖實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出了 VITA,這是第一個(gè)開源的多模態(tài)大語(yǔ)言模型 (MLLM),它能夠同時(shí)處理和分析視頻、圖像、文本和音頻模態(tài),同時(shí)具有先進(jìn)的多模態(tài)交互體驗(yàn)。

大語(yǔ)言模型 (LLM) 經(jīng)歷了重大的演變,最近,我們也目睹了多模態(tài)大語(yǔ)言模型 (MLLM) 的蓬勃發(fā)展,它們表現(xiàn)出令人驚訝的多模態(tài)能力。

特別是,GPT-4o 的出現(xiàn)顯著推動(dòng)了 MLLM 領(lǐng)域的發(fā)展。然而,與這些模型相對(duì)應(yīng)的開源模型卻明顯不足。開源社區(qū)迫切需要進(jìn)一步促進(jìn)該領(lǐng)域的發(fā)展,這一點(diǎn)怎么強(qiáng)調(diào)也不為過(guò)。

本文 ,來(lái)自騰訊優(yōu)圖實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出了 VITA,這是第一個(gè)開源的多模態(tài)大語(yǔ)言模型 (MLLM),它能夠同時(shí)處理和分析視頻、圖像、文本和音頻模態(tài),同時(shí)具有先進(jìn)的多模態(tài)交互體驗(yàn)。

研究者以 Mixtral 8×7B 為語(yǔ)言基礎(chǔ),然后擴(kuò)大其漢語(yǔ)詞匯量,并進(jìn)行雙語(yǔ)指令微調(diào)。除此以外,研究者進(jìn)一步通過(guò)多模態(tài)對(duì)齊和指令微調(diào)的兩階段多任務(wù)學(xué)習(xí)賦予語(yǔ)言模型視覺(jué)和音頻能力。

VITA 展示了強(qiáng)大的多語(yǔ)言、視覺(jué)和音頻理解能力,其在單模態(tài)和多模態(tài)基準(zhǔn)測(cè)試中的出色表現(xiàn)證明了這一點(diǎn)。

除了基礎(chǔ)能力,該研究在提升自然多模態(tài)人機(jī)交互體驗(yàn)方面也取得了長(zhǎng)足進(jìn)步。據(jù)了解,這是第一個(gè)在 MLLM 中利用非喚醒交互和音頻中斷的研究。研究者還設(shè)計(jì)了額外的狀態(tài) token 以及相應(yīng)的訓(xùn)練數(shù)據(jù)和策略來(lái)感知各種交互場(chǎng)景。

VITA 的部署采用復(fù)式方案,其中一個(gè)模型負(fù)責(zé)生成對(duì)用戶查詢的響應(yīng),另一個(gè)模型持續(xù)跟蹤環(huán)境輸入。這使得 VITA 具有令人印象深刻的人機(jī)交互功能。

VITA 是開源社區(qū)探索多模態(tài)理解和交互無(wú)縫集成的第一步。雖然在 VITA 上還有很多工作要做才能接近閉源同行,但該研究希望 VITA 作為先驅(qū)者的角色可以成為后續(xù)研究的基石。

圖片

  • 論文地址:https://arxiv.org/pdf/2408.05211
  • 論文主頁(yè):https://vita-home.github.io/
  • 論文標(biāo)題:VITA: Towards Open-Source Interactive Omni Multimodal LLM

在上述視頻中,用戶可以和 VITA 進(jìn)行無(wú)障礙的溝通,看到用戶穿的白色 T 恤后,會(huì)給出搭配什么顏色的褲子;在被問(wèn)到數(shù)學(xué)題時(shí),能夠?qū)崟r(shí)查看題目類型,進(jìn)行推理,然后給出準(zhǔn)確的答案;當(dāng)你和別人講話時(shí),VITA 也不會(huì)插嘴,因?yàn)橹烙脩舨皇呛退涣?;出去旅游,VITA 也會(huì)給出一些建議;在 VITA 輸出的過(guò)程中,你也可以實(shí)時(shí)打斷對(duì)話,并展開另一個(gè)話題。

在這個(gè)視頻中,用戶拿著一個(gè)餅干,詢問(wèn) VITA 自己在吃什么,VITA 給出在吃餅干,并給出餅干搭配牛奶或者茶口感會(huì)更好的建議。

健身時(shí),充當(dāng)你的聊天搭子:

注:上述視頻都是實(shí)時(shí) 1 倍速播放,沒(méi)有經(jīng)過(guò)加速處理。

根據(jù)用戶提供的流程圖,VITA 就能編寫代碼:

圖片

提供一張圖片,VITA 也能根據(jù)圖片內(nèi)容回答問(wèn)題:

圖片

還能觀看視頻回答問(wèn)題,當(dāng)用戶拋出問(wèn)題「詳細(xì)描述狗的動(dòng)作」,VITA 也能準(zhǔn)確給出答案:

圖片

方法介紹

如圖 3 所示,VITA 的整體訓(xùn)練流程包括三個(gè)階段:LLM 指令微調(diào)、多模態(tài)對(duì)齊和多模態(tài)指令微調(diào)。

圖片

LLM 指令微調(diào)

Mixtral 8x7B 的性能屬于頂級(jí)開源 LLM 中一員,因此該研究將其作為基礎(chǔ)。然而研究者觀察到官方的 Mixtral 模型在理解中文方面的能力有限。為了注入雙語(yǔ)(中文和英文)理解能力,該研究將中文詞匯量擴(kuò)展到基礎(chǔ)模型,將詞匯量從 32,000 個(gè)增加到 51,747 個(gè)。在擴(kuò)展詞匯量后,研究者使用 500 萬(wàn)個(gè)合成的雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行純文本指令微調(diào)。

多模態(tài)對(duì)齊

為了彌合文本和其他模態(tài)之間的表征差距,從而為多模態(tài)理解奠定基礎(chǔ)。僅在視覺(jué)對(duì)齊階段訓(xùn)練視覺(jué)連接器。表 1 總結(jié)了所使用的訓(xùn)練數(shù)據(jù),除了純文本部分。

圖片

視覺(jué)模態(tài)

首先是視覺(jué)編碼器。研究者使用 InternViT-300M-448px 作為視覺(jué)編碼器,它以分辨率 448×448 的圖像作為輸入,并在使用一個(gè)作為簡(jiǎn)單兩層 MLP 的視覺(jué)連接器后生成了 256 個(gè) token。對(duì)于高分辨率圖像輸入,研究者利用動(dòng)態(tài) patching 策略來(lái)捕捉局部細(xì)節(jié)。

視頻被視作圖像的特殊用例。如果視頻長(zhǎng)度短于 4 秒,則統(tǒng)一每秒采樣 4 幀。如果視頻長(zhǎng)度在 4 秒到 16 秒之間,則每秒采樣一幀。對(duì)于時(shí)長(zhǎng)超過(guò) 16 秒的視頻,統(tǒng)一采樣 16 幀。

其次是視覺(jué)對(duì)齊。研究者僅在視覺(jué)對(duì)齊階段訓(xùn)練視覺(jué)連接器,并且在該階段沒(méi)有使用音頻問(wèn)題。

最后是數(shù)據(jù)級(jí)聯(lián)。對(duì)于純文本數(shù)據(jù)和圖像數(shù)據(jù),該研究旨在將上下文長(zhǎng)度級(jí)聯(lián)到 6K token,如圖 4 所示。值得注意的是,視頻數(shù)據(jù)不進(jìn)行級(jí)聯(lián)。

圖片

級(jí)聯(lián)不同的數(shù)據(jù)有兩個(gè)好處:

  • 它支持更長(zhǎng)的上下文長(zhǎng)度,允許從單個(gè)圖像問(wèn)題交互擴(kuò)展到多個(gè)圖像問(wèn)題交互,從而產(chǎn)生更靈活的輸入形式,并擴(kuò)展上下文長(zhǎng)度。
  • 它提高了計(jì)算效率,因?yàn)橐曨l幀通常包含大量視覺(jué) token。通過(guò)級(jí)聯(lián)圖像 - 問(wèn)題對(duì),該研究可以在訓(xùn)練批中保持平衡的 token 數(shù)量,從而提高計(jì)算效率。

此外,該研究發(fā)現(xiàn)使用級(jí)聯(lián)數(shù)據(jù)訓(xùn)練的模型與使用原始數(shù)據(jù)訓(xùn)練的模型性能相當(dāng)。

音頻模態(tài)

一方面是音頻編碼器。輸入音頻在最開始通過(guò)一個(gè) Mel 濾波器組塊進(jìn)行處理,該塊將音頻信號(hào)分解為 mel 頻率范圍內(nèi)的各個(gè)頻帶,模仿人類對(duì)聲音的非線性感知。隨后,研究者先后利用了一個(gè) 4×CNN 的下采樣層和一個(gè) 24 層的 transformer,總共 3.41 億參數(shù),用來(lái)處理輸入特征。同時(shí)他們使用一個(gè)簡(jiǎn)單的兩層 MLP 作為音頻 - 文本模態(tài)連接器。最后,每 2 秒的音頻輸入被編碼為 25 個(gè) tokens。

另一方面是音頻對(duì)齊。對(duì)于對(duì)齊任務(wù),研究者利用了自動(dòng)語(yǔ)言識(shí)別(ASR)。數(shù)據(jù)集包括 Wenetspeech(擁有超過(guò) 1 萬(wàn)小時(shí)的多領(lǐng)域語(yǔ)音識(shí)別數(shù)據(jù),主要側(cè)重于中文任務(wù))和 Gigaspeech(擁有 1 萬(wàn)小時(shí)的高質(zhì)量音頻數(shù)據(jù),大部分?jǐn)?shù)據(jù)面向英文語(yǔ)音識(shí)別任務(wù))。對(duì)于音頻字幕任務(wù),研究者使用了 Wavcaps 的 AudioSet SL 子集,包含了 400k 個(gè)具有相應(yīng)音頻字幕的音頻片段。在對(duì)齊過(guò)程中,音頻編碼器和連接器都經(jīng)過(guò)了訓(xùn)練。

多模態(tài)指令微調(diào)

該研究對(duì)模型進(jìn)行了指令調(diào)整,以增強(qiáng)其指令遵循能力,無(wú)論是文本還是音頻。

數(shù)據(jù)構(gòu)建。指令調(diào)優(yōu)階段的數(shù)據(jù)源與表 1 中對(duì)齊階段的數(shù)據(jù)源相同,但該研究做了以下改進(jìn):

問(wèn)題被隨機(jī)(大約一半)替換為其音頻版本(使用 TTS 技術(shù),例如 GPT-SoVITS6),旨在增強(qiáng)模型對(duì)音頻查詢的理解及其指令遵循能力。

設(shè)置不同的系統(tǒng) prompt,避免不同類型數(shù)據(jù)之間的沖突,如表 2 所示。例如,有些問(wèn)題可以根據(jù)視覺(jué)信息來(lái)回答或者基于模型自己的知識(shí),導(dǎo)致沖突。此外,圖像數(shù)據(jù)已被 patch,類似于多幀視頻數(shù)據(jù),這可能會(huì)混淆模型。系統(tǒng) prompt 顯式區(qū)分不同數(shù)據(jù)類型,有助于更直觀地理解。

圖片

為了實(shí)現(xiàn)兩種交互功能,即非喚醒交互和音頻中斷交互,該研究提出了復(fù)式部署框架,即同時(shí)部署了兩個(gè) VITA 模型,如圖 1 所示。

圖片

在典型情況下,生成模型(Generation model)會(huì)回答用戶查詢。同時(shí),監(jiān)控模型(Monitoring model)在生成過(guò)程中檢測(cè)環(huán)境聲音。它忽略非查詢用戶聲音,但在識(shí)別到查詢音頻時(shí)停止生成模型的進(jìn)度。監(jiān)控模型隨后會(huì)整合歷史上下文并響應(yīng)最新的用戶查詢,生成模型和監(jiān)控模型的身份發(fā)生了轉(zhuǎn)換。

圖片

實(shí)驗(yàn)評(píng)估

語(yǔ)言性能。為了驗(yàn)證語(yǔ)言模型訓(xùn)練過(guò)程的有效性,研究者使用了四個(gè)數(shù)據(jù)集,分別是 C-EVAL、AGIEVAL、MMLU 和 GSM8K。這些數(shù)據(jù)集涵蓋了各種場(chǎng)景,包括一般選擇題、多學(xué)科問(wèn)答題以及數(shù)學(xué)和邏輯推理任務(wù),同時(shí)覆蓋了中英文上下文。

下表 3 的結(jié)果表明,本文的訓(xùn)練顯著增強(qiáng)了語(yǔ)言模型在中文評(píng)估集(C-EVAL 和 AGIEVAL)上的能力,同時(shí)保持了在英文相關(guān)基準(zhǔn)(MMLU)上的原始性能水平,并在數(shù)學(xué)推理任務(wù)(GSM8K)上實(shí)現(xiàn)顯著提升。

圖片

音頻性能。為了驗(yàn)證模型學(xué)得的語(yǔ)音表示的穩(wěn)健性,研究者在 Wenetspeech 和 Librispeech 兩個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試。

其中 Wenetspeech 有兩個(gè)評(píng)估指標(biāo),分別是 test_net 和 test_meeting,前者數(shù)據(jù)源與訓(xùn)練數(shù)據(jù)更加一致,因而更容易;后者提出了更大的挑戰(zhàn)。作為模型的 held-out 數(shù)據(jù)集,Librispeech 評(píng)估了模型在未見(jiàn)過(guò)數(shù)據(jù)集上的泛化能力,它有四個(gè)評(píng)估集,以「dev」開頭的是驗(yàn)證集,以「test」開頭的是測(cè)試集,「Clean」代表挑戰(zhàn)性較低的集,「other」代表挑戰(zhàn)性更高的集。

從下表 4 的結(jié)果可以看到,VITA 在 ASR 基準(zhǔn)測(cè)試上取得了非常不錯(cuò)的結(jié)果。

圖片

多模態(tài)性能。為了評(píng)估多模態(tài)能力,該研究在四個(gè)基準(zhǔn)上評(píng)估了 VITA,包括 MME 、OCRBench、HallusionBench 和 Video-MME。結(jié)果如圖 5 所示。

在圖像理解方面,VITA 優(yōu)于圖像專用開源模型 LLaVA-Next,并且接近閉源模型 Gemini 1.5 Pro。

在視頻理解方面,VITA 超過(guò)了視頻開源模型 Video-CCAM。盡管 VITA 和視頻專用的 LLaVA-Next-Video 之間存在差距,但考慮到 VITA 支持更廣泛的模態(tài)并優(yōu)先考慮可交互性,因而這是可以接受的。

最后,值得注意的是,目前開源模型與專有模型在視頻理解能力方面仍存在較大差距。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-03-18 08:02:26

2024-09-24 11:13:14

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2025-04-08 02:26:00

2024-07-04 15:26:56

2024-05-14 11:29:15

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2024-05-15 09:13:37

GPT-4oAI

2024-09-23 15:10:00

2024-10-17 13:30:00

2024-07-31 13:20:14

2024-08-08 14:27:29

2024-05-15 17:34:15

2024-07-08 08:25:00

2025-03-31 08:50:00

AI生成模型

2024-05-21 12:23:17

2024-11-11 09:47:00

AI開源

2024-12-26 07:10:00

2024-06-05 08:29:35

2024-05-16 12:38:05

GPT-4o圖像方式
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)