自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="d6jes"></ruby>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

沒(méi)有等來(lái)OpenAI開源GPT-4o，等來(lái)了開源版VITA

作者：機(jī)器之心 2024-08-14 14:30:00

人工智能新聞

本文，來(lái)自騰訊優(yōu)圖實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出了 VITA，這是第一個(gè)開源的多模態(tài)大語(yǔ)言模型 (MLLM)，它能夠同時(shí)處理和分析視頻、圖像、文本和音頻模態(tài)，同時(shí)具有先進(jìn)的多模態(tài)交互體驗(yàn)。

大語(yǔ)言模型 (LLM) 經(jīng)歷了重大的演變，最近，我們也目睹了多模態(tài)大語(yǔ)言模型 (MLLM) 的蓬勃發(fā)展，它們表現(xiàn)出令人驚訝的多模態(tài)能力。

特別是，GPT-4o 的出現(xiàn)顯著推動(dòng)了 MLLM 領(lǐng)域的發(fā)展。然而，與這些模型相對(duì)應(yīng)的開源模型卻明顯不足。開源社區(qū)迫切需要進(jìn)一步促進(jìn)該領(lǐng)域的發(fā)展，這一點(diǎn)怎么強(qiáng)調(diào)也不為過(guò)。

本文，來(lái)自騰訊優(yōu)圖實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出了 VITA，這是第一個(gè)開源的多模態(tài)大語(yǔ)言模型 (MLLM)，它能夠同時(shí)處理和分析視頻、圖像、文本和音頻模態(tài)，同時(shí)具有先進(jìn)的多模態(tài)交互體驗(yàn)。

研究者以 Mixtral 8×7B 為語(yǔ)言基礎(chǔ)，然后擴(kuò)大其漢語(yǔ)詞匯量，并進(jìn)行雙語(yǔ)指令微調(diào)。除此以外，研究者進(jìn)一步通過(guò)多模態(tài)對(duì)齊和指令微調(diào)的兩階段多任務(wù)學(xué)習(xí)賦予語(yǔ)言模型視覺(jué)和音頻能力。

VITA 展示了強(qiáng)大的多語(yǔ)言、視覺(jué)和音頻理解能力，其在單模態(tài)和多模態(tài)基準(zhǔn)測(cè)試中的出色表現(xiàn)證明了這一點(diǎn)。

除了基礎(chǔ)能力，該研究在提升自然多模態(tài)人機(jī)交互體驗(yàn)方面也取得了長(zhǎng)足進(jìn)步。據(jù)了解，這是第一個(gè)在 MLLM 中利用非喚醒交互和音頻中斷的研究。研究者還設(shè)計(jì)了額外的狀態(tài) token 以及相應(yīng)的訓(xùn)練數(shù)據(jù)和策略來(lái)感知各種交互場(chǎng)景。

VITA 的部署采用復(fù)式方案，其中一個(gè)模型負(fù)責(zé)生成對(duì)用戶查詢的響應(yīng)，另一個(gè)模型持續(xù)跟蹤環(huán)境輸入。這使得 VITA 具有令人印象深刻的人機(jī)交互功能。

VITA 是開源社區(qū)探索多模態(tài)理解和交互無(wú)縫集成的第一步。雖然在 VITA 上還有很多工作要做才能接近閉源同行，但該研究希望 VITA 作為先驅(qū)者的角色可以成為后續(xù)研究的基石。

論文地址：https://arxiv.org/pdf/2408.05211
論文主頁(yè)：https://vita-home.github.io/
論文標(biāo)題：VITA: Towards Open-Source Interactive Omni Multimodal LLM

在上述視頻中，用戶可以和 VITA 進(jìn)行無(wú)障礙的溝通，看到用戶穿的白色 T 恤后，會(huì)給出搭配什么顏色的褲子；在被問(wèn)到數(shù)學(xué)題時(shí)，能夠?qū)崟r(shí)查看題目類型，進(jìn)行推理，然后給出準(zhǔn)確的答案；當(dāng)你和別人講話時(shí)，VITA 也不會(huì)插嘴，因?yàn)橹烙脩舨皇呛退涣?；出去旅游，VITA 也會(huì)給出一些建議；在 VITA 輸出的過(guò)程中，你也可以實(shí)時(shí)打斷對(duì)話，并展開另一個(gè)話題。

在這個(gè)視頻中，用戶拿著一個(gè)餅干，詢問(wèn) VITA 自己在吃什么，VITA 給出在吃餅干，并給出餅干搭配牛奶或者茶口感會(huì)更好的建議。

健身時(shí)，充當(dāng)你的聊天搭子：

注：上述視頻都是實(shí)時(shí) 1 倍速播放，沒(méi)有經(jīng)過(guò)加速處理。

根據(jù)用戶提供的流程圖，VITA 就能編寫代碼：

提供一張圖片，VITA 也能根據(jù)圖片內(nèi)容回答問(wèn)題：

還能觀看視頻回答問(wèn)題，當(dāng)用戶拋出問(wèn)題「詳細(xì)描述狗的動(dòng)作」，VITA 也能準(zhǔn)確給出答案：

方法介紹

如圖 3 所示，VITA 的整體訓(xùn)練流程包括三個(gè)階段：LLM 指令微調(diào)、多模態(tài)對(duì)齊和多模態(tài)指令微調(diào)。

LLM 指令微調(diào)

Mixtral 8x7B 的性能屬于頂級(jí)開源 LLM 中一員，因此該研究將其作為基礎(chǔ)。然而研究者觀察到官方的 Mixtral 模型在理解中文方面的能力有限。為了注入雙語(yǔ)（中文和英文）理解能力，該研究將中文詞匯量擴(kuò)展到基礎(chǔ)模型，將詞匯量從 32,000 個(gè)增加到 51,747 個(gè)。在擴(kuò)展詞匯量后，研究者使用 500 萬(wàn)個(gè)合成的雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行純文本指令微調(diào)。

多模態(tài)對(duì)齊

為了彌合文本和其他模態(tài)之間的表征差距，從而為多模態(tài)理解奠定基礎(chǔ)。僅在視覺(jué)對(duì)齊階段訓(xùn)練視覺(jué)連接器。表 1 總結(jié)了所使用的訓(xùn)練數(shù)據(jù)，除了純文本部分。

視覺(jué)模態(tài)

首先是視覺(jué)編碼器。研究者使用 InternViT-300M-448px 作為視覺(jué)編碼器，它以分辨率 448×448 的圖像作為輸入，并在使用一個(gè)作為簡(jiǎn)單兩層 MLP 的視覺(jué)連接器后生成了 256 個(gè) token。對(duì)于高分辨率圖像輸入，研究者利用動(dòng)態(tài) patching 策略來(lái)捕捉局部細(xì)節(jié)。

視頻被視作圖像的特殊用例。如果視頻長(zhǎng)度短于 4 秒，則統(tǒng)一每秒采樣 4 幀。如果視頻長(zhǎng)度在 4 秒到 16 秒之間，則每秒采樣一幀。對(duì)于時(shí)長(zhǎng)超過(guò) 16 秒的視頻，統(tǒng)一采樣 16 幀。

其次是視覺(jué)對(duì)齊。研究者僅在視覺(jué)對(duì)齊階段訓(xùn)練視覺(jué)連接器，并且在該階段沒(méi)有使用音頻問(wèn)題。

最后是數(shù)據(jù)級(jí)聯(lián)。對(duì)于純文本數(shù)據(jù)和圖像數(shù)據(jù)，該研究旨在將上下文長(zhǎng)度級(jí)聯(lián)到 6K token，如圖 4 所示。值得注意的是，視頻數(shù)據(jù)不進(jìn)行級(jí)聯(lián)。

級(jí)聯(lián)不同的數(shù)據(jù)有兩個(gè)好處：

它支持更長(zhǎng)的上下文長(zhǎng)度，允許從單個(gè)圖像問(wèn)題交互擴(kuò)展到多個(gè)圖像問(wèn)題交互，從而產(chǎn)生更靈活的輸入形式，并擴(kuò)展上下文長(zhǎng)度。
它提高了計(jì)算效率，因?yàn)橐曨l幀通常包含大量視覺(jué) token。通過(guò)級(jí)聯(lián)圖像 - 問(wèn)題對(duì)，該研究可以在訓(xùn)練批中保持平衡的 token 數(shù)量，從而提高計(jì)算效率。

此外，該研究發(fā)現(xiàn)使用級(jí)聯(lián)數(shù)據(jù)訓(xùn)練的模型與使用原始數(shù)據(jù)訓(xùn)練的模型性能相當(dāng)。

音頻模態(tài)

一方面是音頻編碼器。輸入音頻在最開始通過(guò)一個(gè) Mel 濾波器組塊進(jìn)行處理，該塊將音頻信號(hào)分解為 mel 頻率范圍內(nèi)的各個(gè)頻帶，模仿人類對(duì)聲音的非線性感知。隨后，研究者先后利用了一個(gè) 4×CNN 的下采樣層和一個(gè) 24 層的 transformer，總共 3.41 億參數(shù)，用來(lái)處理輸入特征。同時(shí)他們使用一個(gè)簡(jiǎn)單的兩層 MLP 作為音頻 - 文本模態(tài)連接器。最后，每 2 秒的音頻輸入被編碼為 25 個(gè) tokens。

另一方面是音頻對(duì)齊。對(duì)于對(duì)齊任務(wù)，研究者利用了自動(dòng)語(yǔ)言識(shí)別（ASR）。數(shù)據(jù)集包括 Wenetspeech（擁有超過(guò) 1 萬(wàn)小時(shí)的多領(lǐng)域語(yǔ)音識(shí)別數(shù)據(jù)，主要側(cè)重于中文任務(wù)）和 Gigaspeech（擁有 1 萬(wàn)小時(shí)的高質(zhì)量音頻數(shù)據(jù)，大部分?jǐn)?shù)據(jù)面向英文語(yǔ)音識(shí)別任務(wù)）。對(duì)于音頻字幕任務(wù)，研究者使用了 Wavcaps 的 AudioSet SL 子集，包含了 400k 個(gè)具有相應(yīng)音頻字幕的音頻片段。在對(duì)齊過(guò)程中，音頻編碼器和連接器都經(jīng)過(guò)了訓(xùn)練。

多模態(tài)指令微調(diào)

該研究對(duì)模型進(jìn)行了指令調(diào)整，以增強(qiáng)其指令遵循能力，無(wú)論是文本還是音頻。

數(shù)據(jù)構(gòu)建。指令調(diào)優(yōu)階段的數(shù)據(jù)源與表 1 中對(duì)齊階段的數(shù)據(jù)源相同，但該研究做了以下改進(jìn)：

問(wèn)題被隨機(jī)（大約一半）替換為其音頻版本（使用 TTS 技術(shù)，例如 GPT-SoVITS6），旨在增強(qiáng)模型對(duì)音頻查詢的理解及其指令遵循能力。

設(shè)置不同的系統(tǒng) prompt，避免不同類型數(shù)據(jù)之間的沖突，如表 2 所示。例如，有些問(wèn)題可以根據(jù)視覺(jué)信息來(lái)回答或者基于模型自己的知識(shí)，導(dǎo)致沖突。此外，圖像數(shù)據(jù)已被 patch，類似于多幀視頻數(shù)據(jù)，這可能會(huì)混淆模型。系統(tǒng) prompt 顯式區(qū)分不同數(shù)據(jù)類型，有助于更直觀地理解。

為了實(shí)現(xiàn)兩種交互功能，即非喚醒交互和音頻中斷交互，該研究提出了復(fù)式部署框架，即同時(shí)部署了兩個(gè) VITA 模型，如圖 1 所示。

在典型情況下，生成模型（Generation model）會(huì)回答用戶查詢。同時(shí)，監(jiān)控模型（Monitoring model）在生成過(guò)程中檢測(cè)環(huán)境聲音。它忽略非查詢用戶聲音，但在識(shí)別到查詢音頻時(shí)停止生成模型的進(jìn)度。監(jiān)控模型隨后會(huì)整合歷史上下文并響應(yīng)最新的用戶查詢，生成模型和監(jiān)控模型的身份發(fā)生了轉(zhuǎn)換。

實(shí)驗(yàn)評(píng)估

語(yǔ)言性能。為了驗(yàn)證語(yǔ)言模型訓(xùn)練過(guò)程的有效性，研究者使用了四個(gè)數(shù)據(jù)集，分別是 C-EVAL、AGIEVAL、MMLU 和 GSM8K。這些數(shù)據(jù)集涵蓋了各種場(chǎng)景，包括一般選擇題、多學(xué)科問(wèn)答題以及數(shù)學(xué)和邏輯推理任務(wù)，同時(shí)覆蓋了中英文上下文。

下表 3 的結(jié)果表明，本文的訓(xùn)練顯著增強(qiáng)了語(yǔ)言模型在中文評(píng)估集（C-EVAL 和 AGIEVAL）上的能力，同時(shí)保持了在英文相關(guān)基準(zhǔn)（MMLU）上的原始性能水平，并在數(shù)學(xué)推理任務(wù)（GSM8K）上實(shí)現(xiàn)顯著提升。

音頻性能。為了驗(yàn)證模型學(xué)得的語(yǔ)音表示的穩(wěn)健性，研究者在 Wenetspeech 和 Librispeech 兩個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試。

其中 Wenetspeech 有兩個(gè)評(píng)估指標(biāo)，分別是 test_net 和 test_meeting，前者數(shù)據(jù)源與訓(xùn)練數(shù)據(jù)更加一致，因而更容易；后者提出了更大的挑戰(zhàn)。作為模型的 held-out 數(shù)據(jù)集，Librispeech 評(píng)估了模型在未見(jiàn)過(guò)數(shù)據(jù)集上的泛化能力，它有四個(gè)評(píng)估集，以「dev」開頭的是驗(yàn)證集，以「test」開頭的是測(cè)試集，「Clean」代表挑戰(zhàn)性較低的集，「other」代表挑戰(zhàn)性更高的集。

從下表 4 的結(jié)果可以看到，VITA 在 ASR 基準(zhǔn)測(cè)試上取得了非常不錯(cuò)的結(jié)果。

多模態(tài)性能。為了評(píng)估多模態(tài)能力，該研究在四個(gè)基準(zhǔn)上評(píng)估了 VITA，包括 MME 、OCRBench、HallusionBench 和 Video-MME。結(jié)果如圖 5 所示。

在圖像理解方面，VITA 優(yōu)于圖像專用開源模型 LLaVA-Next，并且接近閉源模型 Gemini 1.5 Pro。

在視頻理解方面，VITA 超過(guò)了視頻開源模型 Video-CCAM。盡管 VITA 和視頻專用的 LLaVA-Next-Video 之間存在差距，但考慮到 VITA 支持更廣泛的模態(tài)并優(yōu)先考慮可交互性，因而這是可以接受的。

最后，值得注意的是，目前開源模型與專有模型在視頻理解能力方面仍存在較大差距。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<s id="6yd63"><li id="6yd63"><menuitem id="6yd63"></menuitem></li></s>

<bdo id="6yd63"></bdo>