自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視覺文本語音強(qiáng)強(qiáng)聯(lián)合!南大&騰訊優(yōu)圖發(fā)布GPT-4o級別的實(shí)時(shí)視覺語音交互——VITA1.5

發(fā)布于 2025-1-14 14:40
瀏覽
0收藏

視覺文本語音強(qiáng)強(qiáng)聯(lián)合!南大&騰訊優(yōu)圖發(fā)布GPT-4o級別的實(shí)時(shí)視覺語音交互——VITA1.5-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2501.01957
git 鏈接:https://github.com/VITA-MLLM/VITA

亮點(diǎn)直擊

  • VITA-1.5,一種多模態(tài)大語言模型(LLM),通過精心設(shè)計(jì)的三階段訓(xùn)練方法整合了視覺、語言和語音。該訓(xùn)練策略逐步引入視覺和語音數(shù)據(jù),緩解了模態(tài)沖突,同時(shí)保持了強(qiáng)大的多模態(tài)性能。
  • 對圖像、視頻和語音理解相關(guān)的各類基準(zhǔn)進(jìn)行了廣泛評估,并將結(jié)果與開源和專有模型進(jìn)行了比較。VITA-1.5展現(xiàn)了與領(lǐng)先的基于圖像/視頻的多模態(tài)大語言模型(MLLMs)相當(dāng)?shù)母兄屯评砟芰?,并在語音能力上表現(xiàn)出顯著提升。

視覺文本語音強(qiáng)強(qiáng)聯(lián)合!南大&騰訊優(yōu)圖發(fā)布GPT-4o級別的實(shí)時(shí)視覺語音交互——VITA1.5-AI.x社區(qū)

總結(jié)速覽

解決的問題

當(dāng)前多模態(tài)大語言模型(MLLMs)主要聚焦于視覺和文本模態(tài)的整合,而對語音在增強(qiáng)交互中的作用關(guān)注較少。視覺和語音模態(tài)的融合存在根本性差異,導(dǎo)致在視覺和語音任務(wù)中實(shí)現(xiàn)高性能仍是一個(gè)顯著挑戰(zhàn)。此外,傳統(tǒng)方法依賴獨(dú)立的自動(dòng)語音識別(ASR)和語音合成(TTS)模塊,增加了系統(tǒng)復(fù)雜性和延遲。

提出的方案

提出了一種名為 VITA-1.5 的多模態(tài)大語言模型,通過精心設(shè)計(jì)的三階段訓(xùn)練方法,逐步整合視覺、語言和語音模態(tài),具體包括:

  • 第一階段:訓(xùn)練視覺適配器,基于視覺-語言數(shù)據(jù)(如描述性字幕和視覺問答數(shù)據(jù))微調(diào)模型,建立視覺理解能力。
  • 第二階段:引入音頻處理模塊,基于語音與轉(zhuǎn)錄配對數(shù)據(jù)訓(xùn)練音頻編碼器,并通過語音問答數(shù)據(jù)微調(diào)模型,使其具備語音理解能力。
  • 第三階段:訓(xùn)練音頻解碼器,實(shí)現(xiàn)端到端語音輸出,避免使用獨(dú)立的TTS模塊,從而提升語音交互的流暢性和效率。

應(yīng)用的技術(shù)

  • 多模態(tài)融合:通過多階段訓(xùn)練策略,逐步引入視覺和語音數(shù)據(jù),緩解模態(tài)沖突問題。
  • 視覺適配器:提升模型對圖像和視頻的感知與推理能力。
  • 音頻編碼器與解碼器:實(shí)現(xiàn)語音輸入的高效理解及端到端語音輸出,避免依賴外部ASR和TTS模塊。
  • 端到端優(yōu)化:減少模塊化設(shè)計(jì)帶來的延遲,實(shí)現(xiàn)實(shí)時(shí)多模態(tài)交互。

達(dá)到的效果

  • 在圖像、視頻和語音任務(wù)的基準(zhǔn)測試中,VITA-1.5展現(xiàn)了與領(lǐng)先的基于圖像/視頻的多模態(tài)大語言模型相當(dāng)?shù)囊曈X感知和推理能力。
  • 在語音任務(wù)上表現(xiàn)出顯著提升,支持近乎實(shí)時(shí)的視覺和語音交互。
  • 實(shí)現(xiàn)了無需獨(dú)立ASR和TTS模塊的高效語音到語音對話功能,大幅加速了多模態(tài)響應(yīng)速度,并提升了交互自然性和用戶體驗(yàn)。

VITA-1.5

模型架構(gòu)

VITA-1.5 的整體架構(gòu)如圖 2 所示。

視覺文本語音強(qiáng)強(qiáng)聯(lián)合!南大&騰訊優(yōu)圖發(fā)布GPT-4o級別的實(shí)時(shí)視覺語音交互——VITA1.5-AI.x社區(qū)

輸入端與 VITA-1.0 版本相同,即采用“多模態(tài)編碼器-適配器-LLM”的配置。它結(jié)合了視覺/音頻 Transformer 和多層連接器,與 LLM 一起進(jìn)行聯(lián)合訓(xùn)練,旨在增強(qiáng)對視覺、語言和音頻的統(tǒng)一理解。


在輸出端,VITA-1.5 擁有自己的端到端語音模塊,而不是像原始 VITA-1.0 版本那樣使用外部 TTS 模型。

視覺模態(tài)

視覺編碼器  

VITA-1.5 采用 InternViT-300M 作為視覺編碼器,輸入圖像大小為448X448像素,每張圖像生成 256 個(gè)視覺標(biāo)記(visual tokens)。對于高分辨率圖像,VITA-1.5 使用動(dòng)態(tài)分塊(dynamic patching)策略來捕捉局部細(xì)節(jié),從而提升圖像理解的準(zhǔn)確性。

視頻處理 

視頻被視為一種特殊的多圖像輸入。如果視頻長度小于 4 秒,則均勻采樣 4 幀;對于 4 到 16 秒的視頻,每秒采樣 1 幀;對于長度超過 16 秒的視頻,均勻采樣 16 幀。為了避免生成過多視覺標(biāo)記而影響處理效率,視頻幀不適用動(dòng)態(tài)分塊。

視覺適配器 

使用兩層 MLP(多層感知機(jī))將視覺特征映射為適合后續(xù) LLM 理解的視覺標(biāo)記。

音頻模態(tài)

語音編碼器(Speech Encoder) 

類似于[56],本文的音頻編碼模塊由多個(gè)下采樣卷積層(4倍下采樣)和24個(gè)Transformer塊(隱藏層大小為1024)組成。下采樣層有助于降低音頻特征的幀率,從而提高LLM的處理速度。音頻編碼器包含約3.5億參數(shù),輸出幀率為12.5Hz。音頻編碼器的輸入為梅爾濾波器組特征(Mel-filter bank features),其窗口大小為25ms,幀移為10ms。

語音適配器(Speech Adapter) 

?語音適配器由多個(gè)帶有2倍下采樣的卷積層組成。

語音解碼器(Speech Decoder) 

使用TiCodec 作為編解碼模型,定制了一個(gè)大小為1024的單碼本(single codebook)。這種單碼本設(shè)計(jì)簡化了推理階段的解碼過程。編解碼模型負(fù)責(zé)將連續(xù)的語音信號編碼為頻率為40Hz的離散語音標(biāo)記(speech tokens),并同時(shí)具備將其解碼回采樣率為24,000Hz的語音信號的能力。


當(dāng)前的LLM只能輸出文本標(biāo)記(text tokens),而語音生成能力要求LLM能夠輸出語音標(biāo)記。為此,在文本標(biāo)記之后添加了兩個(gè)語音解碼器(參考[56]):

  1. 非自回歸(Non-Autoregressive, NAR)語音解碼器:全局處理文本token并建模語義特征,旨在生成語音token的初始分布。
  2. 自回歸(Autoregressive, AR)語音解碼器:基于NAR解碼器生成的語音信息,逐步生成更高質(zhì)量的語音標(biāo)記。

最終的語音標(biāo)記序列通過Codec模型的語音解碼器被解碼為連續(xù)的語音信號流(波形)。為NAR和AR語音解碼器分別采用了4層LLaMA解碼器,其隱藏層大小為896,參數(shù)規(guī)模約為1.2億。

訓(xùn)練數(shù)據(jù)

如表1所示,多模態(tài)指令微調(diào)的訓(xùn)練數(shù)據(jù)涵蓋了廣泛的類別,例如圖像描述數(shù)據(jù)和問答(QA)數(shù)據(jù),涉及中文和英文。在不同的訓(xùn)練階段,會(huì)有選擇性地從整個(gè)數(shù)據(jù)集中抽取子集以實(shí)現(xiàn)不同的訓(xùn)練目標(biāo)。

視覺文本語音強(qiáng)強(qiáng)聯(lián)合!南大&騰訊優(yōu)圖發(fā)布GPT-4o級別的實(shí)時(shí)視覺語音交互——VITA1.5-AI.x社區(qū)

具體來說,這些數(shù)據(jù)集被分類如下:

  • 圖像描述數(shù)據(jù):使用的數(shù)據(jù)集包括 ShareGPT4V、ALLaVA-Caption、SharedGPT4o-Image,以及合成數(shù)據(jù),用于訓(xùn)練模型生成圖像的描述性語言。
  • 圖像問答數(shù)據(jù):使用的數(shù)據(jù)集包括 LLaVA-150K、LLaVA-Mixture-sample、LVISInstruct、ScienceQA、ChatQA ,以及從 LLaVA-OV 中抽取的子集(如通用圖像問答和數(shù)學(xué)推理數(shù)據(jù)集),用于訓(xùn)練模型回答基于圖像的問題并執(zhí)行視覺推理任務(wù)。
  • OCR和圖表數(shù)據(jù):此類別支持模型理解OCR和圖表內(nèi)容,使用的數(shù)據(jù)集包括 Anyword-3M 、ICDAR2019-LSVT 、UReader、SynDOG、ICDAR2019-LSVT-QA,以及從 LLaVA-OV 中抽取的相關(guān)數(shù)據(jù)。
  • 視頻數(shù)據(jù):使用的數(shù)據(jù)集包括 ShareGemini和合成數(shù)據(jù),用于訓(xùn)練模型處理視頻輸入并執(zhí)行視頻描述和基于視頻的問答任務(wù)。
  • 純文本數(shù)據(jù):此類別增強(qiáng)了模型理解和生成語言的能力,以支持基于文本的問答任務(wù)。

除了表1中列出的圖像和視頻數(shù)據(jù)外,還包含了11萬小時(shí)的內(nèi)部語音轉(zhuǎn)錄配對的ASR數(shù)據(jù)(涵蓋中文和英文),用于訓(xùn)練音頻編碼器并將其與大語言模型(LLM)對齊。此外,還使用了3000小時(shí)由TTS系統(tǒng)生成的文本-語音配對數(shù)據(jù),用于訓(xùn)練語音解碼器。

三階段訓(xùn)練策略

為了確保 VITA-1.5 在視覺、語言和音頻相關(guān)任務(wù)中表現(xiàn)良好,必須面對一個(gè)關(guān)鍵挑戰(zhàn),即不同模態(tài)之間的訓(xùn)練沖突。例如,加入語音數(shù)據(jù)可能會(huì)對視覺數(shù)據(jù)的理解產(chǎn)生負(fù)面影響,因?yàn)檎Z音的特征與視覺的特征存在顯著差異,這會(huì)在學(xué)習(xí)過程中引發(fā)干擾。為了解決這一挑戰(zhàn),設(shè)計(jì)了一個(gè)如圖 3 所示的三階段訓(xùn)練策略。核心思想是逐步將不同的模態(tài)引入模型,使其在增強(qiáng)新模態(tài)能力的同時(shí),保持現(xiàn)有模態(tài)的能力。

視覺文本語音強(qiáng)強(qiáng)聯(lián)合!南大&騰訊優(yōu)圖發(fā)布GPT-4o級別的實(shí)時(shí)視覺語音交互——VITA1.5-AI.x社區(qū)

Stage 1: 視覺-語言訓(xùn)練

階段 1.1:視覺對齊(Vision Alignment) 

階段 1.2:視覺理解(Vision Understanding) 

階段 1.3:視覺微調(diào)(Vision SFT) 

Stage 2: 音頻輸入微調(diào)

階段 2.1 音頻對齊 在完成階段 1 的訓(xùn)練后,模型已在圖像和視頻理解方面建立了堅(jiān)實(shí)的基礎(chǔ)。在此階段,目標(biāo)是基于階段 1 的成果,減少音頻和語言之間的差異,從而使大語言模型(LLM)能夠理解音頻輸入。訓(xùn)練數(shù)據(jù)包含 11,000 小時(shí)的語音-轉(zhuǎn)錄對。我們采用兩步方法:

(a) 語音編碼器訓(xùn)練
采用常見語音識別系統(tǒng)中使用的訓(xùn)練框架,利用連接時(shí)序分類(Connectionist Temporal Classification, CTC)損失函數(shù)來訓(xùn)練語音編碼器。目標(biāo)是讓編碼器從語音輸入中預(yù)測出轉(zhuǎn)錄文本。此步驟確保語音編碼器能夠提取語音特征并將其映射到文本表示空間。


(b) 語音適配器訓(xùn)練
在完成語音編碼器的訓(xùn)練后,將其與 LLM 集成,使用音頻適配器將音頻特征引入 LLM 的輸入層。在此階段的訓(xùn)練目標(biāo)是使 LLM 能夠輸出語音數(shù)據(jù)的轉(zhuǎn)錄文本。此外,在步驟 (b) 中,引入了特殊的可訓(xùn)練輸入標(biāo)記(tokens)來引導(dǎo)語音理解過程。這些token提供額外的上下文信息,用于指導(dǎo) LLM 在問答(QA)任務(wù)中執(zhí)行自動(dòng)語音識別(ASR)任務(wù)。


在本階段,視覺編碼器與適配器、音頻編碼器與適配器,以及 LLM 均可訓(xùn)練,旨在提升模型對多模態(tài)輸入的適應(yīng)能力。此外,在 LLM 的輸出端添加了一個(gè)分類頭(classification head),用于區(qū)分輸入是來自語音還是文本。通過這一改進(jìn),模型能夠更準(zhǔn)確地解釋語音輸入,并高效、靈活地處理不同模態(tài)的數(shù)據(jù)。

Stage 3: 音頻輸出微調(diào)

在訓(xùn)練的前兩個(gè)階段,VITA-1.5模型已經(jīng)有效地發(fā)展了其多模態(tài)理解能力。然而,一個(gè)關(guān)鍵能力,即語音輸出,仍然缺失,而這對于其作為交互助手的角色至關(guān)重要。為了在不影響模型基本能力的情況下引入語音輸出功能,借鑒了策略[56],使用了3,000小時(shí)的文本-語音數(shù)據(jù),并采用了兩步訓(xùn)練方法(見圖3)。


階段3.1 編解碼器訓(xùn)練。 此步驟的目標(biāo)是使用語音數(shù)據(jù)訓(xùn)練一個(gè)具有單個(gè)碼本的編解碼器模型。編解碼器模型的編碼器能夠?qū)⒄Z音映射為離散的標(biāo)記,而解碼器可以將離散的標(biāo)記映射回語音流。在VITA-1.5的推理階段,僅使用解碼器。


階段3.2 非自回歸(NAR)+自回歸(AR)解碼器訓(xùn)練。 本階段的訓(xùn)練使用文本-語音配對數(shù)據(jù),其中文本被輸入到分詞器和LLM的嵌入層以獲得其嵌入向量,而語音被輸入到編解碼器模型的編碼器以獲得其語音標(biāo)記。文本嵌入向量被發(fā)送到NAR語音解碼器以獲取全局語義特征,然后這些特征被發(fā)送到AR語音解碼器,后者預(yù)測相應(yīng)的語音標(biāo)記。注意,在此階段LLM是凍結(jié)的,因此多模態(tài)性能不會(huì)受到影響。

評估

視覺-語言評估

基準(zhǔn)模型 比較了一系列開源的多模態(tài)大語言模型(MLLM),包括VILA-1.5、LLaVA-Next、CogVLM2、InternLM-XComposer2.5、Cambrian-1、MiniCPM-V-2.6、Ovis1.5、InternVL-Chat-1.5、InternVL-2、LLaVA-OV、Video-LLaVA、SliME和LongVA,以及5個(gè)閉源的MLLM,包括GPT-4V7、GPT-4o8、GPT-4o-mini、Gemini 1.5 Pro和Claude 3.5 Sonnet9。


評估基準(zhǔn) 為了評估VITA-1.5的圖像感知和理解能力,使用了多個(gè)評估基準(zhǔn),包括MME、MMBench、MMStar、MMMU、MathVista、HallusionBench、AI2D、OCRBench和MMVet。這些基準(zhǔn)涵蓋了廣泛的方面,包括一般的多模態(tài)能力(例如,MME、MMBench和MMMU)、數(shù)學(xué)推理(MathVista)、幻覺檢測(HallusionBench)、圖表(AI2D)和OCR(OCRBench)理解,提供了全面的評估結(jié)果。對于視頻理解,使用了具有代表性的評估基準(zhǔn),包括Video-MME、MVBench和TempCompass。


視覺-語言能力 表2展示了VITA-1.5在圖像理解性能方面的比較。經(jīng)過三個(gè)階段的訓(xùn)練后,VITA-1.5的表現(xiàn)與最先進(jìn)的開源模型相當(dāng),甚至超過了一些閉源模型,如GPT-4V和GPT-4o-mini。這個(gè)結(jié)果突顯了VITA-1.5在圖像-語言任務(wù)中的強(qiáng)大能力。如表3所示,VITA-1.5在視頻理解的評估中表現(xiàn)出與頂級開源模型相當(dāng)?shù)男阅?。與專有模型相比的顯著差距表明,VITA-1.5在視頻理解方面仍有顯著的改進(jìn)空間和進(jìn)一步增強(qiáng)的潛力。請注意,在階段2(音頻輸入調(diào)優(yōu))和階段3(音頻輸出調(diào)優(yōu))訓(xùn)練后,VITA-1.5幾乎保留了其在階段1(視覺-語言訓(xùn)練)中的原始視覺-語言能力。

視覺文本語音強(qiáng)強(qiáng)聯(lián)合!南大&騰訊優(yōu)圖發(fā)布GPT-4o級別的實(shí)時(shí)視覺語音交互——VITA1.5-AI.x社區(qū)

視覺文本語音強(qiáng)強(qiáng)聯(lián)合!南大&騰訊優(yōu)圖發(fā)布GPT-4o級別的實(shí)時(shí)視覺語音交互——VITA1.5-AI.x社區(qū)

語音評估

基線模型。使用以下三個(gè)基線模型進(jìn)行比較:Wav2vec2-base、Mini-Omini2、Freeze-Omini和 VITA-1.0。


評估基準(zhǔn)。 普通話評估集包括三個(gè)數(shù)據(jù)集:aishell-1、test net和 test meeting。這些數(shù)據(jù)集用于評估模型在普通話語音上的表現(xiàn)。評估指標(biāo)是字符錯(cuò)誤率(CER)。英語評估集包括四個(gè)數(shù)據(jù)集:dev-clean、dev-other、test-clean 和 test-other,用于評估模型在英語語音上的表現(xiàn)。評估指標(biāo)是單詞錯(cuò)誤率(WER)。


語音識別性能。 表 4 中的評估結(jié)果表明,VITA-1.5 在普通話和英語語音識別任務(wù)中均實(shí)現(xiàn)了領(lǐng)先的準(zhǔn)確性。這表明 VITA-1.5 成功整合了先進(jìn)的語音能力,以支持多模態(tài)交互。

視覺文本語音強(qiáng)強(qiáng)聯(lián)合!南大&騰訊優(yōu)圖發(fā)布GPT-4o級別的實(shí)時(shí)視覺語音交互——VITA1.5-AI.x社區(qū)

結(jié)論

VITA-1.5,這是一種多模態(tài)大語言模型(LLM),通過精心設(shè)計(jì)的三階段訓(xùn)練策略來整合視覺和語音。通過緩解模態(tài)間的固有沖突,VITA-1.5在視覺和語音理解方面實(shí)現(xiàn)了強(qiáng)大的能力,使得語音到語音的高效交互成為可能,而無需依賴單獨(dú)的自動(dòng)語音識別(ASR)或文本到語音(TTS)模塊。廣泛的評估表明,VITA-1.5在多模態(tài)基準(zhǔn)測試中表現(xiàn)出色。希望VITA-1.5能夠接過VITA-1.0的旗幟,繼續(xù)推動(dòng)開源模型在實(shí)時(shí)多模態(tài)交互領(lǐng)域的進(jìn)步。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/dgEnGCeFQJIs4w-iNkBr9Q??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦