自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="d6r64"><abbr id="d6r64"></abbr></legend>

<sup id="d6r64"><rt id="d6r64"></rt></sup>

<s id="d6r64"><nav id="d6r64"></nav></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

復(fù)旦等發(fā)布AnyGPT：任意模態(tài)輸入輸出，圖像、音樂、文本、語音都支持

作者：機(jī)器之心 2024-03-04 12:32:20

人工智能新聞

復(fù)旦大學(xué)邱錫鵬團(tuán)隊聯(lián)合 Multimodal Art Projection（MAP）、上海人工智能實驗室的研究者提出了一種名為 AnyGPT 的多模態(tài)語言模型。

最近，OpenAI 的視頻生成模型 Sora 爆火，生成式 AI 模型在多模態(tài)方面的能力再次引起廣泛關(guān)注。

現(xiàn)實世界本質(zhì)上是多模態(tài)的，生物體通過不同的渠道感知和交換信息，包括視覺、語言、聲音和觸覺。開發(fā)多模態(tài)系統(tǒng)的一個有望方向是增強(qiáng) LLM 的多模態(tài)感知能力，主要涉及多模態(tài)編碼器與語言模型的集成，從而使其能夠跨各種模態(tài)處理信息，并利用 LLM 的文本處理能力來產(chǎn)生連貫的響應(yīng)。

然而，該策略僅限于文本生成，不包含多模態(tài)輸出。一些開創(chuàng)性工作通過在語言模型中實現(xiàn)多模態(tài)理解和生成取得了重大進(jìn)展，但這些模型僅包含單一的非文本模態(tài)，例如圖像或音頻。

為了解決上述問題，復(fù)旦大學(xué)邱錫鵬團(tuán)隊聯(lián)合 Multimodal Art Projection（MAP）、上海人工智能實驗室的研究者提出了一種名為 AnyGPT 的多模態(tài)語言模型，該模型能夠以任意的模態(tài)組合來理解和推理各種模態(tài)的內(nèi)容。具體來說，AnyGPT 可以理解文本、語音、圖像、音樂等多種模態(tài)交織的指令，并能熟練地選擇合適的多模態(tài)組合進(jìn)行響應(yīng)。

例如給出一段語音 prompt，AnyGPT 能夠生成語音、圖像、音樂形式的綜合響應(yīng)：

給出文本 + 圖像形式的 prompt，AnyGPT 能夠按照 prompt 要求生成音樂：

論文地址：https://arxiv.org/pdf/2402.12226.pdf
項目主頁：https://junzhan2000.github.io/AnyGPT.github.io/

方法簡介

AnyGPT 利用離散表征來統(tǒng)一處理各種模態(tài)，包括語音、文本、圖像和音樂。

為了完成任意模態(tài)到任意模態(tài)的生成任務(wù)，該研究提出了一個可以統(tǒng)一訓(xùn)練的綜合框架。如下圖 1 所示，該框架由三個主要組件組成，包括：

多模態(tài) tokenizer
作為主干網(wǎng)絡(luò)的多模態(tài)語言模型
多模態(tài) de-tokenizer

其中，tokenizer 將連續(xù)的非文本模態(tài)轉(zhuǎn)換為離散的 token，隨后將其排列成多模態(tài)交錯序列。然后，語言模型使用下一個 token 預(yù)測訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練。在推理過程中，多模態(tài) token 被相關(guān)的 de-tokenizer 解碼回其原始表征。為了豐富生成的質(zhì)量，可以部署多模態(tài)增強(qiáng)模塊來對生成的結(jié)果進(jìn)行后處理，包括語音克隆或圖像超分辨率等應(yīng)用。

AnyGPT 可以穩(wěn)定地訓(xùn)練，無需對當(dāng)前的大型語言模型（LLM）架構(gòu)或訓(xùn)練范式進(jìn)行任何改變。相反，它完全依賴于數(shù)據(jù)級預(yù)處理，使得新模態(tài)無縫集成到 LLM 中，類似于添加新語言。

這項研究的一個關(guān)鍵挑戰(zhàn)是缺乏多模態(tài)交錯指令跟蹤數(shù)據(jù)。為了完成多模態(tài)對齊預(yù)訓(xùn)練，研究團(tuán)隊利用生成模型合成了第一個大規(guī)?！溉我鈱θ我狻苟嗄B(tài)指令數(shù)據(jù)集 ——AnyInstruct-108k。它由 108k 多輪對話樣本組成，這些對話錯綜復(fù)雜地交織著各種模態(tài)，從而使模型能夠處理多模態(tài)輸入和輸出的任意組合。

這些數(shù)據(jù)通常需要大量比特才能準(zhǔn)確表征，從而導(dǎo)致序列較長，這對語言模型的要求特別高，因為計算復(fù)雜度隨著序列長度呈指數(shù)級增加。為了解決這個問題，該研究采用了兩階段的高保真生成框架，包括語義信息建模和感知信息建模。首先，語言模型的任務(wù)是生成在語義層面經(jīng)過融合和對齊的內(nèi)容。然后，非自回歸模型在感知層面將多模態(tài)語義 token 轉(zhuǎn)換為高保真多模態(tài)內(nèi)容，在性能和效率之間取得平衡。

實驗

實驗結(jié)果表明，AnyGPT 能夠完成任意模態(tài)對任意模態(tài)的對話任務(wù)，同時在所有模態(tài)中實現(xiàn)與專用模型相當(dāng)?shù)男阅?，證明離散表征可以有效且方便地統(tǒng)一語言模型中的多種模態(tài)。

該研究評估了預(yù)訓(xùn)練基礎(chǔ) AnyGPT 的基本功能，涵蓋所有模態(tài)的多模態(tài)理解和生成任務(wù)。該評估旨在測試預(yù)訓(xùn)練過程中不同模態(tài)之間的一致性，具體來說是測試了每種模態(tài)的 text-to-X 和 X-to-text 任務(wù)，其中 X 分別是圖像、音樂和語音。

為了模擬真實場景，所有評估均以零樣本模式進(jìn)行。這意味著 AnyGPT 在評估過程中不會對下游訓(xùn)練樣本進(jìn)行微調(diào)或預(yù)訓(xùn)練。這種具有挑戰(zhàn)性的評估設(shè)置要求模型泛化到未知的測試分布。

評估結(jié)果表明，AnyGPT 作為一種通用的多模態(tài)語言模型，在各種多模態(tài)理解和生成任務(wù)上取得了令人稱贊的性能。

圖像

該研究評估了 AnyGPT 在圖像描述任務(wù)上的圖像理解能力，結(jié)果如表 2 所示。

文本到圖像生成任務(wù)的結(jié)果如表 3 所示。

語音

該研究通過計算 LibriSpeech 數(shù)據(jù)集的測試子集上的詞錯誤率 (WER) 來評估 AnyGPT 在自動語音識別 (ASR) 任務(wù)上的性能，并使用 Wav2vec 2.0 和 Whisper Large V2 作為基線，評估結(jié)果如表 5 所示。

音樂

該研究在 MusicCaps 基準(zhǔn)上評估了 AnyGPT 在音樂理解和生成任務(wù)方面的表現(xiàn)，采用 CLAP_score 分?jǐn)?shù)作為客觀指標(biāo)，衡量生成的音樂和文本描述之間的相似度，評估結(jié)果如表 6 所示。

感興趣的讀者可以閱讀論文原文，了解更多研究內(nèi)容。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tr id="leqqc"></tr>

<style id="leqqc"></style>