自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="m7vjx"></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

基于模塊化思想，阿里達(dá)摩院提出多模態(tài)基礎(chǔ)模型mPLUG-2

作者：機(jī)器之心 2023-05-30 10:23:45

人工智能新聞

達(dá)摩院的研究者提出了 mPLUG-2，其通過(guò)模塊化的?絡(luò)結(jié)構(gòu)設(shè)計(jì)來(lái)平衡多模態(tài)之間的協(xié)作和糾纏問(wèn)題。

對(duì)于多模態(tài)基礎(chǔ)模型，我們希望其不僅可以處理特定的多模態(tài)相關(guān)任務(wù)，還希望其處理單模態(tài)任務(wù)時(shí)也具有優(yōu)異的性能。阿?達(dá)摩院團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的模型往往不能很好的平衡模態(tài)協(xié)作和模態(tài)糾纏的問(wèn)題，這限制了模型在各種單模態(tài)和跨模態(tài)下游任務(wù)的性能。

基于此，達(dá)摩院的研究者提出了 mPLUG-2，其通過(guò)模塊化的?絡(luò)結(jié)構(gòu)設(shè)計(jì)來(lái)平衡多模態(tài)之間的協(xié)作和糾纏問(wèn)題，mPLUG-2 在 30 + 多 / 單模態(tài)任務(wù)，取得同等數(shù)據(jù)量和模型規(guī)模 SOTA 或者 Comparable 效果，在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超?模型取得絕對(duì)SOTA。此外，mPLUG-Owl 是阿?巴巴達(dá)摩院 mPLUG 系列的最新工作，延續(xù)了 mPLUG 系列的模塊化訓(xùn)練思想，把 LLM 升級(jí)為?個(gè)多模態(tài)?模型。mPLUG-2 的研究論文已被 ICML 2023 接收。

論?地址：https://arxiv.org/pdf/2302.00402.pdf
mPLUG-2 地址：https://github.com/X-PLUG/mPLUG-2
mPLUG-Owl 地址：https://github.com/X-PLUG/mPLUG-Owl

研究背景

?規(guī)模預(yù)訓(xùn)練基礎(chǔ)模型是??智能領(lǐng)域的新興范式，涉及語(yǔ)?、視覺(jué)和多模態(tài)等多個(gè)領(lǐng)域。隨著 Transformer 體系結(jié)構(gòu)的?泛成功，近年來(lái)已經(jīng)出現(xiàn)了語(yǔ)?、視覺(jué)和多模態(tài)預(yù)訓(xùn)練的?融合趨勢(shì)。

該趨勢(shì)下的?條主要線路是采?統(tǒng)?的序列?成框架來(lái)統(tǒng)?任務(wù)和模態(tài)，如 T5、OFA 和 Flamingo 等。另?條主要線路則是將所有任務(wù)都視為實(shí)例區(qū)分 (instance discrimination)，并采用純編碼器架構(gòu)，如 BERT、Florence 和 BEIT-3 模型。

以上主流基礎(chǔ)模型提出為多模態(tài)數(shù)據(jù)建模共享的單?網(wǎng)絡(luò) (single network)，以此來(lái)利用模態(tài)協(xié)作的信息，如 Flamingo。然而，由于不同模態(tài)涉及到的任務(wù)的巨?差異，這種策略將?臨模態(tài)糾纏的問(wèn)題，多個(gè)模態(tài)可能會(huì)相互干擾，特別是當(dāng)存在多種模態(tài)和任務(wù)時(shí)。單模塊基礎(chǔ)模型難以平衡模態(tài)協(xié)作的收益和模態(tài)糾纏對(duì)多個(gè)跨模態(tài)下游任務(wù)的影響。

為了緩解這個(gè)挑戰(zhàn)，在這項(xiàng)?作中，阿?達(dá)摩院團(tuán)隊(duì)引?了?種新的多模態(tài)基礎(chǔ)模型的統(tǒng)?范式，如下圖 1 所示。它采?基于模塊的?絡(luò)設(shè)計(jì)來(lái)考慮到模態(tài)協(xié)作和模態(tài)糾纏之間的平衡。mPLUG-2 的研究者設(shè)計(jì)了特定的共享功能模塊 (functional modules)，以?勵(lì)模態(tài)協(xié)作，同時(shí)保留特定于模態(tài)的模塊 (modality-specific modules) 以解決模態(tài)糾纏的問(wèn)題。

基于模塊化的設(shè)計(jì)，不同的模塊可以靈活地選取和組合，以適應(yīng)?量的單模態(tài)和多模態(tài)的理解和?成任務(wù)。支持的下游任務(wù)的詳細(xì)信息在表 1 中給出，可以看到 mPLUG-2 可以處理多種跨?本、圖像和視頻的不同類型的下游任務(wù)。下表 2 中也提供了不同的下游任務(wù)所需要的模塊組合。

方法概覽

模型框圖如上圖 2 所示：(1) mPLUG-2 設(shè)計(jì)了?個(gè)統(tǒng)?的雙 (dual) 視覺(jué)編碼器模塊，其中視頻與圖像輸?共享的標(biāo)準(zhǔn) Transformer 模塊，?于建模空間信息。局部時(shí)域建模模塊?于視頻相關(guān)任務(wù)的時(shí)域關(guān)系建模。(2) mPLUG-2 設(shè)計(jì)了?個(gè)新穎的通?層模塊 ( universal layers module)，?于作為不同模態(tài)之間的樞紐，其通過(guò)共享?注意?模塊將視覺(jué)和語(yǔ)?模態(tài)投影到共同的以語(yǔ)?為導(dǎo)向的語(yǔ)義空間中。(3) mPLUG-2 使?額外的交叉注意?模塊將通?視覺(jué)表示 (universal vision representation) 與原始細(xì)粒度視覺(jué)表示融合。詳細(xì)的模塊設(shè)計(jì)如圖 2 所示。最后，mPLUG-2 的不同模塊通過(guò)任務(wù)和模態(tài)指令 (task and modality instructions) 在單模態(tài)和跨模態(tài)任務(wù)上進(jìn)?聯(lián)合預(yù)訓(xùn)練。在推理過(guò)程中，mPLUG-2 可以使?模塊化 Transformer 架構(gòu)為各種單模態(tài)和交叉模態(tài)任務(wù)選擇不同的模塊。

mPLUG-2 的卓越性能

mPLUG-2 在 30 多個(gè)有挑戰(zhàn)性的單模態(tài)和跨模態(tài)理解和?成基準(zhǔn)測(cè)試中評(píng)估了 mPLUG-2 的性能，它在相似的模型大小和數(shù)據(jù)規(guī)模下取得了最先進(jìn)或有競(jìng)爭(zhēng)力的結(jié)果。

這里展示幾個(gè)有代表性的實(shí)驗(yàn)結(jié)果：

多模態(tài)任務(wù)

研究者在多模態(tài)理解型和生成型的相關(guān)任務(wù)上評(píng)測(cè) mPLUG-2 的性能，包括: multimodal retrieval、question answering、visual grounding 和 captioning 等，實(shí)驗(yàn)結(jié)果表明其可以得到 SOTA 的性能。

純語(yǔ)言任務(wù)

研究者發(fā)現(xiàn)，相比于專?語(yǔ)?預(yù)訓(xùn)練模型和其他多模態(tài)預(yù)訓(xùn)練模型，mPLUG-2 在 GLUE benchmark 上可以取得可?的性能。實(shí)驗(yàn)結(jié)果證明了使? universal layer 做模態(tài)協(xié)作的有效性。

純視覺(jué)任務(wù)

研究者發(fā)現(xiàn)，mPLUG-2 在純視覺(jué)任務(wù)上，如行為識(shí)別，圖像分類任務(wù)，可以取得具有競(jìng)爭(zhēng)力的性能。

消融：用于模態(tài)協(xié)作的通用層 (universal layer) 的作用有多大？

研究者在 baseline 的基礎(chǔ)上，添加他們?cè)O(shè)計(jì)的通?層 universal layer?？梢园l(fā)現(xiàn)，通過(guò)鼓勵(lì)模態(tài)協(xié)作，在單模態(tài)或者跨模態(tài)任務(wù)上，都會(huì)有明顯的性能提升，證明了通?層 universal layer 的有效性。

另外，研究者還發(fā)現(xiàn)，?勵(lì)模態(tài)協(xié)作的通?層 universal layer 可以得到更小的 modality gap。

更多技術(shù)和實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論?。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="1t708"></style>