自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

規(guī)模小、效率高：DeepMind推出多模態(tài)解決方案Mirasol 3B

作者：機(jī)器之心 2023-11-28 12:49:37

人工智能新聞

最近，來自 Google DeepMind 的研究團(tuán)隊(duì)將多模態(tài)模型解耦成多個(gè)獨(dú)立的、專門的自回歸模型，根據(jù)各種模態(tài)的特征來處理輸入。

多模態(tài)學(xué)習(xí)面臨的主要挑戰(zhàn)之一是需要融合文本、音頻、視頻等異構(gòu)的模態(tài)，多模態(tài)模型需要組合不同來源的信號。然而，這些模態(tài)具有不同的特征，很難通過單一模型來組合。例如，視頻和文本具有不同的采樣率。

最近，來自 Google DeepMind 的研究團(tuán)隊(duì)將多模態(tài)模型解耦成多個(gè)獨(dú)立的、專門的自回歸模型，根據(jù)各種模態(tài)的特征來處理輸入。

具體來說，該研究提出了多模態(tài)模型 Mirasol3B。Mirasol3B 由時(shí)間同步模態(tài)（音頻和視頻）自回歸組件，以及用于上下文模態(tài)的自回歸組件組成。這些模態(tài)不一定在時(shí)間上對齊，但是按順序排列的。

論文地址：https://arxiv.org/abs/2311.05698

Mirasol3B 在多模態(tài)基準(zhǔn)測試中達(dá)到了 SOTA 水平，優(yōu)于規(guī)模更大的模型。通過學(xué)習(xí)更緊湊的表征，控制音頻 - 視頻特征表征的序列長度，并根據(jù)時(shí)間對應(yīng)關(guān)系進(jìn)行建模，Mirasol3B 能夠有效滿足多模態(tài)輸入的高計(jì)算要求。

方法簡介

Mirasol3B 是一個(gè)音頻 - 視頻 - 文本多模態(tài)模型，其中將自回歸建模解耦成時(shí)間對齊模態(tài)（例如音頻、視頻）的自回歸組件，以及針對非時(shí)間對齊的上下文模態(tài)（例如文本）的自回歸組件。Mirasol3B 使用交叉注意力權(quán)重來協(xié)調(diào)這些組件的學(xué)習(xí)進(jìn)程。這種解耦使得模型內(nèi)部的參數(shù)分布更合理，也為模態(tài)（視頻和音頻）分配了足夠的容量，并使得整體模型更加輕量。

如下圖 1 所示，Mirasol3B 主要由兩個(gè)學(xué)習(xí)組件組成：自回歸組件，旨在處理（幾乎）同步的多模態(tài)輸入，例如視頻 + 音頻，并及時(shí)組合輸入。

該研究還提出將時(shí)間對齊的模態(tài)分割成時(shí)間段，在時(shí)間段中學(xué)習(xí)音頻 - 視頻聯(lián)合表征。具體來說，該研究提出了一種名為「Combiner」的模態(tài)聯(lián)合特征學(xué)習(xí)機(jī)制?！窩ombiner」融合了同一時(shí)間段中的模態(tài)特征，產(chǎn)生了更緊湊的表征。

「Combiner」從原始的模態(tài)輸入中提取初級的時(shí)空表示，捕捉視頻的動態(tài)特性，并結(jié)合與其共時(shí)的音頻特征，模型可以在不同的速率接收多模態(tài)輸入，在處理較長的視頻時(shí)表現(xiàn)良好。

「Combiner」有效地滿足了模態(tài)表征既要高效又要信息量豐富的需求。它可以充分涵蓋視頻與其他同時(shí)發(fā)生的模態(tài)中的事件和活動，并能夠用于后續(xù)的自回歸模型，學(xué)習(xí)長期依賴關(guān)系。

為了處理視頻和音頻信號，并適應(yīng)更長的視頻 / 音頻輸入，它們被分割成（在時(shí)間上大致同步）的小塊，再通過「Combiner」學(xué)習(xí)聯(lián)合視聽表示。第二個(gè)組件處理上下文，或時(shí)間上未對齊的信號，如全局文本信息，這些信息通常仍然是連續(xù)的。它也是自回歸的，并使用組合的潛在空間作為交叉注意力輸入。

視頻 + 音頻學(xué)習(xí)組件有 3B 參數(shù)；沒有音頻的組件是 2.9B。多半?yún)?shù)用于音頻 + 視頻自回歸模型。Mirasol3B 通常處理 128 幀的視頻，也可以處理更長（例如 512 幀）的視頻。

由于設(shè)計(jì)了分區(qū)和「Combiner」的模型架構(gòu)，增加更多幀，或增加塊的大小、數(shù)目等，只會使參數(shù)略有增加，解決了更長視頻需要更多參數(shù)、更大的內(nèi)存的問題。

實(shí)驗(yàn)及結(jié)果

該研究在標(biāo)準(zhǔn) VideoQA 基準(zhǔn)、長視頻 VideoQA 基準(zhǔn)和音頻 + 視頻基準(zhǔn)上對 Mirasol3B 進(jìn)行了測試評估。

在 VideoQA 數(shù)據(jù)集 MSRVTTQA 上的測試結(jié)果如下表 1 所示，Mirasol3B 超越了目前的 SOTA 模型，以及規(guī)模更大的模型，如 PaLI-X、Flamingo。

在長視頻問答方面，該研究在 ActivityNet-QA、NExTQA 數(shù)據(jù)集上對 Mirasol3B 進(jìn)行了測試評估，結(jié)果如下表 2 所示：

最后，該研究選擇使用 KineticsSound、VGG-Sound、Epic-Sound 進(jìn)行音頻 - 視頻基準(zhǔn)測試，采用開放式生成評估，實(shí)驗(yàn)結(jié)果如下表 3 所示：

感興趣的讀者可以閱讀論文原文，了解更多研究內(nèi)容。

責(zé)任編輯：張燕妮來源：機(jī)器之心

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營