自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

精確指出特定事件發(fā)生時(shí)間！字節(jié)&復(fù)旦大學(xué)多模態(tài)大模型解讀視頻太香了

作者：量子位 2024-01-15 06:15:00

人工智能新聞

LEGO全稱(chēng)是一個(gè)語(yǔ)言增強(qiáng)的多模態(tài)grounding模型。它主要解決的是多模態(tài)LLM跨多種模態(tài)進(jìn)行細(xì)粒度理解的能力，此前業(yè)內(nèi)的成果主要強(qiáng)調(diào)全局信息。

字節(jié)&復(fù)旦大學(xué)多模態(tài)理解大模型來(lái)了：

可以精確定位到視頻中特定事件的發(fā)生時(shí)間。

比如在下面這個(gè)視頻中：

狗子轉(zhuǎn)身看鏡頭時(shí)的時(shí)間戳是多少？

什么時(shí)候用爪子推開(kāi)滑板？

在這里，視頻中的寶寶什么時(shí)候推起眼鏡、舒展了一下身體？又是什么時(shí)候翻的書(shū)？

對(duì)于這樣的問(wèn)題，這個(gè)叫做LEGO的模型全都讀得懂，并毫不猶豫給出正確答案。

看起來(lái)，有了這些研究成果，以后我們看視頻查資料都要方便一大截咯？

可精確識(shí)別局部信息的多模態(tài)LLM來(lái)了

LEGO全稱(chēng)是一個(gè)語(yǔ)言增強(qiáng)的多模態(tài)grounding模型。

它主要解決的是多模態(tài)LLM跨多種模態(tài)進(jìn)行細(xì)粒度理解的能力，此前業(yè)內(nèi)的成果主要強(qiáng)調(diào)全局信息。

為了實(shí)現(xiàn)該目標(biāo)，作者主要先從數(shù)據(jù)集下手，打造了一套用于模型訓(xùn)練的多模式、多粒度問(wèn)答形式數(shù)據(jù)集（即將開(kāi)源）。

該數(shù)據(jù)集的構(gòu)建涉及兩個(gè)關(guān)鍵流程。

一是數(shù)據(jù)集轉(zhuǎn)換（Dataset Conversion）。

在這個(gè)階段，作者的目的是構(gòu)建用于模態(tài)對(duì)齊和細(xì)粒度對(duì)齊的基礎(chǔ)多模態(tài)數(shù)據(jù)集。

由于數(shù)據(jù)集質(zhì)量相對(duì)較低，主要通過(guò)轉(zhuǎn)換公開(kāi)數(shù)據(jù)集獲得。

如下圖上部分所示，他們向GPT-3.5提供任務(wù)描述以生成特定于任務(wù)的問(wèn)題庫(kù)，最終生成單輪對(duì)話格式的問(wèn)答對(duì)。

生成的數(shù)據(jù)集會(huì)進(jìn)行過(guò)濾以確保其質(zhì)量。

其中對(duì)于圖像模態(tài)，作者利用LLaVA-pretrain595K數(shù)據(jù)集進(jìn)行模態(tài)對(duì)齊，細(xì)粒度對(duì)齊則使用特定數(shù)據(jù)集如RefCOCO。

視頻模態(tài)用Valley-Pretrain-703K進(jìn)行模態(tài)對(duì)齊，Charades-STA數(shù)據(jù)集用于細(xì)粒度對(duì)齊。

二是指令調(diào)整數(shù)據(jù)集生成（Instruction-tuning Dataset Generation）。

這個(gè)數(shù)據(jù)集的目的是讓模型更好地理解和遵循人類(lèi)指令。

如上圖下部分所示，作者也選擇了公開(kāi)可用的數(shù)據(jù)集（Flickr30K Entities、VCR、DiDeMo等）的子集進(jìn)行人工注釋?zhuān)詣?chuàng)建上下文示例。它用于指導(dǎo)GPT-3.5在生成指令調(diào)整數(shù)據(jù)集時(shí)遵循類(lèi)似的模式。

隨后，特定任務(wù)的系統(tǒng)提示和隨機(jī)選擇的示例被輸入到GPT-3.5中，以生成單輪或多輪對(duì)話。最后，進(jìn)行數(shù)據(jù)過(guò)濾以確保數(shù)據(jù)集質(zhì)量。

下面是經(jīng)過(guò)三階段訓(xùn)練產(chǎn)生的最終數(shù)據(jù)樣本示例：

下面是LEGO模型的架構(gòu)：

每個(gè)模態(tài)的輸入通過(guò)獨(dú)立的編碼器進(jìn)行處理，提取特征，然后使用適配器將這些特征映射到LLM的嵌入空間。

圖中演示的是視頻和圖像模式的兩個(gè)示例，藍(lán)色方框表示視頻作為輸入，而黃色方框表示圖像作為輸入。

由于其基于模塊化設(shè)計(jì)和適配器的架構(gòu)，LEGO可以無(wú)縫集成新的編碼器，處理額外的模態(tài)，如點(diǎn)云和語(yǔ)音，主打一個(gè)好擴(kuò)展。

最后，LEGO使用Vicuna1.5-7B作為基礎(chǔ)語(yǔ)言模型，訓(xùn)練由三個(gè)階段完成：多模態(tài)預(yù)訓(xùn)練，細(xì)粒度對(duì)齊調(diào)整和跨模式指令調(diào)整。

下面是實(shí)驗(yàn)評(píng)估：

圖像任務(wù)中，LEGO模型和其他模型在REC任務(wù)中的性能如下表所示，可以看到它在所有數(shù)據(jù)集上都表現(xiàn)出了比較有競(jìng)爭(zhēng)力的性能。

視頻任務(wù)中，由于LEGO側(cè)重對(duì)于整個(gè)視頻的理解，相比VideoLLaMA、VideoChat和Valley這三個(gè)模型，性能表現(xiàn)相當(dāng)優(yōu)異：

更多能力展示

如上所說(shuō)，LEGO的能力不僅在于視頻定位，對(duì)圖片、音頻等多模態(tài)任務(wù)都很在行。

指的就是以下這些：

圖像內(nèi)容解讀

在這張風(fēng)景圖中，它準(zhǔn)確給出了游玩風(fēng)險(xiǎn)提示。

在這個(gè)meme圖中，它也準(zhǔn)確發(fā)現(xiàn)這是一個(gè)炸雞拼成的簡(jiǎn)單地圖。

視頻內(nèi)容概括簡(jiǎn)介

可以看到它能識(shí)別出非常細(xì)節(jié)的城市坐標(biāo)和景點(diǎn)。

音頻解析

當(dāng)然，這里測(cè)試的只是一個(gè)比較簡(jiǎn)單的純雨聲短音頻。

聲音定位

給一段狗叫音頻+一張狗狗奔跑的圖像，它可以準(zhǔn)確圈出聲音來(lái)源在狗嘴部。

作者介紹

本文一共12位作者。

除了一作Zhaowei Li來(lái)自復(fù)旦大學(xué)，還有一位叫做的Dong Zhang的也來(lái)自這里。

其余均為字節(jié)跳動(dòng)員工，通訊作者為T(mén)ao Wang。

論文地址： https://arxiv.org/abs/2401.06071

責(zé)任編輯：張燕妮來(lái)源：量子位

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)