自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="l140j"></center>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

訓(xùn)練130億大模型僅3天，北大提出Chat-UniVi統(tǒng)一圖片和視頻理解

作者：機(jī)器之心 2023-11-29 14:00:00

人工智能新聞

北京大學(xué)和中山大學(xué)等機(jī)構(gòu)研究者提出了統(tǒng)一的視覺(jué)語(yǔ)言大模型 ——Chat-UniVi。通過(guò)構(gòu)建圖片和視頻統(tǒng)一表征，該框架使得一個(gè) LLM 能夠在圖片和視頻的混合數(shù)據(jù)下訓(xùn)練，并同時(shí)完成圖片和視頻理解任務(wù)。更重要的是，該框架極大降低了視覺(jué)語(yǔ)言模型訓(xùn)練和推理的開銷，使得在三天以內(nèi)即可訓(xùn)練出具有 130 億參數(shù)的通用視覺(jué)語(yǔ)言大模型。Chat-UniVi 模型在圖片和視頻的下游任務(wù)中都取得了卓越的性能。所有代

論文地址：https://arxiv.org/pdf/2311.08046.pdf
GitHub 地址：https://github.com/PKU-YuanGroup/Chat-UniVi
Huggingface 地址：https://huggingface.co/Chat-UniVi
Demo 地址：https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi

圖 1 Chat-UniVi 在圖片、視頻上的 17 個(gè)基準(zhǔn)上達(dá)到先進(jìn)的性能

具體來(lái)說(shuō)，北京大學(xué)和中山大學(xué)的研究人員提出了一種名為 Chat-UniVi 的統(tǒng)一的視覺(jué)語(yǔ)言方案，其能通過(guò)統(tǒng)一的視覺(jué)表征同時(shí)處理圖片任務(wù)和視頻任務(wù)。作為一個(gè)統(tǒng)一的視覺(jué)理解模型，Chat-UniVi 以更少的視覺(jué) token 數(shù)量，超過(guò)了專門針對(duì)圖片設(shè)計(jì)的多模態(tài)大模型和專門針對(duì)視頻設(shè)計(jì)的多模態(tài)大模型。更值得注意的是，所提出的統(tǒng)一的視覺(jué)表征極大減少了輸入視覺(jué) token 的數(shù)量，大大降低了模型的訓(xùn)練和推理成本，使得訓(xùn)練一個(gè)具有 130 億參數(shù)的通用視覺(jué)語(yǔ)言大模型只需要三天。

在介紹本文方法之前，我們先看一下 Demo 展示：

方法介紹

現(xiàn)有的多模態(tài)語(yǔ)言模型通常只專注于圖片或視頻輸入。其中，專注于圖片理解的方法通常使用大量的視覺(jué) token 來(lái)獲得更精細(xì)的空間分辨率。而專注于視頻理解的方法往往會(huì)犧牲每幀的空間分辨率，以輸入更多幀構(gòu)建更精細(xì)的時(shí)間理解能力。

對(duì)此，研究人員提出使用一組動(dòng)態(tài)視覺(jué) token 統(tǒng)一表示圖片和視頻。如圖 2 所示，圖片可以通過(guò)不同大小的視覺(jué) token 來(lái)建模。例如，主要對(duì)象 (即圖 2 中的羊) 需要使用更多視覺(jué) token 進(jìn)行細(xì)粒度表示，而背景 (即雪山) 只需使用一個(gè)視覺(jué) token 即可充分建模。對(duì)于視頻來(lái)說(shuō)，視頻首先會(huì)被分成多個(gè)關(guān)鍵事件，隨后視覺(jué) token 會(huì)在事件內(nèi)部進(jìn)行拓展。這種圖片和視頻的統(tǒng)一表示大大減少了視覺(jué) token 的數(shù)量，同時(shí)保持了模型的表達(dá)能力。值得注意的是，在該方法中，較長(zhǎng)的視頻被分配了更多的視覺(jué) token。因此，比現(xiàn)有的方法更適合于具有可變長(zhǎng)度視頻的理解。

圖 2 Chat-UniVi 提出的統(tǒng)一視覺(jué)表征

為了獲得這些動(dòng)態(tài)的視覺(jué) token，研究人員基于最近鄰的密度峰聚類算法，逐步對(duì)視覺(jué) token 進(jìn)行分組和合并。當(dāng)涉及視頻時(shí)，同樣應(yīng)用最近鄰的密度峰聚類算法來(lái)獲取事件的幀集合。為了進(jìn)一步提升模型的性能，研究人員為 LLM 提供了一個(gè)多尺度表征，其中多尺度表征的上層特征表示高級(jí)語(yǔ)義概念，而下層特征強(qiáng)調(diào)視覺(jué)細(xì)節(jié)表示。

圖 3 Chat-UniVi 整體框架圖

Chat-UniVi 框架具有兩個(gè)引人注目的優(yōu)點(diǎn)：首先，其統(tǒng)一的圖片和視頻建模方法允許在圖片和視頻混合數(shù)據(jù)集上進(jìn)行訓(xùn)練，而無(wú)需任何修改即可直接應(yīng)用于圖片和視頻任務(wù)。其次，多尺度表征有助于對(duì)圖片和視頻的全面理解，使 Chat-UniVi 能夠適應(yīng)各種任務(wù)，包括使用高層次特征進(jìn)行語(yǔ)義理解，使用低層次特征生成詳細(xì)描述。

Chat-UniVi 的訓(xùn)練分為兩個(gè)階段：

（1）多模態(tài)預(yù)訓(xùn)練。在第一階段，研究人員凍結(jié) LLM 和視覺(jué)編碼器的同時(shí)只訓(xùn)練投影矩陣。這種訓(xùn)練策略使模型能夠有效地捕獲視覺(jué)信息，而不會(huì)對(duì) LLM 的性能造成任何明顯的損害。

（2）聯(lián)合指令微調(diào)。在第二階段，研究人員在一個(gè)包含圖片和視頻的混合數(shù)據(jù)集上對(duì)整個(gè)模型進(jìn)行了全參數(shù)微調(diào)。通過(guò)在混合數(shù)據(jù)集上的聯(lián)合訓(xùn)練，Chat-UniVi 實(shí)現(xiàn)了對(duì)大量指令的卓越理解，并產(chǎn)生了更自然、更可靠的輸出。

實(shí)驗(yàn)

圖片理解實(shí)驗(yàn)。Chat-UniVi 使用更少的視覺(jué) token，同時(shí)實(shí)現(xiàn)卓越的性能。值得注意的是，Chat-UniVi 模型在 7B 參數(shù)下，也能達(dá)到 LLaVA 模型 13B 參數(shù)下的性能水平，證明了該方法的有效性。

視頻理解實(shí)驗(yàn)。Chat-UniVi 作為一個(gè)統(tǒng)一的視覺(jué)語(yǔ)言模型，超過(guò)了專門針對(duì)視頻設(shè)計(jì)的方法，例如 VideoChat 和 Video-ChatGPT。

圖片問(wèn)答實(shí)驗(yàn)。Chat-UniVi 在 ScienceQA 數(shù)據(jù)集上獲得了有競(jìng)爭(zhēng)力的性能。值得注意的是，Chat-UniVi 優(yōu)于專門針對(duì)科學(xué)問(wèn)答進(jìn)行優(yōu)化的 LLaMA-SciTune 模型，充分體現(xiàn)了該方法的優(yōu)越性。

視頻問(wèn)答實(shí)驗(yàn)。在所有數(shù)據(jù)集上，Chat-UniVi 都優(yōu)于最先進(jìn)的方法，例如 VideoChat 和 Video-ChatGPT。

幻覺(jué)實(shí)驗(yàn)。在幻覺(jué)評(píng)估上，Chat-UniVi 優(yōu)于最近提出的最先進(jìn)的方法。此外，研究人員發(fā)現(xiàn)多尺度表征提高了抵抗幻覺(jué)的能力。值得注意的是，作為 7B 模型，Chat-UniVi 甚至優(yōu)于 13B 模型，如 MiniGPT4。研究人員將這一成功歸功于多尺度表征，多尺度表征使模型能夠同時(shí)感知高級(jí)語(yǔ)義概念和低級(jí)視覺(jué)外觀。

人工評(píng)測(cè)實(shí)驗(yàn)。同時(shí)，研究人員也進(jìn)行了人工評(píng)估實(shí)驗(yàn)。研究人員發(fā)現(xiàn)基于 Flamingo 的方法在理解視頻的能力上存在局限性。這種限制歸因于它們使用 Q-Former 從不同長(zhǎng)度的視頻中提取固定數(shù)量的視覺(jué) token，這阻礙了它們?cè)诮r(shí)間理解方面的有效性。相比之下，Chat-UniVi 作為一個(gè)統(tǒng)一的模型，不僅優(yōu)于基于 Flamingo 構(gòu)建的方法，而且超過(guò)了專門為圖片和視頻設(shè)計(jì)的模型。

可視化。Chat-UniVi 所使用的動(dòng)態(tài)視覺(jué) token 有效地概括了對(duì)象和背景。這使 Chat-UniVi 能夠使用有限數(shù)量視覺(jué) token 的同時(shí)構(gòu)建圖片理解所需的細(xì)粒度的空間分辨率和視頻理解所需的細(xì)粒度時(shí)間分辨率。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="s9t43"></style>