自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達(dá)開源NVLM 1.0屠榜多模態(tài)!純文本性能不降反升

人工智能 新聞
NVLM 1.0系列多模態(tài)大型語言模型在視覺語言任務(wù)上達(dá)到了與GPT-4o和其他開源模型相媲美的水平,其在純文本性能甚至超過了LLM骨干模型,特別是在文本數(shù)學(xué)和編碼基準(zhǔn)測(cè)試中,平均準(zhǔn)確率提高了4.3個(gè)百分點(diǎn)。

文本大模型經(jīng)過多年的發(fā)展,逐漸發(fā)展成了統(tǒng)一的純解碼器Transformer架構(gòu)。

反觀現(xiàn)有的多模態(tài)大模型架構(gòu)仍然處于混亂狀態(tài),開源模型在選擇LLM主干、視覺編碼器以及訓(xùn)練數(shù)據(jù)方面都存在差異,性能優(yōu)異的閉源多模態(tài)大模型也沒有公布相關(guān)信息,無法直接進(jìn)行模型對(duì)比和研究。

并且,不同模型在處理高分辨率圖像輸入時(shí)的設(shè)計(jì)(如動(dòng)態(tài)高分辨率)雖然可以提高了與OCR相關(guān)的任務(wù)(例如,OCRBench)的性能,但與低分辨率版本模型相比,在推理相關(guān)任務(wù)(例如,MMMU)上的準(zhǔn)確率卻會(huì)下降。

此外,雖然開源的多模態(tài)大模型在視覺-語言任務(wù)上取得了非常亮眼的基準(zhǔn)測(cè)試結(jié)果,但在純文本任務(wù)上的性能卻有顯著下降,與領(lǐng)先的閉源模型(如GPT-4o)的表現(xiàn)并不一致。

為了改變這一現(xiàn)狀,英偉達(dá)的研究團(tuán)隊(duì)最近宣布推出NVLM 1.0,在視覺-語言任務(wù)上取得了最先進(jìn)的成果,能夠與最強(qiáng)大的閉源模型(如GPT-4o)和開源模型(如Llama 3-V 405B和InternVL 2)相媲美,并且在多模態(tài)訓(xùn)練后,其文本性能甚至超過了所采用的LLM主干模型。

圖片

論文鏈接:https://arxiv.org/pdf/2409.11402

項(xiàng)目主頁:https://nvlm-project.github.io/

在模型設(shè)計(jì)方面,研究人員對(duì)純解碼器多模態(tài)大模型(如LLaVA)和基于交叉注意力的模型(如Flamingo)進(jìn)行了全面對(duì)比,并根據(jù)總結(jié)出的優(yōu)勢(shì)和劣勢(shì),提出了一種全新架構(gòu),提升了模型的訓(xùn)練效率和多模態(tài)推理能力。

文中還引入了一種1-D圖塊(tile)標(biāo)簽設(shè)計(jì),可用于基于tile的動(dòng)態(tài)高分辨率圖像,能夠顯著提高多模態(tài)推理和與OCR相關(guān)任務(wù)的性能。

圖片


在訓(xùn)練數(shù)據(jù)方面,研究人員在文中詳細(xì)介紹了多模態(tài)預(yù)訓(xùn)練和監(jiān)督微調(diào)數(shù)據(jù)集的詳細(xì)信息,結(jié)果表明,數(shù)據(jù)集的質(zhì)量和任務(wù)多樣性比規(guī)模更重要,對(duì)所有的架構(gòu)來說都是如此。

值得注意的是,研究人員將高質(zhì)量的純文本數(shù)據(jù)集精心整合到多模態(tài)訓(xùn)練中,并輔以大量的多模態(tài)數(shù)學(xué)和推理數(shù)據(jù),從而在各個(gè)模態(tài)上增強(qiáng)了數(shù)學(xué)和編碼能力,使其在視覺-語言任務(wù)上表現(xiàn)出色的同時(shí),保持甚至提高了純文本性能。

NVLM 1.0模型架構(gòu)

NVLM-1.0包括三種可選架構(gòu):

1. 僅解碼器的NVLM-D

2. 基于Cross (X)-attention的NVLM-X

3. 采用混合架構(gòu)的NVLM-H

圖片

1. 共享視覺路徑(Shared Vision Pathway)

研究人員使用單一的、大型的、表現(xiàn)優(yōu)異的視覺編碼器InternViT-6B-448px-V1-5作為默認(rèn)選項(xiàng),在所有訓(xùn)練階段都保持凍結(jié)狀態(tài),以固定的分辨率448×448處理圖像,生成1024個(gè)輸出token,在訓(xùn)練中最多6個(gè)圖塊(tiles),預(yù)定義的寬高比為{1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 2:1, 2:2, 2:3, 3:1, 3:2, 4:1, 5:1, 6:1},覆蓋了所有可能情況。

圖片

然后執(zhí)行下采樣(downsampling)操作,沿著通道維度將1024個(gè)圖像token減少到256個(gè),將四個(gè)相鄰的圖像token組合成一個(gè),以節(jié)省LLM處理開銷。

動(dòng)態(tài)高分辨率(DHR)設(shè)計(jì)顯著提高了與OCR相關(guān)的任務(wù)性能,但當(dāng)所有tile的圖像token直連輸入到LLM時(shí),有時(shí)會(huì)導(dǎo)致推理相關(guān)任務(wù)的性能下降,研究人員在三種架構(gòu)中分別解決該問題。

2. NVLM-D:純解碼器模型

NVLM-D模型使用一個(gè)2層多層感知器(MLP)作為投影器(projector)或模態(tài)對(duì)齊(modality-alignment)模塊,將預(yù)訓(xùn)練視覺編碼器連接到大型語言模型。

圖片

NVLM-D的訓(xùn)練包括兩個(gè)階段:預(yù)訓(xùn)練和有監(jiān)督微調(diào)(SFT),其中MLP是隨機(jī)初始化的,需要先進(jìn)行預(yù)訓(xùn)練,同時(shí)保持視覺編碼器和LLM主干凍結(jié)。

在探索過程中,研究人員發(fā)現(xiàn)當(dāng)視覺編碼器相對(duì)較弱(如ViT-L/14)且預(yù)訓(xùn)練數(shù)據(jù)集足夠多樣化時(shí),MLP投影器和視覺編碼器的聯(lián)合預(yù)訓(xùn)練是有益的;在升級(jí)到更強(qiáng)大的InternViT-6B-448px-V1-5后,性能增益變得微乎其微。

為了簡(jiǎn)化,研究人員選擇在預(yù)訓(xùn)練期間保持視覺編碼器凍結(jié);在SFT階段,MLP投影器和LLM都需要訓(xùn)練以學(xué)習(xí)帶有新指令的新視覺-語言任務(wù),且保持視覺編碼器凍結(jié)。

以往文獻(xiàn)中很少討論的是,在多模態(tài)SFT訓(xùn)練期間不凍結(jié)LLM權(quán)重通常會(huì)導(dǎo)致純文本性能顯著下降,NVLM-D模型通過整合高質(zhì)量的純文本SFT數(shù)據(jù)集,有效地保持了純文本性能。

動(dòng)態(tài)高分辨率的圖塊(tile)標(biāo)簽

大型語言模型(LLM)的主干需要處理所有動(dòng)態(tài)高分辨率tile的扁平圖像token,包括一個(gè)額外的縮略圖tile,如果不加分隔符可能在輸入LLM時(shí)產(chǎn)生歧義,因?yàn)檎Z言模型沒有動(dòng)態(tài)平鋪(dynamic tiling)過程的先驗(yàn)知識(shí)。

為了解決這個(gè)問題,研究人員在輸入序列中插入一個(gè)基于文本的tile標(biāo)簽以標(biāo)記圖塊的開始以及在整個(gè)平鋪結(jié)構(gòu)中的位置,然后在標(biāo)簽后附加tile的256個(gè)圖像token,總共設(shè)計(jì)了三種標(biāo)簽:

1)無標(biāo)簽:無tile標(biāo)簽直接連接,也是InternVL-1.5的設(shè)計(jì)。

2)1-D扁平化tile標(biāo)簽:<tile_1>, <tile_2>, ..., <tile_6>, <tile_global>

3)2-D網(wǎng)格標(biāo)簽:<tile_x0_y0>, <tile_x1_y0>, ..., <tile_xW_yH>, <tile_global>

4)2-D邊界框標(biāo)簽:<box> (x0, y0), (x1, y1) </box>, ..., <box> (xW, yH), (xW+1, yH+1) </box>,其中兩個(gè)坐標(biāo)分別為(左, 頂部),(右, 底部)。

圖片

從消融實(shí)驗(yàn)結(jié)果中可以觀察到:

1)純粹的動(dòng)態(tài)高分辨率方法(DHR + 無標(biāo)簽)在所有基準(zhǔn)測(cè)試中的性能都有顯著提高;

2)在LLM解碼器中插入其他類型的圖塊標(biāo)簽,其性能顯著優(yōu)于簡(jiǎn)單的無標(biāo)簽連接,還能極大改善與OCR相關(guān)任務(wù)的性能。

3)1-D瓦片標(biāo)簽<tile_k>通常比其他標(biāo)簽表現(xiàn)更好,雖然無法提供2-D信息(例如,2×3與3×2),但在測(cè)試階段具有更好的泛化能力。

3. NVLM-X:X-attention模型

圖片

NVLM-X使用門控交叉注意力來處理圖像token,與Flamingo模型不同的是:

1)感知器重采樣器對(duì)自然圖像描述是有益的,但對(duì)密集OCR任務(wù)會(huì)產(chǎn)生負(fù)面影響,主要是因?yàn)楦兄髦械慕徊孀⒁饬Φ綕撛跀?shù)組混合了輸入圖像token,可能會(huì)破壞圖像塊之間的空間關(guān)系,而這些關(guān)系對(duì)于文檔OCR至關(guān)重要,所以NVLM-X完全依使用交叉注意力直接從視覺編碼器讀取圖像token

2)在多模態(tài)監(jiān)督式微調(diào)(SFT)階段凍結(jié)大型語言模型(LLM)會(huì)損害視覺-語言任務(wù)的性能,因?yàn)槟P托枰焖龠m應(yīng)在純文本指令調(diào)整期間未遇到的新任務(wù)和新指令;因此,在多模態(tài)SFT期間,研究人員解凍了NVLM-X的LLM主干,并混合了高質(zhì)量的純文本SFT數(shù)據(jù)集,以保持強(qiáng)大的純文本性能。

NVLM-X的動(dòng)態(tài)高分辨率圖塊標(biāo)簽與NVLM-D相同,采用門控X-attention來處理每個(gè)圖塊的扁平化圖像token。

圖片

消融實(shí)驗(yàn)中,使用低分辨率448×448輸入,動(dòng)態(tài)高分辨率(DHR)無圖塊標(biāo)簽和帶有1-D <tile_k>標(biāo)簽的情況,可以發(fā)現(xiàn):原始的動(dòng)態(tài)高分辨率方法(DHR + 無標(biāo)簽)在所有基準(zhǔn)測(cè)試中都顯著優(yōu)于其低分辨率對(duì)應(yīng)結(jié)果;添加圖塊標(biāo)簽在所有基準(zhǔn)測(cè)試中都提高了性能,包括多模態(tài)推理和OCR相關(guān)的任務(wù)。

4. NVLM-H:混合模型

NVLM-H是一種混合架構(gòu),結(jié)合了NVLM-D和NVLM-X的優(yōu)勢(shì),將圖像token的處理分為兩條路徑:縮略圖token與文本token一起輸入到大型語言模型中,并由自注意力層處理,實(shí)現(xiàn)了聯(lián)合多模態(tài)推理。

圖片

同時(shí),通過門控交叉注意力處理動(dòng)態(tài)數(shù)量的常規(guī)圖塊(regular tile),使模型能夠捕捉更精細(xì)的圖像細(xì)節(jié),相比NVLM-X增強(qiáng)了高分辨率能力,與NVLM-D相比顯著提高了計(jì)算效率,在訓(xùn)練中的吞吐量高于NVLM-D

圖片

動(dòng)態(tài)高分辨率的圖塊標(biāo)簽

NVLM-H使用了與NVLM-D相同的1-D平展圖塊標(biāo)簽<tile_k>,主要區(qū)別在于處理位置,<tile_k>的文本嵌入與視覺嵌入一起集成到門控交叉注意力層中,能夠在預(yù)訓(xùn)練期間有效地對(duì)齊文本和視覺嵌入,使模型能夠在交叉注意力機(jī)制內(nèi)無縫解釋圖塊標(biāo)簽。

實(shí)驗(yàn)結(jié)果

在九個(gè)視覺-語言基準(zhǔn)測(cè)試和四個(gè)純文本基準(zhǔn)測(cè)試上的結(jié)果顯示,NVLM-1.0 72B模型可以與其他最強(qiáng)的開源、閉源模型(例如,GPT-4o)相媲美,包括尚未公開可用的LLaMA 3V和InternVL 2

圖片

NVLM-D1.0 72B在OCRBench(853)和VQAv2(85.4)上取得了所有對(duì)比模型的最高分,其MMMU得分(59.7)也在本報(bào)告發(fā)布時(shí)顯著超過了所有開源模型,包括LLaVAOneVision 72B(56.8)和InternVL-2-Llama3-76B(55.2)。在AI2D、TextVQA、ChartQA和DocVQA上,其表現(xiàn)僅略遜于表現(xiàn)最佳的InternVL-2-Llama3-76B,與的GPT-4o相當(dāng),并顯著優(yōu)于其他開源模型。

NVLM-H1.0 72B在所有開源多模態(tài)LLMs中取得了最高的MMMU(Val)得分(60.2),還在NVLM-1.0家族中取得了最佳的MathVista得分(66.6),已經(jīng)超越了許多非常強(qiáng)大的模型,包括GPT-4o、Gemini Pro 1.5(2024年8月)、InternVL-2-Pro,證明了其卓越的多模態(tài)推理能力。

NVLM-X1.0 72B也取得了前沿級(jí)別的結(jié)果,并且作為同類中最佳的基于交叉注意力的多模態(tài)LLMs,能夠與尚未發(fā)布的Llama 3-V 70B相媲美。NVLM-X1.0還有一個(gè)優(yōu)勢(shì):訓(xùn)練和推理速度更快。

開源的多模態(tài)大型語言模型,如LLaVA-OneVision 72B和InternVL-2-Llama3-76B,在多模態(tài)訓(xùn)練后在純文本任務(wù)上表現(xiàn)出顯著的性能下降;相比之下,NVLM-1.0模型的純文本性能甚至略有提高,主要得益于包含了高質(zhì)量的純文本監(jiān)督式微調(diào)(SFT)數(shù)據(jù),也表明,只要融入了高質(zhì)量的文本對(duì)齊數(shù)據(jù),在多模態(tài)SFT期間解凍LLM主干并不會(huì)損害文本性能。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-18 18:57:58

2012-07-18 16:18:15

BYOD

2019-12-05 09:14:34

Windows 7WindowsWindows 10

2009-06-30 10:15:47

Linux

2022-07-14 15:06:29

烏克蘭網(wǎng)絡(luò)攻擊俄羅斯

2022-07-14 14:19:04

黑客網(wǎng)絡(luò)攻擊

2021-08-22 14:50:57

4G移動(dòng)芯片5G

2025-03-24 08:06:00

2024-09-05 12:27:17

2025-02-26 14:00:00

開源模型數(shù)據(jù)

2024-09-18 08:15:00

模型數(shù)據(jù)AI

2012-05-11 11:32:52

英偉達(dá)CUDA編譯器

2025-03-19 09:30:00

2025-04-16 08:50:00

模型AI數(shù)據(jù)

2009-03-09 15:12:39

XenServer安裝

2019-12-18 16:17:56

自動(dòng)駕駛數(shù)據(jù)人工智能

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達(dá)

2015-08-24 10:41:35

Windows 10內(nèi)存

2021-02-27 07:50:09

CPU顯卡區(qū)塊鏈

2024-06-17 08:55:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)