Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet
文章鏈接:https://arxiv.org/pdf/2409.12191
Github鏈接:https://github.com/QwenLM/Qwen2-VL
亮點直擊
本文介紹了Qwen系列大型視覺語言模型的最新成員:Qwen2-VL系列,該系列包括三款開放權(quán)重模型,總參數(shù)量分別為20億、80億和720億。如圖1所示,Qwen2-VL的關(guān)鍵進(jìn)展包括:
- 在各種分辨率和寬高比上的最先進(jìn)理解能力:Qwen2-VL在視覺基準(zhǔn)測試中表現(xiàn)出色,包括DocVQA、InfoVQA、RealWorldQA、MTVQA、MathVista等。
- 對長時間視頻(超過20分鐘)的理解能力:Qwen2-VL能夠理解超過20分鐘的視頻,增強(qiáng)了其進(jìn)行高質(zhì)量視頻問答、對話、內(nèi)容創(chuàng)作等的能力。
- 強(qiáng)大的設(shè)備操作代理能力:憑借先進(jìn)的推理和決策能力,Qwen2-VL可以與手機(jī)、機(jī)器人等設(shè)備集成,實現(xiàn)基于視覺輸入和文本指令的自主操作。
- 多語言支持:為了服務(wù)全球受眾,Qwen2-VL不僅支持英語和中文,還支持包括大多數(shù)歐洲語言、日語、韓語、阿拉伯語、越南語等在內(nèi)的多語言上下文理解。
效果展示
總結(jié)速覽
解決的問題
Qwen2-VL系列旨在重新定義傳統(tǒng)的固定分辨率視覺處理方法,解決了在處理不同分辨率圖像時的效率和準(zhǔn)確性問題。
提出的方案
引入了“Naive Dynamic Resolution”機(jī)制,使模型能夠動態(tài)處理不同分辨率的圖像,并生成不同數(shù)量的視覺tokens,從而提升視覺表示的效率和準(zhǔn)確性。
應(yīng)用的技術(shù)
- Naive Dynamic Resolution機(jī)制:動態(tài)處理圖像分辨率。
- Multimodal rotary position embedding (M-RoPE):有效融合文本、圖像和視頻的位置信息。
- 統(tǒng)一處理范式:同時處理圖像和視頻,增強(qiáng)視覺感知能力。
- 擴(kuò)展規(guī)律:探索大規(guī)模視覺語言模型(LVLM)的擴(kuò)展規(guī)律,通過模型大?。?B、8B和72B參數(shù))和訓(xùn)練數(shù)據(jù)的增加來提升性能。
達(dá)到的效果
Qwen2-VL系列在各類多模態(tài)基準(zhǔn)測試中表現(xiàn)出色,特別是Qwen2-VL-72B模型,其性能與領(lǐng)先模型如GPT-4o和Claude3.5-Sonnet相當(dāng),超越了其他通用模型。
方法
Qwen2-VL系列由三種大小的模型組成,分別為Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。下表1列出了超參數(shù)和重要信息。Qwen2-VL在各種規(guī)模的LLM中采用了675M參數(shù)的Vison Transformer(ViT),確保了ViT的計算負(fù)載在不同規(guī)模的LLM中保持恒定。
模型架構(gòu)
下圖2展示了Qwen2-VL的全面結(jié)構(gòu)。保留了Qwen-VL框架,該框架集成了視覺編碼器和語言模型。
針對不同的規(guī)模適配,實現(xiàn)了一種具有大約675百萬參數(shù)的ViT,能夠處理圖像和視頻輸入。在語言處理方面,選擇了更強(qiáng)大的Qwen2語言模型系列。為了進(jìn)一步增強(qiáng)模型有效感知和理解視頻中的視覺信息的能力,引入了幾個關(guān)鍵升級:
簡單動態(tài)分辨率:Qwen2-VL的一項關(guān)鍵架構(gòu)改進(jìn)是引入了簡單動態(tài)分辨率支持。與其前身不同,Qwen2-VL現(xiàn)在可以處理任意分辨率的圖像,動態(tài)將其轉(zhuǎn)換為可變數(shù)量的視覺tokens。為支持此功能,修改了ViT,去除了原始的絕對位置嵌入,并引入了2D-RoPE,以捕捉圖像的二維位置信息。
在推理階段,不同分辨率的圖像被打包成一個單一序列,打包長度受到控制,以限制GPU內(nèi)存使用。此外,為減少每幅圖像的視覺tokens,在ViT后采用了一個簡單的多層感知器(MLP)層,將相鄰的2×2 token壓縮為一個token,并在壓縮的視覺tokens的開頭和結(jié)尾放置特殊的<|vision_start|>和<|vision_end|> tokens。因此,分辨率為224×224的圖像在使用patch_size=14的ViT編碼后,將在進(jìn)入LLM之前壓縮為66個tokens。
Multimodal rotary position embedding (M-RoPE) 另一個關(guān)鍵架構(gòu)增強(qiáng)是Multimodal Rotary Position Embedding(M-RoPE)的創(chuàng)新。與傳統(tǒng)的1D-RoPE(用于LLM)僅能編碼一維位置信息不同,M-RoPE有效地建模了多模態(tài)輸入的位置信息。這通過將原始旋轉(zhuǎn)embedding分解為三個組成部分:時間、高度和寬度實現(xiàn)。對于文本輸入,這些組件使用相同的位置ID,使得M-RoPE在功能上等同于1D-RoPE。
在處理圖像時,每個視覺token的時間ID保持不變,而高度和寬度組件則根據(jù)token在圖像中的位置分配不同的ID。對于視頻,視為一系列幀,每幀的時間ID遞增,而高度和寬度組件遵循與圖像相同的ID分配模式。在輸入包含多種模態(tài)的情況下,每種模態(tài)的位置編號通過將前一模態(tài)的最大位置ID加一來初始化。M-RoPE不僅增強(qiáng)了位置信息的建模,還減少了圖像和視頻的位置ID值,使模型在推理時能夠推斷更長的序列。
統(tǒng)一的圖像與視頻理解 Qwen2-VL采用混合訓(xùn)練方案,結(jié)合圖像和視頻數(shù)據(jù),確保在圖像理解和視頻理解方面的熟練度。為了盡可能完整地保留視頻信息,以每秒兩幀的頻率采樣每個視頻。此外,將3D卷積與深度為二的卷積結(jié)合,以處理視頻輸入,使模型能夠處理3D pipeline 而非2D塊,從而在不增加序列長度的情況下處理更多視頻幀。
為了保持一致性,每幅圖像被視為兩個相同的幀。為了平衡長視頻處理的計算需求與整體訓(xùn)練效率,動態(tài)調(diào)整每個視頻幀的分辨率,將每個視頻的總tokens數(shù)限制為16384。該訓(xùn)練方法在模型理解長視頻的能力與訓(xùn)練效率之間取得了平衡。
訓(xùn)練
遵循Qwen-VL,采用三階段訓(xùn)練方法。在第一階段,專注于訓(xùn)練ViT組件,利用大量圖像-文本對提升大型語言模型(LLM)的語義理解。在第二階段,解凍所有參數(shù),使用更廣泛的數(shù)據(jù)進(jìn)行更全面的學(xué)習(xí)。最后階段,鎖定ViT參數(shù),專注于使用指令數(shù)據(jù)集進(jìn)行LLM的微調(diào)。
模型在多樣化的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,包括圖像-文本對、光學(xué)字符識別(OCR)數(shù)據(jù)、交錯的圖像-文本文章、視覺問答數(shù)據(jù)集、視頻對話和圖像知識數(shù)據(jù)集。數(shù)據(jù)源主要來自清理過的網(wǎng)頁、開源數(shù)據(jù)集和合成數(shù)據(jù),數(shù)據(jù)截止日期為2023年6月。這種多樣的數(shù)據(jù)組成對發(fā)展強(qiáng)大的多模態(tài)理解能力至關(guān)重要。
在初始預(yù)訓(xùn)練階段,Qwen2-VL接觸到約6000億個tokens。Qwen2-VL的LLM組件使用Qwen2中的參數(shù)初始化,而視覺編碼器則基于DFN的ViT初始化。原DFN ViT中的固定位置embedding被RoPE-2D替代。此階段主要學(xué)習(xí)圖像-文本關(guān)系、通過OCR進(jìn)行文本內(nèi)容識別以及圖像分類任務(wù),為模型建立視覺-文本關(guān)聯(lián)的扎實基礎(chǔ)。
第二階段的預(yù)訓(xùn)練標(biāo)志著重要進(jìn)展,涉及額外的8000億個與圖像相關(guān)的數(shù)據(jù)。此階段引入了更多混合圖像-文本內(nèi)容,促進(jìn)了對視覺和文本信息之間相互作用的更細(xì)致理解。視覺問答數(shù)據(jù)集的納入提升了模型對圖像相關(guān)查詢的響應(yīng)能力,同時,多任務(wù)數(shù)據(jù)集的引入對模型同時處理多種任務(wù)的能力至關(guān)重要,這在處理復(fù)雜的現(xiàn)實世界數(shù)據(jù)集時尤為重要。純文本數(shù)據(jù)繼續(xù)在維持和提高模型語言能力方面發(fā)揮關(guān)鍵作用。
在整個預(yù)訓(xùn)練階段,Qwen2-VL處理了總計1.4萬億個tokens,包括文本tokens和圖像tokens。然而,訓(xùn)練過程中僅對文本tokens提供監(jiān)督。這種對廣泛而多樣的語言和視覺場景的接觸確保模型深入理解視覺和文本信息之間的復(fù)雜關(guān)系,從而為各種多模態(tài)任務(wù)奠定堅實基礎(chǔ)。
在指令微調(diào)階段,采用ChatML格式構(gòu)建指令跟隨數(shù)據(jù)集。該數(shù)據(jù)集不僅包括純文本對話數(shù)據(jù),還包含多模態(tài)對話數(shù)據(jù)。多模態(tài)組件包括圖像問答、文檔解析、多圖像比較、視頻理解、視頻流對話和基于代理的交互。對數(shù)據(jù)構(gòu)建的綜合方法旨在增強(qiáng)模型理解和執(zhí)行各種模態(tài)下廣泛指令的能力。通過納入多樣化的數(shù)據(jù)類型,希望開發(fā)出更具多樣性和魯棒性的語言模型,能夠處理復(fù)雜的多模態(tài)任務(wù),以及傳統(tǒng)的基于文本的交互。
數(shù)據(jù)格式
與Qwen-VL一致,Qwen2-VL也使用特殊tokens來區(qū)分視覺和文本輸入。Tokens <|vision_start|>和<|vision_end|>插入在圖像特征序列的開始和結(jié)束,以劃定圖像內(nèi)容。
對話數(shù)據(jù) 在對話格式方面,使用ChatML格式構(gòu)建指令調(diào)優(yōu)數(shù)據(jù)集,每個交互的陳述用兩個特殊tokens(<|im_start|>和<|im_end|>),以便于對話的結(jié)束。藍(lán)色tokens的部分表示受監(jiān)督的部分。
視覺定位 為了賦予模型視覺定位能力,邊界框坐標(biāo)被標(biāo)準(zhǔn)化到[0, 1000)范圍內(nèi),并表示為"(, ), (, )"。Tokens <|box_start|>和<|box_end|>用于標(biāo)記邊界框文本。為了準(zhǔn)確地將邊界框與其文本描述聯(lián)系起來,引入了tokens <|object_ref_start|>和<|object_ref_end|>,以指示邊界框所引用的內(nèi)容,從而使模型能夠有效地解釋和生成特定區(qū)域的精確描述。
視覺Agent 為了將Qwen2-VL發(fā)展為通用的VL-Agent,將各種代理任務(wù)(如UI操作、機(jī)器人控制、游戲和導(dǎo)航)視為順序決策問題,使Qwen2-VL能夠通過多步行動執(zhí)行來完成任務(wù)。對于每個任務(wù),首先定義一組可允許的動作和關(guān)鍵詞模式(下劃線)以供功能調(diào)用。然后,Qwen2-VL分析觀察結(jié)果,進(jìn)行推理和規(guī)劃,執(zhí)行所選動作,并與環(huán)境互動以獲取新觀察。這一循環(huán)反復(fù)進(jìn)行,直到任務(wù)成功完成。通過整合各種工具并利用大型視覺語言模型(LVLM)的視覺感知能力,Qwen2-VL能夠迭代執(zhí)行涉及現(xiàn)實世界視覺交互的日益復(fù)雜的任務(wù)。
多模態(tài)模型基礎(chǔ)設(shè)施
Qwen2-VL模型在阿里云的PAI-Lingjun智能計算服務(wù)上進(jìn)行訓(xùn)練,利用其可擴(kuò)展的計算、自動恢復(fù)和延遲檢測功能。
存儲 使用阿里云的超高速CPFS(云并行文件存儲)構(gòu)建Qwen2-VL的預(yù)訓(xùn)練和后訓(xùn)練存儲系統(tǒng)。將文本數(shù)據(jù)和視覺數(shù)據(jù)存儲解耦。文本數(shù)據(jù)簡單地存儲在CPFS上,并使用mmap進(jìn)行高效訪問。視覺數(shù)據(jù)使用阿里云的OSS(對象存儲服務(wù))進(jìn)行持久存儲。在訓(xùn)練過程中,通過OSS的python-client并發(fā)訪問視覺數(shù)據(jù),并調(diào)整并發(fā)和重試參數(shù)以避免達(dá)到QPS(每秒查詢次數(shù))限制。視頻數(shù)據(jù)解碼是主要瓶頸,尤其是對于長視頻。在幾次嘗試開源(FFmpeg開發(fā)者)和內(nèi)部軟件失敗后,研究者們選擇了緩存解碼技術(shù)。檢查點保存每個GPU的優(yōu)化器和模型狀態(tài)在CPFS上。
并行性 使用3D并行性,結(jié)合數(shù)據(jù)并行性(DP)、張量并行性(TP)和 pipeline 并行性(PP)來擴(kuò)展Qwen2-VL模型訓(xùn)練。還利用DeepSpeed的zero-1冗余優(yōu)化器進(jìn)行狀態(tài)分片以節(jié)省內(nèi)存。使用選擇性檢查點激活的序列并行性(SP)以減少內(nèi)存使用。當(dāng)啟用TP訓(xùn)練時,總是將視覺編碼器和大型語言模型一起分片,但不對視覺合并進(jìn)行分片,因為其參數(shù)相對較少。我們發(fā)現(xiàn)TP訓(xùn)練會導(dǎo)致不同的模型共享權(quán)重,這是由于卷積操作的非確定性行為。我們通過對共享權(quán)重進(jìn)行離線減少解決了這個問題,從而避免了額外的全歸約通信步驟。這種方法對性能的影響非常小。
研究者們利用1F1B PP進(jìn)行Qwen2-VL 72B的訓(xùn)練。我們將視覺編碼器、視覺適配器和幾個LLM的解碼器層組合為一個階段,并均勻分割剩余的解碼器層。請注意,視覺和文本序列長度對于每個數(shù)據(jù)點都是動態(tài)的。在啟動1F1B過程之前廣播動態(tài)序列長度,并使用批索引訪問形狀信息。還實現(xiàn)了交錯的1F1B PP,但發(fā)現(xiàn)其速度比標(biāo)準(zhǔn)1F1B設(shè)置慢。
軟件 使用PyTorch版本2.1.2與CUDA 11.8進(jìn)行訓(xùn)練。此外,在視覺編碼器和LLM的訓(xùn)練中利用閃存注意力以提高效率。還利用了融合操作符,如LayerNorm、RMSNorm和Adam。此外,在訓(xùn)練過程中利用矩陣乘法中的通信與計算重疊。
實驗
與現(xiàn)有技術(shù)的比較
通過各種視覺基準(zhǔn)、視頻任務(wù)和基于代理的評估來評估我們模型的視覺能力。Qwen2-VL在相同規(guī)模下表現(xiàn)出高度競爭力,取得了新的最先進(jìn)(SoTA)結(jié)果。72B模型在大多數(shù)評估指標(biāo)上始終提供頂尖性能,常常超越閉源模型,如GPT-4o和Claude 3.5-Sonnet。在文檔理解任務(wù)中,它表現(xiàn)出顯著優(yōu)勢。然而,在MMM基準(zhǔn)中,本文的模型在處理更復(fù)雜和具有挑戰(zhàn)性的問題集時仍然落后于GPT-4o,表明Qwen2-VL-72B還有改進(jìn)的空間。
定量結(jié)果
對Qwen2-VL系列在多種數(shù)據(jù)集上的廣泛評估進(jìn)行展示,提供對模型在各方面能力的全面理解。
一般視覺問答
為了嚴(yán)格評估本文模型在一般視覺問答任務(wù)中的能力,研究者們在多種最先進(jìn)的基準(zhǔn)上進(jìn)行了廣泛評估:RealWorldQA、MMStar、MMVet、MMT-Bench、MMBench、MMbench-1.1、MME和HallusionBench。
Qwen2-VL系列在這些基準(zhǔn)上表現(xiàn)出色,72B模型始終達(dá)到或超過最先進(jìn)的結(jié)果,而7B和2B變體也表現(xiàn)出強(qiáng)大的能力。在評估真實世界空間理解的RealWorldQA上,Qwen2-VL-72B的得分為77.8,超過了之前的最先進(jìn)(72.2)和強(qiáng)有力的基線,如GPT-4o(75.4),展示了其對物理環(huán)境的優(yōu)越理解。
在評估真正多模態(tài)能力的MMStar基準(zhǔn)中,Qwen2-VL-72B獲得68.3,超越了之前的最佳成績67.1,突顯了其在視覺和文本信息整合方面的能力。在MMVet上,Qwen2-VL-72B在16個復(fù)雜多模態(tài)任務(wù)中表現(xiàn)出色,取得了74.0,顯著超過強(qiáng)勁的競爭對手,包括GPT-4V(67.5),展示了其在應(yīng)對多樣化多模態(tài)挑戰(zhàn)中的多功能性。
在評估先進(jìn)推理和指令跟隨的MMT-Bench中,Qwen2-VL-72B獲得71.7,明顯超過之前的最佳(63.4),展示了其在應(yīng)用專業(yè)知識和執(zhí)行視覺識別、定位、推理及規(guī)劃方面的能力。在評估細(xì)粒度能力的MMBench中,Qwen2-VL-72B在英語測試集上獲得86.5,匹配了最先進(jìn)的水平,而在中文測試集上取得86.6,創(chuàng)下新基準(zhǔn)。對于測量14個子任務(wù)中廣泛感知和認(rèn)知能力的MME,Qwen2-VL-72B獲得累計得分2482.7,顯著超過之前的最佳(2414.7),突顯了其在視覺感知和高級認(rèn)知任務(wù)中的先進(jìn)能力。
這些綜合結(jié)果突顯了Qwen2-VL系列在一般視覺問答任務(wù)中的卓越能力。模型在真實世界空間理解、真正多模態(tài)整合、復(fù)雜推理、指令跟隨以及廣泛的感知和認(rèn)知任務(wù)方面展現(xiàn)出先進(jìn)能力。特別是72B模型在多種基準(zhǔn)上持續(xù)表現(xiàn)優(yōu)越,使Qwen2-VL系列成為視覺問答領(lǐng)域的領(lǐng)先解決方案。我們的模型在處理視覺不可或缺的任務(wù)、整合核心視覺-語言能力以及在多樣化多模態(tài)場景中展現(xiàn)專業(yè)知識方面表現(xiàn)出色,涵蓋從基礎(chǔ)感知任務(wù)到復(fù)雜推理和規(guī)劃的廣泛能力。這一全面評估強(qiáng)調(diào)了Qwen2-VL系列在應(yīng)對最先進(jìn)多模態(tài)基準(zhǔn)所帶來的多面挑戰(zhàn)中的多功能性和有效性,從而為大型視覺-語言模型設(shè)立了新的標(biāo)準(zhǔn)。
文檔和圖表閱讀
在DocVQA、ChartQA、InfoVQA、TextVQA和AI2D數(shù)據(jù)集上測試了模型的OCR以及文檔和圖表理解能力。DocVQA/InfoVQA/ChartQA數(shù)據(jù)集側(cè)重于模型理解文檔、高分辨率信息圖表和圖表中的文本能力,而TextVQA數(shù)據(jù)集考察了模型理解自然圖像中文本的能力。
OCRBench數(shù)據(jù)集是一個混合任務(wù)的數(shù)據(jù)集,除了基于文本的視覺問答外,還關(guān)注數(shù)學(xué)公式解析和信息提取。AI2D數(shù)據(jù)集側(cè)重于科學(xué)圖表中包含文本的多項選擇題。還在OCRBench上測試了模型的OCR和公式識別能力,以及在MTVQA數(shù)據(jù)集上測試了模型的多語言O(shè)CR能力。
實驗結(jié)果表明,本文的模型在多個指標(biāo)上達(dá)到了最先進(jìn)水平,包括DocVQA、InfoVQA、TextVQA和OCRBench,展示了模型對多個領(lǐng)域圖像中文本內(nèi)容的良好理解能力。
多語言文本識別與理解
在多語言O(shè)CR方面,本文的模型超越了所有現(xiàn)有的通用LVLM。本文的模型不僅在公開的MTVQA數(shù)據(jù)集上優(yōu)于現(xiàn)有的LVLM(包括諸如GPT-4o、Claude 3.5 Sonnet等專有模型),還在內(nèi)部基準(zhǔn)測試中在除阿拉伯語外的所有外語上超越了GPT-4o(見下表3)。
數(shù)學(xué)推理
在MathVista和MathVision數(shù)據(jù)集上進(jìn)行了實驗,以評估數(shù)學(xué)推理能力。MathVista是一個綜合基準(zhǔn),包含6,141個多樣的數(shù)學(xué)和視覺任務(wù)示例。MathVision數(shù)據(jù)集包括3,040個embeddings在實際數(shù)學(xué)競賽中的視覺背景下的數(shù)學(xué)問題,涵蓋16個數(shù)學(xué)學(xué)科,并在五個級別上具有不同的難度。這些挑戰(zhàn)強(qiáng)調(diào)了LVLM展現(xiàn)強(qiáng)大視覺理解、深刻數(shù)學(xué)理解和良好邏輯推理能力的必要性。Qwen2-VL系列在MathVista上表現(xiàn)出色,取得70.5的成績,超越了其他LVLM。此外,它在MathVision上設(shè)定了新的開源基準(zhǔn),得分為25.9。
參照表達(dá)理解
在視覺定位任務(wù)方面,在RefCOCO、RefCOCO+和RefCOCOg數(shù)據(jù)集上評估了Qwen2-VL。結(jié)果如下表6所示,表明Qwen2-VL在通用模型中取得了頂級結(jié)果。得益于更合理的結(jié)構(gòu)設(shè)計,Qwen2-VL能夠感知高分辨率圖像中的細(xì)節(jié),從而顯著提高了性能。與通用和專用模型相比,這些模型的優(yōu)越性突顯了它們在推進(jìn)視覺定位領(lǐng)域和實際任務(wù)中實現(xiàn)精確視覺理解的潛力。
視頻理解
在各種視頻理解任務(wù)上也評估了本文的模型,相關(guān)基準(zhǔn)覆蓋從幾秒到長達(dá)一小時的視頻。下表4展示了Qwen2-VL及基線模型的性能??傮w而言,Qwen2-VL在2B、7B和72B尺寸上表現(xiàn)強(qiáng)勁,其中Qwen2-VL-72B在MVBench、PerceptionTest和EgoSchema上取得了最佳性能。這展示了Qwen2-VL在視頻理解任務(wù)中的優(yōu)越能力,并且擴(kuò)大Qwen2-VL的規(guī)模帶來了顯著的提升。對于具有挑戰(zhàn)性的Video-MME基準(zhǔn),該基準(zhǔn)包括最長可達(dá)一小時的視頻,值得注意的是,我們在評估過程中將每個視頻提取的最大幀數(shù)限制為768,這可能影響了在較長視頻上的表現(xiàn)。未來的工作將集中在擴(kuò)展Qwen2-VL以支持更長的序列,從而適應(yīng)更長的視頻。
視覺智能體
首先評估Qwen2-VL在通過函數(shù)調(diào)用與環(huán)境互動的能力,然后評估其通過多輪交互完成復(fù)雜決策任務(wù)的能力。該實現(xiàn)基于Qwen-Agent框架。
函數(shù)調(diào)用 與LLM中的函數(shù)調(diào)用不同,LVLM中的函數(shù)調(diào)用通常涉及從視覺線索中提取信息。由于缺乏評估LVLM在函數(shù)調(diào)用能力方面的公共基準(zhǔn),我們構(gòu)建了內(nèi)部評估數(shù)據(jù)集。
為構(gòu)建評估數(shù)據(jù)集,進(jìn)行了以下程序:場景分類、圖像收集、圖像內(nèi)容提取,以及問題/函數(shù)/參數(shù)生成。首先,我們根據(jù)不同的視覺應(yīng)用將場景分類。隨后,從互聯(lián)網(wǎng)上下載并精心選擇每個類別的高質(zhì)量代表性圖像。利用先進(jìn)的LVLM,分析每張圖像以提取關(guān)鍵視覺元素和文本信息。最后,基于圖像的內(nèi)容信息,使用先進(jìn)的LLM生成一系列需要特定函數(shù)回答的問題,并指定這些函數(shù)調(diào)用所需的輸入?yún)?shù)。
研究者們設(shè)計了兩種指標(biāo)來評估函數(shù)選擇的準(zhǔn)確性和參數(shù)輸入的正確性:類型匹配(Type Match,TM)和精確匹配(Exact Match,EM)。
下表5所示,Qwen2-VL在Type Match(93.1對90.2)和Exact Match(53.2對50.0)上的表現(xiàn)優(yōu)于GPT-4o,這證明了Qwen2-VL在函數(shù)調(diào)用能力上的有效性,凸顯了其通過外部工具集成擴(kuò)展應(yīng)用的顯著潛力。評估結(jié)果表明,GPT-4o的表現(xiàn)不佳,主要由于兩個因素:在不確定性場景中,GPT-4o表現(xiàn)出保守的態(tài)度,避免使用外部工具。此外,Qwen2-VL在光學(xué)字符識別(OCR)能力方面也優(yōu)于GPT-4o,尤其是在中文字符的處理上。
用戶界面操作/游戲/機(jī)器人/導(dǎo)航 為了評估Qwen2-VL處理復(fù)雜任務(wù)的能力,在多個視覺語言代理任務(wù)上進(jìn)行了評估,包括移動操作、機(jī)器人控制、紙牌游戲和視覺語言導(dǎo)航等。由于這些任務(wù)需要多次行動才能完成,通過Qwen2-VL支持32K上下文長度來保留歷史(觀察、動作),然后在每次行動后附加新的觀察圖像,以實現(xiàn)對后續(xù)步驟的連續(xù)推理。
用戶界面操作使用AITZ任務(wù)評估Qwen2-VL,該任務(wù)構(gòu)建了一個基于AITW的核心干凈測試集。根據(jù)手機(jī)的常見操作模式,為Qwen2-VL定義了諸如點擊、輸入和滑動等操作,以便其與屏幕圖標(biāo)進(jìn)行交互以完成任務(wù)。例如,當(dāng)Qwen2-VL被要求通過Google地圖尋找附近的披薩餐廳時,它應(yīng)在搜索框中輸入“pizza”,滑動選擇適當(dāng)?shù)牟蛷d,并點擊對應(yīng)的鏈接。根據(jù)AITZ設(shè)置,報告了操作類型匹配(點擊、輸入或滑動的正確性)和精確匹配(點擊位置、輸入文本或滑動方向的正確性)。借助于用戶界面的基礎(chǔ)能力,Qwen2-VL超越了GPT-4和之前的最新技術(shù)水平。
機(jī)器人控制 在AI2THOR的ALFRED任務(wù)中評估Qwen2-VL。該任務(wù)要求智能體執(zhí)行復(fù)雜的家庭任務(wù),例如烤面包和切蘋果以準(zhǔn)備餐點。為了在虛擬環(huán)境中工作,定義了高層次的動作(GotoLocation、Pickup、PutDown、Open、Close、Clean、Heat、Cool、Slice)作為動作集。此外,智能體需要定位可操作的物體(例如,只有在識別到蘋果時才能拾取它)。為提高操作準(zhǔn)確性,整合了SAM。ALFRED任務(wù)報告任務(wù)成功率(SR)(例如,準(zhǔn)備晚餐)和子目標(biāo)完成率(GC)(例如,面包是否被烤熟或蘋果是否被切)。
紙牌游戲 利用來自RL4VLM的紙牌游戲環(huán)境來評估Qwen2-VL在一系列紙牌游戲中的表現(xiàn):Number Line、BlackJack、EZPoint和Point24。每個游戲提出了不同的挑戰(zhàn):
- 通過+1或-1操作達(dá)到目標(biāo)數(shù)字;
- 抽取或保留牌與莊家競爭;
- 應(yīng)用基本算術(shù)運算達(dá)到總數(shù)12;
- 使用算術(shù)運算達(dá)到總數(shù)24。
報告任務(wù)的成功率,這不僅評估了智能體的能力,還需要強(qiáng)大的OCR技能來識別這些牌并理解游戲進(jìn)程。Qwen2-VL在所有任務(wù)中表現(xiàn)優(yōu)越。
視覺語言導(dǎo)航 在視覺語言導(dǎo)航(VLN)任務(wù)中評估Qwen2-VL,使用R2R和REVERIE。在VLN中,模型必須根據(jù)指令和當(dāng)前觀察自主確定下一個位置。我們報告該任務(wù)中到達(dá)預(yù)定目的地的成功率(SR)。Qwen2-VL的表現(xiàn)與GPT-4o相當(dāng),但兩者都顯著落后于當(dāng)前專門的VLN模型。將這一差距歸因于模型從多個圖像生成的不完整和非結(jié)構(gòu)化的地圖信息。在三維環(huán)境中準(zhǔn)確建模地圖和位置仍然是多模態(tài)模型面臨的重大挑戰(zhàn)。
消融研究
本節(jié)展示了關(guān)于圖像動態(tài)分辨率、M-RoPE和模型規(guī)模的消融研究。這些實驗旨在提供這些關(guān)鍵組件對模型性能影響的深入見解。
動態(tài)分辨率
如下表7所示,比較了動態(tài)分辨率與固定分辨率的性能。在固定分辨率下,調(diào)整圖像大小,以確保輸入到模型的圖像tokens數(shù)量保持恒定,而不是調(diào)整到特定的高度和寬度,因為這會扭曲原始寬高比。在動態(tài)分辨率中,我們僅設(shè)置了min_pixels=100 × 28 × 28和max_pixels=16384 × 28 × 28,允許圖像tokens的數(shù)量主要依賴于圖像的原始分辨率。可以觀察到,調(diào)整圖像大小僅導(dǎo)致性能的小幅波動,表明模型對不同圖像大小的魯棒性。此外,動態(tài)分辨率的方法效率更高。我們發(fā)現(xiàn)沒有單一固定分辨率在所有基準(zhǔn)測試中都能達(dá)到最佳性能。相比之下,動態(tài)分辨率方法在平均消耗更少tokens的情況下,始終實現(xiàn)頂級性能。
單純增加圖像大小并不總是導(dǎo)致性能的提升。選擇適當(dāng)?shù)姆直媛蕦Σ煌瑘D像更為重要。如下圖4所示,將小圖像放大到超過指定的min_pixels閾值。對放大圖像的評估顯示,在InfoVQA、HallusionBench和OCRBench等感知任務(wù)上性能增強(qiáng)。我們將這些增益歸因于增加的計算負(fù)載。然而,對于OCRBench,過高的min_pixels值導(dǎo)致嚴(yán)重的性能下降。這可能是因為OCRBench包含許多極小的圖像,過度放大會使這些圖像偏離訓(xùn)練數(shù)據(jù)分布,變成超出分布的樣本。相反,增加min_pixels對MMMU基準(zhǔn)的影響微乎其微。我們假設(shè)MMMU的性能瓶頸與模型的推理能力關(guān)系更大,而非圖像分辨率。
M-RoPE
本節(jié)展示了M-RoPE的有效性。首先,驗證其在各種下游任務(wù)中的能力。采用Qwen2-1.5B和ViT-L作為基礎(chǔ),并報告預(yù)訓(xùn)練模型的結(jié)果。如下表8所示,與1D-RoPE相比,使用M-RoPE在下游任務(wù)中表現(xiàn)更佳,特別是在視頻基準(zhǔn)測試中。
此外,在Video-MME中等長度視頻上評估了M-RoPE的長度外推能力。下圖5展示了Qwen2-VL-72B在不同推理長度下的性能。利用M-RoPE,模型在各種推理長度下表現(xiàn)穩(wěn)健。值得注意的是,盡管在訓(xùn)練期間每個視頻的最大tokens限制為16K,但模型在最大推理長度達(dá)到80K tokens時仍表現(xiàn)出色。
模型規(guī)模
評估了不同規(guī)模模型在多個能力維度上的表現(xiàn)。具體而言,將這些維度分類為復(fù)雜的大學(xué)水平問題解決能力、數(shù)學(xué)能力、文檔和表格理解、一般場景問答以及視頻理解。通過對與每個維度相關(guān)的不同基準(zhǔn)測試的得分進(jìn)行平均,我們評估了模型的整體能力。
具體來說, 使用MMMU基準(zhǔn)來表示大學(xué)水平的問題解決能力,同時,MathVista和MathVision的平均得分作為數(shù)學(xué)能力的指標(biāo)。對于一般場景問答,計算RealWorldQA、MMBench-V1.1、MMT-Bench、HallBench、MMVet和MMStar基準(zhǔn)的平均得分。
文檔和表格理解能力通過DocVQA、InfoVQA、ChartQA、TextVQA、OCRBench和MTVQA基準(zhǔn)的平均得分體現(xiàn)。最后,視頻理解能力通過MVBench、Perception-Test、EgoSchema和Video-MME的平均得分進(jìn)行測量。
如下圖6(a)所示,隨著模型規(guī)模的增加,性能呈現(xiàn)出一致的提升,特別是在數(shù)學(xué)能力方面,這與模型參數(shù)的數(shù)量呈正相關(guān)。另一方面,對于光學(xué)字符識別(OCR)相關(guān)任務(wù),即使是小規(guī)模模型的表現(xiàn)也相對強(qiáng)勁。
如上圖6(b)所示,我們可視化了Qwen2-VL-7B在預(yù)訓(xùn)練第二階段中模型性能與訓(xùn)練tokens數(shù)量之間的關(guān)系。隨著訓(xùn)練tokens數(shù)量的增加,模型性能有所提升;然而,在視覺問答(VQA)任務(wù)上,性能卻表現(xiàn)出一定波動。相比之下,對于AI2D和InfoVQA等任務(wù),這些任務(wù)涉及理解圖像中的文本和圖形信息,隨著訓(xùn)練數(shù)據(jù)的增加,模型性能穩(wěn)步提升。
結(jié)論
本文介紹了Qwen2-VL系列,這是多功能的大型視覺語言模型,包括三個開放權(quán)重模型,參數(shù)總量分別為20億、80億和720億。Qwen2-VL在多種多模態(tài)場景中的表現(xiàn)與頂尖模型如GPT-4o和Claude3.5-Sonnet相匹配,超越了所有其他開放權(quán)重的LVLM模型。Qwen2-VL系列引入了簡單的動態(tài)分辨率和Multimodal rotary position embedding (M-RoPE),有效融合跨模態(tài)信息,并能夠理解超過20分鐘長度的視頻。憑借先進(jìn)的推理和決策能力,Qwen2-VL可以與移動設(shè)備、機(jī)器人等設(shè)備集成。此外,Qwen2-VL現(xiàn)已支持理解圖像中的多語言文本,包括大多數(shù)歐洲語言、日語、韓語、阿拉伯語、越南語等。
目前已將Qwen2-VL模型權(quán)重開放獲取,允許研究人員和開發(fā)者在各種應(yīng)用和研究項目中充分利用其潛力。我們致力于推進(jìn)人工智能技術(shù),增強(qiáng)其對社會的積極影響。
本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來
