一次可輸入多張圖像,還能多輪對話!最新開源數(shù)據(jù)集,讓AI聊天更接近現(xiàn)實
大模型對話能更接近現(xiàn)實了!
不僅可以最多輸入20張圖像,還能支持多達27輪對話??商幚砦谋?圖像tokens最多18k。
這就是最新開源的超長多圖多輪對話理解數(shù)據(jù)集MMDU(Multi-Turn Multi-Image Dialog Understanding)。
大型視覺語言模型(LVLMs)的核心能力之一是生成自然且有意義的回答,從而能夠與人類進行流暢的圖文對話。
盡管目前開源的LVLMs在如單輪單圖輸入等簡化場景中展示出了不錯的潛力,但在具有長上下文長度,且需要多輪對話和多圖輸入的真實對話場景中,表現(xiàn)則相對不足。
此外,現(xiàn)有的LVLM Benchmarks主要采用單項選擇題或簡短回答的形式,難以全面評估LVLMs在真實世界人機互動應用中的表現(xiàn)。
為此,研究團隊在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評測基準MMDU及大規(guī)模指令微調數(shù)據(jù)集MMDU-45k,旨在評估和提升LVLMs在多輪及多圖像對話中的性能。
目前,該研究在HuggingFace的6月18日Daily Papers中位居榜首,VQA dataset trending榜排名Top3,得到了國內外的廣泛關注。
可縮小開閉源模型差距
MMDU基準測試具有以下優(yōu)勢:
(1)多輪對話與多圖像輸入:MMDU基準測試最多包括20幅圖像和27輪問答對話,從而超越了先前的多種benchmark,并真實地復制了復現(xiàn)了現(xiàn)實世界中的聊天互動情景。
(2)長上下文:MMDU基準測試通過最多18k文本+圖像tokens,評估LVLMs處理和理解帶有長上下文歷史的情況下理解上下文信息的能力。
(3)開放式評估:MMDU擺脫傳統(tǒng)基準測試依賴的close-ended問題和短輸出(例如,多項選擇題或簡短的答案),采用了更貼合現(xiàn)實和精細評估的方法,通過自由形式的多輪輸出評估LVLM的性能,強調了評估結果的可擴展性和可解釋性。
在構建MMDU的過程中,研究者們從開源的維基百科中選取具有較高相關程度的圖像及文本信息,并在GPT-4o模型的輔助下,由人工標注員構建問題和答案對。
具體而言,研究者將wikipedia詞條通過聚類的方法進行合并,劃分為多個不同的類別,并在同一個類別中使用不同的詞條(包含圖文)進行組合。經過InternLM-Chat-20B清洗并去除無用信息之后,交給GPT-4o進行對話生成。生成的基于單詞條和多詞條的對話進行組合,從而構建具有長上下文的多圖多輪對話。
生成的對話以的格式標記圖像位置,使用者可以將不同的多圖多輪對話進一步組合,從而構建所需長度的對話。
△MMDU和MMDU-45k數(shù)據(jù)生成pipeline
MMDU Benchmark包含的問答最長擁有18k的圖像+文本tokens、20幅圖像及27輪對話,其規(guī)模是以往同類型benchmark的至少五倍,為當前的LVLMs提出了新的挑戰(zhàn)。MMDU-45k包含的最長對話數(shù)據(jù)擁有超17k的圖像+文本tokens。
45k的多輪對話共包含超過410k的問答,能夠顯著提升LVLMs在長上下文理解,多圖多輪對話等方面的能力。
受到利用強大的LLMs作為評判的NLP研究的啟發(fā),MMDU的研究員們開發(fā)了一個使用GPT-4o進行模型性能評估的評估流程。
具體來說,模型在MMDU Benchmark上生成輸出后,GPT-4o將根據(jù)多個維度評估這些輸出結果,并將它們與參考答案進行比較。
為確保全面和細致的評估,MMDU確定了六個評估維度:創(chuàng)造力、豐富度、視覺感知、邏輯連貫性、答案準確性和圖像關系理解。為了引導GPT-4o提供平衡和公正的評估,每個維度都有精心制定的評估提示。
每個維度的評分范圍為10分,分為五個區(qū)間(0-2、2-4…8-10),每個區(qū)間都設定了相應的評判標準。GPT-4o遵循這些標準進行評判過程,并為每個維度提供最終分數(shù)。
MMDU的評估流程中,使用GPT-4o作為評判,根據(jù)參考答案給出總體分數(shù)。在每次評估中,GPT-4o將同時參考模型的答案和參考答案。它將為每個評估標準(用藍色表示)提供相應的分數(shù)(用綠色表示),并最終以淺橙色總結結果。
通過對15個具有代表性的開源和閉源LVLMs進行深入分析,研究人員發(fā)現(xiàn)開源LVLMs(如LLaVa)由于缺乏足夠的對話指令微調數(shù)據(jù),相比閉源系統(tǒng)(如GPT-4V)存在較大差距。研究表明,通過對開源LVLMs在MMDU-45k數(shù)據(jù)集上進行finetune,則可以顯著縮小這一差距,finetune后的模型能夠生成更長、更精確的對話,同時對于圖文交錯的多圖理解能力有了顯著的提升。
△評估不同LVLMs在MMDU上的表現(xiàn)
團隊報告了以下指標:創(chuàng)造力(C)、豐富度(R)、視覺感知(VP)、邏輯連貫性(LC)、答案準確性(AA)、圖像關系理解(IRU),以及平均(Avg.)結果。
此外,經過MMDU-45k微調之后的模型,在現(xiàn)有基準測試上表現(xiàn)也有所提升(MMStar: +1.1%,MathVista: +1.5%,ChartQA: +1.2%)。這一結果說明,MMDU-45k能夠在各種圖像文本相關的任務上提升LVLMs的能力。
△在LVLM監(jiān)督微調(SFT)階段添加MMDU-45k數(shù)據(jù)的優(yōu)勢。
表中報告了LLaVa和InternLM-XC2在MMDU和現(xiàn)有的代表性基準測試上的表現(xiàn),包括M?MB(MMBench-Dev-EN)、MMMU(MMMU-Val)、MMStar 、MathVista、AI2D、HallBench(HallusionBench)、MMVet 以及ChartQA。每個部分中的最佳和次佳結果分別用綠色和紅色標記。
在多圖多輪問答及普通單圖問答情境下,經過MMDU-45k微調的模型都有顯著的性能提升。這一性能提升首先表現(xiàn)在對圖像內容的識別上,相比微調前的LVLMs,微調之后的模型能夠更加準確的同時理解多張圖像的主要內容,圖像的順序,以及圖像之間的關系。此外,微調之后的模型能夠生成更為詳實和豐富的輸出,并能夠輕松應對具有超長上下文長度的圖文對話情景。
InternLM-Xcomposer2在MMDU-45k數(shù)據(jù)集上finetune前后的表現(xiàn)。錯誤或幻覺描述在展示中用紅色標記,詳細且準確的描述則用綠色標記。
本文轉自 量子位 ,作者:量子位
